HBase数据写入测试
来源:互联网 发布:软件架构总结 二 编辑:程序博客网 时间:2024/05/11 04:02
测试环境
测试硬件:4核i5处理器,8G内存,1T硬盘,千兆网络
测试软件:ubuntu12.10 64位,hadoop版本:0.20.205,hbase版本:0.90.5
测试设置:一个master(namenode)和三台resigonServer(datanode),向HBase集群写入1千万个数据(一个数据15K左右)
测试结果
- 上图第一列和最后一列分别是插入相同数据再HBase中和HDFS中,可以看见差距很大,HBase上数据的插入时间是HDFS的10倍左右
- 向HBase中插入数据比HDFS性能差这么多,笔者就研究一下是什么原因让HBase写性能这么不好。向HBase中插入数据的过程大致是这样:client插入数据时先向master请求,master回复哪个resigionserver的哪个region可以给插入数据,然后client直接和resigionserver通信插入数据,resigionserver判断该数据插入到哪个datablock里(resigion是由datablock组成的),然后以HFile的形式存储在HDFS中(数据不一定在resigionserver本地)。具体过程如下可以参考博客http://jiajun.iteye.com/blog/899632
- 影响HBase写入性能的一个因素就是用put类插入数据的缓存区问题。用put类插入数据时,默认的情况是写入一次数据由clinet和resigionserver进行一次RPC来插入数据。由于是1千万个数据,多次进行进程间通信势必会影响时间。HBase给客户端提供了写缓冲区,当缓冲区填满之后才执行写入操作,这样就减少了写入的测次数。
- 首先取消自动写入,setAutoFlush(false)
- 然后设置写缓冲区大小(默认是2MB)setWriteBufferSize()或者更改hbase-site.xml的hbase.client.write.buffer的属性
- 上面列表可以看出把缓冲区设为20M还是对写入时间有改进,但是改成200M写入时间更长(为什么?)
- 另一个因素就是WAL(write ahead log),因为每一个resigion都有一个memstore用内存来暂时存放数据,进行排序,最后再吸入HFile里面去,这样做为了减少磁盘寻道而节省时间,但是为了灾难恢复,所以会把内存中的数据进行记录。所以笔者把WAL关闭之后,又测了下性能,还是有一点帮助的,但是帮助不是太大,可见WAL不是写入的瓶颈。(setWriteToWal(false))
- 因为HBase对查询方便,能够快速的读取数据,写入时必然会采取一些措施进行排序,这就是HBase的合并和分裂机制。HBase官方为了提升写入性能,给出一种方案就是预分配resigion,也就是池的概念,你先分配一些resigion,用的时候直接用就行了。本来这1千万个数据要存储900个resigion,所以笔者预先分配了150个resigion(分配900个resigion,建表时间太长,出现异常,还没有解决),结果写入时间提升了很多,基本是原来的一半,如果能预先分配900个resigion,应该更能节省时间。
ps: 写入时,设置缓冲区越大,写数据(比如8字节)的时间越短
pps:写入buffer不宜设成过大 M级就可以。最近写入测试又做了一些实验,除了预先分配region之外,用多线程写效率还是很高的,笔者测试40个线程比单线程快了8倍左右
测试程序
- package GIS.Update;
- import java.io.IOException;
- import java.math.BigInteger;
- import org.apache.hadoop.conf.Configuration;
- import org.apache.hadoop.fs.FSDataOutputStream;
- import org.apache.hadoop.fs.FileSystem;
- import org.apache.hadoop.fs.Path;
- import org.apache.hadoop.hbase.HBaseConfiguration;
- import org.apache.hadoop.hbase.HColumnDescriptor;
- import org.apache.hadoop.hbase.HTableDescriptor;
- import org.apache.hadoop.hbase.MasterNotRunningException;
- import org.apache.hadoop.hbase.ZooKeeperConnectionException;
- import org.apache.hadoop.hbase.client.HBaseAdmin;
- import org.apache.hadoop.hbase.client.HTable;
- import org.apache.hadoop.hbase.client.Put;
- import org.apache.hadoop.hbase.util.Bytes;
- public class TestUpdate {
- public static void testHDFS() throws IOException{
- String str="hdfs://cloudgis4:9000/usr/tmp/";
- Path path=new Path(str);
- Configuration conf=new Configuration();
- conf.addResource(new Path("/usr/local/hadoop/conf/hdfs-site.xml"));
- FileSystem hdfs=path.getFileSystem(conf);
- hdfs.setReplication(path, (short)4);
- FSDataOutputStream fsDataOut=hdfs.create(new Path(str+"zzz"));
- long begin=System.currentTimeMillis();
- for(int i=0;i<10000000;i++){
- //byte [] kkk=new byte[10000+i/1000];
- byte [] kkk=new byte[12];
- fsDataOut.write(kkk);
- //fsDataOut.close();
- //hdfs.close();
- }
- fsDataOut.close();
- long end=System.currentTimeMillis();
- System.out.println("hdfs:"+(end-begin));
- }
- public static void testHBase() throws IOException{
- Configuration conf=HBaseConfiguration.create();
- conf.addResource(new Path("/usr/local/hbase/conf/hbase-site.xml"));
- //conf.addResource("/usr/local/hbase/conf/hdfs-site.xml");
- HBaseAdmin admin=new HBaseAdmin(conf);
- String tableName="qq";
- String familyName="imageFamily";
- String columnName="imageColumn";
- HTableDescriptor htd=new HTableDescriptor (tableName);
- HColumnDescriptor hdc=new HColumnDescriptor(familyName);
- htd.addFamily(hdc);
- long before=System.currentTimeMillis();
- //admin.createTable(htd,splits);
- admin.createTable(htd,Bytes.toBytes("0000000"),Bytes.toBytes("9999999"),150);
- long after=System.currentTimeMillis();
- System.out.println(after-before);
- HTable table=new HTable(conf,htd.getName());
- table.setAutoFlush(false);
- //table.setWriteBufferSize(209715200);
- System.out.println(table.getWriteBufferSize());
- long begin=System.currentTimeMillis();
- for(int i=0;i<10000000;i++){
- byte [] kkk=new byte[10000+i/1000];
- //byte [] kkk=new byte[12];
- Put p1=new Put(Bytes.toBytes(intToString(i)));
- p1.setWriteToWAL(false);
- p1.add(Bytes.toBytes(familyName),Bytes.toBytes(columnName),kkk);
- table.put(p1);
- }
- long end=System.currentTimeMillis();
- table.flushCommits();
- System.out.println("HBase:"+(end-begin));
- }
- static public String intToString(int x){
- String result=String.valueOf(x);
- int size=result.length();
- while(size<7){
- size++;
- result="0"+result;
- }
- return result;
- }
- public static void main(String []args) throws IOException{
- testHBase();
- }
- }
0 0
- HBase数据写入测试
- HBase数据写入测试
- hbase 一次大规模数据写入清除测试
- hbase写入性能测试(从hdfs向hbase写入数据)
- 冠字号查询系统中HBase写入数据性能测试
- Hbase的数据写入
- Hbase 数据写入
- mapreduce写入HBase,数据异常
- HBase写入数据的过程
- Hbase之批量数据写入
- 大数据技术-HBase:HBase写入路径
- 【HBase基础教程】6、HBase之读取MapReduce数据写入HBase
- 【HBase基础教程】7、HBase之读取HBase数据写入HDFS
- hbase 打入数据测试
- spark将数据写入hbase以及从hbase读取数据
- park将数据写入hbase以及从hbase读取数据
- spark将数据写入hbase以及从hbase读取数据
- Spark将数据写入Hbase以及从Hbase读取数据
- 2014年一月你好
- Android 企业需求与开发者状况简析(转)
- 数组的反射
- Unity游戏开发之----mac地址的获取
- 懒得都没有时间更新博客了
- HBase数据写入测试
- ORACLE查看用户定义的视图
- opencv2.0版本中adaboost的一个bug
- oracle索引,索引的建立、修改、删除
- php代码refine实例
- Pro Android学习笔记(六七):HTTP服务(1):HTTP GET
- Xcode上使用Reveal运行时修改应用界面
- C++设计模式2-原型模式Prototype
- Linux下利用Lsof恢复误删文件的方法