hbase的bulk load一个小改造
来源:互联网 发布:编程浪子 编辑:程序博客网 时间:2024/04/29 18:28
研读了三天bulk load的代码,呵呵,貌似时间有点长,我自己都觉得不好意思,总结了一下,主要是自己对map reduce的工作流程不太熟悉造成的。这个过程中,不论是自己找资料,还是向同事请教,对map reduce有了进一步的理解,呵呵,好了,继续讲讲bulk load吧!
了解bulk load的朋友都知道,bulk load其实就是一个map reduce的job,我们在实际使用中发现,这个job的reduce任务的数目是根据table所在的region数目来确定的(可以看HFileOutputFormat.java),那么如果load一张空表的时候会很慢,不知道大家有没有这样的感觉,监控了一下看到是reduce任务的数目为1,呵呵,不论数据文件有多大,load空表的时候都只有一个reduce,这样效率当然很慢了。于是我们把这里优化了一下,当region的数目为0的时候,设置多一些的reduce。
呵呵,测试结果也很理想,伪分布式的情况下:
优化前:2.4G数据 耗时 22mins, 19sec
优化后:2.4G数据 耗时 12min,16sec
呵呵,下一步的优化,就是看看reduce任务的个数如何设置才能最佳,呵呵,有这方面经验的朋友,欢迎交流啊!
- hbase的bulk load一个小改造
- hbase的bulk load一个小改造(续)
- HBase Bulk Load的基本使用
- hbase bulk load 小实践及一些总结
- hbase bulk load 小实践及一些总结
- Trafodion Bulk Load 对比 Native HBase Bulk Load
- bulk-load装载hdfs数据到hbase
- bulk-load 装载HDFS数据到HBase
- 通过Bulk Load导入HBase海量数据
- Kerberos HBase集群Bulk Load权限问题
- HBase数据导入----improttsv&Bulk Load
- HBase的Bulk Loading
- [HBase] bulk-load装载hdfs数据到hbase小结
- 【甘道夫】通过bulk load将HDFS上的数据导入HBase
- es的java bulk load
- hbase bulk load相关源码简析之HFileOutputFormat、LoadIncrementalHFiles
- hbase bulk load相关源码简析之PutSortReducer、KeyValueSortReducer
- Bulk Load-HBase数据导入最佳实践
- 封装自己的flex工具_双击适应内容宽度的DataGrid
- as3 webgame 经验交流群
- java中Itext.jar中根据html生成Word文件(包含图片)
- select语句的书写
- java和C++的引用传递不同
- hbase的bulk load一个小改造
- <转载>UML类图
- django 引发“内存泄漏” 的问题
- 树(不知道叫什么名字,以前也很有用)(增加注释)
- javaScrpit在表面上显示时间
- apache伪静态出现404 not found及You don't have permission to access / on this server.的解决办法
- 窗口(window)对象:
- NYOJ 284 坦克大战(BFS)
- HTTP错误大全