使用MR方案脚本访问HBase数据、Compact+Split问题-参数配置
来源:互联网 发布:巫师3解压数据错误 编辑:程序博客网 时间:2024/05/26 17:46
Conpaction做的是数据文件合并,过大时Split,当一个region split 文件过多时还可以用 Merge去合并文件避免Conpact、split (特别和hive整合时) 跟下面四个参数都有关//--------------------------------------------------------------------hbase.hregion.memstore.flush.size --- 跟split相关,达到这个大小就写入HBase,调大避免产生过多的storeFilehbase.hregion.max.fileze (table_att => MAX_FILESIZE) 设置得非常大就可以避免自动splithbase.hstore.compactionThreshold 阈值(hstore的文件个数积累到什么数(8乘以flush.size)时触发Conpaction),如置8:超过8个文件就开始split,跟flush.size相关hbase.hregion.majorcompaction majorcompaction间隔时间设置,删除过期的数据MapReduce方案//--------------------------------相关请看上篇文章IndexBuilder:利用MR的方式构建Index 优点:可以并发批量构建Index 缺点:当对hbase插入一条数据时,不能实时构建Index ›坑!。。。 –老要想着设scan cache –block cache开还是不开 –bloom filter有用不 –莫名其妙的job就挂了!解决:使用MapReduce框架访问HBase数据时Compact、Split带来的问题//------------------------------------------------------ –region offline、mapper访问region失败 –调整参数控制 Compact、Split •hbase.hregion.majorcompaction –网上有说设成0就能避免compaction发生(错误的) –删除过期的数据,硬盘空间不是立即清楚,很耗时耗资源 •hbase.hstore.compactionThreshold –Region中文件个数多于此值,开始compact –可能进入minor,(只做)合并较小StoreFile •hbase.hregion.memstore.flush.size –memstore何时写入HStore,region最大的fileSize,超过就split(会产生两个region-一个文件-自动做了compaction) •hbase.hregion.max.filesize (table_att => MAX_FILESIZE) –Region何时开始split •hbase.hstore.blockingStoreFiles (灾难性的属性) –max.filesize < flush.size * blockingStoreFiles 以保证region不会被block -达到这个值就不能往里面写block,做了compaction之后才能继续往里面写内容 –offpeak hour –merge脚本的使用://-------------------------#!/bin/bashdie () { echo >&2 "$@" echo "usage:" echo " $0 check|split table_name [split_size]" #//选择模式与用法,超过[split_size]就split exit 1}[[ "$#" -lt 2 ]] && die "at least 2 arguments required, $# provided"COMMAND=$1TABLE=$2SIZE="${3:-1073741824}" #//读第三个默认参数1Gsplit() { region_key=`python /home/hduser/hbase/hbase-scan.py -t hbase:meta -f "RowFilter (=, 'substring:$1')"` echo "split '$region_key'" | hbase shell}if [ "$COMMAND" != "check" ] ; then for region in `hadoop fs -ls /hbase/data/default/$TABLE | awk {'print $8'}` do [[ ${region##*/} =~ ^\. ]] && continue [[ `hadoop fs -du -s $region | awk {'print $1'}` -gt $SIZE ]] && split ${region##*/} done # check after split sleep 60fifor region in `hadoop fs -ls /hbase/data/default/$TABLE | awk {'print $8'}`do [[ ${region##*/} =~ ^\. ]] && continue [[ `hadoop fs -du -s $region | awk {'print $1'}` -gt $SIZE ]] && echo "${region##*/} (`hadoop fs -du -s -h $region | awk {'print $1 $2'}`) is a huge region" || echo "${region##*/} (`hadoop fs -du -s -h $region | awk {'print $1 $2'}`) is a small region"done上面的hbase-scan.py调用hbase读region在hbase:meta表里的一个key//---------------------------------------------------------import subprocessimport datetimeimport argparseimport csvimport gzipimport happybaseimport loggingdef connect_to_hbase(): return happybase.Connection('itr-hbasetest01')def main(): logging.basicConfig(format='%(asctime)s %(name)s %(levelname)s: %(message)s',level=logging.INFO) argp = argparse.ArgumentParser(description='EventLog Reader') argp.add_argument('-t','--table', dest='table', default='eventlog') argp.add_argument('-p','--prefix', dest='prefix') argp.add_argument('-f','--filter', dest='filter') argp.add_argument('-l','--limit', dest='limit', default=10) args = argp.parse_args() hbase_conn = connect_to_hbase() table = hbase_conn.table(args.table) logging.info("scan start") scanner = table.scan(row_prefix=args.prefix, batch_size=1000, limit=int(args.limit), filter=args.filter) logging.info("scan done") i = 0 for key, data in scanner: logging.info(key) print key i+=1 logging.info('%s rows read in total', i)if __name__ == '__main__': main()
0 0
- 使用MR方案脚本访问HBase数据、Compact+Split问题-参数配置
- hbase中compact、split相应配置参数分析
- hbase手动compact与split
- Hbase compact以及split跟踪
- hbase源码系列(十四)Compact和Split
- [JAVA][DB]用MR(MapReduce)查询hbase数据(Mapper参数传递)-用到TableMapper和Scan
- HBase写入性能改造(续)--MemStore、flush、compact参数调优及压缩卡的使用
- HBase写入性能改造(续)--MemStore、flush、compact参数调优及压缩卡的使用
- HBase写入性能改造(续)--MemStore、flush、compact参数调优及压缩卡的使用
- HBase compact 总结 及 调优配置
- HBase compact 总结 及 调优配置
- HBase compact
- HBase-compact
- MR之wc数据写入Hbase
- hbase-MR
- hbase数据导出方案
- Hbase数据导入方案
- Hbase数据恢复方案
- GDB调试从基础到精通实例
- matlab矩阵操作大全
- ios-IM
- Android界面编程——日期时间组件(五)
- Safari地址栏搜索无效
- 使用MR方案脚本访问HBase数据、Compact+Split问题-参数配置
- 操作系统内核为啥用C语言?(C语言特点)
- DIV + CSS3 和 html5 + CSS3的区别
- JavaScript 图片滚动(绝对酷)
- kmeans()和partition()聚类测试
- Android SDK开发包国内下载地址
- 比赛排名--拓扑排序
- PHP 处理2038后的日期
- 将秒数转换成天具体的天时分秒