Hive生产脚本常用参数设置[合并小文件,压缩文件,动态分区,数据倾斜...]
来源:互联网 发布:linux ifconfig 找不到 编辑:程序博客网 时间:2024/05/18 00:11
合并小文件
hive.merge.mapfile=true;hive.merge.mapredfile=true;hive.merge.size.pertask=32000000; //自定hive.merge.smallfiles.avgsize=16000000; //自定
压缩文件
结果压缩
hive.exec.compress.output=true; [同] mapred.output.compress=true;mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;[通常]mapred.output.compression.type=block;
中间压缩
hive.exec.compress.intermediate=true;hive.intermediate.compression.code=org.apache.hadoop.io.compress.SnappyCodec;[通常]hive.intermediate.compression.type=block;
动态分区
hive.mapred.mode=nonstrict;hive.exec.dynamic.partition.mode=nonstrict;hive.exec.max.dynamic.partitions.pernode=10000;[自定,默认100]
groupby导致数据倾斜
hive.groupby.skewindata=true;
自动mapjoin
hive.auto.convert.join=true;
自动本地运行
hive.exec.mode.local.auto=true;hive.exec.mode.local.auto.inputbytes.max=134217728L;[128M]hive.exec.mode.local.auto.tasks.max=2;[自定]
对reduce个数限定
mapred.reduce.tasks=-1;[默认不限制]【hive脚本中不起作用,MR中起作用】hive.exec.reduces.bytes.per.reducer=1000000000L;[默认1000M]hive.exec.reducers.max=999;[默认]
阅读全文
0 0
- Hive生产脚本常用参数设置[合并小文件,压缩文件,动态分区,数据倾斜...]
- hive小文件合并
- Hive小文件合并
- hive合并小文件
- hive 小文件合并
- Hive小文件合并
- Hive 合并小文件
- hive合并小文件
- hive合并小文件
- Hive小文件合并调研
- Hive小文件合并调研
- hive小文件合并问题
- Hive小文件合并汇总
- Hive 之 合并小文件
- Hive 数据倾斜总结
- hive 数据倾斜总结
- hive 数据倾斜总结
- hive数据倾斜总结
- 怎么解决电脑频繁死机?
- 工作新的开始
- 关于微信wx.previewImage图片没有正常显示的问题
- jQuery 停止动画 stop()
- HDU6070 Lazy Running (最短路)
- Hive生产脚本常用参数设置[合并小文件,压缩文件,动态分区,数据倾斜...]
- Git基本操作
- shell学习笔记
- 处理vue-cli 打包第三方库时语法报错 Unexpected token: name (idSeed)
- Eclipse 安装GWT环境
- linux学习笔记(18)
- 浅谈javaScript中的闭包
- 详解C中volatile关键字
- Git与SVN的对比梳理