Hadoop 参数小结
来源:互联网 发布:形容心里暗黑的网络语 编辑:程序博客网 时间:2024/06/05 04:47
最近用Hive来将大数据量以大量动态分区形式导入Impala,复杂sql及大数据量导致需要设置很多参数来满足任务要求。甩一下自己用Hive设置过几个参数:
cursor.execute("set mapreduce.map.memory.mb=16384") //每个maptask分配得到的内存,默认为1024Mcursor.execute("set mapreduce.reduce.memory.mb=16384")//每个reducetask分配得到的内存,默认为1024Mcursor.execute("set mapreduce.map.java.opts=-Djava.net.preferIPv4Stack=true -Xmx12288m") //maptask进程的启动参数cursor.execute("set mapreduce.reduce.java.opts=-Djava.net.preferIPv4Stack=true -Xmx12288m") //reducetask进程的启动参数cursor.execute("set hive.exec.max.created.files=10000000") //过程中允许创建的文件数,最好与下文的hive.merge.mapredfiles结合,以免生成过多小文件cursor.execute('set hive.exec.dynamic.partition.mode=nonstrict') //允许动态分区模式,即无需指定特定插入分区cursor.execute('set hive.merge.mapredfiles=true') //mr过程merge小文件,还有另外一个参数来指定merge文件的大小,默认是一个hdfs块的大小cursor.execute('SET hive.exec.max.dynamic.partitions=100000') //最大动态分区数cursor.execute('SET hive.exec.max.dynamic.partitions.pernode=100000') //每个节点所允许的最大动态分区数
ps. 按道理hive不建议使用大量动态分区,但是用impala来做这个数据量又太可怕,会干掉impalad,所以用了政策。
ubertask相关参数:
mapreduce.job.ubertask.maxmaps 默认为10,mapper小于该值的task满足ubertask条件
mapreduce.job.ubertask.maxreduces 默认为1,reducer小于该值的task满足ubertask条件
mapreduce.job.ubertask.maxbytes 默认为hdfs的一个块的大小,输入分片大小小于该值的满足ubertask条件
mapreduce.job.ubertask.enbale 设置ubertask的开关,false为关闭
Notes.满足ubertask笨拙,则认为该task需要的资源不多,与master在同一JVM完成即可。
0 0
- Hadoop 参数小结
- hadoop 2.0 参数调优小结-part1
- Hadoop小结
- hadoop 小结
- Hadoop小结
- hadoop 参数
- [Hadoop] Hadoop 传递参数
- [【hadoop】hadoop参数优化
- 【hadoop】hadoop参数优化
- Hadoop小结连载:Hadoop概述
- Hadoop 学习小结(1)
- Hadoop 重启小结
- hadoop安装小结
- hadoop面试小结
- Hadoop使用小结
- hadoop乱码问题--小结
- hadoop-----命令小结
- Hadoop学习小结
- Spring 中ApplicationContext使用 <02>
- .net post url获取json
- JS获取IP、MAC和主机名的几种方法
- 关于 html append 为什么不是子级关系 $("#"+)
- Git:关于git diff 是和谁对比的问题
- Hadoop 参数小结
- 修改Android MTK 开关机动画 log
- QT使用插件QAxWidget
- 关于CTE的使用,以及TOP/ORDER BY的执行顺序
- Linux---uptime
- 解决Ubuntu下genymotion出现"Unable to load VirtualBox engine"问题
- Nginx初级部署
- Images的标准用法
- 三层架构-软件编程之三层架构