hadoop中mapreduce属性设置
来源:互联网 发布:帝国cms二次开发手册 编辑:程序博客网 时间:2024/06/06 11:37
map最大个数,单台机map线程个数
mapred.tasktracker.map.tasks.maximum
reduce最大个数
mapred.tasktracker.reduce.tasks.maximum
每个map的大小,默认64M
mapred.max.split.size
Map输出复制到Reduce的线程的数量,默认为5。根据需要可以将其增大到20-50
mapred.reduce.parallel.copies
Map和Reduce任务运行时Java虚拟机指定的内存的大小,默认-Xmx200m,分配给每个任务200MB内存。只要条件允许,应该让任务节点上的内存大小尽量大,可以将其增大到-Xmx512m,即512MB,以提高MapReduce作业的性能
mapred.child.java.opts
该属性设置整个堆空间的百分比,用于Shuffle的复制阶段分配给Map输出缓存,默认是0.70,适当增大比例可以使Map输出不被溢写到磁盘,能够提高系统性能。
mapred.job.shuffle.input.buffer.percent
设置Map输出缓存中使用比例的阈值,用于启动合并输出和磁盘溢写的过程,默认是0.66
mapred.job.shuffle.merge.percent
该属性设置启动合并输出和磁盘溢写过程的最大Map输出数量,默认为1000
mapred.inmem.merge.threshold
设置在Reduce过程中用来在内存中保存Map输出的空间占整个堆空间的比例。Reduce阶段开始时,内存中的Map输出大小不能大于这个值。默认为0.0,说明在Reduce开始前所有的Map输出都合并到硬盘中以便为Reduce提供尽可能多的内存。然而如果Reduce函数内存需求较小,可以将该值设置为1.0来提升性能。
mapred.job.reduce.input.buffer.percent
该属性设置集群中每个tasktracker用于将map输出传给reducer的工作线程的数量,默认是40。可以将其提高至40-50之间,能够增加并线线程数,提高集群性能。
tasktracker.http.threads
map超时时间
mapred.task.timeout
设置map的输出数据需要被压缩true
mapred.compress.map.output
设置map的输出数据的编码解码器
mapred.map.output.compression.codec
设置作业最后输出的数据需要被压缩
mapred.output.compress
设置作业最后输出数据的编码解码器
mapred.output.compression.codec
查看在哪个datanode上
find ./ -name "*"|xargs grep "blk_1313721828108*
查询tasktracker
jps -mvll | grep "taskID"
存储任务的输出,默认为100M
io.sort.mb
map输出合并因子,默认为10
io.sort.factor
mapred.tasktracker.map.tasks.maximum
reduce最大个数
mapred.tasktracker.reduce.tasks.maximum
每个map的大小,默认64M
mapred.max.split.size
Map输出复制到Reduce的线程的数量,默认为5。根据需要可以将其增大到20-50
mapred.reduce.parallel.copies
Map和Reduce任务运行时Java虚拟机指定的内存的大小,默认-Xmx200m,分配给每个任务200MB内存。只要条件允许,应该让任务节点上的内存大小尽量大,可以将其增大到-Xmx512m,即512MB,以提高MapReduce作业的性能
mapred.child.java.opts
该属性设置整个堆空间的百分比,用于Shuffle的复制阶段分配给Map输出缓存,默认是0.70,适当增大比例可以使Map输出不被溢写到磁盘,能够提高系统性能。
mapred.job.shuffle.input.buffer.percent
设置Map输出缓存中使用比例的阈值,用于启动合并输出和磁盘溢写的过程,默认是0.66
mapred.job.shuffle.merge.percent
该属性设置启动合并输出和磁盘溢写过程的最大Map输出数量,默认为1000
mapred.inmem.merge.threshold
设置在Reduce过程中用来在内存中保存Map输出的空间占整个堆空间的比例。Reduce阶段开始时,内存中的Map输出大小不能大于这个值。默认为0.0,说明在Reduce开始前所有的Map输出都合并到硬盘中以便为Reduce提供尽可能多的内存。然而如果Reduce函数内存需求较小,可以将该值设置为1.0来提升性能。
mapred.job.reduce.input.buffer.percent
该属性设置集群中每个tasktracker用于将map输出传给reducer的工作线程的数量,默认是40。可以将其提高至40-50之间,能够增加并线线程数,提高集群性能。
tasktracker.http.threads
map超时时间
mapred.task.timeout
设置map的输出数据需要被压缩true
mapred.compress.map.output
设置map的输出数据的编码解码器
mapred.map.output.compression.codec
设置作业最后输出的数据需要被压缩
mapred.output.compress
设置作业最后输出数据的编码解码器
mapred.output.compression.codec
查看在哪个datanode上
find ./ -name "*"|xargs grep "blk_1313721828108*
查询tasktracker
jps -mvll | grep "taskID"
存储任务的输出,默认为100M
io.sort.mb
map输出合并因子,默认为10
io.sort.factor
- hadoop中mapreduce属性设置
- spark编程中设置hadoop的属性
- hadoop mapreduce中压缩
- MapReduce中设置全局变量
- Hadoop的mapreduce.framework.name属性原理
- Hadoop中MapReduce的原理
- Hadoop mapreduce 中partition作用
- hadoop中mapreduce的默认设置
- Hadoop 中MapReduce的数据流
- hadoop中mapreduce参数优化
- Hadoop 任务优先级设置(MapReduce)
- Hadoop中 MapReduce中InputSplit的分析
- mapreduce中reducers个数设置
- mapreduce hadoop 资源汇总(持续更新中)
- Hadoop的MapReduce中多文件输出
- 在Hadoop中使用Streaming编写MapReduce
- hadoop中mapreduce部分执行流程
- Hadoop在MapReduce中使用压缩详解
- struts1和struts2的区别
- forward 和sendredirect
- 解决C#窗体因为窗体的分辨率改变而控件错位.
- google us web
- ascii
- hadoop中mapreduce属性设置
- Linux 下grep命令
- Oracle Lock
- Python进阶(一)——安装Python、程序执行、Python模块和IDLE调试
- 编辑本段网站错位的解决办法 巧妙设置兼容性
- CGContextAddArcToPoint与CGContextAddArc
- 浅析站群seo优化操作方法
- ython进阶(二)——Python对象类型
- nginx 负载均衡-反向代理+cache浅谈