MapReduce参数调优
来源:互联网 发布:华为云计算认证培训 编辑:程序博客网 时间:2024/06/13 11:20
mapred.tasktracker.map.tasks.maximum
每个tasktracker可同时运行的最大map task数,默认值2。
mapred.tasktracker.reduce.tasks.maximum
每个tasktracker可同时运行的最大reduce task数,默认值1。
mapred.local.dir
map task中间结果写本地磁盘路径,默认值${hadoop.tmp.dir}/mapred/local。
可配置多块磁盘缓解写压力。当存在多个可以磁盘时,Hadoop将采用轮询方式将不同的map task中间结果写到磁盘上。
3.配置RPC Handler数
mapred.job.tracker.handler.count
jobtracker可并发处理来自tasktracker的RPC请求数,默认值10。
4.配置HTTP线程数
tasktracker.http.threads
HTTP服务器的工作线程数,用于获取map task的输出结果,默认值40。
6.选择合适的压缩算法
Job输出结果是否压缩
mapred.output.compress
是否压缩,默认值false。
mapred.output.compression.type
压缩类型,有NONE, RECORD和BLOCK,默认值RECORD。
mapred.output.compression.codec
压缩算法,默认值org.apache.hadoop.io.compress.DefaultCodec。
map task输出是否压缩
mapred.compress.map.output
是否压缩,默认值false
mapred.map.output.compression.codec
压缩算法,默认值org.apache.hadoop.io.compress.DefaultCodec。
7.设置失败容忍度
mapred.max.map.failures.percent
作业最多允许失败的map task比例,默认值0。
mapred.max.reduce.failures.percent
作业最多允许失败的reduce task比例,默认值0。
mapred.map.max.attempts
一个map task的最多重试次数,默认值4。
mapred.reduce.max.attempts
一个reduce task的最多重试次数,默认值4。
8.设置跳过坏记录
mapred.skip.attempts.to.start.skipping
当任务失败次数达到该值时,启用跳过坏记录功能,默认值2。
mapred.skip.out.dir
检测出的坏记录存放目录,默认值为输出目录的_logs/skip,设置为none表示不输出。
mapred.skip.map.max.skip.records
map task最多允许的跳过记录数,默认值0。
mapred.skip.reduce.max.skip.groups
reduce task最多允许的跳过记录数,默认值0。
mapred.job.reuse.jvm.num.tasks
一个jvm可连续启动多个同类型任务,默认值1,若为-1表示不受限制。
mapred.child.java.opts
任务启动的jvm参数,默认值-Xmx200m,建议值-XX:-UseGCOverheadLimit -Xms512m -Xmx2048m -verbose:gc -Xloggc:/tmp/@taskid@.gc
11. map task调优
io.sort.record.percent
io.sort.spill.percent
12.reduce task调优
mapred.reduce.parallel.copies
默认值5
本文转载自推酷文章:MapReduce参数调优
- MapReduce参数调优
- MapReduce参数调优
- MapReduce参数调优
- MapReduce任务参数调优
- MapReduce任务参数调优
- MapReduce任务参数调优
- MapReduce任务参数调优
- MapReduce任务参数调优
- Hadoop/MapReduce性能优化------参数调优
- MapReduce任务参数调优(转)
- MapReduce任务参数调优和说明
- mapReduce中重要参数调优
- HDP YARN MapReduce参数调优建议
- Hadoop 学习研究(四):MapReduce shuffle过程剖详解及参数配置调优
- Hadoop进阶(hadoop streaming c++实现 & MapReduce参数调优)
- Hadoop,MapReduce,JOB参数
- Hadoop,MapReduce,参数
- mapreduce yarn内存参数
- 直播主流的协议
- Linux中的用户、组和权限管理
- 课堂总结
- matplotlib tricks(一)—— 多类别数据的 scatter(cmap)
- ajax异步分页
- MapReduce参数调优
- linux中目录的权限以及文件的stat用法
- java线程池ThreadPoolExector源码分析
- 前端开发用到的工具
- C++知识文档四_this指针
- 产品:产品经理的能力等级,你属于哪一级?
- 环形队列的应用
- 给大学生的良心建议
- QT串口发送错误