hadoop map端reduce端调优参数

来源:互联网 发布:淘宝客服下载 编辑:程序博客网 时间:2024/05/16 09:11

map端:

io.sort.mb    类型int默认100=》map的内存缓冲区

io.sort.record.precent 类型:float默认0.05=》io.sort.mb的缓存区记录索引kvindices和缓存区记录索引排序工作数组kvoffsets占用空间比例

io.sort.spill.percent  类型:float默认0.8=》io.sort.mb的缓冲数据边界阙值

io.sort.factor 类型int默认10=》每次合并文件数

min.mum.spills.for.combine类型int默认3=》运行combiner需要的最少溢出文件数

mapred.compress.map.output类型boolean默认false=》是否压缩map输出

mapred.map.output.compression.coderc类型classname默认DefaultCodec=》map输出的压缩编码器

tasktracker.http.threads类型int默认40=》每个tasktracker的工作线程数,将map输出到reduce#只能全局设定


reduce端:

mapred.reduce.parallel.copies类型int默认5=》复制map输出数据的线程数

mapred.reduce.copy.backoff类型int默认300=》获取一个map数据的最大时间

io.sort.factor

mapred.job.shuffer.input.buffer.percent类型float默认0.70=>shuffer的复制阶段,分配给map输出的缓冲区的比例

mapred.job.shuffer.merge.percent类型float默认0.66=》mapred.job.shuffer.input.buffer.percent的阙值

mapred.inmem.merge.threshold类型int默认1000=》mapred.job.shuffer.input.buffer.percent的文件数阙值

mapred.job.reduce.input.buffer.percent类型float默认0.0=》reduce过程中在内存中保存map输出的比例

原创粉丝点击