MapReduce MapTask任务数量,切片大小笔记

来源:互联网 发布:优化布林线 编辑:程序博客网 时间:2024/06/08 04:47

MapReduce 运行流程概括

MapReducer 运行流程概括图

MapTask任务数量的决定因素

每一个split分配一个mapTask并行实例处理

切片实现

  • 由FileInputFormat实现类的getSplits()方法实现切片
  • 默认切片大小就是Block块大小(默认块大小128M)
在FileInputFormat中,计算切片大小的逻辑代码为:Math.max(minSize, Math.min(maxSize, blockSize));
minsize:默认值:1      配置参数: mapreduce.input.fileinputformat.split.minsize    maxsize:默认值:Long.MAXValue      配置参数:mapreduce.input.fileinputformat.split.maxsize
阅读全文
0 0