mapreduce 分片大小的计算

来源:互联网 发布:东罗马帝国 知乎 编辑:程序博客网 时间:2024/06/05 03:49
计算方式:
max(mininumsize,min(maxnumsize,blocksize))
通常境况下,mininumsize<bolocksize<maxnumsize,
所以一般是将一个block的数据交给一个mapper,即是一个block作为一个数据分片

如果希望将所有的文件都在一个mapper中处理可以将mininumsize设置为文件的大小,
这样其实会让hadoop框架失去去并行处理的优势
原创粉丝点击