Google论文系列(2) MapReduce

来源：互联网发布：mac怎么做表格编辑：程序博客网时间：2024/06/14 16:12

mapreduce

思想

map函数：处理一组key/value对进而生成一组key/value对的中间结果

reduce函数：将具有相同Key的中间结果进行归并

clipboard

环境

普通带宽，上千台机器（失败变得正常），廉价硬盘，调度系统。

执行过程

clipboard[1]

Master是将中间结果文件从map task传递到reduce task的渠道。

保存：对于每个完成的map task，master会保存由它产生的R个中间结果文件的大小及位置。

收到：中间结果信息上报：当map task结束后，将会受到对于这些位置和大小信息的更新。

推送：中间结果信息（位置+大小）会被逐步推送到那些包含正在处理中国的reduce task 的worker

容错：

标记失败：Master周期性地ping每个worker。一定时间内无响应则标记失败。

重新执行：标记失败worker上的完成状态任务需要重新执行，因为中间结果仍保存在失败机器上。

Master失败：从上次检查点状态恢复拷贝。

本地化：输入和中间结果本地存取。

任务粒度：

R个map task 和 M各reduce task，M和R都应当远远大于运行worker的机器数目。

优点：

提高动态负载平衡。

加速worker失败后的恢复过程。

M的选择：使每个独立task输入数据限制在16M到64M之间。

R的选择：大概是使用worker机器的几倍。

备份任务：

长尾：花费相当长的时间去完成MapReduce任务中最后剩下的极少数的那几个task的那台机器。

解决：当MapReduce任务接近尾声的时候，master会备份那些还在执行的task，只要该task的主本或者一个副本完成了，我们就认为它完成了。

MapReduce优点：

0 0