深入学习Hadoop之第二篇——MapReduce

来源：互联网发布：windows.microsoft 编辑：程序博客网时间：2024/05/17 11:06

概念：MapReduce是一种数据处理的编程模型

一、Map

1.数据流：

一个MapReduce job是客户端所执行的work的单元，它包括：输入数据、MapReduce程序以及配置信息；

Hadoop把MapReduce job分割为更小的tasks（map tasks和reduce tasks）来执行，这些tasks被YARN调度在集群节点上执行；如果一个task失败了，它会被自动调度到其他节点上重新执行；

Hadoop把MapReduce的输入数据分割成固定长度的片段，称作输入切片或切片；Hadoop为每一个切片创建一个map task，并由该task来运行用户定义的map函数从而处理切片中的每条记录；拥有许多切片意味着处理每个切片的时间少于处理整个输入的时间。因此，如果并行处理每个分片，且每个切片比较小，那么整个处理过程将获得比较好的负载均衡；因为在一个job的执行过程中，一台更快的机器比慢的机器处理更多的切片，并且是按比例的；即使使用同样的机器，失败的进程和其他并行执行的jobs也能够达到满意的负载均衡；而且随着切片的粒度更细负载均衡的会更高；
另一方面，如果切片粒度太细，那么管理切片的总时间和构建map任务的总时间将决定整个job的执行时间。

对于大多数job来说，一个合理的切片大小趋向于HDFS的block size，默认是128MB，不过可以针对集群调整这个默认值（新建的所有文件），或对新建的每个文件具体而定。

关于切片大小的具体分析：

如果切片大小不等于block size，
1. 切片大小>block size ;
每个切片中的数据要存放在两个甚至更多的block中，然而对于HDFS中任意一个节点基本上都不可能同时拥有这两个block
，因此切片中的部分数据需要通过网络传输到map task节点，与使用本地数据运行整个map task相比，效率很低。
2. 切片大小<block size
浪费空间，一个切片放入一个block中，block却仍留有余地；

2.数据本地化优化

Hadoop在存有输入数据（HDFS中的数据）的节点上运行map task，可以获得最佳性能，这就是所谓的"数据本地化优化"，因为它无需使用宝贵的集群带宽资源。但是，有时对于一个map task的输入来说，存有某个HDFS block副本的三个节点可能正在运行其他map tasks,此时作业调度需要在三个副本中的某个数据寻求其所在rack中其他空闲的机器来运行该map task ；仅仅在非常偶然的情况下（该情况基本不会发生），会使用其他rack上的机器运行该map task，这将导致rack间的网络传输 (图1列出了以上3种情况)。

图1. a代表本地数据，b代表本rack上的数据，c代表其他rack上的数据

map task把其输出写入本地磁盘，而非HDFS。因为map的输出只是中间结果：该中间结果由reduce task处理后才产生最终输出结果，而且一旦job执行完成，map的输出结果就可以删除。因此把它存在HDFS中并实现备份，难免小题大做。
如果该节点上运行的map task在将map中间结果传送到reduce task之前failed，Hadoop会在另一个节点上重新运行这个map task以再次构建map中间结果；

二、Reduce

reduce任务并不具备数据本地化的优势————单个reduce task的input通常来自于所有mapper的输出；
因此，排过序的map output需要通过网络传输发送到运行reduce task的节点。数据在reduce端合并，然后由用户定义的reduce函数处理（图2，3,4显示了具体情况）。

图2.单个Reducer的数据流

图3.多个Reducer的数据流

图4.无Reducer的数据流

reduce的output通常存储在HDFS中以实现可靠存储：对于每个reduce output的HDFS block，第一个副本存储在本地节点上，其他副本存储在其他rack的节点上。因此将reduce的output写入HDFS确实需要占用网络带宽，但这与正常的HDFS流水线写入的消耗一样。

reduce的task数量并非由输入数据的大小决定，而是独立指定的。
如果有多个reduce tasks，每个map task就会针对map output进行partition，即为每个reduce task建一个分区。分区由用户定义的parttition函数控制，但通常用默认的partitioner通过hash函数来分区很高效。

combiner函数：
集群上的可用带宽限制了MapReduce作业的数量，因此尽量避免map和reduce task之间的数据传输是有利的。combiner实际上是一个本地的reducer。combiner作为一个优化方案，有些时候并不能用，比如求均值。

0 0