深入学习Hadoop之第二篇——MapReduce

来源:互联网 发布:windows.microsoft 编辑:程序博客网 时间:2024/05/17 11:06

概念:MapReduce是一种数据处理的编程模型


一、Map

1.数据流:

一个MapReduce job是客户端所执行的work的单元,它包括:输入数据、MapReduce程序以及配置信息;

Hadoop把MapReduce job分割为更小的tasks(map tasks和reduce tasks)来执行,这些tasks被YARN调度在集群节点上执行;如果一个task失败了,它会被自动调度到其他节点上重新执行;

Hadoop把MapReduce的输入数据分割成固定长度的片段,称作输入切片或切片;Hadoop为每一个切片创建一个map task,并由该task来运行用户定义的map函数从而处理切片中的每条记录;拥有许多切片意味着处理每个切片的时间少于处理整个输入的时间。因此,如果并行处理每个分片,且每个切片比较小,那么整个处理过程将获得比较好的负载均衡;因为在一个job的执行过程中,一台更快的机器比慢的机器处理更多的切片,并且是按比例的;即使使用同样的机器,失败的进程和其他并行执行的jobs也能够达到满意的负载均衡;而且随着切片的粒度更细负载均衡的会更高;
另一方面,如果切片粒度太细,那么管理切片的总时间和构建map任务的总时间将决定整个job的执行时间。

对于大多数job来说,一个合理的切片大小趋向于HDFS的block size,默认是128MB,不过可以针对集群调整这个默认值(新建的所有文件),或对新建的每个文件具体而定。


关于切片大小的具体分析:

如果切片大小不等于block size,
1. 切片大小>block size ;
每个切片中的数据要存放在两个甚至更多的block中,然而对于HDFS中任意一个节点基本上都不可能同时拥有这两个block
,因此切片中的部分数据需要通过网络传输到map task节点,与使用本地数据运行整个map task相比,效率很低。
2. 切片大小<block size
浪费空间,一个切片放入一个block中,block却仍留有余地;

2.数据本地化优化

Hadoop在存有输入数据(HDFS中的数据)的节点上运行map task,可以获得最佳性能,这就是所谓的"数据本地化优化",因为它无需使用宝贵的集群带宽资源。但是,有时对于一个map task的输入来说,存有某个HDFS block副本的三个节点可能正在运行其他map tasks,此时作业调度需要在三个副本中的某个数据寻求其所在rack中其他空闲的机器来运行该map task ;仅仅在非常偶然的情况下(该情况基本不会发生),会使用其他rack上的机器运行该map task,这将导致rack间的网络传输 (图1列出了以上3种情况)。


图1. a代表本地数据,b代表本rack上的数据,c代表其他rack上的数据

map task把其输出写入本地磁盘,而非HDFS。因为map的输出只是中间结果:该中间结果由reduce task处理后才产生最终输出结果,而且一旦job执行完成,map的输出结果就可以删除。因此把它存在HDFS中并实现备份,难免小题大做。
如果该节点上运行的map task在将map中间结果传送到reduce task之前failed,Hadoop会在另一个节点上重新运行这个map task以再次构建map中间结果;


二、Reduce

reduce任务并不具备数据本地化的优势————单个reduce task的input通常来自于所有mapper的输出;
因此,排过序的map output需要通过网络传输发送到运行reduce task的节点。数据在reduce端合并,然后由用户定义的reduce函数处理(图2,3,4显示了具体情况)。


图2.单个Reducer的数据流


图3.多个Reducer的数据流


图4.无Reducer的数据流

reduce的output通常存储在HDFS中以实现可靠存储:对于每个reduce output的HDFS block,第一个副本存储在本地节点上,其他副本存储在其他rack的节点上。因此将reduce的output写入HDFS确实需要占用网络带宽,但这与正常的HDFS流水线写入的消耗一样。

reduce的task数量并非由输入数据的大小决定,而是独立指定的。
如果有多个reduce tasks,每个map task就会针对map output进行partition,即为每个reduce task建一个分区。分区由用户定义的parttition函数控制,但通常用默认的partitioner通过hash函数来分区很高效。

combiner函数:
集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce task之间的数据传输是有利的。combiner实际上是一个本地的reducer。combiner作为一个优化方案,有些时候并不能用,比如求均值。

0 0
原创粉丝点击