MapReduce(十二): Map和Reduce阶段数据合并的处理

来源：互联网发布：西门子200plc编程实例编辑：程序博客网时间：2024/05/29 07:37

在Map阶段处理数据时，由于内存的限制，会把数据先写到文件中，最终会根据数据的多少生成多个文件，每个文件中会按照Reduce的个数分区，每个分区的数据都按照key值顺序排放，Map结束后将多个文件合并为同一个文件，合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据，然后会根据数据的多少写到文件和内存中，每个Map的数据为一个文件或一段内存，最后对内存和文件的数据进行合并计算输出最后的结果，合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。

如上图所示Map阶段需要对多个文件的数据合并，在Reduce阶段Reduce Task 1向各个Map获取分区1的数据，Reduce Task 2向各个Map获取分区2的数据，Reduce Task 3向各个Map获取分区3的数据，图中为了简便，Reduce Task3向map获取数据的指向没有标识。获取完毕后根据数据的大小情况放到内存或文件中，然后对多个Map的分区数据进行合并，然后reduce计算后输出最终结果。

合并数据前首先把内存的数据，或者文件的数据用Segment封装对数据的读取，它提供了两个构造函数，分别对文件和内存的读入方式构造Segment实例，构造对文件的读取：

构造对的内存的读取：

其中的Reader的实例是IFile.InMermoryReader.java，以byte数组构造实例：

然后从数组中读取数据：

在构造完了所有Segment后，把Segment放入到MergeQueue中，MergeQueue继承了PriorityQueue抽象类，在把Segment放到MergeQueue中时，会对放入的segment按照第一个Key的大小排序：

MergeQueue也集成了RawKeyValueInterator接口，负责对存入的Segment读取Key，Value数据，在每读取完一个Key后，就立即对所拥有的Segment再进行按照当前第一个Key的大小排序，因此从MergeQueue中读取的Key，Value永远按照Key的顺序从多个Segment中读取：

为了一次归并的文件个数不是太多，因此在MergeQueue合并时，会判断文件个数是否超过某个阈值，如果超过则先把多个文件合并成一个文件，使总的文件个数在这个阈值下：

如果需要合并文件个数小于某个阈值，则返回MergeQueue自身，MergeQueue提供了对所有Segment按照key顺序访问：

0 0