map任务中，merge过程的实现方法

来源：互联网发布：mac系统移动硬盘格式编辑：程序博客网时间：2024/05/17 15:38

大写的FS表示“分布式文件系统”

map任务中，merge的实现方法

首先，在map任务产生的所有中间文件（即IFile格式文件）中，选择文件大小最小的io.sort.factor（即源代码中的factor变量）个文件，然后将代表这些文件的Segment实例化对象各自作为一个节点，建成一个“小顶堆”。而对这个小顶堆中各个节点排序的比较方法，实际上就是在比较各个Segment第一个键值对的大小。Segment的键值对是在其next方法中更新的。由于每个Segment内部就是按从小到大顺序排列的，故这个merge的过程，其实就是多路有序队列归并的过程，并且在归并过程中使用的排序方法就是“堆排序”方法，每次“堆排序”的过程体现在将“Segments堆”建成“小顶堆”的过程。

总结如下：
1）将代表IFile格式文件的factor个Segments组成一个“小顶堆”；
2）从Segment所组成的“小顶堆”中选择出“堆顶”，对这个“堆顶”求getKey和getValue就是选中的键值对，将该键值对输出到输出文件中；
3）更新由Segment所组成的堆，使其再次成为一个“小顶堆”；
4）重复2）～3），直到所有的键值对输出到输出文件中。