map任务中,merge过程的实现方法

来源:互联网 发布:mac系统移动硬盘格式 编辑:程序博客网 时间:2024/05/17 15:38
大写的FS表示“分布式文件系统”

map任务中,merge的实现方法

首先,在map任务产生的所有中间文件(即IFile格式文件)中,选择文件大小最小的io.sort.factor(即源代码中的factor变量)个文件,然后将代表这些文件的Segment实例化对象各自作为一个节点,建成一个“小顶堆”。而对这个小顶堆中各个节点排序的比较方法,实际上就是在比较各个Segment第一个键值对的大小。Segment的键值对是在其next方法中更新的。由于每个Segment内部就是按从小到大顺序排列的,故这个merge的过程,其实就是多路有序队列归并的过程,并且在归并过程中使用的排序方法就是“堆排序”方法,每次“堆排序”的过程体现在将“Segments堆”建成“小顶堆”的过程

总结如下:
1)将代表IFile格式文件的factor个Segments组成一个“小顶堆”;
2)从Segment所组成的“小顶堆”中选择出“堆顶”,对这个“堆顶”求getKey和getValue就是选中的键值对,将该键值对输出到输出文件中;
3)更新由Segment所组成的堆,使其再次成为一个“小顶堆”;
4)重复2)~3),直到所有的键值对输出到输出文件中。
原创粉丝点击