map任务中,merge过程的实现方法
来源:互联网 发布:mac系统移动硬盘格式 编辑:程序博客网 时间:2024/05/17 15:38
大写的FS表示“分布式文件系统”
map任务中,merge的实现方法
首先,在map任务产生的所有中间文件(即IFile格式文件)中,选择文件大小最小的io.sort.factor(即源代码中的factor变量)个文件,然后将代表这些文件的Segment实例化对象各自作为一个节点,建成一个“小顶堆”。而对这个小顶堆中各个节点排序的比较方法,实际上就是在比较各个Segment第一个键值对的大小。Segment的键值对是在其next方法中更新的。由于每个Segment内部就是按从小到大顺序排列的,故这个merge的过程,其实就是多路有序队列归并的过程,并且在归并过程中使用的排序方法就是“堆排序”方法,每次“堆排序”的过程体现在将“Segments堆”建成“小顶堆”的过程。
总结如下:
1)将代表IFile格式文件的factor个Segments组成一个“小顶堆”;
2)从Segment所组成的“小顶堆”中选择出“堆顶”,对这个“堆顶”求getKey和getValue就是选中的键值对,将该键值对输出到输出文件中;
3)更新由Segment所组成的堆,使其再次成为一个“小顶堆”;
4)重复2)~3),直到所有的键值对输出到输出文件中。
map任务中,merge的实现方法
首先,在map任务产生的所有中间文件(即IFile格式文件)中,选择文件大小最小的io.sort.factor(即源代码中的factor变量)个文件,然后将代表这些文件的Segment实例化对象各自作为一个节点,建成一个“小顶堆”。而对这个小顶堆中各个节点排序的比较方法,实际上就是在比较各个Segment第一个键值对的大小。Segment的键值对是在其next方法中更新的。由于每个Segment内部就是按从小到大顺序排列的,故这个merge的过程,其实就是多路有序队列归并的过程,并且在归并过程中使用的排序方法就是“堆排序”方法,每次“堆排序”的过程体现在将“Segments堆”建成“小顶堆”的过程。
总结如下:
1)将代表IFile格式文件的factor个Segments组成一个“小顶堆”;
2)从Segment所组成的“小顶堆”中选择出“堆顶”,对这个“堆顶”求getKey和getValue就是选中的键值对,将该键值对输出到输出文件中;
3)更新由Segment所组成的堆,使其再次成为一个“小顶堆”;
4)重复2)~3),直到所有的键值对输出到输出文件中。
- map任务中,merge过程的实现方法
- Android中定时任务的实现方法
- Hadoop中Map任务的执行框架
- Hadoop中Map任务的执行框架
- Android开发中AsyncTask实现异步处理任务的方法
- Android中定时执行任务的3种实现方法
- Android开发中AsyncTask实现异步处理任务的方法
- Android中定时执行任务的3种实现方法
- Android开发中AsyncTask实现异步处理任务的方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- Android中定时执行任务的3种实现方法
- 微软翻译接口
- java解压gz文件
- CSV文件下载
- Android中的binder机制
- Spring管理Session
- map任务中,merge过程的实现方法
- Android之消息推送实现
- 什么是帧 ?什么是行 ?什么是场?
- gsoap ssl代码分析
- win7 64下装11g后 PLSQL DEVELOPER 工具连接不上的问题
- 调用webservice或wcf时,提示:无法加载协定为的终结点配置部分,因为找到了该协定的多个终结点配置。请按名称指示首选的终结点配置部分。
- android中ListView点击和ListView的item里面的button或ImageView不能同时生效的解决
- 程序员不应该再犯的五大编程错误
- Informix 11.50 for Windows7 启动方法