Hadoop框架排序和分组的理解
来源:互联网 发布:平面坐标 经纬度 java 编辑:程序博客网 时间:2024/04/30 02:54
http://blog.csdn.net/zuochanxiaoheshang/article/details/8986114
MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。
一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。
每一个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时(阈值默认的大小是缓存的80%),一个后台线程负责将结果写到硬盘,这个过程称为“spill”。Spill过程中,Map仍可以向缓存写入结果,如果缓存已经写满,那么Map进行等待。
Spill的具体过程如下:
首先,后台线程根据Reducer的个数将输出结果进行分组,每一个分组对应一个Reducer。
其次,对于每一个分组后台线程对输出结果的Key进行排序。在排序过程中,如果有Combiner函数,则对排序结果进行Combiner函数进行调用。每一次spill都会在硬盘产生一个spill文件。
因此,一个Map task有可能会产生多个spill文件,当Map写出最后一个输出时,会将所有的spill文件进行合并与排序,
输出最终的结果文件。
在这个过程中Combiner函数仍然会被调用。从整个过程来看,Combiner函数的调用次数是不确定的。
Hadoop是如何进行排序的呢?
根据笔者的理解,MapReduce的排序过程分为两个步骤,一个按照Key进行排序;一个是按照Key进行分组。这两部分分别由SortComparator和GroupingComparator来完成。
具体的配置如下面黑体所示:
job.setPartitionerClass(FirstPartitioner.class);
job.setSortComparatorClass(KeyComparator.class);
job.setGroupingComparatorClass(GroupComparator.class);
如果用户想自定义排序方式,首先需要实现两个Comparator并将其按照上面的格式进行配置。每一个Comparator需要继承WritableComparator基类。如下所示:
public static class GroupComparator extends WritableComparator {
protected GroupComparator() {
super(IntPair.class, true);
}
@Override
public int compare(WritableComparable w1, WritableComparable w2) {
IntPair ip1 = (IntPair) w1;
IntPair ip2 = (IntPair) w2;
return IntPair.compare(ip1.getFirst(), ip2.getFirst());
}
}
版权声明:本文为博主原创文章,未经博主允许不得转载。
- Hadoop框架排序和分组的理解
- Hadoop框架排序和分组的理解
- hadoop 的排序:key排序和分组排序
- hadoop的分区、分组与排序的理解
- MapReduce框架排序和分组
- hadoop二次排序、分组、排序和分区
- hadoop提交作业自定义排序和分组
- HADOOP框架的理解
- hadoop自定义排序,分组排序
- Hadoop学习笔记—11.MapReduce中的排序和分组
- Hadoop之MapReduce中的排序和分组(笔记11)
- hadoop自定义排序对比器和分组对比器
- .NET框架-集合和LINQ中的“分组”和“排序”技术
- hadoop 排序、分区、分组实例
- Hadoop 之 Shuffle 和排序---再理解
- lag和lead分组函数的理解
- 简单理解MapReudce的分区和分组
- 分组排序和临时表的应用
- 使用JDK工具检查运行系统是否存在内存泄露
- 浅谈筛法
- Spark on yarn Container beyond virtual memory limits
- interbase数据库修方法(转)
- eclipse下SVN subclipse插件
- Hadoop框架排序和分组的理解
- C语言使用正则表达式
- Git 分支管理和冲突解决
- 两个有序数组合并后找第k个数(中位数)
- Java Web性能测试 - 动态网站测试脚本录制
- 第四周上机实践—项目4—建立“双链表”算法库
- Flash Tool Lite User Manual
- 浅析Android M新功能Adoptable Storage Devices(适配的存储设备)
- 基于SVG的web页面图形绘制API介绍