hadoop的mapreduce编程模型中GroupingComparator的使用

来源：互联网发布：iphone6s数据漫游编辑：程序博客网时间：2024/05/17 05:50

在Hadoop的mapreduce编程模型中，涉及到到的主要组件，可以分别对这些组件进行编程。

在Hadoop的mapreduce编程模型中，当在map端处理完成输出key-value对时，reduce端只会将key相同的到同一个reduce函数中去执行，如果现在map端输出的key是一个对像TextPair，，那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样)：

<textPair01，1><textPair02，1><textPair03，1><textPair04，1>...1
2
3
4
5
1
2
3
4
5

但是我们有个需求，该对象包含两个整型成员变量first和second，需要把map端输出的textPair中如果first相同，就让这个键值对和其他的对象一起到reduce函数中，如果textPair01中first=1，textPair02中first=1，textPair03中first=2，textPair04中first=1，那么textPair01，textPair02，textPair04
就会被同一个reduce函数处理：

<group(textPair01，textPair02，textPair04),1 1 1>1
1

可以使用hadoop中的GroupingComparator对其进行分组，先要定义一个类继承WritableComparator：

package com.lijie.joinreduce;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;public class GroupComparator extends WritableComparator{    public GroupComparator() {        super(TextPair.class,true);    }    @Override    public int compare(WritableComparable a, WritableComparable b) {        TextPair t1 = (TextPair) a;        TextPair t2 = (TextPair) b;        return t1.getFirst().compareTo(t2.getFirst());    }}1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

在主函数中给job添加GroupingComparatorClass：

job.setGroupingComparatorClass(GroupComparator.class);1
1

然后再reduce函数打上断点可以发现，下面的values长度为3，key的值为textPair01，并且当你对values的迭代器执行next()函数后，key的值会变成textPair02，但是还是在当前reduce函数中，并没有重新调用这个reduce函数。

reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)

阅读全文

0 0