hadoop的mapreduce编程模型中GroupingComparator的使用

来源:互联网 发布:iphone6s数据漫游 编辑:程序博客网 时间:2024/05/17 05:50

Hadoop的mapreduce编程模型中,涉及到到的主要组件,可以分别对这些组件进行编程。



在Hadoop的mapreduce编程模型中,当在map端处理完成输出key-value对时,reduce端只会将key相同的到同一个reduce函数中去执行,如果现在map端输出的key是一个对像TextPair,,那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样):

<textPair01,1><textPair02,1><textPair03,1><textPair04,1>...
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5

但是我们有个需求,该对象包含两个整型成员变量first和second,需要把map端输出的textPair中如果first相同,就让这个键值对和其他的对象一起到reduce函数中,如果textPair01中first=1,textPair02中first=1,textPair03中first=2,textPair04中first=1,那么textPair01,textPair02,textPair04 
就会被同一个reduce函数处理:

<group(textPair01,textPair02,textPair04),1 1 1>
  • 1
  • 1

可以使用hadoop中的GroupingComparator对其进行分组,先要定义一个类继承WritableComparator:

package com.lijie.joinreduce;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;public class GroupComparator extends WritableComparator{    public GroupComparator() {        super(TextPair.class,true);    }    @Override    public int compare(WritableComparable a, WritableComparable b) {        TextPair t1 = (TextPair) a;        TextPair t2 = (TextPair) b;        return t1.getFirst().compareTo(t2.getFirst());    }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19

在主函数中给job添加GroupingComparatorClass:

job.setGroupingComparatorClass(GroupComparator.class);
  • 1
  • 1

然后再reduce函数打上断点可以发现,下面的values长度为3,key的值为textPair01,并且当你对values的迭代器执行next()函数后,key的值会变成textPair02,但是还是在当前reduce函数中,并没有重新调用这个reduce函数。

reduce( TextPair key, Iterable<Text> values,Reducer<TextPair, Text, Text, Text>.Context context)