指明Mapper数据输出方向的Partitioner

来源：互联网发布：cpda数据分析师教材编辑：程序博客网时间：2024/05/09 13:25

Mapper任务的输出会发送到Reducer任务。如果有多个Reducer任务在运行，那么我们希望所有Mapper任务中的不同分类的数据到不同的Reducer任务去处理。比如按照省份划分的话，需要把所有Mapper任务中同一性别的数据送到同一个Reducer任务中处理，这就要求Mapper任务在输出的时候指定哪些数据是相同分类的，承担这个任务的类就是Partitioner类。默认情况下，框架提供了一个HashPartitioner类用于完成这个任务，见图6-12所示。

图6-12

在图6-12中，HashPartitioner中的数据是来自Mapper任务输出的，getPartition()方法有三个形参，key、value分别指的是Mapper任务的输出key和value，numReduceTasks指的是设置的Reducer任务数量，默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0，即Mapper任务的所有输出数据都是到一个Reducer任务。

如果我们想要把Mapper输出的数据进行分类交给不同的Reducer处理，你们就需要继承框架提供的Paritioner类，覆盖其中的getPartition(...)方法。按照不同的分类标准，返回不同的分类索引值。这些索引值从0开始，1、2、3的顺序一直排列下去。

假设我们按照性别分区，那么可以覆盖Partitioner类的getpartition(…)方法，代码如图6-13所示。

图6-13

在图6-13中，我们分别使用0、1、2与numPartitions取模，得到的分类索引就是0、1、2。

三个不同的分类，意味着数据传输到三个不同的Reducer任务处理，意味着要设置3个Reducer任务。可以调用job对象的setNumPartitions(...)方法。

总体代码如图6-14所示。

图6-14

在图6-14中，我们使用了自定义的分区类，并且设置了numReduceTasks。这里的numReduceTasks在内部就把值赋给了分区类中形式参数numPartitions。

强调一下：Reducer任务数量一定不能小于分区数量。否则，一部分分区数据将会无法被处理，运行时会报错。

0 0