Partioner解析

来源：互联网发布：js 跨域编辑：程序博客网时间：2024/05/22 03:52

Partioner可以说是MapReduce最神秘的核心设计之一，我们知道map函数处理完成后通过Context对象的write(K,V)函数输出结果，但是这个结果并不是直接写入内存缓冲区，而是有一个Collector对象进行收集。这里可以对map中的context.write(K,V)进一步分析，通过分析可以知道该write()方法是由TaskInputOutputContext对象调用了output.write(key, value)函数提供的，其又继续调用了RecordWriter.write()方法，最终这个RecordWriter的具体实现就是NewOutputCollector收集类器类（MapTask.java中的私有类，对应于有Reduce任务的情况）或者NewDirectOutputCollector收集器类（对应于Reduce数目为0），Collector是MapTask的内部类，也就是说map的输出最终是通过这个类的collector.collect(K,V,partition)收集的，partition是对应的reduce分区号，是Partioner的返回值，也就是应该传输到哪个redcue节点处理的.

HashPartitioner是处理Mapper任务输出的，getPartition()方法有三个形参，源码中key、value分别指的是Mapper任务的输出，numReduceTasks指的是设置的Reducer任务数量，默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务，最终只能输出到一个文件中。

据此分析，如果想要最终输出到多个文件中，在Mapper任务中对数据应该划分到多个区中。那么，我们只需要按照一定的规则让getPartition(…)方法的返回值是0,1,2,3…即可。

大部分情况下，我们都会使用默认的分区函数，但有时我们又有一些，特殊的需求，而需要定制Partition来完成我们的业务

控制不同的数据到不同的分区。

0 0