指明Mapper数据输出方向的Partitioner
来源:互联网 发布:cpda数据分析师教材 编辑:程序博客网 时间:2024/05/09 13:25
Mapper任务的输出会发送到Reducer任务。如果有多个Reducer任务在运行,那么我们希望所有Mapper任务中的不同分类的数据到不同的Reducer任务去处理。比如按照省份划分的话,需要把所有Mapper任务中同一性别的数据送到同一个Reducer任务中处理,这就要求Mapper任务在输出的时候指定哪些数据是相同分类的,承担这个任务的类就是Partitioner类。默认情况下,框架提供了一个HashPartitioner类用于完成这个任务,见图6-12所示。
图6-12
在图6-12中,HashPartitioner中的数据是来自Mapper任务输出的,getPartition()方法有三个形参,key、value分别指的是Mapper任务的输出key和value,numReduceTasks指的是设置的Reducer任务数量,默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0,即Mapper任务的所有输出数据都是到一个Reducer任务。
如果我们想要把Mapper输出的数据进行分类交给不同的Reducer处理,你们就需要继承框架提供的Paritioner类,覆盖其中的getPartition(...)方法。按照不同的分类标准,返回不同的分类索引值。这些索引值从0开始,1、2、3的顺序一直排列下去。
假设我们按照性别分区,那么可以覆盖Partitioner类的getpartition(…)方法,代码如图6-13所示。
图6-13
在图6-13中,我们分别使用0、1、2与numPartitions取模,得到的分类索引就是0、1、2。
三个不同的分类,意味着数据传输到三个不同的Reducer任务处理,意味着要设置3个Reducer任务。可以调用job对象的setNumPartitions(...)方法。
总体代码如图6-14所示。
图6-14
在图6-14中,我们使用了自定义的分区类,并且设置了numReduceTasks。这里的numReduceTasks在内部就把值赋给了分区类中形式参数numPartitions。
强调一下:Reducer任务数量一定不能小于分区数量。否则,一部分分区数据将会无法被处理,运行时会报错。
- 指明Mapper数据输出方向的Partitioner
- Hadoop基于WordCount的Mapper、Reducer、Combiner、Partitioner和自定义多文件输出
- 谁能指明方向?
- 一篇较好的指明java学习方向的文章 转载
- java入门好文章,指明自己的软件开发方向
- 为你指明方向的著名编程语录
- MR Mapper/Reducer、Partitioner初解
- 读研为了什么,为将来指明方向的一篇文章
- 核心思想:尊重老师,找人指路,奋斗靠自己,指明方向,靠善良的前辈
- 计算机读研为了什么,为将来指明方向的一篇文章
- OLTP和OLAP模式下的内存分配 [对数据仓库优化指明了纲领方向]
- 为迷茫的互联网金融指明方向,平安天下通社交金融引发业界讨论
- 杨元庆十年前指明SMB电脑方向
- Hadoop-从mapper中输出不同值的类型的数据
- 未指明的错误
- 如果没有指明输入个数, 如何在需要的时候停止输出。
- 数据行的方向
- hadoop的partitioner
- 企鹅风格为供热火热和任何
- fastdfs安装
- 解决“Rejected request from RFC1918 IP to public server address”的方法
- 9.死锁的概念、导致死锁的原因,导致死锁的四个必要条件,预防死锁的方法、避免死锁的方法
- wordpress 删除 默认分类
- 指明Mapper数据输出方向的Partitioner
- Unity3D 移动开发代码优化
- 大数取余
- Effective Objective-C(第6-10条)对象、属性、equalToString、关联对象
- 深入研究B-树索引
- Ubuntu14.04-i386的虚拟机安装、软件源更新、输入法安装
- windows运行Ubuntu虚拟机 System Interrupt 占用CPU较高
- Android BroadcastReceiver广播
- 东软实训,sql游标的高级使用