Hadoop详解(四)——Shuffle原理,Partitioner分区原理,Combiner编程,常见的MR算法

来源:互联网 发布:关闭miui优化会怎么样 编辑:程序博客网 时间:2024/05/16 01:52

Partitioner编程

Partition简介

shuffle是通过分区partitioner 分配给Reduce的 一个Reducer对应一个记录文件
Partitioner是shuffle的一部分
partitioner执行时机:在mapper执行完成,Reducer还没有执行的时候,mapper的输出就是partitioner的输入 即<k2,v2>
partitioner 分区主要是用来提高效率的 例如从全国基站的数据中查找北京基站的数据,如果计算时不分区全国的数据都放在一起,查询的时候就相当于全表扫描 效率非常低,如果在第一次进行Mapreducer计算的时候按照省市进行分区,每个城市的基站数据都存储在对应的每个文件,那么下次再进行查询的时候直接从北京分区里直接查找 效率很高。
分区的依据是具体业务需求,可以按照省市分区,时间进行分区等。
如果不手动进行分区,Hadoop有一个默认的分区规则
Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。HashPartitioner是mapreduce的默认partitioner。计算方法是which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks,得到当前的目的reducer。

Partitioner原理


以上流程省略了shuffle的过程
DataNode在此处用于下载jar
NodeManager用于运行Yarn 由YarnChild运行Mapper或Reducer
当启动一个Reducer时会分配一个分区号 默认是按数字分区
Partitioner是Shuffle的一部分,当Partition的返回值是N时 会将shuffle的结果输出给对应的分区号为N的Reducer
一个Reducer对应一个分区文件 Reducer计算完毕后就会按照分区号写入对应的分区文件

Partitioner编程

① 先分析一下具体的业务逻辑,确定大概有多少个分区
② 首先书写一个类,它要继承org.apache.hadoop.mapreduce.Partitioner这个类
③ 重写public int getPartition这个方法,根据具体逻辑,读数据库或者配置返回相同的数字
④ 在main方法中设置Partioner的类,job.setPartitionerClass(DataPartitioner.class);
⑤ 设置Reducer的数量,job.setNumReduceTasks(6);
实例如下:
日志数据:HTTP_20130313143750.dat
1363157985066 1372623050300-FD-07-A4-72-B8:CMCC120.196.100.82i02.c.aliimg.com24272481246812001363157995052 138265441015C-0E-8B-C7-F1-E0:CMCC120.197.40.44026402001363157991076 1392643565620-10-7A-28-CC-0A:CMCC120.196.100.992413215122001363154400022 139262511065C-0E-8B-8B-B1-50:CMCC120.197.40.44024002001363157993044 1821157596194-71-AC-CD-E6-18:CMCC-EASY120.196.100.99iface.qiyi.com视频网站1512152721062001363157995074 841384135C-0E-8B-8C-E8-20:7DaysInn120.197.40.4122.72.52.122016411614322001363157993055 13560439658C4-17-FE-BA-DE-D9:CMCC120.196.100.99181511169542001363157995033 159201332575C-0E-8B-C7-BA-20:CMCC120.197.40.4sug.so.360.cn信息安全20203156293620013631579830191371919941968-A1-B7-03-07-B1:CMCC-EASY120.196.100.824024002001363157984041 136605779915C-0E-8B-92-5C-20:CMCC-EASY120.197.40.4s19.cnzz.com站点统计24969606902001363157973098 150136858585C-0E-8B-C7-F7-90:CMCC120.197.40.4rank.ie.sogou.com搜索引擎2827365935382001363157986029 15989002119E8-99-C4-4E-93-E0:CMCC-EASY120.196.100.99www.umeng.com站点统计3319381802001363157992093 13560439658C4-17-FE-BA-DE-D9:CMCC120.196.100.9915991849382001363157986041 134802531045C-0E-8B-C7-FC-80:CMCC-EASY120.197.40.4331801802001363157984040 136028465655C-0E-8B-8B-B6-00:CMCC120.197.40.42052.flash2-http.qq.com综合门户1512193829102001363157995093 1392231446600-FD-07-A2-EC-BA:CMCC120.196.100.82img.qfc.cn1212300837202001363157982040 135024688235C-0A-5B-6A-0B-D4:CMCC-EASY120.196.100.99y0.ifengimg.com综合门户5710273351103492001363157986072 1832017338284-25-DB-4F-10-1A:CMCC-EASY120.196.100.99input.shouji.sogou.com搜索引擎2118953124122001363157990043 1392505741300-1F-64-E1-E6-9A:CMCC120.196.100.55t3.baidu.com搜索引擎696311058482432001363157988072 1376077871000-FD-07-A4-7B-08:CMCC120.196.100.82221201202001363157985066 1372623888800-FD-07-A4-72-B8:CMCC120.196.100.82i02.c.aliimg.com24272481246812001363157993055 13560436666C4-17-FE-BA-DE-D9:CMCC120.196.100.9918151116954200
根据手机号的前几位既可以查找手机号和归属地或运营商的映射关系
这种映射关系在实际开发中一般存储在数据库中,通过web项目的Service查询数据库得到
需求:统计每个手机号的上行总流量,下行总流量,总流量,并按照手机号进行分区存储。
代码如下:
DataBean(自定义Bean)
package liuxun.hadoop.mr.dc;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class DataBean implements Writable {private String tel;private long upPayLoad;private long downPayLoad;private long totalPayLoad;public DataBean() {}public DataBean(String tel, long upPayLoad, long downPayLoad) {this.tel = tel;this.upPayLoad = upPayLoad;this.downPayLoad = downPayLoad;this.totalPayLoad = upPayLoad + downPayLoad;}@Overridepublic String toString() {return this.upPayLoad + "\t" + this.downPayLoad + "\t" + this.totalPayLoad;}public void readFields(DataInput in) throws IOException {this.tel = in.readUTF();this.upPayLoad = in.readLong();this.downPayLoad = in.readLong();this.totalPayLoad = in.readLong();}// 注意两点:写入的顺序和写入的类型public void write(DataOutput out) throws IOException {out.writeUTF(tel);out.writeLong(upPayLoad);out.writeLong(downPayLoad);out.writeLong(totalPayLoad);}public String getTel() {return tel;}public void setTel(String tel) {this.tel = tel;}public long getUpPayLoad() {return upPayLoad;}public void setUpPayLoad(long upPayLoad) {this.upPayLoad = upPayLoad;}public long getDownPayLoad() {return downPayLoad;}public void setDownPayLoad(long downPayLoad) {this.downPayLoad = downPayLoad;}public long getTotalPayLoad() {return totalPayLoad;}public void setTotalPayLoad(long totalPayLoad) {this.totalPayLoad = totalPayLoad;}}
DataCountPartition (编写计算模型)
package liuxun.hadoop.mr.dc;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Partitioner;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class DataCountPartition {public static class DCMapper extends Mapper<LongWritable, Text, Text, DataBean> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// acceptString line = value.toString();// splitString[] fields = line.split("\t");String tel = fields[1];long up = Long.parseLong(fields[8]);long down = Long.parseLong(fields[9]);DataBean bean = new DataBean(tel, up, down);// sendcontext.write(new Text(tel), bean);}}public static class DCReducer extends Reducer<Text, DataBean, Text, DataBean> {@Overrideprotected void reduce(Text key, Iterable<DataBean> values, Context context)throws IOException, InterruptedException {long up_sum = 0;long down_sum = 0;for (DataBean bean : values) {up_sum += bean.getUpPayLoad();down_sum += bean.getDownPayLoad();}DataBean bean = new DataBean("", up_sum, down_sum);context.write(key, bean);}}public static class ProviderPartitioner extends Partitioner<Text, DataBean> {private static Map<String, Integer> prividerMap = new HashMap<String, Integer>();static {// 实际开发时是从数据库加载这种映射关系的// 1:中国移动 2:中国联通 3:中国电信prividerMap.put("135", 1);prividerMap.put("136", 1);prividerMap.put("137", 1);prividerMap.put("150", 2);prividerMap.put("159", 2);prividerMap.put("182", 3);prividerMap.put("183", 3);}// 此方法的返回值是分区号// key: mapper一次输出的key 这里是手机号// key: mapper一次输出的Value 这里是DataBean// numPartitions:分区数量,由Reducer的数量决定,启动几个Reducer就会有几个partition@Overridepublic int getPartition(Text key, DataBean value, int numPartitions) {// 根据手机号得到运营商 此处根据key进行分区,实际开发中也可以根据value进行分区String account = key.toString();String sub_acc = account.substring(0, 3);Integer code = prividerMap.get(sub_acc);if (code == null) {code  =0;}return code;}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(DataCountPartition.class);job.setMapperClass(DCMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(DataBean.class);FileInputFormat.setInputPaths(job, new Path(args[0]));job.setReducerClass(DCReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(DataBean.class);FileOutputFormat.setOutputPath(job, new Path(args[1]));job.setPartitionerClass(ProviderPartitioner.class);// 设置启动Reducer的数量job.setNumReduceTasks(Integer.parseInt(args[2]));job.waitForCompletion(true);}}
① 首先将日志数据上传至HDFS  
② 将以上程序打包成WCP.jar  —>上传至Linux主机—>hadoop jar  /日志地址  /统计结果地址 /reducer数量
hadoop fs -put HTTP_20130313143750.dat /log.txt
hadoop jar WCP.jar /log.txt /logResult 4
查看统计结果
[root@hadoop0 Desktop]# hadoop fs -ls /logResult
Found 5 items
-rw-r--r--   1 root supergroup          0 2017-08-31 19:02 /logResult/_SUCCESS
-rw-r--r--   1 root supergroup        175 2017-08-31 19:02 /logResult/part-r-00000
-rw-r--r--   1 root supergroup        241 2017-08-31 19:02 /logResult/part-r-00001
-rw-r--r--   1 root supergroup         80 2017-08-31 19:02 /logResult/part-r-00002
-rw-r--r--   1 root supergroup         55 2017-08-31 19:02 /logResult/part-r-00003
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00000
13480253104     180     180     360
13826544101     264     0       264
13922314466     3008    3720    6728
13925057413     11058   48243   59301
13926251106     240     0       240
13926435656     132     1512    1644
84138413        4116    1432    5548
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00001
13502468823     7335    110349  117684
13560436666     1116    954     2070
13560439658     2034    5892    7926
13602846565     1938    2910    4848
13660577991     6960    690     7650
13719199419     240     0       240
13726230503     2481    24681   27162
13726238888     2481    24681   27162
13760778710     120     120     240
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00002
15013685858     3659    3538    7197
15920133257     3156    2936    6092
15989002119     1938    180     2118
[root@hadoop0 Desktop]# hadoop fs -cat /logResult/part-r-00003
18211575961     1527    2106    3633
18320173382     9531    2412    11943
注意:
分区的程序不可在Eclipse上运行,因为在Eclipse上运行的是本地模式,始终只会启动一个mapper和一个reducer 不能实现分区
指定分区数如果小于写入所需的最大分区数量 会抛出异常
如果大于写入所需的最大分区数量  不会抛异常 但是多余的分区不会存储数据
所以在指定分区的时候数量要大于或等于最所需的最大分区数量 

排序

如果没有自定义排序规则则 如果k2的类型是Text默认按照k2的字典顺序进行排序
MapReducer 实现原理就是迭代式编程,如果一个MapReduce无法完成具体的需求,可以实现多个MapReduce,就是可以将一个MapReduce的输出的内容作为中间结果作为另一个MapReducer的输入
如果要实现排序 参数中的Bean对象要实现WritableComparable接口 此接口是Writable的子接口
注意:如果业务比较复杂,可以编写多个MapReduce迭代编程处理
实例:
交易信息trade_info
zhangsan@163.com600002014-02-20lisi@163.com200002014-02-20lisi@163.com01002014-02-20zhangsan@163.com300002014-02-20wangwu@126.com900002014-02-20wangwu@126.com02002014-02-20
需求:将每个用户的总支出、总收入以及总结余统计出来,并进行排序,首先按照收入高低进行排序,收入相同的按照支出的多少进行排序
代码编写:
① 自定义BeanInfo实现WritableComparable接口,并重写compareTo方法和toString方法
package liuxun.hadoop.mr.sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class InfoBean implements WritableComparable<InfoBean> {private String account; // 账号private double income;  // 收入private double expenses;// 支出private double surplus; // 结余public void set(String account,double income,double expenses) {this.account = account;this.income = income;this.expenses = expenses;this.surplus = this.income - this.expenses;}// 序列化public void write(DataOutput out) throws IOException {out.writeUTF(account);out.writeDouble(income);out.writeDouble(expenses);out.writeDouble(surplus);}// 反序列化public void readFields(DataInput in) throws IOException {this.account = in.readUTF();this.income = in.readDouble();this.expenses = in.readDouble();this.surplus = in.readDouble();}public int compareTo(InfoBean o) {if (this.income == o.getIncome()) {return this.expenses > o.getExpenses() ? 1 : -1;}else {return this.income > o.getIncome() ?  -1 :1;}}public String getAccount() {return account;}public void setAccount(String account) {this.account = account;}public double getIncome() {return income;}public void setIncome(double income) {this.income = income;}public double getExpenses() {return expenses;}public void setExpenses(double expenses) {this.expenses = expenses;}public double getSurplus() {return surplus;}public void setSurplus(double surplus) {this.surplus = surplus;}// 注意:toString方法决定了Bean写入文件的顺序@Overridepublic String toString() {return income+"\t"+expenses+"\t"+surplus+"\t";}   }
② 编写MR进行统计(SumStep)
package liuxun.hadoop.mr.sort;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class SumStep {public static class SumMapper extends Mapper<LongWritable, Text, Text, InfoBean> {private Text k = new Text();private InfoBean v = new InfoBean();@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();String[] fields =  line.split("\t");String account = fields[0];double in = Double.parseDouble(fields[1]);double out = Double.parseDouble(fields[2]);k.set(account);v.set(account, in, out);context.write(k, v);}}public static class SumReducer extends Reducer<Text, InfoBean, Text, InfoBean>{private InfoBean v = new InfoBean();@Overrideprotected void reduce(Text key, Iterable<InfoBean> value,Context context)throws IOException, InterruptedException {double in_sum = 0;double out_sum = 0;for (InfoBean bean : value) {in_sum +=  bean.getIncome();out_sum += bean.getExpenses();}v.set("", in_sum, out_sum);context.write(key, v);}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(SumStep.class);job.setMapperClass(SumMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(InfoBean.class);FileInputFormat.setInputPaths(job, new Path(args[0]));job.setReducerClass(SumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(InfoBean.class);FileOutputFormat.setOutputPath(job, new Path(args[1]));job.waitForCompletion(true);}}
③ 编写MR实现对统计结果进行排序 SortStep
package liuxun.hadoop.mr.sort;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class SortStep {public static class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {private InfoBean k = new InfoBean();@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();String[] fields = line.split("\t");String account = fields[0];double in = Double.parseDouble(fields[1]);double out = Double.parseDouble(fields[2]);k.set(account, in, out);context.write(k, NullWritable.get());}}public static class SortReducer extends Reducer<InfoBean, NullWritable, Text, InfoBean> {private Text k = new Text();@Overrideprotected void reduce(InfoBean bean, Iterable<NullWritable> value, Context context)throws IOException, InterruptedException {String account = bean.getAccount();k.set(account);context.write(k, bean);}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf );job.setJarByClass(SortStep.class);job.setMapperClass(SortMapper.class);job.setMapOutputKeyClass(InfoBean.class);job.setMapOutputValueClass(NullWritable.class);FileInputFormat.setInputPaths(job, new Path(args[0]));job.setReducerClass(SortReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(InfoBean.class);FileOutputFormat.setOutputPath(job, new Path(args[1]));job.waitForCompletion(true);}}
执行步骤:
首先将trade_info上传至HDFS
再对统计程序进行打包 SumStep.jar
其次对排序程序打包 SortStep.jar  
将jar包上传至Linux主机,步骤如下:
hadoop fs -put trade_info.txt /trade_info 
hadoop jar SumStep.jar /trade_info /sumResult
hadoop jar SortStep.jar  /sumResult /sortResult
[root@hadoop0 Desktop]# hadoop fs -cat /sortResult/part-r-00000
zhangsan@163.com        9000.0  0.0     9000.0
wangwu@126.com  9000.0  200.0   8800.0
lisi@163.com    2000.0  100.0   1900.0

Combiners编程

每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量
combiner最基本是实现本地key的归并,combiner最基本是实现本地key的归并,combiner有类似于本地reducer的功能。如果不使用combiner,那么所有的结果都是Reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。
注意:Combiner的输出是Reducer的输入,如果combiner是可插拔的,添加combiner绝对不能改变最终计算结果。所以在可插拔的情况下Combiner只应该用于那种和Reduce的输入key/value与输出key/value类型完全一致,且不影响最终结果的场景。比如累加,最大值等。
p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px '.PingFang SC'; color: #454545}p.p2 {margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px 'Helvetica Neue'; color: #454545}span.s1 {font: 12.0px 'Helvetica Neue'}span.s2 {font: 12.0px '.PingFang SC'}span.Apple-tab-span {white-space:pre}

注意:

如果数据量大的时候使用Combiner的情况效率高

如果数据量很小的话 有可能会更慢 毕竟又增加了一个部分

如果Combiner是可插拔的(有Combiner或没有Combine都不会影响运行结果),那么Combiner的功能和Reducer的功能就是相同的。

Combine也可以是不可插拔的,例如实际开发中经常使用CombineMapper端做数据过滤。

例如求总的平均数 Combine就不能和Reducer一样

如果一样:

a.txt363Combine12/3=4

b.txt25Combine7/2=3.5

Reducer:(4+3.5)/2=3.75 != 3.8

只可以按照以下的方式运算:

a.txt363Combine123

b.txt25Combine72

Reducer:(12+7)/(3+2)=3.8

实例:例如WordCount程序就是 Combiner和Reducer功能相同 可插拔的,流程分析如下:
① 没有使用Combiner的情况

② 使用Combiner的情况

注意:Combiner的实现和Reduce相同,都是继承Reducer类。
使用方式 job.setCombinerClass(WCReducer.class);
当Combiner和Reducer的功能相同时,即可插拔的,这种情况下Reducer类即是Combiner

Shuffle原理******


一个切片对应一个map ,每一个map对应一个在内存中的环形缓冲区,用来存储map的输出,缓冲区的大小默认是100M
当map向环形缓冲区写入数据达到一定阀值,就是超出一定范围(80%) 就会启动一个后台线程将缓冲区数据溢写到磁盘,注意:不仅仅是将数据存入到磁盘,而是经过很复杂的过程,写入磁盘之前首先将数据按照分区规则进行分区,如果没有指定分区规则,就会按照Hadoop默认的分区规则进行分区,然后按照排序规则对分区内的数据按照k2(map输出的key即reducer输入的key)进行排序 ,如果k2是Text类型 则按照k2的字典顺序的排序规则,如果是Bean按照自定义的排序规则排序,然后得到多个分区且排序的小文件。分区是按照分区号排序,分区内的数据是按照k2的排序规则进行排序,小文件内可以有多个分区。由于map向缓存区中存数据速度远远比缓冲区向磁盘写数据的速度,所以当缓冲区中的数据达到80%,map就会阻塞,停止向缓冲区存入数据,直到缓冲区中的数据写入到多个小文件并清空缓冲区,才让map继续向缓冲区存入数据,之所以写入多个小文件,是因为文件越小排序的速度越快。注意:一个分区如果过大可能存在于多个小文件之中。在得到多个分区且排序的小文件后要进行合并,合并规则是按照分区号将多个小文件中的部分分区数据合并成对应分区号的完整分区数据里面,在合并的同时再对分区内的多个部分数据按照k2排序规则进行一次排序。
小文件1:[1号分区[1,1,3,4], 2号分区[2,3], 3号分区[1,5]]
小文件2:[1号分区[3,2], 2号分区[1,2,3], 3号分区[6,7]]
小文件3:[1号分区[4,5], 2号分区[6], 3号分区[3,4,8]]
(这里的数据1,2,3.....代表以key排序的键值对 假设1代表<a,v1> 2:<b,v2> 3:<c,v3>)
注意:小文件中的内容按分区号排序,分区内容按照k2进行排序,但是分区中的内容并没有按照key值进行合并。
合并后的大文件:
大文件:[1号分区[<a,{v1,v1}>,<b,{v2}>,<c,{v3,v3}>,<d,{v4,v4}>,<e,{v5}], 2号分区[……], 3号分区[……]]
然后得到了一个分区且排序的大文件,并向上级汇报信息后,map的任务就完成了。
接着对应分区号的Reduce会从多个Map输出的大文件中取出对应分区的数据然后合并,进行排序 合并成多个排序的文件,最后进行合并排序计算后写入到对应的分区中 写入到HDFS内。

默认的分区规则

默认的分区规则类:HashPartitioner(org.apache.hadoop.mapreduce.lib.partition)

&是二进制“与”运算,参加运算的两个数的二进制按位进行运算,运算的规律是:
0 & 0=0
0 & 1=0
1 & 0=0
1 & 1=1
对于参加运算的数要换算为二进制进行运算,例如3 & 2的结果是2,过程如下:
3 & 2
=0111 & 0010
=0010
=2
与的计算规则是,如果两个二进制数都为真(或为1),其结果为真,如果两位数中有一位为假(或为0)者结果为假
按照key的哈希值和最大整型数进行与操作然后对启动的Reducer数量进行取余操作 得到分区号
如果不指定Reducer的数量,默认只启动一个Reducer 则取余结果均为0,所以最终结果只会存入到0号分区
假设:启动reducer的数量为4
1 % 4 = 1
2 % 4 = 2
3 % 4 = 3
4 % 4 = 0
5 % 4 = 1
6 % 4 = 2
……   获取的分区号始终在0~3之间 每个分区号出现的概率相当
此算法的好处就是可以将数据均匀的分布到每个Reducer,不至于使某个Reducer的压力过大。(每个Reducer对应磁盘上的一个分区文件)

Hadoop1.0~Hadoop2.0演变

1.0中Hadoop的核心是JobTracker,它既要监控全局的任务又要负责资源的分配,所谓的资源分配就是决定在哪些机器上运行MapReducer。这会导致JobTracker的压力非常大。
在Hadoop2.0之后,就将JobTracker进行了拆分,将资源的分配交给了ReourceManager完成,将任务的监控交给了AppMater, 只要启动了一个计算任务(MapReduce)就会启动一个AppMaster。

Hadoop1.0通讯过程


JobTracker将任务切片分配给每个TaskTracker,每个TaskTracker可以启动多个child,child会启动一个Reducer或Mapper来完成任务。当其中一个Mapper完成分配的任务后会将Mapper输出结果的描述信息(输出的数据的存储位置 例如数据在哪个文件路径,哪个分区)汇报给自己的TaskTracker,TaskTracker会将此信息通过RPC协议传递给JobTracker,而Reducer会启动一个后台进程不断的向JobTracker询问任务信息,从而从JobTracker获取Mapper输出数据的描述信息,然后根据描述信息通过Http协议从指定的位置下载到本地 进行运算。
注意:由于reducer可能执行失败,因此TaskTracker并没有在第一个reducer检索到map输出时就立即从磁盘删除它们,TaskTracker会一直等待,直到JobTracker告知它可以删除map的输出。

Hadoop2.0通讯过程


Hadoop2.0之后由ResourceManager(Yarn的老大)负责任务的分配,NodeManager(Yarn的小弟)负责管理当前节点的状态,一台主机只会有一个NodeManager,NodeManager可以启动多个YarnChild,每个YarnChild 负责启动Map和Reduce完成任务。每次启动一个计算任务都会在其中的一个NodeManager所管理的节点中开启一个MrAppMaster负责监控当前计算的所有任务切片,当mapper完成任务后会直接将结果描述信息通过RPC汇报给MrAppMaster,而Reducer会不断的访问MrAppMaster获取Mapper输出结果的描述信息,根据描述信息找到输出结果的位置,再通过Http协议下载到本地并执行计算任务。

MR实现倒排序索引


要想知道当前读取的数据存在于哪个文件中,可以通过mapper的map()方法中的context对象获取输入的任务切片对象InputSplit 它是一个抽象类,要转成FIleSplit
FileSplit inputSplit = (FileSplit) context.getInputSplit();
注意:在使用字符串拼接时,如果涉及到多线程要使用StringBuffer,StringBuffer和StringBuilder都可做字符串的拼接,但是,StringBuffer是线程安全的 速度相对较慢,StringBuilder是不是线程安全的,但是速度较快。
根据输入和输出的信息逆向推理:

推断的伪代码如下
Map阶段
<0,"hello tom">
....
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->b.txt",1);
context.write("hello->b.txt",1);
context.write("hello->c.txt",1);
context.write("hello->c.txt",1);
--------------------------------------------------------
combiner阶段
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->b.txt",1>
<"hello->b.txt",1>
<"hello->c.txt",1>
<"hello->c.txt",1>

context.write("hello","a.txt->3”);
context.write("hello","b.txt->2”);
context.write("hello”,”c.txt->2”);
--------------------------------------------------------
Reducer阶段
<"hello",{"a.txt->3”,”b.txt->2”,”c.txt->2”}>

context.write("hello","a.txt->3 b.txt->2 c.txt->2”);
-------------------------------------------------------
hello  a.txt->3 b.txt->2 c.txt->2
.......
代码实现:
InverseIndex
package liuxun.hadoop.mr.ii;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.input.FileSplit;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/** * 反向索引 *  * @author liuxun * */public class InverseIndex {public static class IndexMapper extends Mapper<LongWritable, Text, Text, Text>{private Text k = new Text();private Text v = new Text();@Overrideprotected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException {String line = value.toString();String[] words = line.split(" ");// 可以从context中获取当前读取输入切片的信息FileSplit inputSplit = (FileSplit) context.getInputSplit();String path = inputSplit.getPath().toString();// 格式是:hdfs://hostName:9000/directory ../filename// 获取截取的部分 /directory.../filenamefor (String word : words) {k.set(word+"->"+path);v.set("1");context.write(k, v);}}}public static class IndexCombiner extends Reducer<Text, Text, Text, Text>{private Text k = new Text();private Text v = new Text();@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context)throws IOException, InterruptedException {String[] wordAndPath = key.toString().split("->");String word = wordAndPath[0];String path = wordAndPath[1];int counter = 0;for (Text t : values) {counter += Integer.parseInt(t.toString());}k.set(word);    v.set(path+"->"+counter);context.write(k,v);}}public static class IndexReducer extends Reducer<Text, Text, Text, Text>{private Text v = new Text();@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context)throws IOException, InterruptedException {StringBuilder resultBuilder = new StringBuilder();for (Text t : values) {resultBuilder.append((t.toString()+"\t").toCharArray());}v.set(resultBuilder.toString());context.write(key,v );}}public static void main(String[] args) throws Exception {Configuration conf  = new Configuration();Job job  =Job.getInstance(conf);job.setJarByClass(InverseIndex.class);job.setMapperClass(IndexMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);FileInputFormat.setInputPaths(job, new Path(args[0]));job.setCombinerClass(IndexCombiner.class);job.setReducerClass(IndexReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);FileOutputFormat.setOutputPath(job, new Path(args[1]));job.waitForCompletion(true);}}
打包测试 OK

原创粉丝点击