MapReduce学习总结

来源：互联网发布：竹笛教学的软件编辑：程序博客网时间：2024/06/06 01:14

MapReduce是一种分布式计算框架，又称并行计算框架，主要用于搜索领域，解决海量数据的计算问题。MR由两个阶段组成：Map和Reduce，这里用户只需要实现map()和reduce()两个函数，即可实现分布式计算，听起来是不是感觉很简单的样子

如果要对MR有更深入的了解，就需要对MR的执行流程有更深入的了解了。这里先对MR执行流程做一个理论的介绍，之后举例论证这些流程，最后代码实现。

MR执行流程理论介绍，吴超老师号称该流程为天龙八步

1.map任务处理流程

1.1 读取输入文件内容，解析成key、value对(这个时候的键值对一般简称为k1、v1,k1取值一般为文件的偏移量，v1取值为该行的文本值)。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数

1.2写自己业务处理，对输入的key、value处理，转换成新的key、value（这个时候的key、value简称为k2、v2）输出

1.3对输出的key、value进行分区(也就是对数据分类，像红球、白球)。一个分区对应一个reduce函数处理

1.4对不同分区的数据，按照Key进行排序(对象key实现了自身的compare方法，系统自动进行排序)、分组(这里可以理解成对分区的数据按照某一标准在进一步划分，如球的大小)，相同key的value系统会自动放到一个集合中。一个分组对应调用一次reduce函数

1.5分组后的数据进行归约(可选，一般reduce接受到的key、value数据类型跟处理后输出的key、value数据类型一致时才进行归约，归约可以看成合并，节省了在reduce阶段合并的时间，提高了效率)

2.reduce任务处理

2.1 对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。

2.2对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理(这个时候处理出来的key、value是一个key，对应一个value集合)，转换成新的key、value输出。

2.3把reduce的输出保存到文件中。至此，MR处理结束

举例论证

需求：现有一个文件，里面记录了些许英语单词，现在统计这些单词的个数。

1.创建map函数

/** * KEYIN即k1表示行的偏移量 * VALUEIN即v1表示行文本内容 * KEYOUT即k2表示行中出现的单词 * VALUEOUT即v2表示行中出现的单词的次数，固定值1 */static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {final Counter helloCounter = context.getCounter("Sensitive Words", "hello");//MR内置计数器final String line = v1.toString();if(line.contains("hello")){//记录敏感词出现在一行中helloCounter.increment(1L);//自动加1}final String[] splited = line.split("\t");//单词之间以制表符\t分隔for (String word : splited) {context.write(new Text(word), new LongWritable(1));}};}

2.创建reduce函数

/** * KEYIN即k2表示行中出现的单词 * VALUEIN即v2表示行中出现的单词的次数 * KEYOUT即k3表示文本中出现的不同单词 * VALUEOUT即v3表示文本中出现的不同单词的总次数 * */static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {long times = 0L;for (LongWritable count : v2s) {times += count.get();}ctx.write(k2, new LongWritable(times));//输出指定路径的hdfs系统中};}

3.创建执行任务计算job

Configuration conf = new Configuration();final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);final Path outPath = new Path(OUT_PATH);if(fileSystem.exists(outPath)){fileSystem.delete(outPath, true);}final Job job = new Job(conf , WordCountApp.class.getSimpleName());//1.1指定读取的文件位于哪里FileInputFormat.setInputPaths(job, INPUT_PATH);//指定如何对输入文件进行格式化，把输入文件每一行解析成键值对//job.setInputFormatClass(TextInputFormat.class);//1.2 指定自定义的map类job.setMapperClass(MyMapper.class);//map输出的<k,v>类型。如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略//job.setMapOutputKeyClass(Text.class);//job.setMapOutputValueClass(LongWritable.class);//1.3 分区//job.setPartitionerClass(HashPartitioner.class);//有一个reduce任务运行//job.setNumReduceTasks(1);//1.4 TODO 排序、分组//1.5 TODO 规约//2.2 指定自定义reduce类job.setReducerClass(MyReducer.class);//指定reduce的输出类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);//2.3 指定写出到哪里FileOutputFormat.setOutputPath(job, outPath);//指定输出文件的格式化类//job.setOutputFormatClass(TextOutputFormat.class);//把job提交给JobTracker运行job.waitForCompletion(true);

至此，MR整个的理论加举例的整体执行流程已经很清楚了。单词计数的分区、排序、分组执行流程不很明显，现做另外举例讲解。

需求：手机上网会有日志记录，一行日志记录会包含手机号、上网时间戳、上传文件流量、下载流量等一些数据。现统计各个手机号的下载、上传流量的记录和。

1.分区

1.1创建日志记录对象

class KpiWritable implements Writable{long upPackNum;long downPackNum;long upPayLoad;long downPayLoad;public KpiWritable(){}public KpiWritable(String upPackNum, String downPackNum, String upPayLoad, String downPayLoad){this.upPackNum = Long.parseLong(upPackNum);this.downPackNum = Long.parseLong(downPackNum);this.upPayLoad = Long.parseLong(upPayLoad);this.downPayLoad = Long.parseLong(downPayLoad);}@Overridepublic void readFields(DataInput in) throws IOException {this.upPackNum = in.readLong();this.downPackNum = in.readLong();this.upPayLoad = in.readLong();this.downPayLoad = in.readLong();}@Overridepublic void write(DataOutput out) throws IOException {out.writeLong(upPackNum);out.writeLong(downPackNum);out.writeLong(upPayLoad);out.writeLong(downPayLoad);}@Overridepublic String toString() {return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t" + downPayLoad;}}

1.2分区

static class KpiPartitioner extends HashPartitioner<Text, KpiWritable>{@Override//返回的是处理分区数据的reduce函数下标public int getPartition(Text key, KpiWritable value, int numReduceTasks) {return (key.toString().length()==11)?0:1;}}

1.3设置调用分区

//1.3 指定分区类job.setPartitionerClass(KpiPartitioner.class);job.setNumReduceTasks(2);

需求：有数值对 a b ，当第一个数不同时，升序；当第一个数相同时，第二个数升
2.排序，系统自动调用比较函数，进行排序

static class  NewK2 implements WritableComparable<NewK2>{Long first;Long second;public NewK2(){}public NewK2(long first, long second){this.first = first;this.second = second;}@Overridepublic void readFields(DataInput in) throws IOException {this.first = in.readLong();this.second = in.readLong();}@Overridepublic void write(DataOutput out) throws IOException {out.writeLong(first);out.writeLong(second);}@Overridepublic int compareTo(NewK2 o) {final long minus = this.first - o.first;//当k2进行排序时，会调用该方法.当第一列不同时，升序；当第一列相同时，第二列升序if(minus !=0){return (int)minus;}return (int)(this.second - o.second);}@Overridepublic int hashCode() {return this.first.hashCode()+this.second.hashCode();}@Overridepublic boolean equals(Object obj) {if(!(obj instanceof NewK2)){return false;}NewK2 oK2 = (NewK2)obj;return (this.first==oK2.first)&&(this.second==oK2.second);}}

3.分组，需求：按照数值对第一个数分组

3.1.创建分组比较器

static class MyGroupingComparator implements RawComparator<NewK2>{@Overridepublic int compare(NewK2 o1, NewK2 o2) {//返回0表示是同一组return (int)(o1.first - o2.first);}/** * @param arg0 表示第一个参与比较的字节数组 * @param arg1 表示第一个参与比较的字节数组的起始位置 * @param arg2 表示第一个参与比较的字节数组的偏移量 *  * @param arg3 表示第二个参与比较的字节数组 * @param arg4 表示第二个参与比较的字节数组的起始位置 * @param arg5 表示第二个参与比较的字节数组的偏移量 */@Overridepublic int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,int arg4, int arg5) {return WritableComparator.compareBytes(arg0, arg1, 8, arg3, arg4, 8);}}

3.2调用分组比较器

//1.4 TODO 排序、分区job.setGroupingComparatorClass(MyGroupingComparator.class);

0 0