MapReduce 简介及实例

来源:互联网 发布:淘宝武士刀没了 编辑:程序博客网 时间:2024/05/26 17:48

MR计算模型的由来

MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷,主要是为了解决其搜索引擎中大规模网页数据的并行化处理。
Google公司发明了MapReduce之后,首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。到目前为止,Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了 Google的GFS和MapReduce的基本原理和主要设计思想。
2004年,开源项目Lucene(搜索索引程序库)和Nutch(搜索引擎)的创始人Doug Cutting发现MapReduce正是其所需要的解决大规模Web数据处理的重要技术,因而模仿Google MapReduce,基于Java设计开发了一个称为Hadoop的开源MapReduce并行计算框架和系统。
自此,Hadoop成为Apache开源组织下最重要的项目,自其推出后很快得到了全球学术界和工业界的普遍关注,并得到推广和普及应用。
MapReduce的推出给大数据并行处理带来了巨大的革命性影响,使其已经成为事实上的大数据处理的工业标准。

MapReduce基本设计思想

  • 对付大数据并行处理:分而治之:
    一个大数据若可以分为具有同样计算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处理速度的最好办法就是采用“分而治之”的策略进行并行化计算。
    MapReduce采用了这种“分而治之”的设计思想,对相互间不具有或者有较少数据依赖关系的大数据,用一定的数据划分方法对数据分片,然后将每个数据分片交由一个节点去处理,最后汇总处理结果。

  • 上升到抽象模型:Map与Reduce:
    MapReduce借鉴了函数式程序设计语言Lisp的设计思想。
    用Map和Reduce两个函数提供了高层的并行编程抽象模型和接口,程序员只要实现这两个基本接口即可快速完成并行化程序的设计。
    MapReduce的设计目标是可以对一组顺序组织的数据元素/记录进行处理。
    现实生活中,大数据往往是由一组重复的数据元素/记录组成,例如,一个Web访问日志文件数据会由大量的重复性的访问日志构成,对这种顺序式数据元素/记录的处理通常也是顺序式扫描处理

  • MapReduce提供了以下的主要功能:
    数据划分和计算任务调度:系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制。
    数据/代码互定位:为了减少数据通信,一个基本原则是本地化数据处理,即一个计算节点尽可能处理其本地磁盘上所分布存储的数据,这实现了代码向数据的迁移;当无法进行这种本地化数据处理时,再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移),但将尽可能从数据所在的本地机架上寻 找可用节点以减少通信延迟。
    系统优化:为了减少数据通信开销,中间结果数据进入Reduce节点前会进行一定的合并处理;一个Reduce节点所处理的数据可能会来自多个Map节点,为了避免Reduce计算阶段发生数据相关性,Map节点输出的中间结果需使用一定的策略进行适当的划分处理,保证相关性数据发送到同一个Reduce节点;此外,系统还进行一些计算性能优化处理,如对最慢的计算任务采用多备份执行、选最快完成者作为结果。
    出错检测和恢复:以低端商用服务器构成的大规模MapReduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,因此 MapReduce需要能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务。同时,系统还将维护数据存储的可靠性,用多备份冗余存储机制提 高数据存储的可靠性,并能及时检测和恢复出错的数据

mapreduce函数的编写

  • map函数
继承Mapper<Object, Object, Object, Object>重写public void map(Object key, Object value, Context context) throws IOException, InterruptedException 方法
  • map函数的输入输出
    map函数每执行一次,处理一条数据
    map的输入,key默认是行号的偏移量,value是一行的内容
    context.write(Object, Object)方法输出
    map的输出是reduce的输入

  • reduce函数

继承Reducer<Object, Object, Object, Object> 重写public void reduce(Object key, Iterable<Object> values, Context context) throws IOException, InterruptedException 方法
  • reduce函数是主要的业务处理和数据挖掘部分
    reduce函数的输入输出
    context.write(data, new IntWritable(1))方法输出
    reduce的输入时map的输出,但不是直接输出,而是按照相同key汇总过后的集合
    context.write(Object, Object)方法输出

  • 编写job

 logger.warn("HelloHadoopSort已启动");        Configuration coreSiteConf = new Configuration();        coreSiteConf.addResource(Resources.getResource("core-site.xml"));        Job job = Job.getInstance(coreSiteConf, "HelloHadoopSort");        job.setJarByClass(HelloHadoopSort.class);        //设置Map和Reduce处理类        job.setMapperClass(SortMapper.class);        job.setReducerClass(SortReducer.class);        //设置map输出类型        job.setOutputKeyClass(IntWritable.class);        job.setOutputValueClass(IntWritable.class);        //设置文件输入输出路径        FileInputFormat.addInputPath(job, new Path("/sort/input"));        FileOutputFormat.setOutputPath(job, new Path("/sort/output"));        boolean flag = job.waitForCompletion(true);        logger.warn("HelloHadoopSort已完成,运行结果:" + flag);
  • map函数
public class WordCountMap extends Mapper<Object,Text,Text,Text> {    @Override    public void map(Object key, Text value, Context context) throws IOException, InterruptedException{        String valuestr = value.toString();        if(valuestr!=null&&!valuestr.trim().equals("")){            String[] array = valuestr.split(" ");            if(array!=null&&array.length>0){                for(String str : array){                    context.write(new Text(str),new Text(""));                }            }        }    }}
  • reduce函数
public class WordCountReduce extends Reducer<Text,Text,Text,IntWritable> {    @Override    public void reduce(Text key, Iterable<Text> values, Context context) throws IOException        , InterruptedException {        int count = 0;        for(Text text : values){            count++;        }        context.write(key,new IntWritable(count));    }}
0 0
原创粉丝点击