MapReduce笔记

来源:互联网 发布:车载手机支架推荐知乎 编辑:程序博客网 时间:2024/04/29 00:14

概念:

当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce做了什么:一个数据块对应一个计算任务,然后放到一个计算节点处理该数据块。

数据和代码的关系:就近原则调度处理,减少不必要的通讯。

集群节点待遇:出错检测和恢复。

特性:

重数据、封装实现细节、可扩展

思想来源:

MapReduce的灵感来源于函数式语言(比如Lisp)中的内置函数map和reduce。简单来说,在函数式语言里,map表示对一个列表(List)中的每个元素做计算,reduce表示对一个列表中的每个元素做迭代计算。它们具体的计算是通过传入的函数来实现的,map和reduce提供的是计算的框架。在MapReduce里,Map处理的是原始数据,自然是杂乱无章的,每条数据之间互相没有关系;到了Reduce阶段,数据是以key后面跟着若干个value来组织的,这些value有相关性,至少它们都在一个key下面,于是就符合函数式语言里map和reduce的基本思想了。

这样我们就可以把MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初,终于知道MapReduce为何要这样设计。

参考自MapReduce百度百科

0 0
原创粉丝点击