MapReduce入门学习

来源:互联网 发布:高级程序算法 编辑:程序博客网 时间:2024/05/21 10:31

        云计算的核心是MapReduce,这几天在云创公司看MapReduce,刚开始搭hadoop环境时,大概看了一下MapReduce的,但只是粗略的了解了一下。现在仔细看来,发现了解的还不够,比如MapRedcue整个过程中的数据流向,如何设置运行参数,应用于哪些场合等。

       最重要的是如何进行MapReduce编程,只有在充分理解MapReduce过程的情况下,才能很好的将具体应用结合起来。光看例子是不够的,例子只是其中一种应用,如何灵活运用,还是要把它的整个运行过程清楚才行,传入参数和传出参数是否可改等。理论知识也是必须的,做什么东西,都是理论+实践。共产党不也一直提倡理论联系实际吗?呵呵,而且可以看到,获诺贝尔学奖或图灵奖的大多数都是提出理论或新算法的,然后有人对此关注了,就把它应用到实际中去了,google搜索的实现也是基于论文基础上的。理论可以指导实践,实践过程中又反馈从而扩展理论的发展。 

       好的,度话不多说了,MapReduce究竟是个什么东西呢?简单来说,就是一个映射,一个归约,大家可以结合hadoop自带的一个经典例子wordcount来理解。

       这里有个配图说明的,WordCount详解

       MapReduce理论综述

      下面有两位大牛的博客是讲解MapReduce数据流的:

       1.http://www.cnblogs.com/wycg1984/archive/2010/03/20/1690276.html

       2.http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882268.html