Hadoop简介

来源:互联网 发布:ps淘宝9秒视频制作 编辑:程序博客网 时间:2024/06/08 17:26

Hadoop是一个提供分布式存储和计算能力的平台。

Hadoop的运行环境如下图所示:


高级Hadoop架构如下图所示:


HDFS:hadoop的存储组件,其组成组件:NameNode和DataNode,如下图所示:


MapReduce:基于批处理的分布式计算框架;MapReduce模型简化了分布式系统中的并行计算、工作分配和处理不可靠硬件和软件等并行处理过程,让程序员可以更加专注于解决业务需求,而不用纠缠于复杂的分布式系统中。MapReduce将客户端提交的任务分解成一个个小型的Map和Reduce进程(客户端提交MapReduce作业,MapReduce将工作分解成map任务和reduce任务,并安排它们在远程slave节点上执行。)

程序员的主要任务是定义map和reduce函数,map函数用于输出键/值对,然后reduce函数对这些键/值对进行处理并输出最终结果。

Map函数的逻辑如下图所示:


Reduce函数的逻辑如下图所示:

1 0