MapReduce计算模型

来源：互联网发布：php decrypt 加密编辑：程序博客网时间：2024/06/17 20:04

模型架构

1、执行MapReduce任务的角色有两个，一个是JobTracker，用于调度工作，另一个是TaskTracker，用于执行工作的2
2、一个Hadoop集群中只有一个JobTracker
3、每个MapReduce任务分为map阶段和reduce阶段

执行流程

这里写图片描述
1、首先将文件读取，然后由map程序处理，map程序将输入读入切出其中的word，并标记它的数目为1，形成< word,1>的形式
2、然后交给reduce处理，reduce程序将相同的key值（也就是word）的value收集起来，形成< word，list of 1>的形式
2、最后将这些1值加起来，即为word的个数，最后将这个< word,value>对以TextOutPutFormat的形式输出到HDFS中

MapReduce的数据流和控制流

WordCount程序执行流程：
这里写图片描述
1、InputSplit是Hadoop用来传送给每个单独的map的数据，存储一个分片长度和一个记录数据位置的数组
2、map程序处理后的数据是写入本地磁盘，而不是HDFS，Reduce读取map的输出数据，合并value，将他们输出到HDFS

注意：reduce任务是可以有多个的，最后每个reduce task都会生成一个输出文件，也可以没有reduce任务，直接那map的输出结果作为最终结果