hadoop学习笔记(1)

来源:互联网 发布:知乎 陈茂辉 编辑:程序博客网 时间:2024/06/15 09:24

hadoop安装目录

1,HDFS架构

2, Hadoop MapReduce 架构

 2.1, HDFS 以固定大小的 block 为基本单位存储数据, 而对于 MapReduce 而言, 其处理单位是 split。
split 与 block 的对应关系如下图所示。 split 是一个逻辑概念, 它只包含一些元数据信息, 比如数据
起始位置、 数据长度、 数据所在节点等。 它的划分方法完全由用户自己决定。 但需要注意的是, 
split 的多少决定了 Map Task 的数目, 因为每个 split 会交由一个 Map Task 处理。
2.2Map Task 执行过程如下图  所示。 由该图可知, Map Task 先将对应的 split 迭代解析成一
个个 key/value 对, 依次调用用户自定义的 map() 函数进行处理, 最终将临时结果存放到本地
磁盘上, 其中临时数据被分成若干个 partition, 每个 partition 将被一个 Reduce Task 处理。

 2.3 Reduce Task 执行过程如图 2-8 所示。 该过程分为三个阶段①从远程节点上读取 Map
Task 中间结果(称为“Shuffle 阶段”); ②按照 key 对 key/value 对进行排序(称为“Sort 阶
段”) ; ③依次读取 <key, value list>, 调用用户自定义的 reduce() 函数处理, 并将最终结果
存到 HDFS 上(称为“Reduce 阶段”)。

 2.4,Hadoop MapReduce 作业的生命周期


文本内容来自:hadoop技术内幕  董西成 著







0 0
原创粉丝点击