hadoop学习笔记（1）

来源：互联网发布：知乎陈茂辉编辑：程序博客网时间：2024/06/15 09:24

hadoop安装目录

1，HDFS架构

2， Hadoop MapReduce 架构

2.1， HDFS 以固定大小的 block 为基本单位存储数据，而对于 MapReduce 而言，其处理单位是 split。

split 与 block 的对应关系如下图所示。 split 是一个逻辑概念，它只包含一些元数据信息，比如数据

起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。但需要注意的是，

split 的多少决定了 Map Task 的数目，因为每个 split 会交由一个 Map Task 处理。

2.2Map Task 执行过程如下图所示。由该图可知， Map Task 先将对应的 split 迭代解析成一

个个 key/value 对，依次调用用户自定义的 map() 函数进行处理，最终将临时结果存放到本地

磁盘上，其中临时数据被分成若干个 partition，每个 partition 将被一个 Reduce Task 处理。

2.3 Reduce Task 执行过程如图 2-8 所示。该过程分为三个阶段①从远程节点上读取 Map

Task 中间结果（称为“Shuffle 阶段”）； ②按照 key 对 key/value 对进行排序（称为“Sort 阶

段”）； ③依次读取 <key, value list>，调用用户自定义的 reduce() 函数处理，并将最终结果

存到 HDFS 上（称为“Reduce 阶段”）。

2.4，Hadoop MapReduce 作业的生命周期

文本内容来自：hadoop技术内幕董西成著

0 0