HADOOP框架的理解

来源：互联网发布：大华监控软件电视编辑：程序博客网时间：2024/04/29 20:49

Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障。

在这里总结一下各种后台的进程

首先是namenode,它位于Master节点上面，负责管理各个节点文件的命名，文件分布的状态信息，会对内存和I/O进行直接管理，hadoop体系中只有这样一个节点，如果坏了的话会崩溃，secondry namenode不仅仅是namenode的备份，它经常存一下namenode的快照，也有其它的用途，datanode则是在各个子节点，负责把HDFS文件读/写到本地。Namenode,Secondary namenode, datanode构成HDFS体系

JobTracker位于Master节点，是用于处理作业（用户提交的代码）的进程，它要决定哪些文件要被用到作业上，然后把作业划分为多个小的task分配到所需文件所在的节点，它还要监控task，并且重启失败的task, Tasktracker位于不同的节点上面datanode,上，每个节点只有一个tasktracker，但一个tasktracker可以启动多个JVM，用于并行执行map或reduce任务，它与jobtracker交互通信，可以告知jobtracker子任务完成情况。

· HDFS：Hadoop分布式文件系统（DistributedFile System）－HDFS（HadoopDistributed File System）

· MapReduce：并行计算框架，0.20前使用org.apache.hadoop.mapred旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API

· Apache HBase：分布式NoSQL列数据库，类似谷歌公司BigTable。

· Apache Hive：构建于hadoop之上的数据仓库，通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。

· Apache Mahout：机器学习算法软件包。

· Apache Sqoop：结构化数据（如关系数据库）与Apache Hadoop之间的数据转换工具。

· ApacheZooKeeper：分布式锁设施，提供类似GoogleChubby的功能，由Facebook贡献。

· Apache Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制

现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

　　如图，最下面一层就是hadoop的核心代码，核心代码之上实现了两个最核心的功能：MapReduce和HDFS，这是hadoop的两大支柱！因为hadoop是Java写的，为了方便其他对Java语言不熟悉的程序员，在这之上又有Pig，这是一个轻量级的语言，用户可以使用Pig用于数据分析和处理，系统会自动把它转化为MapReduce程序。

　　还有一个Hive，很重要！这是一个传统的SQL到MapReduce的映射器，面向传统的数据库工程师。但是不支持全部SQL。还有一个子项目叫HBase，一个非关系数据库，NoSQL数据库，数据是列存储的，提高响应速度，减少IO量，可以做成分布式集群。

ZooKeeper负责服务器节点和进程间的通信，是一个协调工具，因为Hadoop的几乎每个子项目都是用动物做logo，故这个协调软件叫动物园管理员。

如图，两个服务器机柜，每个圆柱代表一个物理机，各个物理节点通过网线连接，连接到交换机，然后客户端通过互联网来访问。其中各个物理机上都运行着Hadoop的一些后台进程。

HDFS:HDFS主要是由下面三个进程/程序构成

Namenode：

也叫名称节点，是HDFS的守护程序（一个核心程序），对整个分布式文件系统进行总控制，会纪录所有的元数据分布存储的状态信息，比如文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，还有对内存和I/O进行集中管理，用户首先会访问Namenode，通过该总控节点获取文件分布的状态信息，找到文件分布到了哪些数据节点，然后在和这些节点打交道，把文件拿到。故这是一个核心节点。

不过这是个单点，发生故障将使集群崩溃。

Secondary Namenode：

在Hadoop中，有一些命名不好的模块，Secondary NameNode是其中之一。从它的名字上看，它给人的感觉就像是NameNode的备份，比如有人叫它第二名称节点，仿佛给人感觉还有后续……但它实际上却不完全是。

最好翻译为辅助名称节点，或者检查点节点，它是监控HDFS状态的辅助后台程序，可以保存名称节点的副本，故每个集群都有一个，它与NameNode进行通讯，定期保存HDFS元数据快照。NameNode故障可以作为备用NameNode使用，目前还不能自动切换。但是功能绝不仅限于此。所谓后备也不是它的主要功能。后续详细解释。

DataNode

叫数据节点，每台从服务器节点都运行一个，负责把HDFS数据块读、写到本地文件系统。这三个东西组成了Hadoop平台其中一个支柱——HDFS体系。

MAP-REDUCE部分：有两个后台进程。

JobTracker

叫作业跟踪器，运行到主节点（Namenode）上的一个很重要的进程，是MapReduce体系的调度器。用于处理作业（用户提交的代码）的后台程序，决定有哪些文件参与作业的处理，然后把作业切割成为一个个的小task，并把它们分配到所需要的数据所在的子节点。

Hadoop的原则就是就近运行，数据和程序要在同一个物理节点里，数据在哪里，程序就跑去哪里运行。这个工作是JobTracker做的，监控task，还会重启失败的task（于不同的节点），每个集群只有唯一一个JobTracker，类似单点的nn，位于Master节点（稍后解释Master节点和slave节点）。

TaskTracker

叫任务跟踪器，MapReduce体系的最后一个后台进程，位于每个slave节点上，与datanode结合（代码与数据一起的原则），管理各自节点上的task（由jobtracker分配），每个节点只有一个tasktracker，但一个tasktracker可以启动多个JVM，用于并行执行map或reduce任务，它与jobtracker交互通信，可以告知jobtracker子任务完成情况。

Master与Slave

　Master节点：运行了Namenode、或者Secondary Namenode、或者Jobtracker的节点。还有浏览器（用于观看管理界面），等其它Hadoop工具。Master不是唯一的！

　Slave节点：运行Tasktracker、Datanode的机器。

1 0