Hadoop-2.2.0学习之一Hadoop-2.2.0变化简介

来源:互联网 发布:windows10 卸载mysql 编辑:程序博客网 时间:2024/06/06 16:32

Hadoop-2.2.0在Hadoop-1.x的基础上进行了重大改进,主要体现在HDFS和MapReduce上。下面大体介绍HDFS和MapReduce改进的地方。

首先是HDFS联合。众所周知,在Hadoop-1.x版本中,集群中只有一个NameNode节点,一旦该节点失效就不能自动切换到备用节点,这也是Hadoop-1.x被人诟病的地方之一。为了水平的扩展NameNode服务,在2.x版本中存在多个独立的NameNode或者命名空间(Namespace)。这些独立的NameNode不要求彼此协作,但却是联盟的关系,这也是为什么被称为HDFS联合或者联盟的原因。所有的DataNode节点被NameNode节点们作为公用的存储块的地方,每个DataNode在集群中的所有NameNode中注册,并周期性地发送心跳和块信息报告,同时处理来自所有NameNode的命令。

下一代MapReduce也称为YARN或者MRv2。在hadoop-0.23引入的新的体系结构将JobTracker的两个主要功能资源管理和job生命周期管理分为了单独的组件。新的ResourceManager管理应用程序所使用的计算机资源的全局分配,每个应用一个的ApplicationMaster管理应用程序的调度和协作。一个应用程序或者是从经典MapReduce作业角度来看的一个单独作业,或者是这种作业的一个有向无环图(DAG)。ResourceManager和每台主机一个的NodeManager守护进程组成了计算结构,其中NodeManager管理这台主机上的用户进程。事实上,ApplicationMaster是框架特定的类库,任务是从ResourceManager协调资源以及同NodeManager一起工作进行任务的执行和监控。

上面简单介绍了Hadoop-2.x版本在HDFS和MapReduce上做的重大改进,细节方面的改进以及实现的还需要进一步阅读官方文档和源代码。


1 0