Hadoop YARN 安装

来源:互联网 发布:淘宝女装代理哪家好 编辑:程序博客网 时间:2024/04/29 12:48

Hadoop 2.X的配置教程不多,这里有一篇很好的guide。

这里大概摘了几个要点:

Hadoop之前几乎是MapReduce计算模型的代名词。而从2.X起,Hadoop致力于发展成在集群之上的一个抽象层,在这个抽象层之上可以运行不限于MapReduce的计算,比如用于图处理的Giraph和用于一般的基于内存的计算的Spark。实现这种分离的关键在于YARN(Yet Another Resource Manager)。顾名思义,这是一个资源管理器,为taksk的运行分配容器(container),负责tasks的调度,必要时从HDFS获取数据。类似于HDFS由一个NameNode和多个DataNode构成,YARN主要由一个资源管理器和多个节点管理器组成。前者负责跟踪集群资源的使用情况;后者运行于每一个需要与ResourceManager通信的节点,负责容器的创建。因此,2.X开始的Hadoop可以视为由HDFS和YARN连个组件构成。原来的MapReduce模型仍然可用,只是在YARN上的实现叫做“MapReducev2”。


需要注意的是,配置过程中我们可能会发现一个node的address or port 会有两个。通常,其中一个端口会是IPC端口用于进程间通讯,而另一个是web管理接口(如果有的话)。

0 0
原创粉丝点击