hadoop集群基本守护进程

来源：互联网发布：floyed最短路径算法编辑：程序博客网时间：2024/05/16 05:39

1 namenode 相当于一个领导者，负责调度比如你需要存一个640m的文件如果按照64m分块那么namenode就会把这10个块（这里不考虑副本）分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了

2 QuorumPeerMain Zookeeper集群启动的入口类是QuorumPeerMain来加载配置启动QuorumPeer线程。首先我们来看下QuorumPeer，谷歌翻译quorum是法定人数，定额的意思， peer是对等的意思，那么QuorumPeer中quorum代表的意思就是每个zookeeper集群启动的时候集群中zookeeper服务数量就已经确定了，在每个zookeeper的配置文件中配置集群中的所有机器

事实上着也确定zookeeper在运行中是不能动态扩容的，必须停下服务修改配置才可以；QuorumPeer中peer代表就是集中每个zookeeper角色是对等的没有主从之分，每个zookeeper服务都可以成为leader， follower，observer。

3 journalnode 两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应用于自己的命名空间。standby可以确保在集群出错时，命名空间状态已经完全同步了

4 DFSZKFailoverController 是hadoop-2.7.0中HDFS NameNode HA实现的中心组件，它负责整体的故障转移控制等。它是一个守护进程，通过main()方法启动，继承自ZKFailoverController。

5 resourcemanager 在YARN中，ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）。

6 DataNode 解释Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度存储和检索数据，并且定期向namenode发送他们所存储的块(block)的列表。

7 nodemanager 是YARN中每个节点上的代理，它管理hadoop集群中单个计算节点，包括与ResourceManger保持通信，监督container的生命周期管理，监控每个Container的资源使用（内存、CPU等）情况，追踪节点健康状况，管理日志和不同应用程序用到的附属服务。

阅读全文

0 0