Hadoop入门的五个进程的理解(二)

来源:互联网 发布:如何开发聊天软件 编辑:程序博客网 时间:2024/05/16 06:23

1,NameNode:

    相当于一个领导者,负责调度 比如你需要存一个640m的文件    如果按照64m分块 那么namenode就会把这10个块(这里不考虑副本)    分配到集群中的datanode上 并记录对于关系 。    当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。    它主要维护两个map 一个是文件到块的对应关系 一个是块到节点的对应关系

2,secondarynamenode:

它是namenode的一个快照,    会根据configuration中设置的值来决定多少时间周期性的    去cp一下namenode,记录namenode中的metadata及其它数据 

3,NodeManager:

    它是YARN中每个节点上的代理,    它管理Hadoop集群中单个计算节点,包括与ResourceManger    保持通信,监督Container的生命周期管理,监控每个Container的    资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和    不同应用程序用到的附属服务(auxiliary service)。   

4,DataNode:

a,DataNode的需要完成的首要任务是K-V存储 b,完成和namenode 通信 ,这个通过IPC 心跳连接实现。   此外还有和客户端 其它datanode之前的信息交换   c,完成和客户端还有其它节点的大规模通信,这个需要直接通过socket 协议实现。                                                        

5,ResourceManager:

    ResourceManager (RM) 是管理所有可用的集群资源并协助管理运行    在YARN上的分布式应用的主要组件。RM与每个节点的NodeManagers (NMs)    和每个应用的ApplicationMasters (AMs)一起工作。    a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。    b.ApplicationMasters负责与ResourceManager协商资源并    与NodeManagers合作启动容器
0 0