程序博客网 > 网络协议的四层模型

NameNode中数据节点的保存(1)——Host2NodesMap

来源：互联网发布：网络协议的四层模型编辑：程序博客网时间：2024/04/30 16:38

对于一台主机，我们可以在它上面部署多个DataNode进程，这也就是说在一台机器上有多个DataNode节点，而且这些DataNode节点属于同一个HDFS集群，那么这里就有一个问题了，NameNode节点是如何考虑整个集群的负载均衡的？如果NameNode节点以DataNode节点为单位来考虑负载均衡的话，就会出现包含有多个DataNode节点的主机负载过重，所以就不得不以主机为单位来计算集群的负载情况了。在NameNode中用Host2NodesMap类来存储主机与DataNode节点之间的映射。

当一个DataNode节点向NameNode注册成功的时候，NameNode就会把这个DataNode节点存储到它的host2DataNodeMap属性中，也就是Host2NodesMap类的一个实例，这个类主要包含三个属性：

map：存储集群中所有主机上的所有DataNode节点；

r：用来随机选择给定主机上的某一个DataNode节点；

hostmapLock：控制对map的同步操作；

Host2NodesMap类主要负责对集群中的DataNode节点按在它们所在的主机进行分类管理，它可用来添加、删除、查询一个DataNode节点，它也可以按照主机或者DataNode的名字来查询。这些操作对应的方法是：

另外还有一个问题，刚才说了，NameNode节点如果只以主机为单位来评估集群的负载情况，其实也是不合理的。例如，在实际的应用中，如果在某个集群里面存在主机配置参差不齐的情况，则对于那些配置很高的主机来说，它们的很多资源会处于空闲状态，其工作量相对于那些配置较低的主机来说已经饱和了。正常的情况下，集群的管理人员会在配置差的主机上部署少量的DataNode节点，在配置高的主机上部署较多的DataNode节点，因次，NameNode节点就不能仅仅只通过主机工作量来评估集群的负载情况了。至于NameNode是如何进行集群的负载均衡的，我会在以后的文章中详细介绍，但是它的实现也不一定很好，大家期望也不要太高。

遗憾的是，Hadoop-0.2.0版本并没有这样考虑集群的负载情况，它用Host2NodesMap结构主要是能够根据某个客户端来获取其上的DataNode节点。但是，我上面猜测的并不是没有任何意义，或许将来Hadoop会把主机负载纳入到集群负载的考虑范围。

0 0

网络协议的四层模型

网络协议的四层模型

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子新能上新新推荐新机会新常态新一线城市排名出炉新出智明 2018新交规朋友借车出事故新出医生新京城四少出炉 2030年标新创异新创新创企业新创云终端英科新创新创电源新创电商手工活新创云计算机有限公司新剧泰剧新剧新剧集 2019新剧看新剧 tvb新剧新剧不能停看新剧吧新剧集影院白鹿新剧颜丹晨新剧新剧推荐 2019新剧上映时间表泰剧新剧大全 2019所有新剧上映时间表泰剧2018新剧大全 2019新剧上映时间表庆余年泰剧2019新剧大全星战9曝新剧照 tvb新剧金霄大厦内在美韩剧新剧在线播放 2018新剧上映时间表