一脸懵逼学习Hdfs---动态增加节点和副本数量管理

来源：互联网发布：linux ping 脚本编辑：程序博客网时间：2024/06/07 18:32

1：按照上篇博客写的，将各个进程都启动起来：

集群规划：
    主机名        　　IP                　　安装的软件                    　　　　运行的进程
   master     192.168.3.129    　　jdk、hadoop                   　　   NameNode、DFSZKFailoverController(zkfc)
   slaver1    192.168.3.130   　　 jdk、hadoop                   　　   NameNode、DFSZKFailoverController(zkfc)
   slaver2    192.168.3.131   　　 jdk、hadoop                    　　 ResourceManager
   slaver3    192.168.3.132   　　 jdk、hadoop                   　　   ResourceManager
   slaver4    192.168.3.133   　　 jdk、hadoop、zookeeper         DataNode、NodeManager、JournalNode、QuorumPeerMain
   slaver5    192.168.3.134   　　 jdk、hadoop、zookeeper         DataNode、NodeManager、JournalNode、QuorumPeerMain
   slaver6    192.168.3.135 　　 jdk、hadoop、zookeeper         DataNode、NodeManager、JournalNode、QuorumPeerMain

2：开始测试动态增加节点和副本数量管理：

　　首先将master节点的datanode挂掉（即少了一个保存文件的副本）：

注意：hadoop datanode节点超时时间设置：

datanode进程死亡或者网络故障造成datanode无法与namenode通信，
namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。
HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：
   timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval。
   而默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。
   需要注意的是hdfs-site.xml 配置文件中的：
   　　heartbeat.recheck.interval的单位为毫秒，
   　　dfs.heartbeat.interval的单位为秒。
所以，举个例子，如果heartbeat.recheck.interval设置为5000（毫秒），dfs.heartbeat.interval设置为3（秒，默认），则总的超时时间为40秒。
   hdfs-site.xml中的参数设置格式：
<property>
<name>heartbeat.recheck.interval</name>
<value>2000</value>
</property>
<property>
<name>dfs.heartbeat.interval</name>
<value>1</value>
</property>

注意：HDFS冗余数据块的自动删除：

在日常维护hadoop集群的过程中发现这样一种情况：
   某个节点由于网络故障或者DataNode进程死亡，被NameNode判定为死亡，
   HDFS马上自动开始数据块的容错拷贝；
   当该节点重新添加到集群中时，由于该节点上的数据其实并没有损坏，
   所以造成了HDFS上某些block的备份数超过了设定的备份数。
   通过观察发现，这些多余的数据块经过很长的一段时间才会被完全删除掉，
   那么这个时间取决于什么呢？
   该时间的长短跟数据块报告的间隔时间有关。
   Datanode会定期将当前该结点上所有的BLOCK信息报告给Namenode，
   参数dfs.blockreport.intervalMsec就是控制这个报告间隔的参数。

   hdfs-site.xml文件中有一个参数：
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>10000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>
   其中3600000为默认设置，3600000毫秒，即1个小时，也就是说，块报告的时间间隔为1个小时，所以经过了很长时间这些多余的块才被删除掉。通过实际测试发现，当把该参数调整的稍小一点的时候（60秒），多余的数据块确实很快就被删除了。

3：停止一下集群，配置一下hadoop datanode节点超时时间设置和HDFS冗余数据块的自动删除，停止集群如下所示：

依次查看一下各个节点的进程启动情况：

然后将slaver5和slaver6的yarn进程停掉：

然后依次关掉zookeeper的进程：如master，slaver1和slaver2都一样，这里不再重复了：

[root@master bin]# ./zkServer.sh stop

现在修改配置一下：hadoop datanode节点超时时间设置和HDFS冗余数据块的自动删除的配置文件hdfs-site.xml：

hadoop datanode节点超时时间设置hdfs-site.xml中的参数设置格式：<property><name>heartbeat.recheck.interval</name><value>2000</value></property><property><name>dfs.heartbeat.interval</name><value>1</value></property>

HDFS冗余数据块的自动删除hdfs-site.xml文件中有一个参数：<property><name>dfs.blockreport.intervalMsec</name><value>10000</value><description>Determines block reporting interval in milliseconds.</description></property>

操作如下所示：

[root@slaver3 hadoop]# vim hdfs-site.xml