当一个节点在CM中出现2条记录,导致启动hadoop集群失败,host_id 始终找不到匹配的host_identifier

来源:互联网 发布:什么叫域名 名词解释 编辑:程序博客网 时间:2024/05/21 10:59

背景: 这是中国联通的一套备份集群。2016年-3月搭建10个节点(后续添加data node). 在这次51节,甲方要求下电。 然后在昨晚上电过程中,启动出现异常。

一个节点,出现2条信息。 最初猜想是启动了2个agent。








通过删除角色,从集群删除节点,都无效。 并且备份参数=1 ,操作要极为小心,不然就直接干掉了节点。


通过删除scm.hosts 中的host_id,还是无效。因为启动始终会产生一个不重复的 id。


最后把slave07 的agent停掉。 然后直接更新   新产生的 host_identifier 到之前角色的的host_id 上。 这样就不会再产生了。





问题搞定。





0 0
原创粉丝点击