hadoop 数据节点故障

来源:互联网 发布:mac上安装什么虚拟机 编辑:程序博客网 时间:2024/05/17 09:30

namenode:50070/dfshealth.jsp显示一个节点dead,但是可以远程ssh过去,说明不是服务器宕掉了。jps没有显示tasktracker、QuorumPeerMain、HRegionServer等进程。通过df命令显示本地空间,发现data3(一共8块硬盘)顺序排在最前面,与平常有异,进入/data3提示“input/output error”.判断是硬盘问题,但是系统还是正常工作的,通过修改hdfs-site.xml里面dfs.data.dir  (hdfs存放的路径)和mapred-site.xml 里面mapred.local.dir(tasktracker相关),去掉了和“data3”相关的目录。把相应的服务重启,数据节点就重新live了。至于data3的具体问题需要明天进机房查看。

  进了机房之后,发现datanode确实有硬盘告警。进入raid之后,发现其中一块明显异常,将硬盘重新插拔后,红色告警消失。但是对raid并不是很懂,同去的同事想单独修复该硬盘的raid信息,但是在clear选项上直接点了yes.无奈重做raid和操作系统。将另一个数据节点的hadoop相关软件全部scp给新装的节点。数据节点已经重新进入了hadoop。期间ssh 和ganglia出了些问题,用百度的方法进行了修复。

ssh问题如下:


有一台服务器app ssh新装的服务器(一下简称dn17)时,虽然可以正常ssh,但是会弹出如下类似提示:

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!Someone could be eavesdropping on you right now (man-in-the-middle attack)!It is also possible that the RSA host key has just been changed.The fingerprint for the RSA key sent by the remote host is36:68:a6:e6:43:34:6b:82:d7:f4:df:1f:c2:e7:37:cc.Please contact your system administrator.Add correct host key in /u/xlian008/.ssh/known_hosts to get rid of this message.Offending key in /u/xlian008/.ssh/known_hosts:2RSA host key for 135.1.35.130 has changed and you have requested strict checking.Host key verification failed.

而其他所有节点访问新装节点都没有该警告,而该服务器访问其他节点也没有提示警告信息。网上找了下,发现在app的known_hosts里面dn17和别的服务器dn17记录不一样,估计保留的是以前的记录,复制修改后就好了

而ganglia信息不能监控到dn17,查看var/logs/,发现路由有问题,修改后也可以正常监控到所有节点物理信息了