hadoop namnode 挂掉以及解决的过程记录如下

来源：互联网发布：中日高铁竞争知乎编辑：程序博客网时间：2024/05/22 13:44

现将namnode 挂掉以及解决的过程记录如下：

1、时间（2016-03-08-22:20）

发现namnode2状态为DOWN的告警

2、采取措施

重启namenode2。集群正常

3、分析原因

们的hadoop集群采用的是默认的hadoop-heapsize大小，1000m，内存过小导致namenode2出现内存溢出，日志如下：

4、结论

观察一天到两天，看是否还有此现象出现

5、时间（2016-03-10-08:30）

发现namenode1状态为DOWN的告警

6、采取措施

重启namenode1。集群短暂正常之后两个namenode都挂掉，日志显示内存溢出。进一步重启整个集群，短暂正常后namenode再次挂掉。

此时，修改hadoop_heapsize参数为4G，并调小队列3所允许的最大队列数为4（原为6）。截图如下：

此时，重启其他进程正常，namenode启动失败。于是单独启动namenode，报错如下：

于是重新修改hadoop_heapsize参数如下，重启集群正常。问题解决：

0 0