HDFS2.0 NameNode HA 切换失败后的恢复(元数据写坏)(2014.10.1编辑)
来源:互联网 发布:设计师有趣的事 知乎 编辑:程序博客网 时间:2024/04/30 21:13
在测试 HDFS2.0 的 NameNode HA 的时候,并发put 700M的文件,然后 Kill 主 NN ;发现备 NN 切换后进程退出。
2014-09-03 11:34:27,221 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.136.149.96:8485, 10.136.149.97:8485, 10.136.149.99:8485], stream=null))org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 1 successful responses:10.136.149.99:8485: null [success]2 exceptions thrown:10.136.149.97:8485: org/apache/hadoop/io/MD5Hash
然后重启 NN 两个 NN均失败 ,
怀疑是 JN 那里有问题,可能有垃圾产生,bin/hdfs namenode -initializeSharedEdits 启动NN ,还是失败
同步两个NN的 current 元数据目录 , 重启所有 JN, 然后启动 仍然失败 ;
怀疑是 NN 对元数据的合并出了问题, 删除报错开始 的 edits 文件 ,修改 seen_txid 中的 txid 编号;
启动 NN 成功,主备NN 均启动成功。
具体原因还在定位中,但至少环境已经恢复了,最近的edits 被遗弃了。
2014.10.1 added:
原因已经定位出来:使用 stop-dfs.sh 无法停止 JN集群,更新系统包后,使用该命令停止系统后重启,实际上JN没有重启, 切换时加载新类失败异常引起。
stop-dfs.sh 通过grep关键字dfs.namenode.shared.edits.dir得到JNs,而实际上我们长会在配置中,对这个关键字增加自己到 namespace ,所以grep不到。
不过,这里到考虑,应该是多个NN共享JNs ,所以JN 不能随便重启,应该单独维护。
0 1
- HDFS2.0 NameNode HA 切换失败后的恢复(元数据写坏)(2014.10.1编辑)
- 大数据1-Hadoop双namenode配置搭建(HA)
- 磁盘坏,恢复数据失败。
- NameNode HA(翻译)
- HDFS2.X的HA+Resourcemanager的HA
- hdfs haadmin使用,DataNode动态上下线,NameNode状态切换管理,数据块的balance,HA下hdfs-api变化(来自学习资料)
- 大数据 (三)Hadoop-HDFS namenode的HA --- zookeeper的引出
- NAMENODE工作机制,元数据管理(元数据存储机制、元数据手动查看)、元数据的checkpoint、元数据目录说明(来自学习资料)
- HDFS2的新特性:HA和Federation
- hadoop namenode ha--手动切换
- hadoop namenode ha--手动切换
- hadoop namenode ha--手动切换
- 非常规数据恢复的几种场景(利用bbed恢复坏块数据)
- HDFS2.0 HA完整配置过程
- HDFS2.X源码分析之:NameNode写文件原理
- namenode和secondarynamenode的区别和联系及辅助恢复元数据
- 解决NameNode配置HA后Hive路径不正确的问题
- Namenode HA原理详解(脑裂)
- C# 操作INI文件的函数 INIClass
- PPTP/L2TP over PPPoE的準確MTU/MRU值
- IE注册表大全
- 高德地图限制
- 用Jenkins搭建Android自动打包环
- HDFS2.0 NameNode HA 切换失败后的恢复(元数据写坏)(2014.10.1编辑)
- 遍历打印容器元素的函数模板
- ORACLE函数大全
- 在命令行(CMD)修改Java的编译运行环境
- 【NOIP2003】侦探原理 大模拟 附数据 附题解 附注意
- 出生年月日级联
- Entity Framework学习初级篇5--ObjectQuery查询及方法
- 注解Annotation
- 软件开发