Impala实践之十四:一次Impala节点故障记录(不能启动)
来源:互联网 发布:监控网络接入设备 编辑:程序博客网 时间:2024/04/29 19:52
前言
Impala集群中有两台机器的Impala Daemon不能正常启动,记录一下整个过程和解决方式。
过程
阶段一
Impala集群的状态开始飘红,有两台节点不能正常使用。
这时候发现集群里面有十多个任务正在运行,任务执行时间很长,情况非常不正常。
看了一下sql的内容,有几个sql的确比较耗资源。
阶段二
此时,我先通知不要提交sql,给修复问题留点时间。
正在重启不健康的节点,群里面就有人继续提交了不合理的sql,还在问“为什么集群这么慢?”
此时集群的Hive Metastore Server
服务也飘红了,重启过后几分钟继续变红。
Impala节点还重启失败
阶段三
此时我的心情其实是挺糟糕的,大早上闹这一出,而且还不配合。因此再次强调了一下不要提交sql。然后集群稍微好一点了。
两台机器仍然故障,但是我的权限还不够,不能看到linux层面的错误日志。
因此决定暂时停掉两台Impala节点的使用,并在负载均衡上将两台节点排除,这样机器虽然少了两台,但是集群仍能正常使用。
阶段四
现在主要的问题在于,为什么两台机器Impala节点不能启动,启动后可以再找错误原因。
然后开始排查错误,找运维要了一些权限,开始排查问题,发现再11点的时候cm的agent状况不正常,然后就不健康。那个时候正是有人反复提交几次一些耗时任务的阶段。
然后继续看日志,Impala服务已经不显示什么错误了。主要就在cm和系统层面上了。
猜测:
大致想了,有一种可能,就是agent的故障,很有可能是在某个时间点上cm和impala的内存使用过大,然后Linux系统为了维护系统自身,把Impala和cm agent干掉了,然后因为一些我不知道的原因,agent和Impala节点之间的通信出现了故障,导致我在界面提交了启动指令,但是一直启动失败。
解决:
重启一下agent,然后在启动Impala就行。
总结
没了。
2016-08-18 13:29:12 hzct
- Impala实践之十四:一次Impala节点故障记录(不能启动)
- Impala实践之五:一次系统任务堵塞记录 + 思考
- Impala实践之十五:Impala使用文档
- Impala实践之四:记一次Impala报错的处理和分析过程
- Impala实践之十:impala最佳实践(转、译、整理)
- hadoop-impala十大优化之(8)—impala优化之HDFS缓存最佳实践
- hadoop-impala十大优化之(5)—基准Impala查询最佳实践
- hadoop-impala十大优化之(7)—Impala查询运行时过滤最佳实践
- Impala亲密接触之10:impala最佳实践(转、译、整理)
- Impala实践之十二:impala压缩方式测试
- Impala实践之十三:Impala建表时的关键字
- impala
- IMPALA
- impala
- Impala
- Impala
- Impala
- impala
- 04.接收用户消息
- The word 'localhost' is not correctly spelled 这个问题怎么解决
- c++构造函数和析构函数的区别?
- hdu 3996 Gold Mine【最大权闭包-----最小割最大流Dinic】
- error:LNK2005 已经在*.obj中定义
- Impala实践之十四:一次Impala节点故障记录(不能启动)
- tomcat源码解析(七):server和service
- JPA学习1-5
- android断点续传下载文件
- POJ 2955 Brackets (区间DP)
- 使用phonegap检测网络状态
- 简单爬虫的实现与学习笔记(完)(8/31)
- leetcode 225. Implement Stack using Queues
- Tomcat的 虚拟目录&虚拟主机 配置放方法