Storm 集群监控报警-问题排查记录
来源:互联网 发布:教师培训网络课程平台 编辑:程序博客网 时间:2024/05/01 10:14
Storm 集群监控报警-问题排查记录
1. 问题一、cpu繁忙
1.1. 报警信息
PROBLEM P0 Endpoint:xxx Metric:cpu.idle Tags: all(#3): 12.84751⇐20 Note:cpu繁忙 Max:3, Current:1 Timestamp:2016-07-27 15:10:00
1.2. 排查步骤
1、查看集群host,终端a0xx对应Strom Bxx 集群,ip地址1xxx。
2、通过openfalcon搜索StormManagerStormDBD_StormBJ004_System,查看cpu.idle界面
3、在15:07左右,cpu.idle<20%
4、登录supervisor节点,在/opt/logs/stormlog3目录下查看supervisor.log,日志信息是:2016-07-27 15:07:39 b.s.d.supervisor [INFO] 89a46d5d-3e30-4f46-92d3-ac3a2d38a050 still hasn't started
5、登录集群nimbus节点,在/opt/logs/stormlog3目录下查看nimbus.log:tail nimbus.log。
6、发现日志中发生了任务重启:2016-07-27 15:07:36 b.s.d.nimbus [INFO] Setting new assignment for topology id Real_Yk_Album_VvCount-19-1469603255:……
1.3. 分析
任务重启导致队列中消息增多,cpu处理繁忙。
2. 问题二、cpu波动
2.1. 报警信息
2.2. 排查步骤
询问相关用户是否是业务代码有问题。
3. 问题三、cpu分配不均匀
3.1. 报警信息
3.2. 排查步骤
fdxxx任务使用了三个worker,cpu使用率差异100倍,这种情况需要解决一下,以免影响任务的正常执行。
4. 问题四、任务的tps有大幅增加
4.1. 报警信息
4.2. 排查步骤
从adxxx任务的tps来看,最近2个月有2次数据的上升,任务的worker数量一直没有变化。建议将worker数从15设置为20个。
5. 问题五、磁盘IO吃紧
通常去找哪些任务的日志增长比较快,问题基本是由于这带来的。
- Storm 集群监控报警-问题排查记录
- Shell脚本监控Storm集群,邮件报警
- storm问题排查
- storm集群的监控
- storm集群的监控
- kubernetes集群问题排查
- storm记录--5-- Storm集群安装
- apache storm集群配置记录
- 使用Thrift API监控Storm集群
- 结合Ansible技术监控Storm集群
- 监控集群的磁盘空间使用量,超阀值发送报警邮件
- mc集群写入恍惚问题排查
- 使用Thrift API监控Storm集群和Topology
- 使用Thrift API监控Storm集群和Topology
- 使用Thrift API监控Storm集群和Topology
- Zookeeper日记——记录一次集群启动错误排查
- 电脑异常蓝屏问题排查记录
- MongoDB Kill Hang问题排查记录
- 8.5 子模块分析之VDIC
- jsp的config对象浅析。
- 直播干货来袭,RTMPCHybridEngine颠覆传统直播
- POJ 2891 Strange Way to Express Integers(一元线性同余方程组)
- NPOI 设置Excel样式
- Storm 集群监控报警-问题排查记录
- React Native Don't Call PropTypes Warning
- 使用 Spring Boot 快速构建 Spring 框架应用
- 函数重载
- 创建Content Provider
- 通过代码学习关键字const
- jquery实现瀑布流布局
- hbase_1 [get_counter 报错]_good
- ECC6 ORACLE 备份恢复测试