程序博客网 > 教师培训网络课程平台

Storm 集群监控报警-问题排查记录

来源：互联网发布：教师培训网络课程平台编辑：程序博客网时间：2024/05/01 10:14

Storm 集群监控报警-问题排查记录

1. 问题一、cpu繁忙

1.1. 报警信息

PROBLEM P0 Endpoint:xxx Metric:cpu.idle Tags: all(#3): 12.84751⇐20 Note:cpu繁忙 Max:3, Current:1 Timestamp:2016-07-27 15:10:00

1.2. 排查步骤

1、查看集群host,终端a0xx对应Strom Bxx 集群，ip地址1xxx。
2、通过openfalcon搜索StormManagerStormDBD_StormBJ004_System，查看cpu.idle界面
3、在15:07左右，cpu.idle<20%
4、登录supervisor节点，在/opt/logs/stormlog3目录下查看supervisor.log，日志信息是：2016-07-27 15:07:39 b.s.d.supervisor [INFO] 89a46d5d-3e30-4f46-92d3-ac3a2d38a050 still hasn't started
5、登录集群nimbus节点，在/opt/logs/stormlog3目录下查看nimbus.log:tail nimbus.log。
6、发现日志中发生了任务重启：2016-07-27 15:07:36 b.s.d.nimbus [INFO] Setting new assignment for topology id Real_Yk_Album_VvCount-19-1469603255:……

1.3. 分析

任务重启导致队列中消息增多，cpu处理繁忙。

2. 问题二、cpu波动

2.1. 报警信息

2.2. 排查步骤

询问相关用户是否是业务代码有问题。

3. 问题三、cpu分配不均匀

3.1. 报警信息

3.2. 排查步骤

fdxxx任务使用了三个worker，cpu使用率差异100倍，这种情况需要解决一下，以免影响任务的正常执行。

4. 问题四、任务的tps有大幅增加

4.1. 报警信息

4.2. 排查步骤

从adxxx任务的tps来看，最近2个月有2次数据的上升，任务的worker数量一直没有变化。建议将worker数从15设置为20个。

5. 问题五、磁盘IO吃紧

通常去找哪些任务的日志增长比较快，问题基本是由于这带来的。

0 0

教师培训网络课程平台

教师培训网络课程平台

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子嘉城绿都二手房家商城嘉奖嘉妍名字解析嘉娜宝腮红嘉娜宝媚点粉底霜嘉娜宝日月晶采嘉宁嘉宇嘉宏紫薇园嘉宏锦城嘉宏嘉宏蔚蓝天地嘉定区上海嘉定嘉定三屠嘉定竹刻嘉定区邮编上海嘉定区嘉定邮编嘉定教育嘉定图书馆嘉定都市网嘉定紫藤园嘉定人才网嘉定一中嘉定在哪里嘉定新城网嘉定旅游嘉定教育网嘉定房源嘉定楼盘嘉定楼盘上海市嘉定嘉定墓园嘉定酒店嘉定书法班嘉定酒店嘉定牙防所嘉定大酒店嘉定安亭