事故分析2

来源:互联网 发布:存货管理的数据分析 编辑:程序博客网 时间:2024/04/29 05:06

影响:
小迪 xiaoditec@daemonrob.com 帐号 10.0.63.186 节点 主挂了 redis就挂了
9.29 8:40用户感知到了
值班人:
蔺育申 易弢 9.28
陈星宇 付业成 9.29

报警信息:
9.28 23:00 肖勤

onealert 没有报警

9.28 24:00 易弢
nq66 osd fd过高
gq1,gq3 osd报ERROR

9.29 8:27 op红牛

8:02 onealert
新告警通知–8014480
警告: [QCOS][bq] target_job_down - Target job gateway_metrics is down
告警内容:(bq30)firing: bq30, resolved: ; [bq30]: Target job gateway_metrics is down: 192.168.192.30:2100 ;
发生时间:08:02:08
已分配给:@付业成,@肖勤,@应治,@陈星宇,@易弢,@苏海,@马凯雄,@马思超,@宋文灏
所属应用:
查看详情:http://t.cn/RGrYU0a
————-OneAlert.com————–
群昵称与OneAlert用户名一致,告警提醒更及时哦~

+关键字 或 中文问号+关键字 来调戏机器人吧!

可能原因:?
1、 机器故障 硬盘坏了等问题 。 Bq 30盘硬件坏了 。
2、 根目录坏了 docker 的 opt根目录
3、 nq66 docker不工作 fd暴涨 osd重启后 fd还是暴涨

监控报警:
报警有了,处理 跟进不及时

跟进机制:
第一时间 迁移,
或者通知客户 是不是比让客户过来问 要好。

原因:根目录坏了 docker 的 opt根目录
导致小迪问题
4、 宕机、磁盘坏了、扇区坏了 。如何跟进 排查?

redis 主 目录 挂了,从 数据存在。迁移后 ,主可恢复。
6个节点 3个cluster 3个备份