一次生产问题排查解决过程(小问题,大神请绕过)

来源:互联网 发布:高性能数据库服务器 编辑:程序博客网 时间:2024/05/17 00:44

        今天中午忽然后被从睡梦中叫醒,一脸懵逼的看着产品站在我面前,说出问题了,生产环境短信数据库,有6000万条记录,怀疑是我们营销系统发的。我艹,汗毛炸立呀,这得多少钱,我的心直接沉到底了。

        于是找运维要了日志排查问题,并要求运维把两个节点给kill掉,防止继续发送,日志拿到后,找了一个问题手机号(一直在重复发短信的手机号),搜索了一下发现没有,同时让人去查看了一下代码,基本上确定了没有问题,进一步确认,找dba要了一个今天正常发送短信的手机号,查了一下,可以匹配到1条记录.我基本可以确认我们的系统没有问题了。心又可以提起来了,哈哈。这个时候,短信服务方说接口还在被调用,那肯定不是我们的问题了,节点已经kill掉了。

        接着帮他们找问题,看他们一堆人围在运维旁边,不知道怎么查问题,我就提出用netstat -ano |grep 80端口查找当前连接短信服务端口的ip是哪些,来向上推测调用方(如果有一个链路监控就很容易判断了),发现,系统是经过nginx代理的,于是去查nginx访问日志,成功找到调用方的ip。至此问题找到,后面的问题他们自己解决吧。

        问题不是什么大问题,但是还是暴露出来很多细节问题吧,自己引以为戒吧。

阅读全文
0 0
原创粉丝点击