我只想做好一件白衬衫 -- 小米推送服务监控手记

来源:互联网 发布:如何在mac上注销id账户 编辑:程序博客网 时间:2024/04/27 12:41
最近读陈年先生的文章"凑热闹的公司都会烟消云散",读了十几遍,意犹未尽,感慨颇深。
我来小米三年了,三年前我会滔滔不绝的跟别人讲,如何带领几十个人,建立一套多么完善的质量保证体系,如何用制度让所有人都遵守软件开发的流程和秩序,等等云云;还要告诉大家,某某大公司都是这样干的,某某外企比这个干的还大,借以佐证我的思想是何等的正确和伟大。
现在想想,那时的我,SB!

2014年,我很平静的度过了,做了一年多的推送服务,写年终总结的时候,恰逢读到陈年先生的那篇文章,于是我想我一年做了这么多事情,有哪件事情可以拿出来炫耀,就像那件白衬衣呢?
于是我把所有做过的事情都列出来,然后一个一个划掉,这个事情做得太糙,这个事情做的太乱,这个,嗯,很一般;当你划掉几十件事情的时候,你的心就凉了,拔凉拔凉的;陈年先生在半层楼里放了所有的产品,却没有一个可以拿出手给雷总看的时候,也许就是这种感觉吧。
想了几天之后,我终于想到一件小事情,也许这件事情太平凡了,以至于成为了不过大脑的生活习惯;直到昨天跟某两个互联网大公司的服务器工程师吹牛的时候,我才发现,当我把这个牛吹完的时候,他们看我的眼神中似乎有了一丝异样的光芒。

我们花了一年多的时间只做了一套服务的监控,大的改版超过了10次,N多次的代码重构,推倒重写,各种尝试,各种跳坑,解决各种瓶颈,看各种密密麻麻的log,分析各种情况,处理各种异常,等等云云
其实监控原理很简单,在测试机上跑一组case,调一下线上服务的api,判断一下服务返回的结果对不对,对了就pass,错了就报警,就这么简单,没什么难的。但是我们前前后后做了一年多。。。直到今天,改动还在继续。

1.最初的方案是这样的,E2E的测试,用一个手机接到测试机器上,然后用脚本定时驱动安卓程序,向手机里安装一个推送客户端sdk demo,然后跑android的case,给客户端发消息,看客户端是否能收到,如果收到就从手机里读出来判断正确与否。这个代码很快就写好了,测试通过,嗯不错,开始跑吧。跑了一个晚上就傻眼了,由于手机通过wifi连接网络,各种网络不稳定所导致的误报,直接让报警不断,失去了报警的意义。怎么办?换一套环境
2.既然wifi环境不好,那就直接在网络接口接一个路由器,这个路由器只提供这一台手机的网络连接,这个总该稳定了吧。跑了两个晚上,嗯,误报是少点,但是总误报数量占的比例还是很大,报警搞得大家都很紧张,怎么办?再换一套方案。
3.使用android虚拟机,这个东西直接跑到测试机器上,完全不需要wifi,这总可以了吧?实践了几天,哭了,一个是虚拟机内存占用之恐怖,连续跑几天你试一试,另外性能也有问题,读取服务器的返回值是很慢的,需要长时间的sleep,最后就是不稳定,各种不稳定。
4.取交集,手机跑case网络是瓶颈,模拟器跑case稳定是瓶颈,能不能两个一起跑,如果同一条case都fail,才报警,只有一个fail,不报警。这个方案不错吧,取了一个交集;真到写代码的时候就完蛋了,两个监控一个跑的快,一个跑的慢,你还得写一个控制程序去定期分析两边的log,乱的一塌糊涂。
抛弃android吧,我们监控的是服务,干嘛要带上客户端,尽管E2E的监控更让人感觉靠谱吧,但是这不是最根本的东西
5.直接连服务器,客户端的原理是通过push demo调用push client sdk,client sdk最终是需要调用smack包来完成xmpp消息传输的;服务端工程师做E2E测试的时候,会通过一个中间层直接调用smack连接服务器;ok有方案了,把服务端工程师用到的中间层改改,然后套用客户端smack,再模拟客户端发出的请求,最上层接上test case,就应该能工作了;不久,这个移花接木的东西开始跑了,效果还不错,明显误报少了很多,很好,把前面那些不靠谱的监控全都干掉,把这货换上,然后张灯结彩,准备喝庆功酒,但是跑了几周,问题来了,长连接不像短连接,不成功就retry,长连接一旦断了,重新bind是有问题的,并且如何检测连接是否断掉呢?
6.最初的怀疑是smack不稳定,因为看到了smack的call stack,问题应该出在smack上,smack是第三方类库,用于xmpp的连接,但是我们使用的xmpp不是标准的xmpp协议,是经过我们改造过的xmpp,smack于是也被改造过了;查了一下maven库,上面有好几个smack的版本,换个别的用用,问问消息组的同事,各种尝试之后的结论是,这不是版本问题,别的版本不支持push服务,怎么办?改造smack吧
7.先找到smack的源代码,然后各种看,各种debug,然后整理了一下smack的行为规律:a.如果网络断了,smack发消息前,自己会检测到网络断了,然后发一个<present>强制断开网络连接;b.如果客户端等待收服务的消息,那就会超时,smack感知不到网络断开了。中间层是没法对重新bind做处理的;那就只能改smack,在收发消息的时候,先检查网络情况,如果断了就重新bind,代码改完了,找android的大牛军哥去看,没出5分钟就被拍回来了,这种改动会影响到连接的状态,这个太底层,最好别动。。。这次尝试又失败了,默默的在中间层加了一些重新bind的处理逻辑,效果也不是很好
8.重新回到原点,重新一个一个log去分析,慢慢的会发现,网络不稳定是一回事;中间层的不稳定,开始慢慢的浮出水面,中间层有大约20多个package,代码里有各种继承各种重写,很多静态的变量你如果不debug,根本都不知道哪里改变的,有时候改变一点点东西,上层的case就跑不起来。怎么办?凉拌,重写吧,按照自己的需求。这个花掉了几周时间,在某一个后半夜,所有case都可以在重写的中间层上跑起来了,那一刻根本没有什么兴奋,只想回家睡觉。重写后的只有2个package,大约7-8个文件,是的,上层的case其实用到的就这点。试着跑了几周,这个世界清净了,监控明显稳定多了,但是新的瓶颈又出现了。
9.中间层稳定了,就发现上层的case写的好挫,各种不靠谱,重写吧。。。又是几周,靠谱点了。
10.又遇到问题了,一次我们看监控很正常,但是某一个开发者说他们的app收不到push了。这次事故调查的结论是服务端对这个app的配置有问题。这次事故导致的是我们不再用单一的测试账号跑case,改用各个app的账号跑case,建立新的appinfo的列表,然后一个app一个app的跑。
11.又遇到问题了,当时我们有100左右的xmq,我们遇到了这样一个问题,由于当时的升级技术问题,导致了某次升级之后,有两个xmq的服务有问题,但是监控是随机落到各个xmq上,当时在很长的时间里并没有报警;这是一次事故,怎么让以后不出现这个问题呢?我们做了paritition监控,让每次的case都只落到一个xmq上,轮询所有的xmq;上线,跑了几个月,确实也发现了一些问题。
12.随着xmq的数量越来越多,轮询的时间越来越长,新的问题就产生了,如何快速知道某个xmq有问题了呢?我们考虑了多线程处理,两个方案,一个是自己写多线程的代码,另一个是使用多线程run case的工具;两个方案都做了几周,遇到了很多问题,最主要的是这是长连接,sleep会对所有线程有影响,如果某一条等消息时间过长,也会导致其它线程的case挂掉,这是跟短连接所不一样的;另一个是log如何处理,多线程的工具会把所有log打到一起,包括call stack,出了问题分析起来非常困难;最后就是稳定性,多线程受到网络的影响更重;最终我们没有采取多线程的方案。
13.case的区分度,多线程不行了,那就让case跑的更快,那么就可以更快的遍历所有的xmq;于是新的方案就产生了,首先分为p0,p1,p2的级别,p0白天跑,是用户最常用的功能,先保证这些功能不挂,p1晚上跑,这些是用户不是太常用的功能,晚点发现问题影响度相对小些,p2是剩下所有case,由于全跑下来时间太长,就几个小时跑一遍。另外一个维度是partition的监控按照xmq的顺序遍历,app的case随机落到xmq上,用以区分。
14.再次出现问题,用户看推送的统计报表的时候反应,我们昨天没有发topic消息,为什么报表显示有topic呢?查了一下,那是监控账号发的信息。啊,这次从监控上搞不定了。求助了服务器的开发,他们给监控提供了Extra字段,如果设置成test字段,统计报表就会过滤掉测试的消息数据,避免了用户的抱怨。
15.以前的xmq是用erlang语言写的,后来想换成了java语言,由于影响很重,大家都很谨慎;我们尝试了把xmq下发包中每一个字段都检查一遍,这时监控的问题就看出来了,以前只检查了一些关键的字段,没有全都检查;所以case都pass了,但是xmq下发的包,用户使用的时候,还是有问题的,因为你搞不清用户到底会用哪个字段,于是在灰度升级中就发现了测试的漏洞,前前后后折腾了好久,xmq下发的包一层包一层,拆了好几天。最后java xmq都上完线了,case中的各种检查也都加上了,xmq发出来的包结构也搞清楚了。
16.log的处理,报警邮件发出来,需要快速的定位,log的结构是否清晰,关键内容都显示,不重要的内容都删去,说起来容易,做起来不简单。三个人定义了log的格式标准,然后分分case,改吧,这个又改了一阵子
17.sd的机房满了,没有地方增加新的机器,服务端又没有多机房的方案,这时候消息会有各种延迟,监控一直在报警;开发很着急,硬件没有了,就只能改软件代码,让服务性能更好,于是引入一些bug,监控又报警;那段日子相当痛苦,我们唯一能做的就是增加sleep时间,关闭一些验证,只对重要字段验证,有些api没有返回包,都不在check。后来多机房方案出来了,迁移服务到lg,监控再连lg的服务,再报警,再处理,这个反复折腾了几周才搞定。
18.迁移到了lg,网络发生了变化,新的问题又产生了,大量网络问题导致的fail又卷土重来,这次我们放弃了五彩城机房的监控机器,在zc申请了新的监控机器,运维的兄弟在底层网络做了处理,让zc连lg接近于在lg直连,跑了一阵子,效果不错
19.随着case越来越多,监控种类越来越多,如何定时启动这些监控是个问题,最初是crontab,这个方法简单易行,但是服务挂掉你也不知道;后来使用了jenkins,这个东西麻烦的地方在于部署和自己没有办法发出报警邮件,也不能对历史的数据进行分析,而这些是我们需要的;权衡再三,我们的监控系统需要一个控制服务,这个服务应该定时run不同的监控,收集log,存数据库,发报警邮件和米聊,定期做数据分析,监控运行的过程中出了异常,应该有报警。立元断断续续的花了近2个月,在工作的间隙和业余时间写了这个控制服务,现在每天早晨会有头一天的几份数据分析报告发出来,根据这些统计数据,还是能看出服务的一些问题的。
20.经历了上面种种改造,现在监控已经逐步稳定下来了,服务的功能问题会很快的报出来,现在最大的问题还是网络问题,最近的一次定位有2点,a.可能是zc到lg的网络问题,b.FE-GW的前端可能有些问题。于是我们又增加了bind监控,遍历连接所有的xmq。对监控的改造还在继续。。。

上面只是举一些例子,事实上,遇到的问题要比这些多的多。
监控的敏感性和误报率是一组天生的矛盾,敏感性越高,误报率也越高;敏感性越低,误报率也越低;我们需要找到其中的平衡点,这才是最难的地方。
如果你问我现在的推送监控怎么样了,我不敢说它做的有多好,只是我晚上能安心的睡觉了。

最后我想说一下做监控这件事情的感受,
1.监控不是一个人的事情,这个工程关联很多团队,可能需要客户端开发,服务器开发,运维工程师和测试工程师,甚至其它团队共同协作才能找到问题的根源,才能解决很多问题。就像每一个团队就是一组齿轮,大家都把自己的那部分打磨好了,放到一起才能协同转动,最终拼接成一个精确的瑞士钟表。
2.科学界的一个不成文的定论是,基础研究聪明人是做不来的,只有天性笨拙一点的人,坚持每天做下去,做了20年30年,最终才能证明某些东西。监控是很基础的东西,不可能一蹴而就,今天晚上打冲锋,明天早晨就能实现共产主义;真的需要一些人踏下心来,认认真真的做上一年两年,也许才能做出点什么。
3.做监控是件小事情,做好监控是件大事情;大小取决于你看事物的颗粒度,看得越细致,事情就越多,做的事情就越大;看的越粗糙,事情就越小,做的事情就越小。这世界上没有什么高大上的东西,只是别人踩过的坑比你多了几个数量级,于是人家就形成了技术壁垒,这是你抄不来的,只有自己走一遍,一次次的从坑里爬出来,才会感受深刻。
4.面试中,我们经常看到面试人说自己在很短时间内,做了多少多少事情;却很少见到有人说,这些年我只做了一件事情。我想起了小野二郎,米其林三星大厨,今年90岁了,据说捏了近60年的寿司,被世人称之为寿司之神,米其林指南对他捏的寿司评价是:值得花一辈子排队等待的美味。人家花一生做一件事情,我们花一年做一件事情好不好?然后给面试官讲讲这件事情的细节,看看他的反应,嗯,应该很有意思。

今年是2015年了,我也在想今年做点什么小事?如果你想做一件很小的事情,我们可以聊一聊;如果你想做天大的事情,哥,我智商低,比我脑袋大的天,我想不明白。我只想做好一件白衬衫。​
0 0
原创粉丝点击