监控运维那点事-起步1

来源：互联网发布：js获取指定子节点编辑：程序博客网时间：2024/05/17 22:54

“互联网+”火了，以互联网为宇宙中心的创业、传统行业转型升级，带来很多的变革，小编看到的是一堆KB的IT码农们的日夜加班，以及一堆更KB的IT监控运维攻城狮们7x24的不间断熬夜。如何开展IT运维工作？这是一个大命题，小编尽可能把自己的积累分享出来。

IT监控运维基础目标是有效支撑IT生产系统可靠运行，就是业务不宕机，宕机及时恢复，减少损失。高一级目标是支撑运营工作，提供数据支撑，发现价值甚至创造价值。后者随着大数据等技术发展，让口号成为现实。一句话：效率和价值。

IT监控运维工作可概括为：流程+工具+人

人就不说了，大牛一个顶10个；没大牛的话优秀流程和有效工具支撑，是可以更有效的工作的。理想状态下，IT运维就应该泡泡茶，喝喝咖啡，刷刷微博、微信，抢个手机，买个表啥的。
流程，指团队人员协作机制，工作流程。流程机制的作用是，激励人员有序有效工作。
工具，砍柴还需电锯呀。好的监控系统和运维管理系统绝对是挽救攻城狮生命的仙水。

流程，仅说监控运维流程，一般会划分一线运维（值班）、二线运维、三线支撑等3个级别，分别制定排班计划。

一线一般是7x24小时全天候待命，当然根据IT运维团队规模定，但是一般都是有AB角，嗯至少2人。有问题第一时间处理，一般来说是初步判断问题，识别影响范围，根据常见预案进行处理。最常见的方式，网站宕了，如果有负载均衡还好说，没有的话，只能保存日志，赶紧重启，恢复业务为第一要务。搞不定？找人呀，一般来说一线要处理超过60%故障。AB轮岗的时间频率可以短一些，如日，周；人力资源丰富的，可能需要细化到白班夜班等。
二线一般来说是专家级，嗯，如技术骨干、大牛们。不用7x24小时候命，基本上大多情况下保持电话畅通，网络畅通就ok了。一般也要AB角，值班周期以周、月粒度。基本上大多问题在二线就直接处理掉了。
三线，没有绝对的划分，包括产品研发团队，第三方厂商，或者是boss。问题反馈到3线，大多很棘手了。基本都是需要出故障报告的了。
告警流程使部分，还有对应的告警升级机制。

工具，监控运维配套的工具很多，主要原因是需要管理的内容范围较多：

基础设施层面：如果机房托管，包括服务器、存储设备、网络设备、网络配置，如IP地址、公私网映射、访问控制、负载均衡策略等。一般是基于SNMP协议的网络监控NPM，如Solarwinds等，以及配套的资源管理（excel）系统。当然很多都是用公有云服务，如阿里云、腾讯云等，主要聚焦服务器监控就可以了，其他基本上都有云服务商做了。如果自建私有云，如vmware vsphere、
软件层面：web server，数据库，消息队列、缓存服务器，以及应用产品的相关进程服务。相对来说比较标准化，大多的开源监控工具，如 nagios+ganglia，zabbix，hyperic等工具都支持。商业的IBM Tivoli，HP OpenView，BMC , CA等，这些所谓大公司产品，小编只能说：呵呵，谁用谁知道。
应用层面：网站、app server、业务系统的监控，包括应用事务、应用性能、吞吐量等监控，一般业界称为APM。
客户层面：端到端的视角监控，如从客户层面，看网站，和移动app的可用性，访问性能，用户行为特征等监控。
同时相关的流程支撑工具，如工单系统等。
集中告警，监控管理系统较多，各层次的监控依赖各专业系统，所以需要统一的集中告警将所有告警事件汇总，统一跟踪处理。一般来说集中告警系统基本上都是自定义开发，目前市面上有2个主流的产品：米国的PagerDuty和国内的110云告警。解决告警的排班计划，告警自动分派、升级、合并、短信和移动APP和邮件通知等问题。目前大多的监控系统都支持邮件提醒，PagerDuty和110云告警都直接通过邮件接收告警，不需要复杂的编程开发即可实现告警统一化。

后续将重点针对工具说说小编的体会。

0 0