监控运维那点事-起步1

来源:互联网 发布:js获取指定子节点 编辑:程序博客网 时间:2024/05/17 22:54

“互联网+”火了,以互联网为宇宙中心的创业、传统行业转型升级,带来很多的变革,小编看到的是一堆KB的IT码农们的日夜加班,以及一堆更KB的IT监控运维攻城狮们7x24的不间断熬夜。如何开展IT运维工作?这是一个大命题,小编尽可能把自己的积累分享出来。

IT监控运维基础目标是有效支撑IT生产系统可靠运行,就是业务不宕机,宕机及时恢复,减少损失。高一级目标是支撑运营工作,提供数据支撑,发现价值甚至创造价值。后者随着大数据等技术发展,让口号成为现实。一句话:效率和价值。

IT监控运维工作可概括为:流程+工具+人

  • 人就不说了,大牛一个顶10个;没大牛的话优秀流程和有效工具支撑,是可以更有效的工作的。理想状态下,IT运维就应该泡泡茶,喝喝咖啡,刷刷微博、微信,抢个手机,买个表啥的。

  • 流程,指团队人员协作机制,工作流程。流程机制的作用是,激励人员有序有效工作。

  • 工具,砍柴还需电锯呀。好的监控系统和运维管理系统绝对是挽救攻城狮生命的仙水。


流程,仅说监控运维流程,一般会划分一线运维(值班)、二线运维、三线支撑等3个级别,分别制定排班计划。
图片 

  • 一 线一般是7x24小时全天候待命,当然根据IT运维团队规模定,但是一般都是有AB角,嗯至少2人。有问题第一时间处理,一般来说是初步判断问题,识别影 响范围,根据常见预案进行处理。最常见的方式,网站宕了,如果有负载均衡还好说,没有的话,只能保存日志,赶紧重启,恢复业务为第一要务。搞不定?找人 呀,一般来说一线要处理超过60%故障。AB轮岗的时间频率可以短一些,如日,周;人力资源丰富的,可能需要细化到白班夜班等。

  • 二线一般来说是专家级,嗯,如技术骨干、大牛们。不用7x24小时候命,基本上大多情况下保持电话畅通,网络畅通就ok了。一般也要AB角,值班周期以周、月粒度。基本上大多问题在二线就直接处理掉了。

  • 三线,没有绝对的划分,包括产品研发团队,第三方厂商,或者是boss。问题反馈到3线,大多很棘手了。基本都是需要出故障报告的了。

  • 告警流程使部分,还有对应的告警升级机制。


图片

图片

工具,监控运维配套的工具很多,主要原因是需要管理的内容范围较多:

  • 基 础设施层面:如果机房托管,包括服务器、存储设备、网络设备、网络配置,如IP地址、公私网映射、访问控制、负载均衡策略等。一般是基于SNMP协议的网 络监控NPM,如Solarwinds等,以及配套的资源管理(excel)系统。当然很多都是用公有云服务,如阿里云、腾讯云等,主要聚焦服务器监控就 可以了,其他基本上都有云服务商做了。如果自建私有云,如vmware vsphere、

  • 软件层面:web server,数据库,消息队列、缓存服务器,以及应用产品的相关进程服务。相对来说比较标准化,大多的开源监控工具,如 nagios+ganglia,zabbix,hyperic等工具都支持。商业的IBM Tivoli,HP OpenView,BMC , CA等,这些所谓大公司产品,小编只能说:呵呵,谁用谁知道。

  • 应用层面:网站、app server、业务系统的监控,包括应用事务、应用性能、吞吐量等监控,一般业界称为APM。

  • 客户层面:端到端的视角监控,如从客户层面,看网站,和移动app的可用性,访问性能,用户行为特征等监控。

  • 同时相关的流程支撑工具,如工单系统等。

  • 集中告警,监 控管理系统较多,各层次的监控依赖各专业系统,所以需要统一的集中告警将所有告警事件汇总,统一跟踪处理。一般来说集中告警系统基本上都是自定义开发,目 前市面上有2个主流的产品:米国的PagerDuty和国内的110云告警。解决告警的排班计划,告警自动分派、升级、合并、短信和移动APP和邮件通知 等问题。目前大多的监控系统都支持邮件提醒,PagerDuty和110云告警都直接通过邮件接收告警,不需要复杂的编程开发即可实现告警统一化。

后续将重点针对工具说说小编的体会。




 




0 0
原创粉丝点击