监控运维那点事-起步1
来源:互联网 发布:js获取指定子节点 编辑:程序博客网 时间:2024/05/17 22:54
“互联网+”火了,以互联网为宇宙中心的创业、传统行业转型升级,带来很多的变革,小编看到的是一堆KB的IT码农们的日夜加班,以及一堆更KB的IT监控运维攻城狮们7x24的不间断熬夜。如何开展IT运维工作?这是一个大命题,小编尽可能把自己的积累分享出来。
IT监控运维基础目标是有效支撑IT生产系统可靠运行,就是业务不宕机,宕机及时恢复,减少损失。高一级目标是支撑运营工作,提供数据支撑,发现价值甚至创造价值。后者随着大数据等技术发展,让口号成为现实。一句话:效率和价值。
IT监控运维工作可概括为:流程+工具+人
人就不说了,大牛一个顶10个;没大牛的话优秀流程和有效工具支撑,是可以更有效的工作的。理想状态下,IT运维就应该泡泡茶,喝喝咖啡,刷刷微博、微信,抢个手机,买个表啥的。
流程,指团队人员协作机制,工作流程。流程机制的作用是,激励人员有序有效工作。
工具,砍柴还需电锯呀。好的监控系统和运维管理系统绝对是挽救攻城狮生命的仙水。
流程,仅说监控运维流程,一般会划分一线运维(值班)、二线运维、三线支撑等3个级别,分别制定排班计划。
一 线一般是7x24小时全天候待命,当然根据IT运维团队规模定,但是一般都是有AB角,嗯至少2人。有问题第一时间处理,一般来说是初步判断问题,识别影 响范围,根据常见预案进行处理。最常见的方式,网站宕了,如果有负载均衡还好说,没有的话,只能保存日志,赶紧重启,恢复业务为第一要务。搞不定?找人 呀,一般来说一线要处理超过60%故障。AB轮岗的时间频率可以短一些,如日,周;人力资源丰富的,可能需要细化到白班夜班等。
二线一般来说是专家级,嗯,如技术骨干、大牛们。不用7x24小时候命,基本上大多情况下保持电话畅通,网络畅通就ok了。一般也要AB角,值班周期以周、月粒度。基本上大多问题在二线就直接处理掉了。
三线,没有绝对的划分,包括产品研发团队,第三方厂商,或者是boss。问题反馈到3线,大多很棘手了。基本都是需要出故障报告的了。
告警流程使部分,还有对应的告警升级机制。
工具,监控运维配套的工具很多,主要原因是需要管理的内容范围较多:
基 础设施层面:如果机房托管,包括服务器、存储设备、网络设备、网络配置,如IP地址、公私网映射、访问控制、负载均衡策略等。一般是基于SNMP协议的网 络监控NPM,如Solarwinds等,以及配套的资源管理(excel)系统。当然很多都是用公有云服务,如阿里云、腾讯云等,主要聚焦服务器监控就 可以了,其他基本上都有云服务商做了。如果自建私有云,如vmware vsphere、
软件层面:web server,数据库,消息队列、缓存服务器,以及应用产品的相关进程服务。相对来说比较标准化,大多的开源监控工具,如 nagios+ganglia,zabbix,hyperic等工具都支持。商业的IBM Tivoli,HP OpenView,BMC , CA等,这些所谓大公司产品,小编只能说:呵呵,谁用谁知道。
应用层面:网站、app server、业务系统的监控,包括应用事务、应用性能、吞吐量等监控,一般业界称为APM。
客户层面:端到端的视角监控,如从客户层面,看网站,和移动app的可用性,访问性能,用户行为特征等监控。
同时相关的流程支撑工具,如工单系统等。
集中告警,监 控管理系统较多,各层次的监控依赖各专业系统,所以需要统一的集中告警将所有告警事件汇总,统一跟踪处理。一般来说集中告警系统基本上都是自定义开发,目 前市面上有2个主流的产品:米国的PagerDuty和国内的110云告警。解决告警的排班计划,告警自动分派、升级、合并、短信和移动APP和邮件通知 等问题。目前大多的监控系统都支持邮件提醒,PagerDuty和110云告警都直接通过邮件接收告警,不需要复杂的编程开发即可实现告警统一化。
后续将重点针对工具说说小编的体会。
- 监控运维那点事-起步1
- 监控运维那点事-vsphere
- 监控运维那点事-客户体验监控2
- 监控运维那点事--基础设施监控3
- 自动化运维那点事
- 运维的那点事
- 工作那点事1
- 开发那点事1
- 电脑硬件那点事(1)
- 暑假编程那点事(1)
- STM32 USB那点事1
- Telerik Kendo UI 那点事[1]
- Netty那点事(1)概述
- 数据库那点事(Mysql)-1
- 面试那点事
- 公司那点事
- 编程那点事!!
- 公务员那点事
- Gson使用中,如果有的字段网络上返回的数据可能为null的处理
- PDF转换成PPT怎样转换比较简单
- 16. permutation II
- JAVA系统信息获取
- Possible MySQL server UUID duplication for server
- 监控运维那点事-起步1
- 新博客地址:idealife.github.io
- MongoDB之复制集(一)原理篇
- Servlet自学第3讲:Tomcat简介与配置
- [Hive]Hive数据倾斜(大表join大表)
- #28 Implement strStr()
- Apache+Tomcat+Memcached共享Session的构架设计
- subset II
- ThreadLocal原理及应用