铁路和地铁事故再次说明信息系统事故和意外监控的重要性
来源:互联网 发布:淘宝护肤品违禁词 编辑:程序博客网 时间:2024/04/28 16:28
上次的铁路和这次上海地铁事故都是由于某个设备故障,转入非正常运行状态时发生的次生事故。 在含有信息技术的系统运行中这是常见问题。在很多大型系统中,当某个部件发生问题时,会自动或者手工起动相关处理程序。 这时一方面修复的工作会占用资源,干扰原有工作业务。同时原有工作业务处理需要在改变了的环境和规程下运行。很多系统配置,人员和使用者不熟悉相关的流程和处理方法。因此极有可能出现二次事故。由于此时系统已经处于脆弱状态,二次事故产生的后果,可能超过一次故障。 历史上很多大型系统故障,如:北美大停电,google和amazon系统崩溃,都是在对一次故障的处理过程中产生的新问题。 在事故发生时,理想是停止系统的基本业务处理,专心恢复系统至正常状态后,重新启动系统。但现在系统需要一段时间核特别的流程才能停止系统,有些系统甚至不能完全停止基本处理。在这种情况下,故障和意外处理监控是保证系统按计划恢复,不出新的问题和事故的基本保障。
事故和意外监控系统是整体业务监控系统的一部分。其功能主要包括对事故发生的确认,评估事故和故障影响程度和范围,根据事故和当前系统业务状况评估和选择处理预案方法,自动或者提醒启动应急预案,监控预案执行过程和结果,不断分析当前业务处理与系统恢复是否冲突,判断系统恢复水平,分析能否全面恢复运行,以及系统配置需要如何更改以适应新的负载和避免类似问题发生。由于事故发生和处理的时间紧急和特殊性,要求事故监控具有高度的自动化水平,同时允许全面的人工干预。
随着各种系统的计算机化,各种工业和社会系统都需要事故和意外应急监控。目前国内计算机应用监控刚刚起步,只有大型金融机构具有相关监控系统和能力。希望这个问题能够引起更多的领导和民众的重视,提高系统运行的稳定性和问题处理能力。
- 铁路和地铁事故再次说明信息系统事故和意外监控的重要性
- 福岛核事故和切尔诺贝利核事故的比较
- 一次git事故的回顾和学习
- 事故
- 郭德纲事故的事故事故的事故的痛
- ITIL 事件管理和事故管理的区别
- 从动车事故看互联网的产品开发和管理
- 从动车事故看互联网的产品开发和管理
- 一件激活码泄露事故的发现过程和反思
- 线上Mysql数据库崩溃事故的原因和处理
- 今天开始,讲讲我和java的故事与事故
- 中国重大铁路事故一览,90年代以前基本都是爆炸事故,90年代以后基本都是追尾事故
- 10.x.y.z和100.x.y.z的那点故事和事故
- HashMap引起的事故:jdk1.7和jdk1.8下的hash函数的不同
- Oracle(RAC)数据库调优和事故分析应关注的技术点
- 车辆在事故扣押期间的停车费和鉴定费
- 事故伤亡35人之辟谣之行政法依据之论装逼的重要性
- Oracle(RAC)数据库调优和事故分析
- 什么是函数原型
- 读书随记2011-9-28
- Linux线程安全 锁和广播锁,
- Gridview用法大总结
- 不是因为你多优秀 而是在那个时候我遇到了你
- 铁路和地铁事故再次说明信息系统事故和意外监控的重要性
- android 中弹出透明模态框
- 电信CRM实训
- 解读浮动闭合最佳方案:clearfix
- windows7 旗舰版的解析
- SQL数据导入取消自动标识列增长
- mod_python安装及问题解决
- 交通灯管理系统
- windows下C语言取系统时间