铁路和地铁事故再次说明信息系统事故和意外监控的重要性

来源:互联网 发布:淘宝护肤品违禁词 编辑:程序博客网 时间:2024/04/28 16:28

上次的铁路和这次上海地铁事故都是由于某个设备故障,转入非正常运行状态时发生的次生事故。 在含有信息技术的系统运行中这是常见问题。在很多大型系统中,当某个部件发生问题时,会自动或者手工起动相关处理程序。 这时一方面修复的工作会占用资源,干扰原有工作业务。同时原有工作业务处理需要在改变了的环境和规程下运行。很多系统配置,人员和使用者不熟悉相关的流程和处理方法。因此极有可能出现二次事故。由于此时系统已经处于脆弱状态,二次事故产生的后果,可能超过一次故障。 历史上很多大型系统故障,如:北美大停电,google和amazon系统崩溃,都是在对一次故障的处理过程中产生的新问题。  在事故发生时,理想是停止系统的基本业务处理,专心恢复系统至正常状态后,重新启动系统。但现在系统需要一段时间核特别的流程才能停止系统,有些系统甚至不能完全停止基本处理。在这种情况下,故障和意外处理监控是保证系统按计划恢复,不出新的问题和事故的基本保障。


事故和意外监控系统是整体业务监控系统的一部分。其功能主要包括对事故发生的确认,评估事故和故障影响程度和范围,根据事故和当前系统业务状况评估和选择处理预案方法,自动或者提醒启动应急预案,监控预案执行过程和结果,不断分析当前业务处理与系统恢复是否冲突,判断系统恢复水平,分析能否全面恢复运行,以及系统配置需要如何更改以适应新的负载和避免类似问题发生。由于事故发生和处理的时间紧急和特殊性,要求事故监控具有高度的自动化水平,同时允许全面的人工干预。  


随着各种系统的计算机化,各种工业和社会系统都需要事故和意外应急监控。目前国内计算机应用监控刚刚起步,只有大型金融机构具有相关监控系统和能力。希望这个问题能够引起更多的领导和民众的重视,提高系统运行的稳定性和问题处理能力。