不准守规范导致的系统故障

来源:互联网 发布:centos 6.5 squid 编辑:程序博客网 时间:2024/09/21 08:59

周末过后,系统发短信的功能突然不正常。虽然这个发短信的系统之前也有问题,但由于不是我们自己开发

的,系统不正常对生产的影响也不是很大,我们通过定时重启也解决了这个问题。

 

开始以为周末下雨,系统业务量增多,压力太大导致。但过了两天,业务量明显下降。系统依然不稳定。

同事商量后准备将重启的频率增加,由原来的4小时一次调整为3小时一次。当去改重启的定时任务时发现,

定时任务重上周末起根本未能运行,难怪系统有问题呢。为什么系统不能自动重启呢?原来重启的脚本不见了。

为什么重启的脚本会突然不见呢?

 

本故事纯属猜测,如有雷同,纯属巧合。

故事是这样的:

周五下午 4:40系统磁盘空间告警。

下午 4:45 , 有位“好新人”把sysadm用户下桌面的文件备份到了D:\Desktop

而系统重启的脚本刚好放在桌面上。结果周五晚上定时重启短信应用的定时任务就失效了。

费了两天的时间去查找系统的问题,结果是因为人为的因素导致系统故障。

 

这个故事告诉我们:

1. 解决问题时不能引起新的问题。前门驱虎,后门进狼这样的工作方式是要不得的。

2. 生产环境下的操作要严格遵守规范,不能随意存放文件,更不能随意移动文件。

0 0
原创粉丝点击