数据库故障诊断(Troubleshooting)之性能问题导致的数据库严重故障案例之一
来源:互联网 发布:plsql数据库中文乱码 编辑:程序博客网 时间:2024/05/18 15:04
好久不来这里写东西,今天有点时间,来这里写点最近遇到的事情。前段时间,某电信业务用户因某核心生产库最近多次宕机重启,多方人员介入无果后,给我发来了邮件,大概意思就是现在该问题已经造成了比较严重的后果,希望能帮助介入分析、诊断并解决该问题。通过之前介入该问题的人员了解到,到目前为止,已经是第三次宕机重启了,时间区间大概为2个多月的样子。第一次重启后,因为运维人员并未获取到当时有价值的信息,因此,并没有一个结论;第二次其他数据库相关人员定位到可能是该版本(11.2.0.4,3)的某个bug引起的,并给出了解决方案,他们之所以这么解决,是因为在数据库的alert.log中发现了该bug的信息,因此,都坚信这就是该问题的根源所在,实施该方案后,大家心里就踏实了。可令大家没想到的是,过了不久,同样的故障依旧重现了,至此,给我发来了邮件。通过和相关人员的沟通,并获得了问题发生时仅有的信息(获取的信息并不全),只是听到他们说,该问题发生时很奇怪,系统突然hang住的样子,而且期间,无论是DB还是OS层面的操作,都没什么反应,他们也有的怀疑OS或DB层面的异常,甚至怀疑到了硬件的问题。。。,当然,他们的怀疑也不无道理。通过运维人员提供的DB日志,发现了一个奇怪的问题,该数据库在问题发生期间,并不是因为故障导致的自动宕机,而极可能是人为关闭了数据库,这有点出人意料,其他相关人员也极力否认,这是预料中的,没人愿意承认这种事情,况且,其中一次在23点左右发生的,他们用这个时间来反驳我:这个时间点,谁还会操作数据库?想想也是,这毕竟只是一个线索而已,如下就是当时的日志信息:
会不会CLUSTER因为某些因素主动重启了数据库呢?因为运维人员几乎没提供什么信息,于是,又让他们采了OS层面的信息,进一步证实了我的猜测:
那么,什么因素导致了cluster主动重启了数据库呢?继续看看运维提供的awr报告,定位到了异常过程和相应sql如下:
反馈用户后,用户侧人员很快定位到问题所在,处理后,至今近半年,故障没再发生,一切正常。
- 数据库故障诊断(Troubleshooting)之性能问题导致的数据库严重故障案例之一
- 数据库未关闭导致的故障分析
- 数据库死锁严重引发中间件连接池满故障诊断
- 一个不起眼的问题导致性能的严重的下降
- troubleshooting之解决算子函数返回NULL导致的问题
- 收缩数据库会导致严重的索引碎片
- 浅析导致数据库性能问题的常见原因
- 【暴侃IT圈】数据库索引导致的性能问题分析
- 由于图片链接问题导致Web性能的严重的下降(转贴)
- 由于图片链接问题导致Web性能的严重的下降(转贴)
- 由于图片链接问题导致Web性能的严重的下降(转贴)
- 经验累积之数据库故障反映的存储问题
- (三)数据库故障处理的案例-数据库可以查询不能做更新操作
- Oracle数据库恢复 : 存储故障导致的数据损坏
- Oracle数据库恢复 : 存储故障导致的数据损坏
- 网站性能-错误的sql语句导致的严重性能问题
- (二)数据库故障处理的案例-处理归档不能执行
- Android应用性能优化系列视图篇——ListView自适应导致的严重性能问题
- 视图(view)、视图控制器(view controller)之间的数量关系
- OA协同办公管理信息系统
- Linux中在防火墙中开启80端口的例子
- 控制文件恢复
- 基于内存数据库的分布式数据库架构--何坤
- 数据库故障诊断(Troubleshooting)之性能问题导致的数据库严重故障案例之一
- 让EF飞一会儿:如何用Entity Framework 6 连接Sqlite数据库
- 在 vForge 中设置排列组合着色器和技术
- p05
- 裸板点亮LED流水灯源代码分析(含启动代码和C文件)
- C# 改变恢复系统鼠标样式
- 司法萨斯打算大叔
- 水电费擦拭法神烦大叔大叔
- 观察者设计模式