PowerHA故障案例分析
来源:互联网 发布:爱淘宝和淘宝的区别 编辑:程序博客网 时间:2024/05/16 16:07
转载于:http://blog.chinaunix.net/uid-316679-id-3436679.html
最近遇到个HA无法成功切换的案例,觉得有点意思,和大家分享一下。系统的拓扑图简单示意如下:
A机与B机都运行着各自的数据库或应用服务,采用IBM PowerHA技术实现双机互备,当A机故障时应用或数据库由B机进行接管,反之亦然,达到了主机硬件层面的高可用性;
另一方面,通过AIX操作系统自带的逻辑卷管理(LVM)技术,在两套磁盘存储设备间建立数据镜像,当任意一套存储出现故障时,应用或数据库都依然能对外提供服务,从而实现存储层面高可用性。
这种结构虽然略显奢侈,但对于可靠性要求非常高的系统还是有必要的。
系统的物理部署图,如下所示:
A机、SAN交换机A和存储 A均放置在一个机柜A中,B机、SAN交换机B和存储B放置在另一个机柜B中。
某日机柜A发生了断电,按照设想,由于有HA保护,B机应该接管A机资源,但事实上却没有成功,在B机上看不到A机的SVC IP,也没有VG资源,B机的HA似乎毫无反应,为啥呢?明明在日常测试的时候,这套HA是好的,可以正常切换,为啥要它工作的时候却罢-工了呢?幸好不是生产环境,要不然必定血压上升、心跳加速。
仔细查看了HA的日志文件,发现B机曾经尝试接管资源,但失败了。能从hacmp.out中看到如下信息:varyonvg: The volume group is not varied on because physical volume is marked missing. Run diagnostics.信息其实提示的很明确了,B机在varyon vg时发现有些pv missing了,导致无法varyonvg。
为啥有盘missing了?很简单,因为机柜A发生断电,存储A也掉电了,而vg由A存储和B存储通过lvm镜像组成,B机无法正确识别B存储的磁盘,引起HA在接管资源时有了上述的报错。
仔细想想,vg是lvm镜像的,理论上讲,采用force的方式是能够varyon的,只要其中有一个存储是可以正常工作,依旧可以提供读写服务,lvm镜像本来就要达到这样的效果啊,是不是HA不支持这种情况啊?一台主机和一个存储不能同时坏?
答案是否定的,HA其实也考虑到了这一点,在Change/Show Resources and Attributes for a Resource Group中对于vg,有这么一个选项“Use forced varyon of volume group,if necessary”,使用了该选项,HA是可以强制将vg varyon的,只不过这个选项很少引起大家的注意。
- PowerHA故障案例分析
- PowerHA(HACMP)测试 以及 故障排除
- Apache Segmentaion Fault故障处理案例分析
- 大型网站典型故障案例分析
- 大型网站典型故障案例分析
- LVM讲解与磁盘故障案例分析
- 三星IDCS500电话交换机故障分析案例之电源板故障
- 三星Idsc 500 交换机故障分析案例一
- 服务器磁盘故障raid崩溃的数据恢复案例分析
- redo log 故障案例
- 网站典型故障案例
- 《大型网站技术架构:核心原理与案例分析》拜读总结,第十三章——大型网站故障案例分析
- 【集群】PowerHA
- 某业务系统由于连接数限制导致间歇性访问慢故障分析案例
- [转]F5负载均衡环境下某应用故障分析案例
- 一个由多线程而引发内存溢出故障的案例分析
- hMailServer服务器故障处理案例
- LVS故障解决案例解析
- 【很早以前的作品】3DDemo走迷宫
- Android基础笔记——HttpClient访问网络
- 查找表实现的CRC16
- ajax调用webservice
- 表连接
- PowerHA故障案例分析
- textView设置边框
- 等式构造(equation)清华推免生机考第三题
- C语言中注释、标识符以及关键字
- c语言内存分配
- Apache 2.4.12 下载与安装
- OpenSSL Heartbleed检测工具
- 蓝桥杯---ALGO-51Torry的困惑(基本型)
- Eclipse快捷键