Oracle RAC 11.2.0.3 节点CRS无法启动报:no network hb 故障解决方法
来源:互联网 发布:北京域名备案的时间 编辑:程序博客网 时间:2024/05/20 04:09
软件版本:oracle rac 11.2.0.3,补丁打到最新11.2.0.3.5
故障现象:Oracle双节点组成RAC,RAC软件安装在节点1上;运行一段时间后,节点2日志报“网络通信故障”长时间无法与节点1通信,而被踢出集群。经尝试各种方法反复重试,无法在节点2上启动CRS服务,其中,每次启动CRS服务时,命令./crsctl stat res -t -init 查看发现ora.cssd长时间处于STARTING状态,ora.cssd反复尝试启动大约2个小时后,ora.cssd进程启动失败;
此时:两个节点服务器运行正常,网络正常,心跳线连通正常,节点1运行正常,节点二crs无法启动;重启节点2服务器仍然无法解决问题。
查看$GRID_HOME/log/node2name/cssd/ocssd.log文件,重复出现以下错误:
--------------------------------------------------
2010-09-20 11:52:54.014: [ CSSD][1103055168]clssnmvDHBValidateNCopy: node 1, racnode1,has a disk HB, but no network HB, DHB has rcfg 180441784, wrtcnt, 453, LATS 328297844, lastSeqNo 452, uniqueness 1284979488, timestamp 1284979973/329344894
2010-09-20 11:52:54.016: [ CSSD][1078421824]clssgmWaitOnEventValue: after CmInfo State val 3, eval 1 waited 0
-----------------------------
方法尝试:经过查找网上各种解决方法进行各种尝试后,在多名Oracle原厂工程师帮助下终究没能将节点2的CRS服务启动,检查操作系统,网络、心跳一直处于通畅状态。后来不得已,运来备用的数据库服务器,与被踢出集群的服务器重新安装操作系统,升级网卡固件,重新安装Oracle RAC软件,打上最新的RAC补丁包,安装数据库,并恢复数据。然后,经过反复拔插心跳线(包括交换机互联、直连)、重启服务器的暴力测试后(Oracle原厂工程师听说我们这种测试后彻底愤怒了!!!!),发现上述问题has a disk HB, but no network HB仍然存在!
不过可喜的是,我们发现一个重要规律:
1、当两节点RAC正常运行时,首先拔掉心跳线一次,节点2被踢出集群;
2、15秒以后重新插上心跳线,节点2无法加入集群,ocssd.log日志报"has a disk HB, but no network HB";
3、此时不要灰心,再拔掉心跳线一次,15秒以后重新插上:天哪,竟然好啦!!
最终解决方案总结:
1、对于非需要长时间不间断运行的RAC数据库,可以同时重启两个节点服务器即可;
2、对于需要长时间不间断运行的RAC数据库,那就试试拔两次心跳线吧,一定是2次哦,或者更多次,绝对有意外惊喜!!
3、至于是不是CRS的bug,不清楚,有请大虾们指点。
此方法为原创方法,尚未申请专利,大家可放心使用!!
故障现象:Oracle双节点组成RAC,RAC软件安装在节点1上;运行一段时间后,节点2日志报“网络通信故障”长时间无法与节点1通信,而被踢出集群。经尝试各种方法反复重试,无法在节点2上启动CRS服务,其中,每次启动CRS服务时,命令./crsctl stat res -t -init 查看发现ora.cssd长时间处于STARTING状态,ora.cssd反复尝试启动大约2个小时后,ora.cssd进程启动失败;
此时:两个节点服务器运行正常,网络正常,心跳线连通正常,节点1运行正常,节点二crs无法启动;重启节点2服务器仍然无法解决问题。
查看$GRID_HOME/log/node2name/cssd/ocssd.log文件,重复出现以下错误:
--------------------------------------------------
2010-09-20 11:52:54.014: [ CSSD][1103055168]clssnmvDHBValidateNCopy: node 1, racnode1,has a disk HB, but no network HB, DHB has rcfg 180441784, wrtcnt, 453, LATS 328297844, lastSeqNo 452, uniqueness 1284979488, timestamp 1284979973/329344894
2010-09-20 11:52:54.016: [ CSSD][1078421824]clssgmWaitOnEventValue: after CmInfo State val 3, eval 1 waited 0
-----------------------------
方法尝试:经过查找网上各种解决方法进行各种尝试后,在多名Oracle原厂工程师帮助下终究没能将节点2的CRS服务启动,检查操作系统,网络、心跳一直处于通畅状态。后来不得已,运来备用的数据库服务器,与被踢出集群的服务器重新安装操作系统,升级网卡固件,重新安装Oracle RAC软件,打上最新的RAC补丁包,安装数据库,并恢复数据。然后,经过反复拔插心跳线(包括交换机互联、直连)、重启服务器的暴力测试后(Oracle原厂工程师听说我们这种测试后彻底愤怒了!!!!),发现上述问题has a disk HB, but no network HB仍然存在!
不过可喜的是,我们发现一个重要规律:
1、当两节点RAC正常运行时,首先拔掉心跳线一次,节点2被踢出集群;
2、15秒以后重新插上心跳线,节点2无法加入集群,ocssd.log日志报"has a disk HB, but no network HB";
3、此时不要灰心,再拔掉心跳线一次,15秒以后重新插上:天哪,竟然好啦!!
最终解决方案总结:
1、对于非需要长时间不间断运行的RAC数据库,可以同时重启两个节点服务器即可;
2、对于需要长时间不间断运行的RAC数据库,那就试试拔两次心跳线吧,一定是2次哦,或者更多次,绝对有意外惊喜!!
3、至于是不是CRS的bug,不清楚,有请大虾们指点。
此方法为原创方法,尚未申请专利,大家可放心使用!!
- Oracle RAC 11.2.0.3 节点CRS无法启动报:no network hb 故障解决方法
- Oracle CRS 不能启动,日志报错: "has a disk HB, but no network HB, DHB has rcfg..."
- Oracle RAC 单节点宕机 has a disk HB, but no network HB
- Oracle 11g RAC 添加节点故障之--CRS资源启动故障
- Oracle Study之--Oracle 11gR2 RAC crs启动故障
- Oracle Study之--Oracle 11gR2 RAC crs启动故障(CRS-4000)
- Oracle RAC Study之--Oracle 10g RAC 故障之--CRS启动失败
- ORACLE RAC crs 无法启动
- Oracle RAC启动CRS-1028,CRS-0223错误
- OCR损坏RAC集群服务无法启动:CRS-0704、CRS-10132: No msg for has:crs-10132 [10][60]、Could not init OLR
- Oracle RAC root.sh 报错 Timed out waiting for the CRS stack to start 解决方法
- Oracle RAC root.sh 报错 Timed out waiting for the CRS stack to start 解决方法
- RAC 不能启动之 OCR/CRS/controlfile 故障
- 单节点rac无法启动
- 单节点RAC无法启动
- Oracle RAC 第二节点 root.sh 报错 Timed out waiting for the CRS stack to start
- 10 RAC CRS 2节点执行root.sh报错Waiting for the Oracle CRSD and EVMD 处理方法
- 【ORACLE RAC】crs启动失败 crs_start -all CRS-0184: Cannot communicate with the CRS daemon.
- Apache Camel框架之Freemarker做数据转换
- oracle_导致实例逐出的五大问题
- md5加密方法
- Apache Camel Route节点的消息载体Exchange
- 字符设备驱动模型
- Oracle RAC 11.2.0.3 节点CRS无法启动报:no network hb 故障解决方法
- sybase IQ 12.7 安装截图
- Apache Camel简介与入门
- JBuilder特点
- 企业信息化杂汤:信息化的价值(6)
- erlang17.4 + centos6.4 install
- python3 终端下英汉词典 BeautifulSoup+网络爬虫
- abstractembeddedcomponents.cid
- HDU4296--Buildings