Top 5 Grid Infrastructure Startup Issues [ID 1368382.1]
来源:互联网 发布:口碑好的多肉淘宝 编辑:程序博客网 时间:2024/04/29 03:39
n this Document
问题 1:CRS-4639:无法连接 Oracle 高可用性服务,ohasd.bin 未运行或 ohasd.bin 虽在运行但无init.ohasd 或其他进程
问题 2:CRS-4530:联系集群同步服务守护进程时出现通信故障,ocssd.bin 未运行
问题 3:CRS-4535:无法与集群就绪服务通信,crsd.bin 未运行
问题 4:Agent 或者 mdnsd.bin, gpnpd.bin, gipcd.bin 未运行
问题 5:ASM 实例未启动,ora.asm 不在线
Applies to:
Oracle Database - Enterprise Edition - Version 11.2.0.1 and later
Information in this document applies to any platform.
Purpose
本文档的目的是总结可能阻止 Grid Infrastructure (GI) 成功启动的 5 大问题。
Scope
本文档仅适用于 11gR2 Grid Infrastructure。
要确定 GI 的状态,请运行以下命令:
2. $GRID_HOME/bin/crsctl stat res -t -init
3. $GRID_HOME/bin/crsctl stat res -t
4. ps -ef | egrep 'init|d.bin'
Details
问题 1:CRS-4639:无法连接 Oracle 高可用性服务,ohasd.bin 未运行或 ohasd.bin 虽在运行但无 init.ohasd 或其他进程
症状:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误:
2. 命令“ps -ef | grep init”不显示类似于如下所示的行:
3. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行:
可能的原因:
3. Init 进程 (pid 1) 并未衍生 /etc/inittab (h1) 中定义的进程,或 init.ohasd 之前的不当输入,如 xx:wait: 阻碍了 init.ohasd 的启动
4. CRS 自动启动已禁用
5. Oracle 本地注册表 ($GRID_HOME/cdata/.olr) 丢失或损坏
解决方案:
2. 运行命令“ps -ef | grep rc”,并kill看起来受阻的所有 rc3 脚本。
3. 删除 init.ohasd 前的不当输入。如果“init q”未衍生“init.ohasd run”进程,请咨询 OS 供应商
4. 启用 CRS 自动启动:
5. 以 root 用户身份从备份中恢复 OLR(Oracle 本地注册表):
如果出于某种原因,OLR 备份不存在,要重建 OLR 就需要以 root 用户身份执行 deconfig 并重新运行 root.sh:
问题 2:CRS-4530:联系集群同步服务守护进程时出现通信故障,ocssd.bin 未运行
症状:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误:
2. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行:
3. ocssd.bin 正在运行,但在 ocssd.log 中显示消息“CLSGPNP_CALL_AGAIN”后又中止运行
4. ocssd.log 显示如下内容:
5. 对于 3 个或更多节点的情况,2 个节点形成的集群一切正常,但是,当第 3 个节点加入时就出现故障,ocssd.log 显示如下内容:
6. 10 分钟后 ocssd.bin 启动超时
可能的原因:
2. 多播未正常工作(对于 11.2.0.2 及以上版本)
3. 私网未工作,ping 或 traceroute 显示无法访问目标。或虽然 ping/traceroute 正常工作,但是在私网中启用了防火墙
4. 使用正常 ping 命令可对私网进行 ping 操作,但启用巨帧时(MTU:9000+),不能使用巨帧尺寸(如:ping -s 8900 )进行 ping 操作。或部分集群节点设置了巨帧(MTU:9000),但问题节点未设置巨帧(MTU:1500)
5.
6. 通过 asm_diskstring 发现的磁盘太多,或由于 Bug 13454354 导致扫描太慢(仅在 Solaris 11.2.0.3 上出现)
解决方案:
2.
3. 咨询网络管理员,恢复私网访问或禁用私网防火墙(对于 Linux,请检查服务 iptables 状态和服务 ip6tables 状态)
4. 如果巨帧在网卡中启用,则联系网络管理员在交换机层也启用。
5.
6.
问题 3:CRS-4535:无法与集群就绪服务通信,crsd.bin 未运行
症状:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误:
2. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行:
3. 即使存在 crsd.bin 进程,命令“crsctl stat res -t –init”仍然显示:
可能的原因:
2. +ASM 实例无法启动
3. OCR 无法访问
4. 网络配置已改变,导致 gpnp profile.xml 不匹配
5. Crsd 的 $GRID_HOME/crs/init/.pid 文件已被手动删除或重命名,crsd.log 显示:“Error3 -2 writing PID to the file”
6. ocr.loc 内容与其他集群节点不匹配。crsd.log 显示:“Shutdown CacheLocal. my hash ids don't match”
解决方案:
2.
3.
4. 恢复网络配置,与 $GRID_HOME/gpnp//profiles/peer/profile.xml 中定义的接口相同,请参考
5. 请使用 touch 命令,在 $GRID_HOME/crs/init 目录下创建名为 .pid 的文件。
6. 使用 ocrconfig 命令修正 ocr.loc 内容:
# ocrconfig -repair -add +OCR2 (添加条目)
# ocrconfig -repair -delete +OCR2 (删除条目)
以上命令需要 ohasd.bin 启动并运行 。
一旦以上问题得以解决,请通过以下命令重新启动 GI 或启动 crsd.bin:
问题 4:Agent 或者 mdnsd.bin, gpnpd.bin, gipcd.bin 未运行
症状:
1. orarootagent 未运行. ohasd.log 显示:
2012-12-21 02:14:05.071: [
2. mdnsd.bin, gpnpd.bin 或者 gipcd.bin 未运行, 以下是 mdnsd log中显示的一个例子:
2012-12-31 21:37:27.601: [
2012-12-31 21:37:27.602: [
2012-12-31 21:37:27.602: [
或者
2012-12-31 21:39:52.656: [
2012-12-31 21:39:52.656: [
2012-12-31 21:39:52.656: [
3. oraagent 或 appagent 未运行, 日志crsd.log显示:
2012-12-01 00:06:24.462: [
可能的原因:
2. 缺少进程相关的 .pid 文件或者这个文件的所有者/权限不对
3. GRID_HOME 所有者/权限不对
解决方案:
这将停止集群软件,对需要的文件的所有者/权限设置为root用户,并且重启集群软件。
2. 如果对应的 .pid 不存在, 就用touch命令创建一个具有相应所有者/权限的文件, 否则就按要求改正文件.pid的所有者/权限, 然后重启集群软件.
这里是下,所有者属于root:root 权限 644的.pid 文件列表:
所有者属于:oinstall,权限644
3. 对第3种原因,请参考解决方案1
问题 5:ASM 实例未启动,ora.asm 不在线
症状:
1. 命令“ps -ef | grep asm”不显示 ASM 进程
2. 命令“crsctl stat res -t –init”显示:
可能的原因:
2. ASM discovery string不正确,因此无法发现 voting disk/OCR
3. ASMlib 配置问题
4. ASM实例使用不同的cluster_interconnect, 第一个节点 HAIP OFFLINE 导致第二个节点ASM实例无法启动
解决方案:
2.
3.
4.
要进一步调试 GI 启动问题,请参考
本文出自 “无双城” 博客,请务必保留此出处http://929044991.blog.51cto.com/1758347/1246387
- Top 5 Grid Infrastructure Startup Issues [ID 1368382.1]
- Top 5 Grid Infrastructure Startup Issues [ID 1368382.1]
- Top 5 Grid Infrastructure Startup Issues [ID 1368382.1]
- Top 5 Grid Infrastructure Startup Issues
- Troubleshoot Grid Infrastructure Startup Issues [ID 1050908.1]
- How to Troubleshoot Grid Infrastructure Startup Issues [ID 1050908.1]
- How to Troubleshoot Grid Infrastructure Startup Issues [ID 1050908.1]
- How to Troubleshoot Grid Infrastructure Startup Issues [ID 1050908.1]
- Troubleshoot Grid Infrastructure Startup Issues (Doc ID 1050908.1)
- Troubleshooting 11.2 Grid Infrastructure root.sh Issues (Doc ID 1053970.1)
- Troubleshooting 11.2 Grid Infrastructure root.sh Issues (Doc ID 1053970.1)
- Pre 11.2 Database Issues in 11gR2 Grid Infrastructure Environment (文档 ID 948456.1)
- Known Issues: Grid Infrastructure Redundant Interconnect and ora.cluster_interconnect.haip (Doc ID 1
- Top 5 issues for Instance Eviction (Doc ID 1374110.1)
- 诊断 Grid Infrastructure 启动问题 (文档 ID 1623340.1)
- 诊断 Grid Infrastructure 启动问题 (文档 ID 1623340.1)
- 诊断 Grid Infrastructure 启动问题 (文档 ID 1623340.1)
- Grid Infrastructure 启动的五大问题 (文档 ID 1526147.1)
- flashback注意事项整理
- OEL配置本地Yum并简化安装oracle所需RPM包
- 利用udev设置ASM
- oracle11g tmpfs参数设置
- 配置SCAN没有DNS解决方法
- Top 5 Grid Infrastructure Startup Issues [ID 1368382.1]
- 反向索引
- 安装配置ASMlib驱动
- 备用数据库快照
- Oracle常见Load Profile
- find Literal SQL
- Oracle常见Top Event
- Oracle CPU负载
- RAC性能综述