/cdata/crs 产生大量的数字命名的文件 HPUX-ia64 Error: 28: No space left on device
来源:互联网 发布:淘宝商家登陆 编辑:程序博客网 时间:2024/06/14 07:21
某个社保系统,早上业务全部无法办理环境是HP-UNIX oracle 10g asm rac1、查看smon进程,猜看数据库应该还没down$ ps -ef | grep smon oracle 3932 31303 0 8:29 pts/4 00:00:00 grep smonoracle 12820 1 0 Oct29 ? 00:00:04 ora_smon_orcl2、查看实例状态$ sqlplus / as sysdbaSQL*Plus: Release 10.2.0.5.0 - Production on Wed Oct 29 8:30:24 2014Connected to:Oracle Database 10g Enterprise Edition Release 10.2.0.5.0 - 64bit ProductionWith the Partitioning, OLAP and Data Mining optionsSQL> select status from gv$instance;STATUS------------OPENOPEN实例是OPEN的,查看监听,监听也是正常的3、开始排查警告日志,出现以下报错 HPUX-ia64 Error: 28: No space left on deviceWed Oct 29 02:56:49 EAT 2014Unexpected communication failure with ASM instance: error 9945 (ORA-09945: Unable to initialize the audit trail fileHPUX-ia64 Error: 28: No space left on device)NOTE: ASMB process state dumped to trace file /oracle/admin/dysb/bdump/dysb1_arc1_871.trcWed Oct 29 02:56:50 EAT 2014Unexpected communication failure with ASM instance: error 9945 (ORA-09945: Unable to initialize the audit trail fileHPUX-ia64 Error: 28: No space left on device)4、排查锁定文件系统查看时是/oracle目录用满了,怀疑可能有大量的trace文件造成文件系统被耗尽# bdfFilesystem kbytes used avail %used Mounted on/dev/vg00/lvol3 1048576 600640 444664 57% //dev/vg00/lvol1 1835008 304184 1518944 17% /stand/dev/vg00/lvol8 8912896 3106696 5764024 35% /var/dev/vg00/lvol7 10240000 2925352 7257528 29% /usr/dev/vg00/lvol4 10485760 3618184 6815280 35% /tmp/dev/vg00/lvol9 20971520 20971520 0 100% /oracle/dev/vg00/lvol5 131072 5792 124312 4% /home5、开始查找crs,rdbms中的trace文件,发现集群和数据库的日志并不大只有几十MB6、想到trace文件也就是几MB大小,于是使用find(例:find /oracle -size +10240 -print) 查找大于2MB的文件,发现crs目录下的cdata/crs中有大量的以数字字符串命名的文件于是进入到cddata,发现了状况3万个以数字命名的文件,而且文件生成有时间规律,于是string 以下里面的内容发现里面的文件都是一些关于集群和机器的内容,怀疑是ocr自动备份的文件
#ls -al total 39540drwxrwxr-x 2 root oinstall 51200 Oct 29 10:44 .drwxrwxr-x 4 oracle oinstall 96 Sep 30 2013 ..-rw-r--r-- 1 root root 4145152 Oct 29 10:28 36156006..................省略.....-rw-r--r-- 1 oracle root 4145152 Oct 29 10:28 36156006-rw-r--r-- 1 oracle root 3317760 Oct 5 2013 backup00.ocr-rw-r--r-- 1 oracle root 2547712 Oct 5 2013 backup01.ocr-rw-r--r-- 1 oracle root 2547712 Oct 5 2013 backup02.ocr-rw-r--r-- 1 oracle root 2547712 Oct 4 2013 day.ocr-rw-r--r-- 1 oracle root 2547712 Oct 5 2013 day_.ocr-rw-r--r-- 1 oracle root 2539520 Sep 30 2013 week.ocr为什么会产生数字字符串的文件呢,细心观察发现,以数字命名的文件属主、属组和时间与*.ocr(包括所有的backup.ocr,day.ocr,week.ocr)的文件完全不同,正常情况下*.ocr的备份文件属主和属组用属于root,对比一下两个节点的*.ocr文件的属组可以发现,出现了问题节点 1-rw-r--r-- 1 oracle root 4145152 Oct 29 10:28 36156006-rw-r--r-- 1 oracle root 3317760 Oct 5 2013 backup00.ocr-rw-r--r-- 1 oracle root 2547712 Oct 5 2013 backup01.ocr-rw-r--r-- 1 oracle root 2547712 Oct 5 2013 backup02.ocr-rw-r--r-- 1 oracle root 2547712 Oct 4 2013 day.ocr-rw-r--r-- 1 oracle root 2547712 Oct 5 2013 day_.ocr-rw-r--r-- 1 oracle root 2539520 Sep 30 2013 week.ocr节点 2-rw-r--r-- 1 oracle oinstall 3317760 Oct 5 2013 backup00.ocr-rw-r--r-- 1 oracle oinstall 2547712 Oct 5 2013 backup01.ocr-rw-r--r-- 1 oracle oinstall 2547712 Oct 5 2013 backup02.ocr-rw-r--r-- 1 oracle oinstall 2547712 Oct 4 2013 day.ocr-rw-r--r-- 1 oracle oinstall 2547712 Oct 5 2013 day_.ocr-rw-r--r-- 1 oracle oinstall 2539520 Sep 30 2013 week.ocr两个节点的*.ocr的备份文件权限完全不同,再看时间,2013年10月5日,也就是说,本套集群OCR的自动备份完全没有使用正常的备份文件,可能是属组的问题导致主节点产生以数字结尾的ocr非正常的备份文件于是用以下的解决方案处理本次故障01.修改两个节点 *.ocr备份文件的权限和属组#chown root:root *.ocr02.删除所有以数字命名的OCR备份文件 经过一天的观察,主节点不再产生36156006类似的ocr备份文件,由此确定是ocr备份文件的属主和属组的问题造成的cdata目录产生大量的ocr非标准的自动备份文件,属组的问题客户已经不确定当时是否有人修改过,或者RAC安装的时候就存在问题,本次故障是不是bug就没做深入研究了。节点 1的ocr备份已经正常-rw-r--r-- 1 root root 3317760 Oct 29 2014 backup00.ocr
0 0
- /cdata/crs 产生大量的数字命名的文件 HPUX-ia64 Error: 28: No space left on device
- No space left on device的原因
- No space left on device的原因
- No space left on device的原因
- Docker error : no space left on device
- make error 'No space left on device'
- No space left on device的分析及解决
- No space left on device的分析及解决
- 关于“No space left on device的原因”
- msgget函数 No space left on device的原因
- Ramdisk 上的 "No space left on device" 问题
- linux的clientmqueue问题和No space left on device
- Ramdisk 上的 "No space left on device" 问题 .
- BTRFS下的No space left on device
- inode 引起的No space left on device
- linux下 关于“No space left on device的原因”
- SVN报No space left on device的问题。
- No space left on device
- 【STL】【STL颓废笔记】【2014-10-29】
- SpringMVC Controller 介绍
- NSArray 排序sortedArrayUsingComparator
- openfire Android学习---android客户端聊天开发之登录 和 注销登录
- mysql运行转储的sql文件导入大批量数据时,报错:Lost connection to MySQL server during query
- /cdata/crs 产生大量的数字命名的文件 HPUX-ia64 Error: 28: No space left on device
- Android——Button的监听事件(自己动手 丰衣足食)
- POJ 1321 棋盘问题(暴力dfs or DP)
- 基于实现霍夫曼编码的无损压缩-C++实现
- 基于用户投票的排名算法(二):Reddit
- ESB企业服务总线
- 修改(Secondary,Primary set)Oplog文件大小
- QT release时 提示“无法找到“xxx.exe”的调试信息,或者调试信息不匹配
- POJ3233(矩阵二分再二分)