谈谈怎样对HPUX主机做定期健康检查

来源:互联网 发布:横道图软件下载 编辑:程序博客网 时间:2024/04/28 19:16

版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://jxht.blogbus.com/logs/47430254.html

对HPUX主机做定期健康检查:本文适用于HPUX主机和系统,在PA-8600相关CPU的主机上测试通过,并可延伸到其他相关平台和主机。


本文作者未知,疑为HP工程师或相关人员。


如何定期对系统做Health Check

 

系统每日运转,为了最大程度上减少系统的非正常停机,系统管理员应定期对系统作Health Check


1. Health Check的目的
1)发现及定位已经存在的风险
2)发现潜在的系统问题及风险
3)进行预防性的保养维护


2. Health Check的步骤:


硬件系统


指示灯

    硬件系统通常都有状态指示灯,正常运行状态下多为绿灯(闪烁或恒亮),如果出现黄灯、红灯说明有故障(也有例外,应视具体硬件而定),系统管理员应注意观察和掌握住系统正常运行的状态指示灯,这样,硬件发生故障时,就能很快发现。


液晶面板和主控台

    主机正常运行时,液晶面板上通常有显示如下:

RUN   XXXXX

CPU    0 1 ...N



    发生故障时,其液晶显示屏或主控台上都有ERROR或FLT一类的信息。
如果磁盘阵列运行过程中,液晶屏上或主控台上出现其他信息,如Disk Failue,Power Supply failure,X controller failure等时,应及时与HP响应中心联系


系统中的硬件信息及日志  
 
1、检查syslog.log
检查syslog.log和OLDsyslog.log中有没有关于硬件系统的诸如Error,Warning,Powerfail一类的信息。


2、使用mstm对硬件系统进行诊断并查看相应的硬件日志/usr/adm/diag/LOGXXX

 

3、使用相应的工具查看硬件的firmware版本及配置信息

 

硬件部件
察看信息
使用工具
System Borad
Pdc firmware
Mstm
GSP
Firmware
GSP command
CPU
Numbers & Status
Ioscan-fnC processor
Memory
Total Size
Dmesg|grep Physical
SCSI card
HW path& ID
ioscan
Fibre channel
Date Code/firmware
Mstm/hardware check
Disk
Model &firmware
Diskinfo -v
Tape drive
Model &firmware
Diskinfo -v
Cdrom/DVD
Model &firmware
Diskinfo -v
Disk Array
ALL info
Autoraid:arraydsp -a
  FC60: amdsp -a fc60
amdsp -d fc60
rebuild
amdsp -r fc60
amutil -rr 1:0 fc60

 

软件系统


●安装的软件


1、检查有无未configured的软件和补丁:swlist -l fileset -a state
2、在11.0系统中检查有无patch attribute的补丁:
swlist -l  patch -a is_patch  PH/*
3、检查Swverify有无错误输出
4、检查/var/adm/sw/swagent.log中ERRORs和WARNINGs


●系统日志
   检查/var/adm/syslog/syslog.log及OLDsyslog.log中有无错误及警告信息


●网络联接
   检查nettl.LOG00中最近的错误信息
   netfmt -f /var/adm/nettl.LOG00


Dump的配置
  
1、用lvlnboot -v 检查Dump区
2、检查core  dump目录
3、确认/etc/rc.config.d/savecore(10.x)或savecrash(11.x)值为1


系统备份


  确认系统备份计划执行良好,有最近的系统备份且定期作数据备份
系统交换区
 
1、确认系统有足够的交换区:swapinfo
2、若内存大于1GB,确认swapmemon为1


系统安全
1、检查失败的登陆:lasb
2、检查/etc/passwd中有无相同的rootid


系统起停
1、检查启动过程中的错误信息:/etc/rc.log
2、检查关机日志/etc/shutdownlog确认有无非正常关机和重启


LVM配置
1、确认/etc/lvmconf中包含所有逻辑卷组的配置信息
2、确认每个vg配置文件有备份
3、vgdisplay -v显示所有的激活的vg的信息


文件系统、磁盘空间、数据库表空间检查


1、bdf检查文件系统大小及剩余空间
2、vgdisplay -v检查每个vg的组成及剩余空间
3、使用数据库工具检查数据库表空间


Kernel
 检查/stand/vmunix存在,且其有备份存在于/stand目录下


Cluster
1、检查/etc/cmcluster/pkgXXX/control.sh.log中的错误信息
2、cmviewcl -v检查cluster状况

 

 

原创粉丝点击