某集团项目总结

来源:互联网 发布:c语言字符串中取单词 编辑:程序博客网 时间:2024/04/28 03:17

AIX6.1.8+Oracle 11g RAC + SAS存储

      6月30日,我带着激动的心情向此次项目实施目的地出发了,因为这是我第一次独自实施AIX环境下的项目,而且还是那么远的地方 ,但我已经做好了准备工作,我相信我能做好的;先乘灰机,然后打车到了项目实施目的地,一个小镇,一开始会觉得应该是一个很偏远落后的地方,但事实完全不是想象那样,高楼林立,车水马龙,先到入住的酒店和项目经理沟通了项目的一些情况;但项目经理说他什么都不懂,有什么要求就提出来,去了就开始干吧,当时我就傻了!下午离客户下班时间还有一小段时间,就先过去看看,了解下客户的需求,实施前的准备工作就是只是在小机上装了AIX操作系统,其他什么也没搞,就这样就开始干?干!

         周二,一大早就过去和客户了解下存储方面,目前是cisco 9506A光纤交换机,IBM N6060存储,存储可以帮忙划分,但往光纤交换机加ZONE要自己加,在加之前要出一个加ZONE的方案,然后客户看过觉得没有问题,给我用户名和密码让我来操作加ZONE;然后存储总共200G,CRS 2G,DATA 90G,FRA 90G;然后说目前的问题是HMC控制台,先把这个搞定在说下一步,点击打开终端就报错,但是小机的工程师已经走了,我从来没搞过这个,就联系了该项目的小机工程师,说让我看下HMC左边二维码有一串号,通过这个号在官网下载补丁包,然后通过打补丁,果然问题解决了;然后下午和布置机房的集成商连接小机和光纤交换机之间的网络,他这里的连接是通过跳线,总共跳了4次才连接到光纤交换机上,而我在其他项目中机房看到的都是一条光纤线通过理线架连接网络,光纤的接法是有关对无光,无光对有光,然后因为是做RAC,所以要做冗余(交叉连接),但连接后有的FC口一个灯常亮,另一个灯闪烁(握手,有收发),有的一个灯常亮,另一个灯不亮(没握手,没有收发),于是就在不断的调试,终于都达到了握手的情况,但是已经下班了。

        周三,上午一上班就让客户在交换机上查看是否认到了小机的HBA卡的WWN号,但我这边通过命令查看是没问题的

查看LPAR的IO借口卡类型

#lsdev -Cc adapter   两个口都是活动状态avilibale

查看HBA卡的WWN号

#lscfg -vl fcs0
1. fcs0 10000090FA26C590
   fcs1 10000090FA26C591
2. fcs0 10000090FA26C782
   fcs1 10000090FA26C783

HBA卡相关知识

{
HBA一个HBA卡只有一个WWN号,但一个HAB卡可以有1port,2port,4port

 

两台机器分别执行
rmdev -Rdl fcs0      
rmdev -Rdl fcs1
这两个命令 然后在执行cfgmgr
这个就是你说的把卡都干掉再来

主机cfgmgr认到卡后,
 1.拔掉交换机上的光纤线,看看你的光纤线那头的灯还亮?
 2.把光纤线那头插回去,把主机端的光纤线拔下来看光纤头还亮?
 1,2都不亮:光纤线问题。
 1亮2不亮,交换机问题。
 1不亮2亮,光纤卡问题。

}

最后然布置机房的集成商查找及测试光纤问题,我自己把两台小机连到交换机,然后两台小机间用直连线连起来,建立通信后,我把安装前的一些环境做了相关的配置,一个上午又过去了,下午过来上网搜并求助同事,写了一个简单的加zone方案,但客户说不行;但是客户都是生成环境,就算我能操作,也不能去做,因为不熟悉客户这边相关的配置,出了问题谁负责呢?然后又去看了下小机和网络存储是否已通,这个时候领导也过来了,看到已经搞了两天了,还没什么进展,网络还没搞通,就说大家想办法测试看是哪方面的原因,客户说我们的网络存储肯定没问题,因为我们生成都在使用,布置机房的集成商说我们的线和跳线盒也没问题,因为我们其他项目也用的这类设备,我们这边的集成商说我们的小机也没问题,最后领导说让把小机拆卸,移动到光纤交换机旁边进行测试,看是否是小机的问题,项目经理不愿意干,说这不是他的工作,后来因为此事,加上项目经理急于回去有一些事情要处理,心情本来就不好,于是项目经理和客户这边的领导发生了一些不愉快的事情,整个下午也就过去了;

    周三,上午我自己过去了,因为昨天的事情,项目经理无法在进入机房,我自己又一步步排查了一下,但没发现有什么问题,但是光纤交换机就是认不到WWN号,而且客户这边已经不在那么的配合,意味着项目暂停了,后来项目经理接了个电话,我就回去了,下午准备返程。下午返程的过程中,项目经理又接到电话,说老板已经和这边客户沟通好了,可以继续干活了,于是又返回客户那边,唉,真是折腾!

   周四,由于最终客户不想再看到集成商,于是让我既干活又沟通等于也充当了项目经理的角色,一开始我去在排查问题,系统管理员说没收到通知,我就联系了信息中心科长,让相互的配合,这样早点把事情做完,这个事情也就过去了。然后布置机房的集成商找了个测试光纤的信号的设备,把所有的光纤口都试了一遍,其中一个HBA卡的WWN号可以认到了,初步怀疑是信号衰减导致,我想通过一条长的光纤线直接连接到光纤交换机那边,但是这么大的机房连一条长光纤线都没,就只有三米,五米的,我也怀疑跳线越多问题越多,出了问题不好排查!

本周工作没实质性进展,但掌握了一些硬件知识及整个rac实际的搭建环境,同时懂得改动手的地方动手,不该动的千万不要动,还有与人的沟通要控制情绪,注意态度,这个很重要,要不整个工作就搁置了。

 

    于是,又一个周一,集成商这边搞了四条30米的光纤线,我直接先把小机这边接好,然后把线拉到光纤交换机旁边,因为客户说端口是分配好的,他自己来接这边的口,这个网络连接后,终于向前迈了一步,四个WWN号都在交换机上认到了,我的心情是有那么一点的激动,因为工作向前推进了,而且客户这边现在很配合,估计是得到了上机的批准,他们自己加ZONE了;下午就给存储也划好了,于是第二步也迈了出去,此时我的心情又一激动,因为前期的准备工作等于做完了,可以开始我的第三步了,但此时问题出现了,一开始划的存储,两台小机认到DISK的unique_id两边不一致,根据经验这样在装GIRD创建ASM的时候会出问题的,于是又给客户说了这个情况,一开始不愿意搞,让我删除了,从新扫下试下,但结果还是不行,于是又让客户删除重新划分,客户询问了上级后,得到了允许,就给重新划了存储,然后两边认到的存储一致了,我修改了磁盘的权限;

     周二,我开始充满斗志的开始了我的工作,一切都在顺利的进行着,但到最后一步建库的时候,问题出现了,ORA-12537:TNS:connection closed,查找了半天没找到原因,于是让同事帮忙,当同事操作到修改HOST的时候,我发现是我手贱把127.0.0.1注释了,导致监听关闭了,取消注释,重启资源,再次删除重新建库,搞定了!

    周三,上午把小机剩余的两块盘做了backupvg,做了RMAN备份,整个工作完成了,等待验收。

在项目中,无论是在技术还是在和客户沟通上,学到了很多,再难的技术和再难沟通的客户,只要和客户处好,得到客户的配合,最终都会得到解决的

0 0
原创粉丝点击