网络医院的故事----连载8

来源:互联网 发布:下载易企秀软件 编辑:程序博客网 时间:2024/04/30 02:53

[故事之二十五]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格       

[症状]某知名的大型电信产品开发商,最近对网络进行了升级,其负责通信及计算机网络的IT经理Grace小姐今天向网络医院报告,有数台新安装的服务器基本不能用,其它服务器也偶尔存在数据出错和访问速度停顿的问题,有的明显,有的则不太明显。在网络用户少时,对服务器进行Ping测试一般都能通过,但用户数量稍微增加时则有10%~30%的Ping测试损失。这几台服务器即使在用户数量很少时,也不能很好地登录和访问。奇怪的是,登录过程有时候很顺利,有时候则根本无法登录,等待时间最高能达到5分钟,方能进入。
骨干网原计划用ATM架构,后更改设计为千兆以太网交换机作骨干交换机。公司总部所在大厦内的用户近3000个,楼高28层,每层用一台千兆以太网交换机作为核心交换机,下面则只设一级100兆工作组交换机,然后直接100兆交换到桌面。服务器安装的都是千兆以太网卡,直接与各层分布的千兆以太网交换机相连。网络维护人员对服务器工作平台进行了多次彻底地检查,并重新安装了工作平台,但现象依旧。经人指点,曾经怀疑是电缆问题,遂对相关的服务器连接电缆全部用Fluke公司的DSP100电缆测试仪进行了测试,结果都合格。试着更换部分电缆,无效。观察这几台服务器,多数时候访问流量不足1%。不知道何故?
       
[诊断过程]服务器访问受阻,而且是同时有几台受阻,这其中的故障原因必定有某些共性存在。Grace告知,本次新安装的服务器共有17台,其中7台有明显问题,另10台大致正常。负责安装的是同一个人,由公司资深网络工程师潘先生直接执行,应该不存在由于安装上的差异而导致部分可用部分不可用的问题。
        我们将网络测试仪接入用户端对网络工作状态进行初步了解。观察有明显连接问题的7台服务器与交换机的连接端口,发现流量均低于1%,但延迟数据包的比例很高,占86%~93%左右,错误的FCS帧比例也不低,约为5%~11%左右。这说明确实有大量的数据包指向了服务器而服务器却没有理会。另外的5%~11%的FCS错误数据包则可能来自服务器。对准服务器做ICMP Ping测试,损失约为90%~100%之间。以上故障提示电缆问题和电缆与服务器、交换机的接口物理性能有问题。用DSP-4000电缆分析仪测试服务器与交换机之间的硬跳线,7台有问题的服务器均显示回波损耗RL(Return Loss)参数不合格!继续测试另10台服务器与交换机的跳线,其回波损耗RL参数也全部不合格!用电缆分析仪定位的RL不合格点就在跳线电缆的端头处。故重新制作接头并测试,仍不合格。换用我们随身携带的软跳线接入一台服务器,服务器工作立刻恢复正常。看来确实是跳线电缆的问题。用我们提供的合格接头重新制作一段跳线,测试还是不合格。由此可知,问题出在跳线材料上。我们将随身携带的仅有的4根软跳线接入其中4台服务器中,这4台服务器全部恢复正常。用DSP4000选择五类线测试标准对电缆进行测试,全部合格。查看电缆外包皮则为Cat5e。
       
[诊断评点]我们知道,电缆内有4对双绞线,在千兆以太网链路中,由于采用是4对线全双工5电平编码工作方式,每对负担250Mbps的双向数据流量,实际的信号等效物理带宽为100MHz,也就是说,五类线就基本可以满足千兆以太网的链路要求。实际使用当中则不然,千兆以太网对其它参数的要求更高,故一般建议使用超五类线承载千兆以太网应用。五类线则一般限于100兆以太网和ATM155等以内的速率应用。如果打算用五类线运行千兆以太网,则必须增加几项测试参数。Grace介绍他们采用的是超五类电缆,但经过DSP4000电缆分析仪实地认证测试证明只是五类电缆而已,也就是说Grace采用的是用五类线仿冒的超五类线。改用Cat5n标准测试,仍然不合格。这表明他们选用的五类线芯的品质本身也比较差,不能通过五类线的千兆应用标准Cat5n测试。这是因为,正规厂商提供的五类线在增加的千兆应用Cat5n标准测试中,不合格的产品比例一般都不会超过20%。
        DSP100电缆测试仪只能测试五类线,所以测试结果全部合格。但工程设计采用的是超五类线,所以该仿冒的超五类线经DSP4000电缆分析仪测试被判为不合格。
        4台不合格的跳线,长度均在2米以内,而另10台工作不良的服务器,与交换机的连接长度均在15米以上。这也是回波损耗RL不合格的典型表现:
即在RL不合格的链路中,电缆越短故障症状越严重。这是因为,RL不合格将会导致信号反射增加,短链路的衰减量小,所以,反射的能量大多数会在链路的另一段在此反射从而叠加到中常的数据信号之中,造成信号的大量畸变,反映为错误的FCS帧,另一方面,访问服务器的流量由于无法正常传递到服务器,反映到交换机则是大量的延迟帧累积。在较长的不合格RL链路中,由于信号的衰减较大,多数反射能量不能有效地叠加到正常信号之上,所以故障症状会轻一些,表现为错误较高或间歇性的停顿,尤其是流量高时错误帧较高,停顿频繁,但一般不会全部数据包都通不过链路。用户登录网络时受当时的平均流量和瞬间流量影响都很大,表现为登录时间的大幅度摆动,有时会比较顺利,因为此时的瞬间流量和平均流量都低,有时则表现为长时间等待,此时的平均流量或瞬间流量高,错误操作和重复操作大量出现。
       
[诊断建议]鉴于Grace采用的电缆为仿冒的超五类线,加之其它服务器也偶尔有数据错误和停顿的表现,故建议她将所有的服务器超五类链路重新进行检查,以确保网络的工作质量。


。。。。。。。。。。。。。。。。。。。。。。。。。。。

[故事之二十六]交换机设置不良,加之雏菊链效应和接头问题,100M升级失败
       
[症状]某化工交易中心华东公司,今日报告网络从10M升级到100M后,约有一半的工作站无法提速,他们都在同一个楼层。另一楼层的5台工作站则无法入网。另外,两个楼层中都有少数工作站工作速度比升级前更慢,而且并不是对所有的服务器或其它工作站访问都慢,对少数服务器的访问速度还“凑合”。该公司没有配备任何用于网络维护的工具,所以,除了可以观察服务器的CPU利用率以外,只能用软件间接观察网络的流量和碰撞率。观察到的碰撞率偏高的微网段可以达到20%,但不知道该如何处理。
        据负责网络管理的Lucy小姐介绍,网络升级前所有工作站都是可以接入网络中运行的,只是部分站点速度有些问题,但可以用。公司的网络规模不大,共占有两层半楼面,拥有280台工作站,计算机室配置了三台工作组交换机,分别为三层楼面提供连接。三台交换机通过一台100M集线器共享。路由器一台,也通过工作组交换机连接帧中继网络。交换机下面通过级联100M集线器构成星型结构将链路接口连接到用户桌面。
升级工程很简单,将10M交换机更换为100M交换机,10M集线器更换为100M集线器即算大公告成,机架上的设备布局基本按原样安装。用户端则全部更换为100M网卡,施工时间是利用周六、周日两天非业务时间,将全部用户都“搞定”,全部作业都有公司自己的员工负责。完工后抽查了部分工作站,工作状况良好,由此认定升级工程验收合格。可是周一上班,麻烦随之而来。
       
[诊断过程]该网络的结构比较简单随意,集中反映出的“病症”有三种:一是部分站点不能上网,二是部分站点速度变慢,三是有一半站点不能提速到期望的100M速度。这些其实都是网络升级时经常遇到的问题,也是比较典型的“网络升级症”。
        我们将F683网络测试仪首先接入不能上网的站点所在的微网段,观察网络的工作情况。网络搜索的结果显示无法发现这几台工作站,但“Ping”测试却偶尔能有反映。一般来讲,出现此类“病症”的原因基本上是工作站和网络之间的匹配有问题,比如协议不匹配(一致),驱动程序不匹配,网卡速度不匹配,Link脉冲极性不匹配,链路的接口物理参数不匹配,电缆、光缆规格不匹配(如使用了三类线等),测试的方法比较简单,可以直接用网络测试仪、网络故障一点通、网络万用表自身具备的接口测试功能直接对网卡、集线器、电缆等进行测试。对5台工作站的网卡逐个进行测试,结果如下:网卡为自适应卡,工作速度10M,交换机端口为100M固定速度半双工设置,双方选用的协议完全匹配,物理电参数测试合格。因而进一步对从配线间到用户之间的电缆链路进行测试,结果发现5台工作站使用的电缆接头均为三类线接头。更换水晶头后用五类线标准测试均合格,5台工作站全部上网成功且速度很快。
        用网络测试仪对不能提速的工作站进行测试,当网络测试仪模拟工作站发送5M流量时,用网络故障一点通接收之,显示收到的流量为5Mbps;而当网络测试仪从集线器近旁模拟50M流量发送数据帧时,收到的流量指示仅为10Mbps。这说明,网络只能以10M的实际工作速度运行,不能提速到升级工程实施前所预期的100Mbps的速度。重复上述类似的对网络和工作站的匹配性测试,结果如下:交换机设置为10/100M自适应状态;协议测试显示完全匹配;物理电参数测试全部合格。因此怀疑仍然是链路接头的问题。抽查了10条链路,用DSP4000电缆分析仪进行现场认证测试,结果显示全部链路都不合格。按下电缆分析仪的故障诊断信息健,指示链路的两个接头均不合格。我们注意到这些故障链路都在同一楼层。改用三类线标准测试链路,合格。这说明,该楼层的链路所使用的水晶头问题普遍比较严重。
        继续对升级后速度比升级前的部分工作站进行监测,发现他们的流量为1.0%,而碰撞率为87%左右,另有12%左右的FCS帧错误。网络测试仪接入模拟工作站后仪器上的蓝色指示灯亮,说明工作状态是100Mbps。查看Lucy小姐提供网络结构拓扑图,发现速度变慢的用户共有4组17个工作站,他们的100M集线器级联数均达到了4个,出现所谓的雏菊链效应,影响网络的正常工作。碰撞数据尤其是延迟碰撞和FCS错误帧将大量出现。
       
[诊断评点]该网络出现的问题比较典型,许多网络在升级都会碰到类似的问题。首先,不少交换机产品是10/100M自适应的,交换机可以自动监测网络能够提供的工作速度,然后确定实际的工作速度和工作模式。比如,某些只能交换机现监测接口的链路脉冲,确定链路的连接速度,然后检测接口处的错误率,如果错误率低,则交换机工作在快速的“切发行”交换模式;如果错误率超过门限值,则交换机工作在速度稍慢的“存储转发型”工作模式。另外,一些交换机还允许用户手动设置端口的速度,以固定的速度模式访问网络。
前5台工作站不能上网原因是,工作站链路因使用了假冒伪劣的五类接头(实际指标是三类接头),工作站只能自适应为10M链路速度,但因该楼层的工作组交换机被手动设置为100M接口状态,所以接口速度无法适应,工作站不能上网连接。
其它不能提速的工作站都在另一台工作组交换机连接的另一楼层,由于交换机没有设置为手动状态,其自适应的结果就是因假冒伪劣插头的限制链路速度被“适应”在了10Mbps的工作速度。
部分升级后速度更慢的用户原因在于雏菊链效应的影响。我们知道,10M以太网允许最多4个集线器级联,而100Mbps以太网之允许2个集线器级联。集线器一般不具备自适应能力,所以升级后很容易出现雏菊链效应。此时网络中会时限大量的延迟碰撞以及由此而生成的FCS帧校验序列错误出现,工作站在发送数据帧时常因无法发送完整无错的帧而被迫多次重复发送。除了占用带宽就是增大了有效数据帧的等效延迟时间,表现为用户的速度很可能比升级前更慢。另一些用户则表现为虽然速度有所提高但仍达不道预期的速度。
       
[诊断建议]建议用户将布线系统进行全面测试,对交换机进行设置,清理有可能出现的雏菊链效应结构,对实在有困难的集线器组则可以考虑增加交换机数量,以便分割和缩短雏菊链。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

故事之二十七]用错链路器件,超五类线系统工程验收,合格率仅76%       

[症状]某著名系统集成商今天来电反映严重质量问题,其主代理的某更加著名的电缆生产商的超五类电缆产品用于一项15000点的样板工程,布线系统每条电缆链路已经经过严格的现场认证测试,全部合格。正准备安排工程款结算,但一周前业主突然提出,工程商的现场认证测试报告有问题,工程款项暂停给付。理由是:测试报告上的电缆标准与选用的电缆类型不一致。集成商重新查验了工程商的全部测试报告,认为参数没有问题。测试报告上选用的是北美五类线测试标准。业主认为必须选用相应的超五类线标准进行认证测试,才算有效。集成商遂责成工程商重新选用超五类线标准进行现场认证测试,结果约有9%的链路不合格,15%的参数告警。该工程由集成商总包,布线工程由另一家工程商负责施工。
       
[诊断过程]我们应邀立即赶往现场,随机抽取了100条链路进行测试,结果与工程商重新测试的结果基本一致,这应该是一起严重的质量事件。从抽测的参数结果统计分析,基本上是综合近端串扰PSNEXT、综合衰减串扰比PSACR和回波损耗RL三项参数不合格,最大超差分别是-1.5dB、-1.0dB和-2.8dB,占9%,15%的参数在标准规定的边沿附近波动。由于波动范围在仪器的误差限以内,所以测试参数显示为告警。启动DSP-4000电缆分析仪的自动诊断功能,仪器显示“故障”点在被测试链路的接头位置,即水平电缆的两端。仪器提示“检查接头或更换接头”。用随身携带的超五类接头/座更换之,重新测试仪器显示“PASS”。用工程商提供的连接模块连续更换了三条不合格的链路接头,然后进行验证测试,结果三条链路有两条不合格,而其中一条由原来的不合格转为合格。这说明,工程商选用的超五类电缆并未配用超五类连接模块,而是五类模块。工程商提供的数据是,电缆全部采用超五类线,接头“可能”采用的是五类线,准确信息不明。
       
[诊断评点]一般来讲,标准规定的五类线现场测试标准应该用在五类线系统的认证测试中而不能用于超五类布线系统中。许多工程商在进行超五类线工程认证测试是都选用五类线认证测试标准,理由之一是:超五类线国际标准在工程施工时还未出台,只有部分草案和建议,而厂商声称其产品的实际参数均超过即将出台的超五类线标准,所以只要不是施工工艺上的明显问题,链路参数都会合格;理由之二是:实际执行的测试程序在一段时间内大多数工程商都是事实上选用五类系统现场认证测试标准进行测试。因此本工程在上述背景下也无例外地选用了五类线标准进行现场认证测试。在与用户签订的验收测试程序中不指明使用何种具体标准进行现场认证测试。本项工程结束后,用户在验收全部合格后才“偶然”发现检测报告的标准是北美五类线标准,与选用的超五类线的电缆系统不相符,遂提出异议,并要求工程商按超五类线标准进行验收测试。我们知道,北美超五类线现场认证测试标准是二零零零年一月二十七日正式发布的,而工程是在此之前开工的,因此工程商仍决定使用北美五类线标准进行验收测试,检测结果当然100%合格。如果工程商在电缆系统中全部采用标准的超五类线元件,即电缆、接插模块均选用合格的超五类产品,则当用户要求重新测试时,测试结果合格率应该还是会接近100%。遗憾的是,工程商对超五类线系统的理解出现偏差,在选用的超五类线链路中有意无意地使用的是五类连接模块,因此当业主提出按超五类线标准重新进行现场认证测试时约有24%的链路出现问题。
为什么不是100%的链路出现问题呢?这是因为,“五类线连接模块”+“超五类线”构成的链路原理上应该比“纯五类线系统”稍好些,加上五类模块在设计和生产上参数留有一定余量,所以本工程仍然有76%的链路通过了超五类线标准的现场认证测试。9%的链路实在无法达到链路参数要求,15%的链路参数在“边沿”灰色区域。
       
[诊断建议]我们不去追究究竟是何种原因使得工程商选用了五类连接模块进行工程安装而不是按照设计规范选用超五类连接模块进行施工。从现场测试的结果来看,由此造成的返工将是不可避免的了。好在该电缆系统使用的电缆是合格的超五类线产品,返工涉及到的部分一般仅限于水平电缆两端的连接器件。
        建议集成商责成工程商将全部五类线模块更换为合格的超五类模块,即便是先前测试合格的76%链路和处在边沿附近的15%也要更换,这样才能确保该超五类线电缆系统在相当长的时间内保持合格水平(比如十五年质保期内)。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

[故事之二十八]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%

        [症状]周末,某著名系统集成商今日“报案”,他们为一家银行集成的新大楼在进行网络验收时达不到合同要求的40%余量指标,经多方检查仍原因不明。整个系统采用超五类线布线,系统的其它问题都已全部解决,只剩下服务器验收这一项,报告说明全部不合格。下周三就是工程验收最后期限,如果不能在周二以前解决问题,将影响用户的实际使用。集成商的声誉也将受到不利影响。
集成商负责系统集成总包,布线工程由另一家信誉良好的专业布线工程商承担,布线系统全部经过超五类线现场认证测试。集成商负责网络的验收测试系统平台的开通测试。网络验收测试中的一项测试内容是通道性能测试,对包括服务器在内的关键设备进行联通性和通道能力测试。合同要求服务器留出40%的可用余量,测试方法是对服务器加上60%背景流量,然后进行联通速度测试,Ping测试在整个网段内小于2ms为优,下载20M字节的文件小于10秒为优。实际测试时Ping测试值为5ms,60%流量背景时下载速度为80秒。主观感觉服务器访问速度缓慢,原因不明。若将背景流量降为15%,测试结果则能达到要求的参数值。要求网络医院帮助查找原因。

        [诊断过程]服务器通道测试速度慢的原因有很多,象网络设置错误,网卡驱动程序版本不匹配,网卡协议邦定不良或有冲突,网络设备如网关、桥、交换机、路由器等设置错误或不良,链路故障或次生垃圾过多,干扰信号进入系统,系统平台设置有误,开发的应用系统程序设计优化度差,平台和终端设备不协调/匹配,服务器和网络的协议不匹配等等等等,我们需要确定具体的故障原因。一般来说,定位故障可以先从联通性和协议匹配性入手比较简单和快速。
        从工程人员哪里了解到,平台已经安装了三遍,网络设置和网卡驱动程序也调整过多次,鉴于网络Ping测试可以通过,因此他们倾向于故障存在于服务器与网络协议的匹配性不良。我们将网络测试仪接入网络,重复上述测试内容,证明其先前的测试数据基本属实。问题是几乎所有的服务器都出现类似的问题,所以我们必须查找与此相关的公共参数。首先,将服务器从网络上摘下,抽查14台服务中的任意4台,将网络测试仪串入链路进行“专家级”测试,检测服务器与网络的连接关系和性能。先对其网卡接口用网络测试仪的NIC测试功能进行测试,全部显示正常,然后观察网络的工作参数和工作协议,全部正常。这表明网络和服务器的网络设置、协议设置、物理工作参数、协议匹配性等是基本合格的。但因此时的网络流量是比较低(1%),许多网络性能方面的问题都是在流量比较高的条件下才暴露出来。所以,采用如下方法选中任意一条服务器链路进行测试:用“网络测试仪”在离服务器最近的交换机端口上对被监测的服务器模拟发送流量,用网络故障一点通或网络万用表监测通道数据。当模拟链路流量曾家至3%时,被选中的链路碰撞指标开始超过5%健康底线,当流量曾至40%,碰撞率达到98%,流量60%时,碰撞率99.8%。很显然,网络的链路性能存在较大问题,对另外4条链路进行同样的测试,结果类似。在交换机紧邻的接口直接对网络故障一点通做上述类似测试,显示正常。这说明链路存在严重问题的可能性极大。与网络设备设置关系不大。
        询问工程人员,声称布线系统经过了严格的超五类线测试,布线工程商并信誓旦旦地保证链路不会有问题。查看布线系统认证测试报告,BasicLink超五类线认证测试全部通过。服务器是由服务器供应商指定的分销商负责安装调试的,他们当时也在场,自称安装过上百台服务器,也从来没有出现过类似问题。
        各方似乎都有道理,但链路存在问题是很显然的,所以我们决定对链路重新进行现场认证测试。测试刚才抽查过的链路,结果是全部都不合格,电缆测试仪提示“打线错误”。且电缆测试仪的HDTDX分析功能启动后定位出近端串扰在整个链路的远端约2~3米长的线段内超差。为分清责任,改对BasicLink测试,水平电缆测试全部通过,这说明布线工程商的施工参数确实是合格的,问题很可能出在服务器安装服务商身上。试着更换服务器链路跳线,故障现象立即消失。随即对全部服务器跳线进行更换,之后对网络重新进行验证测试,参数全部通过。

        [诊断评点]故障是由服务器连接跳线打线错误造成的,我们知道,打线标准中规定了568A和568B两种格式,这两种格式原理上是完全等效的,区别仅在线序不同而已。常见的打线错误是被称作“串绕”的一种,特点是将线序按1-2、3-4、5-6、7-8的自然顺序排列。这样将会造成近端串扰严重超标,一般来说会令服务器无法与网络实现100Mbps的网络连接。本案中由于跳线的线序错误按理应该导致服务器不能上网,但实际的情况确是服务器能上网,只不过碰撞率严重超标而已。由此看来其中必有蹊跷。我们专门对服务器安装商提供的电缆进行测试,近端串扰超差,重新打线后再测试,通过,近端串扰参数的富余量很高。遂怀疑服务器跳线是用六类线制作的,查看电缆标记,确实是朗讯的六类线产品。改用六类线标准专门设计一条六类线BasicLink基本链路进行三接点(串入被测跳线)验证测试,不通过。电缆测试仪故障信息屏幕提示接头不合格,为六类以下器件。
        重新进行通道性能测试,加载60%Ping测试小于1ms,20M字节文件拷贝8秒以内全部服务器链路都能完成。
       
[诊断建议]服务器安装商误用朗讯的六类线来制作超五类线跳线,使得原本根本不能上网的服务器能够勉强上网,并同时造成其它参数健康指标不合格。一般来讲,采用六类线制作的跳线其性能会优于五类线。所以建议用户可以保留六类线制作的超五类链路跳线,只需将打线顺序改正即可。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

 

原创粉丝点击