网络医院的故事----连载10

来源:互联网 发布:下载易企秀软件 编辑:程序博客网 时间:2024/04/30 02:54

[故事之三十三]六类线测试链路模型不科学,导致测试通过率低

[症状]一上班就接到某著名计算机电缆生产商品质部经理江先生的电话,要求给他们一个合理的解释。说他们发现近来生产的电缆被分销商和工程商纷纷要求退货和换货,理由是工程验收合格率不高,达不到合同要求。智能建筑的业主常以此为由拒绝给分销商或工程商支付工程款项,分销商和工程商的资金占用严重,强烈要求生产厂商紧急提高生产质量,并赔偿由于业主拒付或减付、重新更换电缆或其它链路器件、以及由此造成的其它相关费用。问题的症结在于,生产商重新检查了生产工艺流程和品质保障条件,并仔细对生产的电缆进行严格地测试,并没有发现分销商和工程商所提出的问题。因此拒绝赔偿请求。双方争论的焦点在于,生产商出据的产品检验报告是合格的,而工程商在工程完结后进行的测试也是按国际标准进行的,测试结果确出乎所有人的意外:合格率不超过90%!
生产商拒绝赔付的理由是:交到工程商手中的产品经过再次严格检验是合格的,因此链路现场认证测试的不合格结果与生产商无关。至于因产品保存不妥当,施工不规范等原因,不属于生产商而责任范围。分销商和工程商索赔的理由则是:我们是严格按照产品说明上要求的施工方法和工艺进行的施工安装,产品的运输和库存管理也没有不当之处。尤其是“事件”出了以后,分销商和工程商专门就运输和保存过程进行全程检查,确认没有问题,而就是这没有问题的电缆当中,施工后链路合格率仍然超不过90%,所以,链路检验不合格不是工程商的责任。即便是按现有的施工工艺要求进行施工,不合格的原因也是生产商编制的施工工艺及要求有问题,工程商也绝没有义务承担链路检验不合格的责任。双方都希望网络医院帮助他们就施工工艺规范是否存在不合理的地方给出一些明确的建议和求证方法。

[诊断过程]我们在电话中与江先生约定了检验的方法:先在生产现场对生产的电缆进行品质检验,确定其是否合格;然后将合格的电缆确保在条件良好的环境下运送到施工现场进行实地施工(距离200公里),挑选熟练的施工人员铺设50条较长的链路,同时全程监测施工工艺是否符合要求。最后对铺设好的链路进行现场认证测试,如果98%以上合格,则基本可以证明产品没有问题。不合格的原因应该首先在施工人员是否严格按照规范进行施工等方面去查找,由此可以较大程度上避免承担大额损失。如果合格率低于98%,则可判定施工工艺规范需要重新考核和修改。
        对生产商来说,这可是有点“玩悬”。江先生说,我对此事一点也不乐观,不管测试通不通过,似乎责任都与生产商有关:其一曰,即便测试通过,证明是施工工艺不合规范为主要原因,那么我们生产商也要担上“产品敏感性高,施工难度大”的“恶名”,于今后进一步的市场竞争很不利;其二曰,万一测试通不过,将被迫重新修订施工工艺规范,并会牵涉进一步的繁杂求证过程和大范围的赔偿诉讼。对于我们的产品我是非常有信心的,真希望能有第三种结果出现。
        关于如何在现场验证产品,如何运输和安装“样本链路”,在此不予详表。
        测试结果出来了:50条链路41条合格,合格率92%,低于98%的要求值。不合格的参数主要是回波损耗,9条,少许是近端串扰,2条(即有2条链路的回波损耗和近端串扰均不合格)。使用的是江先生自备的测试仪。江先生神色黯然,一言不发。显然,测试结果对生产商非常不利。
        江先生不死心,提出对测试仪器进行校验以后再行测试,理由也很简单:万一是测试仪器本身的问题比如精度偏差造成检验结果不合格则检验结果有失公允性。此时参与测试的工程商们虽个个喜形于色,但还是同意了江先生的要求。由于仪器校验需要较长周期(送检需要3~5天),于是工程商们提出一个变通做法:因为工程商手中都有仪器,所以对50条样本链路可以分别用不同厂家的仪器去检验,并且每种仪器都用两台同型号仪器进行比对检验,如果结果相同,则说明仪器的偏差可以被排除在外,检验结果有效。江先生同意了此方案…
        在场参加测试的人员谁都没料到的是,江先生的这一最后“坚持”竞真的引出了令人惊喜的第三种结果。第二轮测试使用两种测试仪各两台进行了4组测试。测试结果如下:
A厂家的两台测试仪器测试结果基本相同,结果显示33/35条合格,17/15条不合格,不合格的参数全部集中在回波损耗“RL”上。且其中并有近端串扰4/4条不合格。
B厂家(Fluke)的两台仪器测试结果相差很大,一台测试结果显示38条合格,12条不合格,不合格参数也全部集中在回波损耗“RL”上;且其中近端串扰2条不合格,1条告警。江先生额头直冒冷汗,轻生自语道:“这下死定了!”。
真可谓“山穷水复疑无路,柳暗花明又一春”。此刻,另一台仪器的测试结果出来了,出乎所有参试者意料,显示50条链路全部合格!!
啊??!!
为什么不同厂家的测试仪会有不同的测试结果?又为何同一厂家的不同仪器竟也会得出不同的测试结果?测试仪可不是玩具,江先生和工程商均希望我们就此结果给出合理解释,否则…
我们仔细检查了这4台测试仪,测试模型使用的都是基本链路模型,因此测试适配器(测试跳线)都选用基本链路适配器。A厂家两台仪器基本是九成新,使用期限均在精度校验的保证期限以内(也就是说还没有到精度需要做年检的时候)。B厂家一台是八成新,一台是全新。也都在精度校验的保证期限内。检查测试仪配用的测试跳线(测试适配器),除了B厂家全新仪器外,插拔接头均有不同程度磨损。我们建议江先生用B厂商全新仪器的测试跳线去替换B厂家八成新仪器的测试跳线重新进行一遍测试。看看结果如何?江先生和工程商们商定以后界定采纳这一方案…
测试结果终于出来了:八成新仪器配用全新仪器的测试跳线后测试结果竟然全部合格!!
江先生非常激动,工程商们也非常激动。看来只要使用新的测试适配器就可以解决问题和争端,这意想不到的第三种结果可令生产商们、工程商们、业主们均皆大欢喜,高奏凯歌。
为了进一步核实测试结果的可靠性,我们用随带的永久链路测试适配器装在B厂商的两台仪器上进行了最后一轮测试,结果也全部通过。

[诊断评点]被测试的链路按其形态可以分为三种模型(模式):通道模型“Channel”、基本链路模型“Basic Link”和永久链路模型“Permanent Link”。此次测试均选用的是基本链路模型。根据其定
义,基本链路模型对被测链路的测试结果将包含测试跳线的参数。在三类线、五类线的链路测试中,由于链路的数据率不是很高,链路物理带宽为10MHz/100MHz以内,跳线的参数对测试结果的影响不明显。所以,虽然包含了测试跳线的参数,但它与不包含测试跳线参数的测试结果非常接近。所以,测试标准就使用含测试跳线参数的结果来作为测试结果。
如果将测试结果中跳线参数的影响扣除,则可以得到另一种链路模型:永久链路。因此,从测试原理上讲,永久链路是科学的,比较精确,而基本链路则是不科学的。但因测试结果很相近,所以基本链路模型在一段较长的时间内得以推广和广泛使用。
然而在超五类链路中,测试跳线的影响已经有所“抬头”,多数情况下可以仍然用基本链路的测试结果,但少数情况下则表现出“不合格率”上升。到了六类线,基本链路的结果与精确的链路结果经常表现为不稳定。如果使用的测试跳线比较新,则测试结果较好,如果测试跳线保管不当或使用过一段时间,则测试结果的合格率会下降。经常让人啼笑皆非是同一组链路,半年前和半年后的测试结果会相差较大。半年前合格的链路,半年后再测试就完全可能不合格。随着测试跳线使用时间的增加,甚至可能出现一分钟前和一分钟后测试结果都完全不同,仪器指示的故障点也在莫名其妙地随意“漂移”。此时若换一副新的测试适配器,结果将明显稳定并改善很多。
解决这一问题的办法有:一,经常更换测试适配器(价值两三千元),使用中尽量不要卷绕测试跳线;二,废除基本链路模型,采用永久链路模型。由于永久链路模型不包含测试跳线参数对整个被测链路的影响,所以是比较科学和精确的。ISO11801和TIA568B.2标准都建议用户使用永久链路模型进行现场认证测试。
不过,永久链路模型也遇到一点小问题。这是因为永久链路模型的测试参数是在基本链路模型的基础上扣除测试跳线的影响而得到的。那么,如果测试跳线由于经常卷绕、磨损,参数也会随之改变(这是六类线存在的目前无法克服的通病),所以永久链路需要经常对测试适配器进行现场校准。这种校准如果达到每天甚至每次测试之前就要进行的程度,用户对此将是无法容忍的。所以永久链路的测试适配器所用的跳线不应该象基本链路模型标准中规定的六类线,而应该是一种“耐疲劳”参数非常稳定的专用跳线。
本案的“纠纷”起源于基本链路测试跳线的不稳定,所以当更换了新的测试跳线后,测试参数全部合格。这证明生产商的产品、工程商的施工工艺和水平都是合格的。

[诊断建议]由于六类线生产商目前都不能解决六类线的“抗疲劳”问题(实际上,对安装在墙中的六类线也没有必要去解决“抗疲劳”问题),对超五类以上的链路特别是六类链路最好使用永久链路模型进行测试。这样可以保证测试结果的科学性和准确性。使用特制的具有“抗疲劳”特性的专用六类链路(向下兼容)测试跳线,则可以保证测试结果的稳定性和可靠性。我们建议在场的生产商、销售代理以及工程商、系统集成商今后尽量测试永久链路模型进行测试。


。。。。。。。。。。。。。。。。。。。。。。

[故事之三十四]交换机配置问题使得网络拓扑结构性能劣化,用户访问速度慢

[症状]某网站IT经理顾先生是我们的老朋友了,三年前在Cisco大会上认识,彼此“情投意合”,“兄弟”几个经常在一起交流一些网民心得。他原先在一家国有大型企业中任信息中心主任,负责网络的规划、设计建设和管理维护事宜。有好长一段时间没有他的消息,免费的信箱失效,加之后来换了工作就失去了联系。正思量怎么设法跟他重新取得联络,每想到他却不请自到,来了个“自投罗网”:昨天他因网络问题来网络医院咨询时方知其现在已经辞职到了现在的网站。顾不上仔细询问对方的近况,他便直接进入主题:他所负责的网站最近出现一些问题。白天时常会出现短暂的拥塞,上网用户反映访问购物频道之网上在线商城时经常点击无效,多次重复后仍可能没有任何反应。此现象已经持续的两周,网站老总责令他必须在两天内找出原因,解决用户无法点击购物的问题,否则……
        故障出现在什么时候?一般是白天,晚上基本不出现。何时开始出现故障征兆的?没有什么征兆,突然出现又突然消失,很不稳定且没有什么规律。那么从第一次故障现象出现到今天为止有多久了?就两周。两周前你们对网络干了什么?比如调整网络结构、增加或删除网络设备、增加服务器、增删和更改网络用户等?没有。不过网站内容到是几乎天天在变,但这应该不会有什么影响。因为我们装有网管系统,可以随时查看网络个链路的流量状态。对链路的流量还分别设置了门限报警,如果出现流量异常值班人员会马上知道。再说,我们的内部网都是用的100Mbps的网卡,核心交换机使用千兆以太网连接。而网站出口只是8Mbps,出问题时检查过出口流量,从来就没有超过2Mbps,还不如不出故障时的访问流量大。因此,说由于出口瓶颈的原因在访问流量大造成访问困难显然是站不住脚的。对网上商场的服务器仔细检查并用备用服务器试着更换过,但没有任何作用。该用的办法都用过了,实在查不出问题出在哪里。
        有没有做过捕包分析或延迟分析?做过,首先对有关的服务链路进行网管监察,发现链路流量一般只有5%左右,捕包分析发现出现故障是有较大延迟,但Ping包正常。当时试验在故障时在网站内任选一台工作站从网上商城服务器拷贝一个1000M的文件,拷贝速度很快。用协议分析仪的专家诊断系统对捕获的包进行分析,除了发现HSRP协议帧有3000个,其它未见异常。

[诊断过程]三刻钟后,我们随顾先生来到该网站所在大厦。准备着手进行检查。分析故障现象,指示网络主要的问题是访问某个指定的服务器时慢。一般的原因主要有:服务器资源不足,比如接口速度低、CPU速度低、内存不够、开通的应用窗口过多等;访问通道出现瓶颈,访问速度受限;通道上的设备出现处理延迟,影响通道访问的速度等。从内部网的反应看,拷贝文件的延迟很小,速度正常。基本说明网站的内部网络应该没有大问题。为了确认访问通道上的是否有流量瓶颈或延迟超长,我们将网络故障一点通接入路由器的出口,将网络综合协议分析仪OptiView接入在线商城服务器通道。从路由器出发送50Mbps(50%)高流量Ping包指向OptiView,这种方法是为了检查该通道的通道能力。可以看到最大的通道能力是95Mbps(发送的流量相应的流量加上为95Mbps),将流量帧改为一般的IP帧,无须服务器响应,流量仍为50%,此时安装在服务器链路中的OptiView收到的流量是50Mbps,说明网络一点通发送的50Mbps的流量已经全部“安全抵达”服务器。此时的网络状态非常“正常”。从OptiView测试对路由器Ping包的响应,显示时间为12微妙(0.012ms),结论:此时此刻网络工作正常。由于是不稳定出现的“软故障”,接下来我们需要在故障出现时进行测试,好在该故障每天白天都会出现,不怕它不来。50分钟后,从外线来的电话报告“故障出现”。我们迅速用OptiView的移动网管查看该通道的流量状态,显示均小于10%,从OptiView上对网站的路由器做Ping检查,时间是1200ms。立即从OptiView发送50Mbps流量给网络一点通,报告收到的流量只有5M,看来不光45M的流量被通道给“滤除”了,而且还引入了很大延迟。检查网站的拓扑图,从图上标注的状况来看该访问通道应该都是100Mbps的以太网链路,中间经过5台交换机到达服务器。在OptiView上对路由器做路径“TraceSwitch”检查。结果显示路径已经改变!整个路径中多出了3台交换机,从而使得原来需要经过5台交换机就能到达服务器的访问包现在需要经过8台交换机才能到达服务器!追踪查看这3台交换机,发现相应链路端口工作状态都是100Mbps。逐级检查延迟响应时间,发现1200ms的延迟就出现在新增加的第一台交换机通道节点上。由于有备份交换机,为了缩短故障诊断时间,试着更换此交换机。10分钟后,交换机更换完毕,开机试验,故障现象消失。
继续监测至下午收工时间,故障均未再出现。

[诊断评点]此故障是由于交换机的问题引发的。白天工作时该交换机会不稳定地处在较大时间延迟状态,并且会改变交换机对协议的传输路径。从该故障的表现和OptiView监测到部分STP/HSRP协议来分析,一般配置不良的交换机会出现类似情况。比如,使用STP或HSRP协议可以对端口的连接状态进行监测和从新依据传输的带宽、允许或限制的协议进行端口连接分配。这在高档交换机中是正常的功能,但如果设置不佳或网络出现异常未设定点流量,交换机也会依据设定点条件进行端口路径的检查、运算和重新连接构图,或者对流量带宽进行分配。
        网络的配置文档是很重要的检查故障的参照系,准确的文档备案更是快速故障检测的有力辅助手段。反之,没有配置文档的备案资料会给故障检测带来不少麻烦。维护人员往往不能断定检测的参数到底是正常还是异常。一份不准确的文档备案有时甚至比没有文档病案更糟糕,它可能会把故障检测工作引向“万劫不复”的境地。那时有多少头痛药都是无济于事的。维护人员神经、耐心和体力都会收到很大的挑战。

[诊断建议]由于时间关系,我们来不及对更换下来的交换机进行检查。根据以往经验,可以初步断定此交换机很可能是配置不良而不一定是有质量问题。我们希望顾先生安排专门时间将此交换机的设置仔细检查一番。如果能找到原来的初始配置文档则参照检查会方便许多。

。。。。。。。。。。。。。。。。。。。。。。。。。

[故事之三十五]随意级联交换机扩大网络容量并共用帐号,造成部分用户无法使用多媒体平台

[症状]某新建大学网络中心希望网络学院帮助解决多媒体教学网络中的一揽子问题。
        事情起因是这样的。黄先生最近接手负责该大学网络中心的工作,学校准备全面提升网络教学的档次:将去年完成的第一期网络工程试运行结果提交学校董事会讨论,进而确定这次的第二期工程的开工日期和投资计划。第二期工程主要是全面引进和扩大多媒体教学平台,启动学校半开放式公用数据平台的建设,所有学生在宿舍就可以实现多媒体教学的实时接收并与教师实现在线交流,随时接收公共课程的广播式播出和多媒体教学资料的在线阅读。配用的应用软件允许最多可以同时打开6个图象传输通道。语音通道和文本资料的通道数不限制。每个学生宿舍配置了四个100Mbps用户接入以太网接口。教师新村(一、二村)的所有家庭均可以利用超五类线以太网链路实现节目点播。现在一期工程遇到的问题是,试验阶段的许多用户最多只能打开3个图象通道,否则会出现图象停顿和“马赛克”现象,图象伴音也随之出现停顿。从学校的网管系统上观察,有不少链路经常出现拥塞,经过调整拓扑结构,情况有所好转,速度也有所提高,但从许多被访问的服务器上观察其资源利用率比较低(一般都在25%以下)。也就是说,还可以承受一倍以上的用户访问量。一期工程当初设计的容量是可以同时为800个用户提供平均20Mbps的持续通道能力。从网上在线用户的实时调查表统计的结果是,实际用户支持能力只有10Mbps的持续通道能力或约300个20Mbps的通道能力。结论:用户打开的图象应用窗口数量达不到设计要求。
        下周需要提交一期工程试用报告,以便提供作为二期工程的投资计划参考数据。黄先生希望能通过测试对提高网络优化度有所帮助,至少应该达到设计的指标。以便对校董事会就网络管理的“优良状态”有个过得去的交代。

[诊断过程]我们先使用网络拓扑专家软件绘制了一组网络拓扑结构图。第一期工程覆盖全校的网络用户共2000个,其中800授权个用户可以实现宽带多媒体访问。经过两天的连续监测,发现实际的网络拓扑结构图和一期工程设计竣工图结构差异很大,实际的宽带授权用户累计有1200个,为了限制访问权限和访问地点,一期工程设计的用户地址是固定分配的,有权用户使用密码和匹配的IP地址进行访问,但监测到的重复的IP地址就有近300个。由于授权用户分散在校园内和园外新村的各个角落,其共享IP必然造成争用。用户抱怨出现马赛克现象多数在晚上,从链路通道流量监测记录看,此时有不少“新村”的用户在点播电影。观察“电影频道”的6个服务器,其资源利用率稍微偏高一些,但一般也在30%的资源利用率以下。
使用新绘制的、实际的、准确的网络拓扑图,我们重新设计了一份网络访问者有奖调查问卷,配合使用Fluke的网络听诊器NI、网络拓扑专家LamMapShot和流量测试仪,发现出现问题的地方都有如下规律:
一是有多个通道本身公共带宽比较窄,却挂接了超过总带宽的用户数量。这组用户在用户数量多时一般只能打开一个图象应用窗口。比较一期工程拓扑图,发现此类用户多是自行安装交换机和集线器接入网络的。而这些交换机和集线器并为经过网络中心批准或备案。这样会造成设计的拓扑结构和实际的拓扑结构差异。我们知道,网络拓扑结构在设计时是根据当时的应用流量和兼顾今后一段时间内的带宽需求设计的。总的要求是要做到负荷均衡。未经批准的交换机等网络设备任意接入后会造成带宽分布的改变,造成某些部位出现拥塞或“瓶颈效应”。据黄先生将,部分“私接用户”在设备接入时是给网络中心打了招呼的,只不过网络中心人员变化比较大,也不经常检查和备份网络资料,所以网络中有多少实际用户以及网络真实的拓扑结构并不能随时掌握。
第二是许多授权用户讲人情,将自己的IP与本网段内的用户分享,这在“新村”中的授权用户比较普遍。不少用户自购集线器与要好的邻居共同享用宽带点播带来的乐趣。有的用户并且还获得了免费访问多媒体教学网络的权利。经过检查还发现,有数条链路被连接到了校园地理区域以外的非法用户。可以不交学费就选听各科网络教学的最新课程。
针对“非法用户”过多的情况,建议黄先生采用新的一套用户访问登录验证机制,该机制只允许一个帐号同时登录使用一个用户。出现多个用户时先按设定的级别顺序查核是否合法的Mac地址、合法的IP地址。如果未限制MAC和IP地址,则只允许第一个登录者使用。如果第二个登录者才是真正的合法用户,那么他可以在线更改口令后切断已有用户的连接而转入正常连接。
没想到,如此的“试验”计划竟然引来一场风波。试验是安排在晚上进行的,刚开始10分钟,就在网络中心信箱和学校“BBS”上出现投诉和抗议信,而后是投诉电话和某位校领导的“诘问”,黄先生惊骇,没想见非法用户的威力竟是这样的“不小”。不过,当时测得的用户数量大量减少,流量瓶颈有所缓解。试验测试只进行了一小时就匆匆结束了。

[诊断评点]以太网由于其带宽大且成本低,速度不断提高,采用综合布线比较随容易达到随意构建网络连接、扩大网络用户规模的目的,所以网络拓扑结构在应用少时设计上要求比较简单。随着网络应用的增多,大容量应用和高速网络应用的增多(比如多媒体在线教学、视频点播等),网络拓扑结构中流量通道狭窄的地方容易最先出现瓶颈效应。网络管理和维护人员需要经常监测网络各层的流量,比如,观测IP流量可以知道流量的分布情况,以便确定网络结构是否需要做优化调整,观测应用流量可以确知造成IP通道拥塞的具体是那种应用在“捣乱”,以便合理配置各种应用的使用时间和场所。长时间的观测记录还可以为网络的升级改造提供非常有用的资料。也可以随时了解网络的实际工作状态是否处于异常或边沿状态。网管系统在此项管理中是比较有帮助的。但当网络处于异常状态或联产连接终端时网管系统要么不能提供数据要么提供的数据可能不准确。因为网管系统获取的多数数据是由被归理设备提供的。这是需要在一些异常节点和通道上用专用测试工具进行全线速在线监测,才能得出准确的数据报告。流量测试和分析工作需要列入定期的监测工作中才能为随时可能进行的网络优化工作提供精确数据。使网络始终保持在优良的性能状态。
        对于划分了访问权限和访问区域的网络,除了对访问者的密码限制外,对上网的地点、上网的机器有时也需要限制。部分工作可以使用全线速的内部防火墙来实现,速度低的链路可以使用软件实现,但部分限制功能则需要配置网络设备如交换机、路由器来实现。不支持此类限制功能的网络设备是比较多的。这时就需要用专用网关或内部防火墙。但这些设备在高速应用时对通道的速度和延迟性能影响较大,需要综合考虑是否选用。
        本网络是由于网络拓扑管理功能和帐号管理功能没有严格地发回作用,致使网络拓扑结构被随意改变,网络带宽被随意共享,造成部分高速用户的使用问题。

[诊断建议]鉴于用户的现状和来自部分校领导压力,我们建议黄先生先采取维持现状的做法。将测试的结果提交校董事会即可作为一期工程的实际使用报告,这样更有说服力。二期工程可以将所有用户分类授权,届时再实施用户帐户和网络拓扑结构的严格管理。