网络医院的故事----连载4

来源:互联网 发布:中世纪2原版优化10 编辑:程序博客网 时间:2024/04/30 04:22

[故事之十三]PC机开关电源故障,导致网卡工作不正常,干扰系统运行

        [症状]今天的病人很有趣,是某电信局网管中心,十万火急地要求网络医院帮助立即解决燃眉之急。放下电话我们立即启程奔往“目标”所在地。为提高效率,途中继续与该中心主任进行通讯联络了解“病情”。网管中心所在地为一地区中心,下辖两个县级市和7个县,安装在地区网管中心的网管系统在两个月前发出了报警信号,提示某县级市的网络有异常情况。一个月前省局工作组在检查工作时发现该县级市不在网管中心的网络拓扑显示图上,询问原因,当时答曰:今天正好赶上该县级市进行工程施工,所以将网络管理功能暂时关闭,故在网管机显示器上的拓扑图中无该县级市的网络图标。现在所谓“十万火急”的问题即是:明天工作组将要进行第二次验收检查,而网管系统是此次的重点检查项目之一,不可能再用网络工程在施工为由回避检查该子网的状况。因为网络拓扑图上的报警信息仍在,该县级市的问题也一直没有彻底解决(县级市子网却一直报告网络正常,速度很快!对定位故障一直不太主动),明日检查恐怕无法“过关”,所以才想到引入“紧急外援”。另外需说明的一点是,该故障在初期时隐时现,最近才由飘忽不定演变为高频发作甚至是持续存在的故障现象。
针对这一情况,我们决定先不去地区中心,而是直接转道前往该县级市网管中心,因为从网管指示的范围看问题很可能出在此处。另外,该中心距我们现在的位置比地区中心也更近一些。
       
[诊断过程]半小时后即抵达目的地,立即投入“体检”工作。根据地区网管中心提供的线索,该子网的路由器报告错误数据流量较高,因此直接对该子网进行测试。该子网为用交换机连接的多网段结构,含8个10BaseT和18个100BaseT以太网。用网络测试仪接入网络作自动监测,测试路由器平均错误流量记录为3%,有效流量为7%(广域连接用的是E1链路)。观察交换机自身提示的错误流量系指向第一插槽的3#端口所连接的子网段,其它子网段测试正常。3#子网段为拥有97个工作站的100BaseT以太网网段,DNS服务器、IP服务器和其它主要的业务服务器也挂在该子网段内。测试3#端口的错误计数统计值为25%,随即将F683“网络万用表”(即网络测试仪)移动到3#网段进行监测。结果指示:错误类型为帧校验错误和其它未分类错误(这可以是为无帧头结构的、且非碰撞类型的自由帧、离散帧等),比例分别为27%和11%,其中正常数据包流量为3%。27%的错误统计值与交换机提示的错误统计值基本一致,但还有11%的错误交换机和路由器等不能识别,需要进行定位。断开路由器,错误指标略有降低。这表明故障确实是在该子网,与WAN链路基本无关。由于子网段全部由集线器堆叠而成(8×16Port),故进一步观察网络测试仪F683指示的全部错误定位数据。仪器提示97个工作站和5个服务器均发出类型为FCS帧校验错误的数据包,数量不等。
由于全部工作站均发出FCS帧校验错误帧,所以不认为是所有的工作站网卡都有问题(这种可能性微乎其微),而故障原因很可能是电缆故障(全部电缆打线有误或采用了假冒伪劣电缆)和干扰窜入,如信号干扰、接地干扰、电源干扰、辐射干扰等等(包含在未分类错误类型中)。网管人员认为,由于电缆系统在竣工验收时全部都采用ISO11801标准进行过认证测试,测试工作是网管中心自己承担的,所以应该没有问题。
为快速定位故障,采用通常的“二分法”隔离网段:先将一半的集线器断电,故障依旧,再次将其中一半集线器(即总量的四分之一)断电,故障消失。恢复供电,逐个拔掉该四分之一集线器(两个集线器)上的工作站电缆插头,当拔下6号集线器的7#端口连接的工作站电缆插头时,网络万用表上的错误指示全部消失!
网管人员断定,故障为该工作站之网卡的可能性不大,因为所有的网卡昨天为了迎接检查验收都进行过相邻三组网卡的两两互换试验和三台相邻整机的两两换位试验(该中心没有配备其它的网络测试工具,只好采用这种常用的但经常是有效的所谓“笨办法”)。用网络测试仪对此故障工作站的网卡进行测试,结果其端口的物理参数和工作协议都正常。由此可以大体断定故障出在工作站的其它部位,且基本是干扰类型的错误(属于未分类帧错误类型),不排除线缆引入过量噪声的可能。拔下网卡一侧的电缆插头,故障消失,说明故障不是由电缆噪声引起。靠近该工作站可以闻到一股虽不是十分明显,但却比其它工作站都强烈的电器“烧焦”味(不过,还远未到令机器冒烟的地步)。贴近机器可以听到开关电源中发出的明显的“咝咝”响声。测试工作站与服务器的联络情况,可以看到大量的重发帧和无效帧。更换备用的开关电源,故障排除。
       
[诊断评点]故障原因比较简单,是由单台工作站开关电源故障产生的放电干扰信号窜到网卡输出端口后进入网络所造成。该干扰信号进入网络后占用大量的网络带宽,破坏其它工作站的数据包(即表现为“患者”众多的FCS帧校验错误类型的数据包,其比例随各个工作站实际的正常流量而定);同时该干扰信号还干扰服务器、路由器的工作(重发帧、无效帧等),使得地区中心的网管机屏幕上经常有报警状态提示。由于网络总流量为41%左右(低于40%的平均流量时用户基本不会感到网络变慢),有效流量只有3%,所以县级市子网上的用户虽然自己发出的数据包有很多被破坏而需要重发,同时接收到的数据包有很多已被破坏而需要重收,但是基本上不会感到网络速度有明显的变慢!!
       
[诊断建议]网管系统通常只能发现约30%~40%的网络故障(这取决与被管理设备支持网管的能力和分析、记录网络异常流量的能力)。当有故障报警后,多数情况下需要进一步迅速确定具体的故障位置和故障属性。本次故障不能精确定位并立即排除的原因是多方面的,其一,县级网由于没有网络维护工具,仅靠网络维护人员的经验和从互联网上下载的某些软件来监测自己的网络,这是直接导致了此次故障长时间无法解决的原因。现阶段,按不同的网络维护规模和级别为相应技术水平的网管人员及运行维护人员配置合适的工具到目前为止一直是让网络规划人员、计划单位和网络维护人员自己都搞不清的事情。其二,本次故障本来原因比较简单,但因维护体制方面存在的问题从而导致在故障查找过程中不能密切配合和协作,使得问题长期未能解决。其实,如何比较全面、有效、快速和低成本地实施网络的管理和维护已经有许多成熟的方案和做法。建议网管人员和运行维护人员在忙于快速建网、不断跟踪网络新技术和接触新设备的同时也要抽出部分精力来研究有关网络维护的理论、方法和成熟的方案,力争达到事半功倍的效果。比如,进行完整的网络文档备案工作、定期测试、网络基准测试、性能监测、体能测试、通道测试、协议监测、流量分析等工作就一直是一些大型网络成功地防止严重事故发生的有效而简便的手段。
你知道吗,与你见到的和想象的都不一样,消防队平时更重要的工作并不是救火,而是防火!!网络维护工作亦莫不如是!可以完全相比拟。

.....................................................................................................

[故事之十四]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网
       
[症状]某船运公司,为满足日益增长的业务需求,三周前开始网络升级改造工程,按设计规划将10BaseT网络全部升级为100BaseTX以太网,电缆系统不作任何改动。昨天设备安装调试工程全部结束,今天凌晨开始网络割接作业。所有工作站更换100BaseTX以网太网卡,然后分批接入网络。此时工程人员发现一些奇怪现象,比如:有些工作站不能联入网络;有些工作站第一次可以联入网络,过一段时间再次连接则无法进入;有的工作站开始时能联入网络并且工作很正常,但过一段时间后则出现连接断续或数据出错的现象。集成商起先以为是网络平台安装不当,遂将系统平台重新清理并安装了一次,出问题的工作站系统软件和应用软件也进行了重新安装,结果毫无改善。“折腾”了将近一整天,也无法为用户提供服务,业务基本中断。
       
[诊断过程]接到报告后立即赶到“出事地点”,启动包括故障工作站在内的全部系统成员进入网络运行。用F683网络“万用表”对故障网络首先作常规健康测试,一分钟后测试结果如下:网络利用率1.3%(此时员工已经全部下班),碰撞率8%,错误率11%,广播9%。显然网络碰撞率和错误率比较高,打开错误诊断定位功能,显示FCS帧错误、本地碰撞、碎帧等错误计数。这说明网络可能存在网卡工作失常、电缆系统故障、干扰或接地回路等方面的问题。查看具体的FCS错误帧测试结果,发现有许多工作站发出错误的FCS数据帧。一般来将,同时存在多个网卡失效的故障是不大可能的,此时的FCS帧错误多数由电缆问题尤其是有超长链路的电缆问题所引起而不是由网卡所引起。但为慎重起见,我们先随机抽查其中两张网卡进行测试,结果正常,再测试对应的集线器端口,其物理参数结果正常,工作协议匹配无异。由此则可以有把握地确定故障的原因是由电缆系统的问题引起的。
        用户告知,本系统采用的是五类线,共有270台工作站,划分为6个网段,有一个专网路由器和一个公网路由器,升级前一直工作在10BaseT以太网状态,整个系统除了业务一部经常反映网络速度偏慢和偶尔的连接断续外,其它部门使用状况一直很正常(业务一部工作量最大)。今天开始升级工作后部分工作站出现上面提到的各种故障现象,涉及范围大约有近三分之一的工作站。询问用户以前是否对布线系统进行过测试,答曰:“只测试过通断,因为在10BaseT以太网一直能上网,所以布线系统应该不会有问题。”
        为快速定位故障,随机抽取了其中10条有问题的链路进行测试,结果为:一分二插座故障8个,3类线连接模块3个,综合近端串扰PS NEXT参数不合格4个。检测结论:该系统布线工程存在严重问题。
       
[诊断评点]网络布线工程的低劣质量一直是综合布线工程中的一个让人担心的严重问题。目前虽然有成熟的测试标准和方法,但多数用户并不知悉或不要求按标准进行现场认证测试。本系统的电缆故障存在多种原因,均是由于工程设计、施工和验收不规范造成。现分述如下:
        a)一分二插座故障:系由接线错误所至。用户在设计时没有考虑到扩容的需要,所以在新增用户时采用了这种不规范的一分二插座,一个插座可以连接2个PC机。从原理上讲这种用法是基本上可行的,这种接法要求将1-2/3-6两线对联接一台PC机,而将4-5/7-8两线对联接到另一台PC机上。但实际的测试结果却发现线对接法是1-2/3-6和4-5/3-6,用户把3-6线对当成了直接的“共享媒体检测总线”!!在10BaseT网络中这种错误接法可以勉强工作。虽然这会造成全部网络流量中的数据帧会存在不少错误,但由于多数现存网络的利用率(流量)不高,用户是难于察觉布线中程中的此种异常情况的。
100BaseTX网络对阻抗不匹配和近端串扰比较敏感,升级后这种错误接法会导致上网困难;(注:同轴电缆可以用三通匹配连接器将工作站接入网络,此时阻抗仍保持连续,但双绞线不可以直接并联,否则阻抗异常。)
        b)该系统在用户数增加,网线数量不敷使用时网管人员进行了自行扩容,不幸的是他们选用的是假冒的5类插头(实际上是3类插头)。在10BaseT网络3类插头不会影响网络正常运行,但升级后近端串扰NEXT等参数将严重影响工作站与网络连接并经常导致数据出错。不经测试,此3类插头将会长期潜伏而不被发现。
        c)由于采用一分二插座,测试电缆的近端串扰指标时必须考虑其它线对的综合影响(非一分二接头的链路多数只使用两对线的网卡),因此,在数据流量大时,综合近端串扰PS NEXT等参数不合格的链路有可能出错或导致工作站连接困难。
       
[诊断建议]网络投入运行前,布线系统(电缆、光缆)要首先进行认证测试,用户可以选择的标准很多,目前多建议选用TSB-67或ISO11801等国际流行标准进行测试。只测试物理通断后就认
为链路肯定可用,这一认识是非常片面的也是非常有害的。采用一分二插座的链路一定要测试综合近端串扰、综合远端串扰等高端参数,最好选择Cat5n标准进行认证测试。为此,我们建议船运公司将全部布线链路连夜进行测试和清理,并对清理后PS NEXT等高端参数仍不合格的链路进行最后
标记,以便日后进行更换。

............................................................................................................................

[故事之十五]私自运行Proxy发生冲突,服务器响应速度“变慢”,网虫太“勤快”

[症状]某市工商局信息中心今日向网络医院“报案”,报告其关键的企业数据服务器经常出现“阻塞”,起因是分布在各地的各个业务受理局、所等的工作人员时常向信息中心抱怨在进行企业数据调用、核查和进行新企业登记操作时经常遇到“梗阻”,速度变慢或业务出现暂时性的停顿的现象。由于故障现象不是持续存在,虽然检查过多次,也杀过多次“毒”,更换速度更快的服务器后情况好转,但未从根本上能解决问题,始终没有找到真正的“病根”所在。要求帮助查找“元凶”。
走进该工商信息中心崭新明亮的机房,可以看到正面的墙上有一幅巨大的网络结构拓扑示意图,上面非常清楚的标明了各种网上设备和网络设备的型号、名称、位置、速度、链路类型和连接关系等等。初步感觉这样的网络器管理水平应该是不错的。
但,经过了解获知,目前实际的网络的结构比较特殊,与拓扑图上的结构有较大区别:用于业务网的大部分机器还设在旧的信息中心机房中,只有企业数据服务器等关键设备安装在新工商大厦的信息中心机房中,且同办公网连通。新大厦和旧信息中心相距约2000米,中间通过光缆和路由器连接起来,并在办公网侧设置了防火墙。办公网的多数用户都可以通过WAN链路访问internet国际互联网。信息中心主任对此的解释是:按工程规划的要求,需要把原信息中心机房的全部设备和人员搬迁到新大厦的信息中心机房,但因发现新大厦存在建筑质量问题,两个月前只搬迁了少部分设备和绝大部分的人员。为了不影响业务,在对设备采取临时性的重新布局后即投入了运行。工作状况一直正常。多数业务设备还留在了旧机房中,由2名留守人员负责管理。大约一个月前开始出现故障征兆。
该信息中心负责下辖8个工商分局,76个工商所的网络连接和业务保障工作。局和分局之间用帧中继链路连接,工商所和分局之间用DDN、ISDN连接,少数用拨号方式连接。业务网与办公网之间用防火墙隔离。业务网中的用户除分局的少数用户外按设计要求均不能上互联网。
       
[诊断过程]从安装在办公网中的网管系统上观察,企业数据服务器流量为28%,属正常。就近从办公网用网络测试仪F683对服务器进行连通性测试,损失率为0%。这说明至少在此时此刻服务器是工作状态是不错的。用网络助理(网络一点通)对服务器发送10%的流量,观察服务器的使用情况。从数据包交换对话矩阵中发现,服务器对办公网中的用户均有响应,而对原业务网中的用户则有少数几个“不响应”的记录。由此可以推断故障原因绝大多数可能还在原业务网中。
        将网络测试仪移动到信息中心旧楼中进行测试,结果如下:网络流量为45%(略高),碰撞率为3%,错误率0%,广播7%(略高)。总体基本正常。进而观察网络协议的分布状态,基本正常。查看数据包对话矩阵,则发现凡是对企业数据服务器的访问数据包均有部分“不响应”记录。该记录涉及面很广,几乎40%的工作站均有牵连。
为了验证是否是数据链路的问题,进行了ICMP Ping和ICMP Monitor测试,前者报告有两个MAC地址响应,后者则报告记录到大量的目标不可达、重定向、拥塞告警等数据帧。这说明网络的数据链路中有重复的IP地址,而且网络对数据帧的路由运算也存在问题。启动网络测试仪的网段自动搜寻功能,自动查询网络连接结构,结果发现有多余路由解析操作(Proxy),但没有发现重复的IP地址(这说明重复的IP地址不在该网段,而存在于数据访问通道中)。
因网管人员没有MAC地址备份文档,故建议将旧楼中的所有本地工作站关机,此时网络立即恢复正常。为确定与服务器重名的工作站,再分批打开所有工作站,结果发现留守人员的2台机器中有1台IP地址与企业数据服务器重名。进一步检查该工作站,还发现其私自安装并运行了Proxy代理,与网段搜索的结构一致。
       
[诊断评点]故障原因有三。原因之一:是IP地址重复,原因之二:是运行非法路由代理。当业务网用户要求进一步的地址解析分析时,留守机与数据服务器发生冲突,多数的数据流向发生混乱(注意,此时的数据帧结构仍正常),使用户的访问发生“梗阻”。应用软件则经常要求重新联络和重传数据,导致流量偏高、业务流程速度变慢。由于冲突基本限制在原信息中心网络中,所以企业数据服务器的流量显示正常!网管系统也无错误数据包报告!原因之三:对留守人员的管理出现真空。留守人员因“无聊”(员工自述)而渴望“越权”连接互联网,并由此开始迅速成为一名“白日网虫”,进而干扰正常业务流程。由于其操作并不一定持续存在,从而导致问题出现一个多月不能解决。其实,办公网中的互联网用户也会或多或少地受到影响,只不过因白天用户的使用频率低未曾察觉而已。
       
[诊断建议]网络管理的漏洞大多数来自于内部管理人员,建立严格的内部管理机制是非常必要的。同时,建议将MAC地址的备份列入必备文档。另外,每日对网络进行状态自动搜寻会有助于很快发现并清除非法用户。
健康的网络维护方案中其实早就有关于定期测试(包括每日测试和每日循环测试)的项目,只要坚持每日必要的测试和检查,就可以保证99.9%的网络不会有超过2天而解决不了的严重网络问题存在。

原创粉丝点击