《网络故障分层诊断精品文稿.ppt》由会员分享,可在线阅读,更多相关《网络故障分层诊断精品文稿.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、网络故障分层诊断1第1页,本讲稿共45页OSI的体系结构2第2页,本讲稿共45页3第3页,本讲稿共45页本次课主要讲的内容:本次课主要讲的内容:1.网络故障发生位置?2.网络故障的分类3.故障诊断的一般步骤 4.网络的分层诊断技术5.网络故障诊断及维护6.经典案例解析 4第4页,本讲稿共45页网络故障通常有以下几种可能:物理层问题:物理设备相互连接失败或者硬件及线路本身的问题;数据链路层问题:网络设备的接口配置问题;网络层问题;网络协议配置或操作错误;传输层问题:设备性能、通信拥塞及差错问题;高层问题:包括操作系统,应用接口、驱动程序及各种应用程序错误。5第5页,本讲稿共45页网络故障的分类根
2、据网络故障的性质分为:1)物理故障;2)逻辑故障。根据网络故障的对象分为:1)线路故障;2)路由故障;3)主机故障。6第6页,本讲稿共45页物理类故障 物理故障定义:一般是指线路或设备出现物理类问题或说成硬件类问题。具体指的是设备或线路损坏、插头松动等情况。1 线路故障 2 端口故障 3 集线器或路由器故障 4 主机物理故障 7第7页,本讲稿共45页逻辑类故障 逻辑故障中最常见的情况就是配置错误,因为网络设备的配置原因而导致的网络异常或故障。1 路由器逻辑故障 2 一些重要进程或端口关闭3 主机逻辑故障 8第8页,本讲稿共45页故障诊断的一般步骤1.故障的准确定位2.准确收集与故障相关信息3.
3、考虑故障的可能原因4.确定解决方案5.实施解决方案6.测试验证7.记录解决方案8.确定预防措施9第9页,本讲稿共45页1 故障的准确定位 故障的定位就是要清楚故障的性质及其影响,将故障的范围缩小到一个网段,某一个节点或网络设备。然后确定故障是否会出现在其他节点上,故障是局限于一个节点还是某个网络设备10第10页,本讲稿共45页2准确收集与故障相关信息u观察网络设备的指示灯u设备以前工作是否正常 u故障发生的时间 u运行环境是否发生了改变 u不要忽视一些明显的人为错误11第11页,本讲稿共45页3考虑故障的可能原因 确定了故障区域及范围,收集了相关故障现象及信息后,就可以根据故障现象及信息,利用
4、软硬件帮助功能,考虑引起故障的可能原因,并通过分析,推断出最后产生故障的可能原因,并初步识别出故障的基本类型。把所有可能的原因按可能性大小一一排列记录成事件列表,逐一排查,首先用一个最可能的故障原因进行诊断活动,这样可以比较容易恢复到故障的原始状态,相比而言,如果一次同时考虑一个以上的故障原因,试图返回故障原始状态就困难多了。12第12页,本讲稿共45页4 确定解决方案在执行解决方案前,还需考虑以下几方面问题:所确定的原因是否真是故障原因,需要相应的诊断结果或报告作支撑。是否可以对设定的解决方案进行预先的测试,并制定故障的诊断计划。实现解决方案预定的结果是怎样的?所制定的解决方案对于网络的其他
5、部分有没有影响?13第13页,本讲稿共45页在实施解决方案前做好以下准备u保存全部的网络设备配置文件。u对服务器及重要的客户段的配置文件进行备份记录。u记录网络的基本拓扑结构,设备的物理位置以及各设备之间线路的连接关系、端口号等。u建立最终的基准,以便对新旧结果进行对比,同时在需要恢复时可以作为比较的依据。14第14页,本讲稿共45页5 实施解决方案 在实施解决方案时,可能还需要分成很多步骤来操作,所以需要认真做好每一步测试和观察。在测试过程中,每次只能完成一项测试,每改变一个参数都要确认其结果并记录下来,并分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。15第15页,本讲
6、稿共45页6 测试验证 故障是否真正解决及排除,要通过网络管理员及用户的多方验证。对于网络管理员而言,主要通过查看有关网络设备是否正常工作,通过网络管理软件综合分析网络各项运行参数。对于用户而言,主要是观察日常的各项网络服务是否正常,网络的使用性能。这个过程是一个持续的过程,需要大量时间去完成。16第16页,本讲稿共45页 7 记录解决方案 故障排除后,需要把故障的解决方案,实施解决方案过程中的测试步骤及相关结果记录成文档,进而积累实际故障解决经验。作为网络管理员,在这方面应该养成良好的习惯。17第17页,本讲稿共45页8 确定预防措施 完成了故障的排除和文档记录后,就应该着手于预防措施,防范
7、于故障的再次发生。(目的)根据故障产生的各种原因,有针对性地制定相应的网络管理方案并实施,观察方案的运行效果,把被动的网络管理方式变成主动地网络管理方式18第18页,本讲稿共45页网络的分层诊断技术 五层协议的层次结构把每层功能及职责范围定义得非常清晰,为管理员分析和排查故障提供了非常好的组织方式。由于各层相对独立,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。通常有两种逐层排查方式:一种是从低层开始排查,适用于物理网络不够成熟稳定的情况,如组建新的网络、重新调整网络线缆、增加新的网络设备;19第19页,本讲稿共45页网络的分层诊断技术 另一种是从高层开始排查,适用于物理
8、网络相对成熟稳定的情况,如硬件设备没有变动。无论哪种方式,最终都能达到目标,只是解决问题的效率有所差别。20第20页,本讲稿共45页网络故障统计 据统计,出网络故障通常发生在网络五层模型的下三层,即物理层、链路层和网络层。21第21页,本讲稿共45页网络故障诊断及维护 网络故障诊断形式:软件形式工具:比如操作系统提供的网络诊断命令及专业管理软件。使用简单,方便,成本低,但诊断不能深入网络内部,具体反映各项网络参数,功能有限。硬件形式工具:比如各种网络万用表、网络协议分析仪等。功能强大,能够对网络进行系统全面深入的诊断,但使用较复杂,成本较高。22第22页,本讲稿共45页1 物理层(1)线路方面
9、故障(2)端口设置方面的故障(3)集线器故障(4)电源方面的故障(5)网卡故障网卡参数设置错误网卡参数设置错误在同一网段的网络设备的参数设置要一致在同一网段的网络设备的参数设置要一致对网卡的干扰对网卡的干扰网卡驱动不正网卡驱动不正23第23页,本讲稿共45页经典案例1 故障现象:故障现象:某进出口公司开通某进出口公司开通DDN(Digital Data Network,数字数据网)专线后部分用户抱怨,数字数据网)专线后部分用户抱怨数据交换的速度变慢,且经常有连接中断的数据交换的速度变慢,且经常有连接中断的现象。现象。网络支持人员虽经多方查找仍不得要网络支持人员虽经多方查找仍不得要领,故请求网络
10、医院出诊援救。领,故请求网络医院出诊援救。24第24页,本讲稿共45页经典案例1(续)故障排除:故障排除:该公司的网络为该公司的网络为lOBase-T局域网,此次只局域网,此次只增增加了加了DDN设备和路由器,其他配置基本不变设备和路由器,其他配置基本不变。故将网络测试仪故将网络测试仪F68X从最低楼层的某个用户端从最低楼层的某个用户端接入接入网络进行观察网络进行观察,平均流量为,平均流量为1.20/0,未发,未发现异常。改用流量发送功能作现异常。改用流量发送功能作流量逐级递增流量逐级递增的体能测试,也未发现任何异常。表面上看,的体能测试,也未发现任何异常。表面上看,该网段似乎没有什么问题。为
11、快速定位网络该网段似乎没有什么问题。为快速定位网络故障,故障,将流量发送到其他网段,同时观察网将流量发送到其他网段,同时观察网络状况络状况。随着发送流量的增加,。随着发送流量的增加,1分钟后发分钟后发现错误帧现错误帧25第25页,本讲稿共45页经典案例1(续)帧类型为帧类型为FCS错误帧,错误帧,并指示并指示FCS帧来帧来 自自第二层的某个用户。显然,只据此现象就判第二层的某个用户。显然,只据此现象就判断故障原因为该工作站的断故障原因为该工作站的网卡损坏或网卡网卡损坏或网卡驱动程序错误,驱动程序错误,似乎显得似乎显得“证据不足证据不足”,因,因为为整个楼层整个楼层的用户反映的故障现象是相同的用
12、户反映的故障现象是相同的。继续观察到的。继续观察到5分钟,发现分钟,发现FCS错误帧数错误帧数量增加为量增加为10个用户左右,由此可以断定不是某个用户左右,由此可以断定不是某个工作站的问题。为此,个工作站的问题。为此,令其他楼层多个用令其他楼层多个用户与故障楼层用户交换数据(比如复制文件)户与故障楼层用户交换数据(比如复制文件),26第26页,本讲稿共45页经典案例1(续)结果发现多个结果发现多个FCS帧错误。打开交换机端口工帧错误。打开交换机端口工作表观察,本楼层的记录中也显示作表观察,本楼层的记录中也显示FCS帧错帧错误,而其他的交换机端口工作表中没有误,而其他的交换机端口工作表中没有FC
13、S错误记录,这说明是错误记录,这说明是本网段内存在着线本网段内存在着线缆超长的链路。缆超长的链路。再试着向再试着向Internet某个已某个已知用户发送流量,并且进行知用户发送流量,并且进行ICMP Ping测测试试,结果发现损失率为,结果发现损失率为90%左右。由于刚左右。由于刚才本网段内的体能测试未发现异常,所以只才本网段内的体能测试未发现异常,所以只能是集线器与交换机连接的能是集线器与交换机连接的单条链路有问题单条链路有问题。测试该电缆,测试该电缆,长度指示为长度指示为175 m!27第27页,本讲稿共45页经典案例1(续)由于由于175 m超常链路在集线器和交换超常链路在集线器和交换机
14、之间,所以机之间,所以本网段内本网段内的用户在交换数的用户在交换数据时据时可以顺利进行可以顺利进行。但与其他网段的用户。但与其他网段的用户交换数据时就可能出问题。交换数据时就可能出问题。一周后该公司一周后该公司重新划分网段重新划分网段施工结束,施工结束,用户来电报告一切正常。用户来电报告一切正常。28第28页,本讲稿共45页经典案例2 故障现象:故障现象:某网吧老板打电话给网络公司的技术人员某网吧老板打电话给网络公司的技术人员说,网吧局域网内出现说,网吧局域网内出现频繁断网的情况频繁断网的情况。技术人员打车到达现场后询问了网吧业主故技术人员打车到达现场后询问了网吧业主故障发生前的一些情况,业主
15、反应闲来无事,障发生前的一些情况,业主反应闲来无事,看见交换机灰尘太多,于是分片进行了看见交换机灰尘太多,于是分片进行了除尘除尘,全部干完以后玩了十几分钟后就,全部干完以后玩了十几分钟后就发生这样的情况了,每次掉线以后发生这样的情况了,每次掉线以后重新启重新启动所有设备只能维持一小会,动所有设备只能维持一小会,然后就是断网,然后就是断网,找了半天原因也没找到,于是打电话报找了半天原因也没找到,于是打电话报修。修。29第29页,本讲稿共45页经典案例2(续)故障排除:故障排除:首先观察交换机首先观察交换机,发现网吧内所有的交换,发现网吧内所有的交换机网络机网络指示灯指示灯都在以相同的频率在闪,断
16、开都在以相同的频率在闪,断开局域网,使用笔记本直接接在路由器上进局域网,使用笔记本直接接在路由器上进行上网测试,一切正常,行上网测试,一切正常,故障显然出在局域故障显然出在局域网内网内,把所有交换机之间的级联线断开,先,把所有交换机之间的级联线断开,先插上主交换机,无异常,再一台一台的接入插上主交换机,无异常,再一台一台的接入分交换机,接到第三台的时候故障出现了,分交换机,接到第三台的时候故障出现了,到那个交换机上查网线,为了快速排除故障,到那个交换机上查网线,为了快速排除故障,那台交换机上的所有网线都被拔了下来,然那台交换机上的所有网线都被拔了下来,然后一个一个插回后一个一个插回30第30页
17、,本讲稿共45页经典案例2(续)去,最后去,最后发现其中一根网线是级联线,发现其中一根网线是级联线,被被人插在了同一个交换机上造成人插在了同一个交换机上造成数据回路数据回路,拔,拔掉这根网线后网络恢复正常。掉这根网线后网络恢复正常。故障总结:故障总结:故障处理完之后询问业主为什么这么插,故障处理完之后询问业主为什么这么插,业主说当时也没注意,看见有水晶头的网业主说当时也没注意,看见有水晶头的网线就往交换机上插,不知道这根网线是干线就往交换机上插,不知道这根网线是干啥的。技术人员告诉业主以后啥的。技术人员告诉业主以后再动网线的再动网线的时候最好有个技术在场的情况下再动。时候最好有个技术在场的情况
18、下再动。31第31页,本讲稿共45页2数据链路层 数据链路层的故障一般包括以下几个方:1)数据链路层帧的问题,通常的帧错发、重发、丢失及帧碰撞等。2)数据帧的流量控制及差错控制。3)链路层地址的设置。4)链路层协议的匹配问题,在相互连接的两端口应该使用同一种协议封装。5)链路通信的时钟同步问题。6)数据终端设备(DTE)在数据链路层驱动程序的加载问题。32第32页,本讲稿共45页经典案例3 故障现象:故障现象:某校网络教室中的计算机是通过校园网某校网络教室中的计算机是通过校园网中的代理服务器共享上网的。一天,上网后中的代理服务器共享上网的。一天,上网后不久,发现计算机不久,发现计算机浏览浏览I
19、nternet的速度很慢的速度很慢,以为是开启程序太多引起计算机的内存不足,以为是开启程序太多引起计算机的内存不足,就重新启动机器。可重启后还是老样子,换就重新启动机器。可重启后还是老样子,换一台机器上网也是如此。一台机器上网也是如此。33第33页,本讲稿共45页经典案例3(续)故障排除:故障排除:由于由于多台多台计算机都出现了网速很慢的毛病,计算机都出现了网速很慢的毛病,因此因此初步判断是代理服务器出问题了初步判断是代理服务器出问题了。检查代。检查代理服务器,发现服务器鼠标和键盘都无法响理服务器,发现服务器鼠标和键盘都无法响应,出现了死机故障。没办法,只得按下应,出现了死机故障。没办法,只得
20、按下Reset键重新启动系统,键重新启动系统,可在快进入系统界面可在快进入系统界面时又死机了时又死机了。难道是。难道是服务器操作系统崩溃了服务器操作系统崩溃了?立即用先前备份的?立即用先前备份的Ghost镜像将系统分区镜像将系统分区恢复了一遍,再次启动机器,不料还是老样恢复了一遍,再次启动机器,不料还是老样子。看来子。看来并非软件故障并非软件故障。或者可能是由于。或者可能是由于34第34页,本讲稿共45页经典案例3(续)很久没有打开机箱清理,很久没有打开机箱清理,计算机内部灰尘积聚计算机内部灰尘积聚太多太多,配件昼夜运转在散热不良的环境中,配件昼夜运转在散热不良的环境中,引起引起CPU怠工了吧
21、?拿来螺丝刀正想打开怠工了吧?拿来螺丝刀正想打开机箱查个究竟,机箱查个究竟,发现机箱后面板网卡口上的黄发现机箱后面板网卡口上的黄灯急速闪烁着,再看看机柜内的交换机,所有灯急速闪烁着,再看看机柜内的交换机,所有的指示灯也同样都异常急速地闪烁着。的指示灯也同样都异常急速地闪烁着。网络故网络故障莫不是由障莫不是由数据阻塞引起的数据阻塞引起的?试着?试着关闭交换关闭交换机电源机电源,稍等一下再重新打开,然后再次,稍等一下再重新打开,然后再次启动服务器。这次服务器竟然能正常启动启动服务器。这次服务器竟然能正常启动了,通过各终端访问了,通过各终端访问Intenet,一切恢复了,一切恢复了正常。正常。35第
22、35页,本讲稿共45页经典案例3(续)故障总结:故障总结:此次由此次由交换机数据阻塞引起的网络故障,交换机数据阻塞引起的网络故障,由于没有首先检查交换机,使本来只需开关由于没有首先检查交换机,使本来只需开关一下交换机电源就能解决的问题,却走了不一下交换机电源就能解决的问题,却走了不少弯路。由此少弯路。由此提醒大家提醒大家:检查网络故障时,:检查网络故障时,千万不要把目光只停留在网络的某一个节点千万不要把目光只停留在网络的某一个节点上,而要对整个链路系统做综合观察,才能上,而要对整个链路系统做综合观察,才能少走弯路。少走弯路。36第36页,本讲稿共45页3网络层 网络层提供建立、保持和释放网络层
23、连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。排除网络层故障的基本方法基本方法是沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动 态路由选择过程的故障,包括RIP或者GRP路由协议出现的故障37第37页,本讲稿共45页经典案例4 故障现象:故障现象:某一技术人员接到一电话,对方很着急的某一技术人员接到一电话,对方很着急的说说网吧一个劲的断线网吧一个劲的断线,查不出原因,请技术,查不出原因,请技术人员去协助处理故障
24、。人员去协助处理故障。38第38页,本讲稿共45页经典案例4(续)故障排除:故障排除:打车到达现场以后,进入机房,发现打车到达现场以后,进入机房,发现主交主交换机和光纤收发器指示灯都在以极快的频率闪,换机和光纤收发器指示灯都在以极快的频率闪,说明流量很大说明流量很大,使用笔记本直接接在电信的光,使用笔记本直接接在电信的光纤收发器上进行测试,发现笔记本的纤收发器上进行测试,发现笔记本的CPU占占用率一下就到了用率一下就到了100%,不用测试了,不用测试了,被攻击被攻击了了。再接到网通光纤收发器上测试没什么异常,。再接到网通光纤收发器上测试没什么异常,于是暂时只接网通光纤,恢复网络,然后于是暂时只
25、接网通光纤,恢复网络,然后联系联系电信中心机房更换电信中心机房更换IP地址地址,故障就这么搞定,故障就这么搞定了。了。39第39页,本讲稿共45页经典案例4(续)故障总结:故障总结:技术人员跟业主说被攻击了以后业主不相技术人员跟业主说被攻击了以后业主不相信攻击会造成这么大的影响,并说我花了好信攻击会造成这么大的影响,并说我花了好几万购买的防火墙呢,怎么可能被攻击搞的几万购买的防火墙呢,怎么可能被攻击搞的这么惨,技术人员说你的这么惨,技术人员说你的出口带宽是出口带宽是40M,对方如果使用大于对方如果使用大于40M的流量攻击你,防的流量攻击你,防火墙就什么用都没有了火墙就什么用都没有了,所以网吧里
26、你买,所以网吧里你买的防火墙在受到这种攻击时是不起作用的。的防火墙在受到这种攻击时是不起作用的。业主听了技术人员的话没再说什么。业主听了技术人员的话没再说什么。40第40页,本讲稿共45页经典案例5 故障现象:故障现象:技术人员接到一家局域网的电话,反技术人员接到一家局域网的电话,反应局域网网络速度不稳定,应局域网网络速度不稳定,玩游戏的时候玩游戏的时候经常断线,可以再次重新登陆,但过会还会经常断线,可以再次重新登陆,但过会还会断线断线。41第41页,本讲稿共45页经典案例5(续)故障排除:故障排除:到达网吧发现顾客在进入游戏以后玩了到达网吧发现顾客在进入游戏以后玩了一会就显示一会就显示已经与
27、服务器失去连接已经与服务器失去连接,ping电电信的信的DNS发现延时一会发现延时一会20多多ms,一会,一会300多多ms,在,在CMD下使用下使用tracert命令探测路由路命令探测路由路径,发现延时在径,发现延时在20多多ms的时候走的是电信的时候走的是电信线路,延时在线路,延时在300多多ms的时候走的是网通线的时候走的是网通线路,路,问题出在路由器上问题出在路由器上,向业主要来管理密,向业主要来管理密码,进入路由器的码,进入路由器的web界面进行检查,发现界面进行检查,发现设置没什么设置没什么42第42页,本讲稿共45页经典案例5(续)问题,问题,在在CMD下使用下使用telnet进
28、入路由进入路由 器,器,在超级权限下打入在超级权限下打入setup重新设置重新设置 路由,路由,保存后观察路由近保存后观察路由近2个小时,没有再发生这个小时,没有再发生这样的情况,故障处理完毕。样的情况,故障处理完毕。故障总结:故障总结:锐捷的路由器在第一次安装的时候锐捷的路由器在第一次安装的时候最好最好使用使用telnet登陆登陆路由器进行配置,配置完以路由器进行配置,配置完以后再进入后再进入web管理界面进行双线的设置。管理界面进行双线的设置。43第43页,本讲稿共45页4 传输层 链路层故障主要包括:1)差错检测纠错等,如数据包的重发。2)通信拥塞控制错误或上层协议在网络层协议上的捆绑错误。3)私密信和可靠性问题,例如SSL安全协议握手连接失败。44第44页,本讲稿共45页5 应用高层 应用层故障检查主要包括以下几个方面:1)终端系统的系统资源状态,如CPU、内存、磁盘利用、I/O系统、进程等。2)应用程序对系统资源的占用及调度管理3)安全管理,用户管理,文件管理等高层服务。45第45页,本讲稿共45页