《第1讲:计算机网络故障诊断与排除网络故障和网络诊断测试工具课件.PPT》由会员分享,可在线阅读,更多相关《第1讲:计算机网络故障诊断与排除网络故障和网络诊断测试工具课件.PPT(99页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、黎连业计算机网络故障诊断与排除计算机网络故障诊断与排除中科院计算所计算机职业技能培训中心中科院计算所计算机职业技能培训中心 计算机网络故障诊断与排除计算机网络故障诊断与排除讲座教材讲座教材 计算机网络故障诊断与排除计算机网络故障诊断与排除第第 2 2 版版 清华大学出版社清华大学出版社( 2010.12 ) 第第1讲:讲:网络故障和网络诊断网络故障和网络诊断测试工具 本章重点介绍以下内容:1. 网络故障概述; 2. 常用的网络故障测试命令; 3. 网络故障管理系统;4. 网络故障诊断;5. 网络故障管理;6.网络故障的定位;7. 网络诊断工具;8. 网络测试工具。1.1 网络故障概述 在信息化
2、社会里,各企事业单位对网络的依赖程度越来越高,网络随时都可能发生故障,影响正常工作。所以,必须掌握相应的技术及时排除故障。有些单位如电信、电子商务公司、游戏运营商等使用的网络一旦发生故障,若不能及时排除,会产生很大的损失。这些单位一般会安装网络故障管理软件,通过软件来管理和排除网络的故障。 从网络故障本身来说,经常会遇到的故障有:w 物理层故障;w 数据链路层故障; w 网络层故障;w 以太网络故障;w 广域网络故障;w TCP/IP故障;w 服务器故障w 其他业务故障等。 那么,网络发生故障的原因是什么呢?根据有关资料的统计,网络发生故障具体分布为:w 应用层占3%;w 表示层占7%;w 会
3、话层占8%;w 传输层占10%;w 网络层占12%;w 数据链路层占25%;w 物理层占35%。 引起网络故障的原因还有以下几种: (1) 逻辑故障 逻辑故障中最常见的情况有2类:一类是配置错误,是因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器的路由配置错误,以至于路由循环找不到远端地址,或者是路由掩码设置错误等。另一类是一些重要进程或端口被关闭,主要是系统的负载过高,路由器的负载过高。 (2) 配置故障 配置错误也是导致故障发生的重要原因之一。配置故障主要表现在不能实现网络所提供的各种服务,如不能接入Internet,不能访问某种代理服务器等。配
4、置故障通常表现为以下几种情况: 网络链路测试正常,却无法连接到网络; 只能与某些计算机,而不是全部计算机进行通信; 计算机只能访问内部网络中的服务器,但无法接入Internet。可能是路由器配置错误,也可能是交换机配置错误; 计算机无法登录至域控制器; 计算机无法访问任何其他设备。 (3) 网络故障 网络故障的原因是多方面的,一般分为物理故障和逻辑故障。物理故障,又称硬件故障,包括线路、线缆、连接器件、端口、网卡、网桥、集线器、交换机或路由器的模块出现故障。 (4)协议故障 计算机和网络设备之间的通信是靠协议来实现的,协议在网络中扮演着非常重要的角色。协议故障通常表现为以下几种情况: 计算机无
5、法登录至服务器; 计算机在网上邻居中既看不到自己,也看不到其他计算机或查找到其他计算机; 计算机在网上邻居中能看到自己和其他计算机,但无法在局域网络中浏览Web、收发E-mail; 计算机无法通过局域网接入Internet。 与网络中其他计算机的名称重复,或者与其他计算机使用的IP地址相同。 (5) DDOS攻击 (6) 网络管理员差错 网络管理员差错占整个网络故障的5%以上,主要发生在网络层和传输层,是由于安装没有完全遵守操作指南,或者网络管理员对某个处理过程没有给予足够的重视造成的。 (7) 海量存储问题 数据处理故障的最主要原因是硬盘问题。据有关报道,大约有超过26%的系统失效都归结到海
6、量存储的介质故障上。 (8) 计算机硬件故障 大约有25%的故障是由计算机硬件引起的,如显示器、键盘、鼠标、CPU、RAM、硬盘驱动器、网卡、交换机和路由器等。 (9) 软件问题 软件引起的故障也不鲜见,表现为:w 软件有缺陷,造成系统故障;w 网络操作系统缺陷,造成系统失效。 (10) 使用者发生的差错 使用者没有遵守网络赋予的权限。例如:w 超权访问系统和服务;w 侵入其他系统;w 操作其他用户的数据资料;w 共享账号;w 非法复制。 既然有网络故障产生,那么就有网络管理。网络故障管理一般包括5点:w 对网络进行监测,提前预知故障;w 发生故障后,找到故障发生的位置;w 解决故障;w 记录
7、故障产生的原因,找到解决方法;w 故障分析预测。1.2 常用的网络故障测试命令 常用的网络故障测试命令有ipconfig、ping、tracert、netstat和nslookup等。下面简单说明它们的基本用法。 1. ipconfig命令 使用 ipconfig命令可以查看IP配置,或配合使用/all参数查看网络配置情况。ipconfig命令采用Windows窗口的形式来显示IP协议的具体配置信息。如果ipconfig命令后面不跟任何参数直接运行,程序将会在窗口中显示网络适配器的物理地址、主机的IP地址、子网掩码以及默认网关等。还可以通过此程序查看主机的相关信息如:主机名、DNS服务器、节点
8、类型等。其中网络适配器的物理地址在检测网络错误时非常有用。在命令提示符下键入ipconfig?可获得ipconfig的使用帮助,键入 ipconfigall可获得IP配置的所有属性。 ipconfig命令语法格式: ipconfig -“ ” ? all release renew flushdns displaydns registerdns showclassid setclassid 命令参数介绍 -“ ”: 不带任何参数选项,那么它为每个已经配置了的接口显示IP地址、子网掩码和缺省网关值。 ? : 进行参数查询; all : 显示本机TCP/IP配置的详细信息; release : D
9、HCP 客户端手工释放IP地址; renew: DHCP 客户端手工向服务器刷新请求; flushdns : 清除本地DNS缓存内容; displaydns: 显示本地DNS内容; registerdns: DNS 客户端手工向服务器进行注册; showclassid: 显示网络适配器的DHCP类别信息; setclassid: 设置网络适配器的DHCP类别。单击“程序”“运行”,输入CMD进入DOS命令行窗口,在DOS命令行窗口中输入ipconfig /all,会显示出如图1-1所示画面。2. ping 命令 ping命令主要是用来检查路由是否能够到达某站点。由于该命令的包长小,所以在网上传
10、递的速度非常快,可以快速检测您要去的站点是否可达。如果执行Ping不成功,则可以预测故障出现在以下几个方面: 网线是否连通; 网络适配器配置是否正确; IP地址是否可用等。 如果执行Ping成功而网络仍无法使用,问题很可能出在网络系统的软件配置方面,Ping成功只能保证当前主机与目的主机间存在一条连通的物理路径。 在DOS命令窗口中输入ping /? ,可以看到ping的各个参数如下:C:Documents and SettingsAdministratorping /?Usage: ping -t -a -n count -l size -f -i TTL -v TOSw -r count
11、-s count -j host-list | -k host-listw -w timeout destination-listw Options:w -t Ping the specified host until stoppedw To see statistics and continue - type Control-Brw To stop - type Control-Cw -a Resolve addresses to hostnamesw -n count Number of echo requests to sendw -l size Send buffer sizew -f
12、 Set Dont Fragment flag in packetw -i TTL Time To Livew -v TOS Type Of Servicew -r count Record route for count hopsw -s count Timestamp for count hopsw -j host-list Loose source route along host-listw -k host-list Strict source route along host-listw -w timeout Timeout in milliseconds to wait for e
13、ach reply 1) ping 命令参数介绍w/t ping 指定用户所在的主机向目标主机发送数据, 直到中断。w/a 以IP地址格式来显示目标主机的网络地址, 将地址解析为计算机名。 Pinging lily 159.254.188.86 with 32 bytes of data: 通过运行ping -a 159.254.188.86 可以知道IP为的计算机名是lily。w-n count 发送 count 指定的 echo 数据包数。默认值为 4。w-l size 发送包含由size指定的数据量的echo数据包。默认值为32字节,最大值是65 527。w-f 在数据包中发送“不要分段
14、”标志,数据包就不会被路由上的网关分段。w-i TTL 将“生存时间”字段设置为TTL指定的值。w-v TOS 将“服务类型”字段设置为TOS指定的值。w-r count 在“记录路由”字段中记录传出和返回数据包的路由。count可以指定最少1台,最多9台计算机。w-s count 指定count指定的跃点数的时间戳。w-j host-list 利用host-list 指定的计算机列表路由数据包。连续计算机可以被中间网关分隔(路由稀疏源),IP允许的最大数量为 9。w-k host-list 利用host-list 指定的计算机列表路由数据包。连续计算机不能被中间网关分隔(路由严格源),IP允
15、许的最大数量为 9。w-w timeout 指定超时间隔,单位为毫秒。 2) 使用ping命令测试故障的步骤 现在有一台计算机不能访问Internet上的Web服务器,我们可以使用ping命令找出故障的位置。操作步骤如下:。w 如果ping不通,则说明本机TCP/IP没有装好。(2) ping 本机的IP地址。w 如果ping不通,则说明网卡没有装好,或网卡驱动有问题。(3) ping 本网段的其他设备IP地址。w 如果ping不通,则说明连接本机的线路有问题,或者是交换机的端口有问题,也有可能是交换机本身出了问题。(4) ping 本网段的网关。w 如果ping不通,则无法上网,因为没有设备
16、能把数据包转发出去。原因可能是路由器没有配置好或代理服务器出了问题。(5) ping DNS服务器。w 如果ping不通,则说明DNS服务器出了问题,或本机的DNS服务器设置不正确。3. tracert 命令 Tracert命令用来检验数据包是通过什么路径到达目的地的。通过执行tracert命令,可以清楚地看到数据走的路径, 判定数据包到达目的主机所经过的路径、显示数据包经过的中继节点清单和到达时间。当ping一个较远的主机出现错误时,用tracert 命令可以方便地查出数据包是在哪里出错的。如果信息包一个路由器也不能穿越,则有可能是计算机的网关设置错了。那么,可以用ipconfig命令来查看
17、。 Tracert命令语法格式:tracert -d -h maximum_hops -j host_list - w timeout 其中主要参数有: -d 不解析目标主机的名称; -h maximum hops 指定搜索到目标地址的最大跳跃数 ; -j host list 按照主机列表中的地址释放源路由; -w timeout 指定超时时间间隔,程序默认的时间单位是毫秒。4. winipcfg命令 winipcfg命令的功能与ipconfig的基本相同,只是winipcfg在操作上更加方便,同时能够以Windows的图形界面方式显示。当需要查看任何一台机器上TCP/IP协议的配置情况时,选
18、择“开始”“运行”,在出现的对话框中输入winipcfg,即可出现测试结果。 winipcfg命令语法格式:winipcfg /? /all 其中主要参数有:/all 显示所有的有关IP地址的配置信息;/batch file 将命令结果写入指定文件;/renew_ all 重试所有网络适配器;/release_all 释放所有网络适配器;/renew N 复位网络适配器 N;/release N 释放网络适配器 N。5. netstat命令 利用该命令可以显示有关统计信息和当前TCP/IP网络连接的情况,用户或网络管理人员可以得到非常详尽的统计结果。当网络中没有安装特殊的网管软件,但要详细地了
19、解网络的整个使用状况时,netstat命令是非常有用的。 netstat命令的语法格式是: netstat -r -s -n -a 其中主要参数有: w -a: 显示所有与该主机建立连接的端口信息。w -n: 以数字格式显示地址和端口信息。w -e: 显示以太网的统计信息,该参数一般与S参数共同使用。所显示的内容中,Discards表示不能处理而被废弃的信息包数,Errors表示坏掉的信息包数。这些数值大时,很可能是集线器、电缆和网卡等硬件发生了故障。另外,网络太拥挤也可能导致这些数值的增大。w -s: 显示每个协议的统计情况。如果想要统计当前局域网中的详细信息,可通过输入 netstat -
20、e -s来查看。 6. nslookup命令 nslookup命令一般是用来确认DNS服务器动作的。nslookup有多个选择功能,在命令行输入“nslookup ”并执行,即可显示出目标服务器的主机名和对应的IP地址,称之为正向解析。若失败了,可能是执行nslookup命令的计算机的DNS设置错了,也有可能是所查询的DNS服务器停止或工作异常。还有一种情况,虽然返回了应答,但一和该服务器通信就失败。这多数是目标服务器停止工作,但也有可能DNS服务器保存了错误的信息。在DNS服务器出现问题时,有时可能只能进行正向解析,无法进行逆向解析。此时,只需执行nslookup命令,看是否输出目标主机名即
21、可。 nslookup命令语法格式: nslookup -SubCommand . ComputerToFind| -Serverw 使用方法: 在DOS命令行下输入nslookup,敲击回车,此时标识符变为,然后键入制定网站的域名,再敲击回车就可以显示该域名的相对应的IP地址。7. arp命令 arp命令可以显示和设置Internet到以太网的地址转换表内容。这个表一般由ARP来维护。当仅使用一个主机名作为参数时,arp命令显示这个主机 的当前ARP表条目内容。如果这个主机不在当前ARP表中那么ARP就会显示一条说明信息。 arp命令语法格式: arp -a -d host -s host
22、address -f file 其中主要参数有: -a列出当前ARP表中的所有条目 ; -d host从ARP表中删除某个主机的对应条目 ; -s host address使用以太网地址在ARP表中为指定的temppubtrail主机创建一个条目。如果包含关键字temp,创建的条目就是临时的;否则这个条目就是永久的。pub关键字标识这个ARP条目将被公布。使用trail关键字表示将使用报尾封装; -f file读一个给定名字的文件,根据文件中的主机名创建ARP表的条目。1.3 网络故障管理系统网络故障管理系统 使用ping的方法只能针对小型网络,在一些大型网络中一般使用网络故障管理软件,一个网
23、络的故障管理系统不但能反应网络平常运行时的故障情况,更应该能在发生重大网络故障时,快速准确地报告、定位和排除故障。 网络故障管理系统包括:w Navis NFM 故障管理系统;w Netcool故障管理系统。 Navis NFM(Network Fault Management)网络故障管理系统是朗讯科技网络运行系列软件中最著名的产品。其功能强大,能够提供实时故障监测和相关处理,快速定位故障,关联故障,并可提供多厂家、多技术和多业务区的集中管理。另外,“现成的方案”可以快速进行工程实施,并提供本地化的客户和技术支持。 Navis NFM核心功能包括:w 告警信息采集、浏览、过滤、分类等。 w
24、支持信息压缩,可根据信息发生的次数、数值、时间和分组进行压缩。 w 告警门限设置和级别升级 ( Critical、Major、Minor、Other、Cleared )。 w 自动的告警通知和告警处理功能(寻呼、发送电子邮件、生成工单、网元重新启动等)。 w 多种颜色的故障信息显示和图形化的网络地图显示。 w 支持开放的接口和API(ASCII、SNMP v1-v3、CORBA、X.25、TL1)。 w 远端登录到网元和网元管理系统。 w NFM可以根据用户的级别,实现分权和分级管理。系统管理员可以为不同的用户设置不同的权限,只定义该用户关心的网元的故障信息的浏览、查找、操作和远程登录等功能。
25、每个用户用自己的账户登录系统后, 只能看到权限之内的信息,以及执行被允许的各种操作。同时,NFM还备有用户使用记录,从而实现对人员使用情况的管理,加强对整个系统的安全保障。w NFM提供强大的告警抑制功能,可以对非告警类报告提供过滤;根据各种门限进行告警抑制;告警恢复后,NFM 可以自动清除原告警,并将其转入已清除告警中;对告警进行域内、域间的相关性处理等,从而大幅度地减少告警的数量,并有效地减少了分析故障根源所花费的时间。w 用户还可以将客户信息和服务相关数据集成到Navis NFM 数据库,NFM可实时地显示与故障相关的客户和服务数据信息,产生针对特定客户和服务的故障报告,并在故障影响客户
26、之前对其进行评估。1.4 网络故障诊断 网络故障诊断是管好、用好网络,使网络发挥最大作用的重要技术工作。 网络故障诊断是从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络的正常运行。 网络故障通常有以下几种可能:w 物理层中物理设备相互连接失败或者硬件和线路本身的问题;w 数据链路层的网络设备的接口配置问题;w 网络层网络协议配置或操作错误;w 传输层的设备性能或通信拥塞问题;w 网络应用程序错误。w 诊断网络故障的过程应该沿着OSI 7层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,确定故障点。 1.4.1 故障诊断
27、步骤 故障诊断应该实现三方面的目的: 确定网络的故障点,排除故障,恢复网络的正常运行; 发现网络中故障点的原因,改善优化网络的性能; 观察网络的运行状况,及时预测网络通信质量。 故障诊断的步骤如下:(1) 确定故障的具体现象,分析造成这种故障现象的原因。例如,主机不响应客户请求服务。可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等。(2) 收集需要的用于帮助隔离可能故障原因的信息。从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。(3) 根据收集到的情况考虑可能的故障原因,排除某些故障原因。例如,根据某些资料可以排除硬件故障,把注意力放在软件原因
28、上。(4) 根据最后的可能故障原因,建立一个诊断计划。开始仅用一个最可能的故障原因进行诊断活动,这样可以容易恢复到故障的原始状态。如果一次同时考虑多个故障原因,试图返回故障原始状态就困难多了。(5) 执行诊断计划,认真做好每一步的测试和观察,每改变一个参数都要确认其结果。分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。1.4.2 故障排除过程 在开始动手排除故障之前,在开始动手排除故障之前,在记事本上将故障现象认在记事本上将故障现象认真仔细记录下来,观察和真仔细记录下来,观察和记录时一定要注意细节,记录时一定要注意细节,因为有时正是一些最小的因为有时正是一些最小的细节使整个
29、问题变得明朗细节使整个问题变得明朗化。化。1. 识别收集故障现象 作为管理员,在排除故障之前,必须确切地知道网络上到底出了什么毛病。知道出了什么问题并能够及时识别,是成功排除故障最重要的步骤。为了与故障现象进行对比,必须知道系统在正常情况下是怎样工作的,反之,是不好对问题和故障进行定位的。 识别收集故障现象时,应该向操作者询问以下几个问题:(1) 当被记录的故障现象发生时,正在运行什么进程(即操作者正在对计算机进行什么操作)?(2) 这个进程以前运行过吗?(3) 以前这个进程的运行是否成功?(4) 这个进程最后一次成功运行是什么时候?(5) 从那时起哪些发生了改变?带着这些疑问来了解并分析问题
30、才能对症下药来排除故障。2. 对故障现象详细描述 当处理由操作员报告的问题时,对故障现象的详细描述显得尤为重要。如果仅凭他们的一面之词,有时还很难下结论,这时就需要网管员亲自操作出错的程序,并注意出错信息。例如,在使用Web浏览时,无论输入哪个网站都返回“该页无法显示”之类的信息。使用ping命令时,无论ping哪个IP地址都显示超时连接信息等。诸如此类的出错消息会为缩小问题范围提供许多有价值的信息。对此在排除故障前,可以按以下步骤执行:(1) 收集有关故障现象的信息。(2) 对问题和故障现象进行详细的描述。(3) 注意细节。(4) 把所有的问题都记下来。(5) 不要匆忙下结论。3. 对计算机
31、设备本身的运行状况进行检查作为网络管理员,应对计算机设备本身的运行状况进行检查。 (1) 检查操作系统的运行、网络协议、网络地址的设置、网络接口设备驱动程序和设备收发网络数据包的情况。(2) 检查网络接口设备与网络接入设备的连接情况。(3) 检查服务器到网络接口设备的连接状况。(4) 检查网络连接设备运行状况。(5) 检查网络主干设备流量状况 检查端口数据流量的大小,检查重发包、错包和丢包的比例,检查设备上数据包发生碰撞的比例,检查流量情况的日志文件内容,注意拥塞控制的报警阙值设置。 4. 列举可能导致错误的原因 作为网络管理员,则应考虑导致无法查看信息的原因可能有哪些,如网卡硬件故障、网络连
32、接故障、网络设备(Hub)故障、TCP/IP协议设置不当等。这里需要注意的是:不要着急下结论,可以根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。 5. 缩小搜索范围 对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试,就断定某一区域的网络是运行正常或是不正常。另外,也不要在自己认为已经确定了的第一个错误上停下来,应直到测试完为止。 除了测试之外,网络管理员还要注意:千万不要忘记去看一看网卡、Hub、Modem、路由器面板上的LED指示灯。通常情况下LED指示灯:w 绿灯表示连接正常(Modem需要几个绿灯和红灯都要亮);w 红灯表示连接故障;w 不亮表示无连接或线
33、路不通; w 长亮表示广播风暴;w 指示灯有规律地闪烁才是网络正常运行的标志。w 同时不要忘记记录所有观察、测试的手段和结果。6. 隔离错误 经过一翻检查后,基本上知道了故障的部位。对于计算机的错误,可以开始检查:w 该计算机网卡是否安装好;w TCP/IP协议是否安装并设置正确;w Web浏览器的连接设置是否得当等一切与已知故障现象有关的内容。处理完问题后,作为网络管理员,还必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。1.4.3 故障原因 虽然故障原因多种多样,但虽然故障原因多种多样,但总的来讲不外乎
34、就是硬件问总的来讲不外乎就是硬件问题和软件问题。说得再确切题和软件问题。说得再确切一些,这些问题就是网络连一些,这些问题就是网络连接性问题、配置文件选项问接性问题、配置文件选项问题和网络协议问题。题和网络协议问题。 1. 网络连接性 网络连接性是故障发生后首先应当考虑的原因。连通性的问题通常涉及到网卡、跳线、信息插座、网线、Hub、交换机、Modem等设备和通信介质。其中,任何一个设备的损坏,都会导致网络连接的中断。连通性通常可以采用软件和硬件工具进行测试验证。如某一台计算机不能浏览Web时,网络管理员应当考虑:w 网络连通吗?w 看得到网上邻居吗?w 可以收发电子邮件吗?w ping得到网络
35、内的其他计算机吗? 只要其中一项回答为yes,那就可以断定本机到Hub的连通性没有问题。再在那台计算机上重复上述操作,只要有一项回答为yes,则肯定本机到“数据源”的连通性没有问题。当然,即使都回答No,也不就表明连通性肯定有问题,也有可能是其他问题,如计算机的网络协议的配置出现了问题也会导致上述现象的发生。当然,还要看一看网卡和Hub、交换机接口上的指示灯是否正常。 如果排除了由于计算机网络协议配置不当而导致故障的可能,接下来要做的事情就复杂了。查看网卡和Hub、交换机的指示灯是否正常,测量网线是否畅通。 2. 配置文件和选项 服务器、计算机都有配置选项,配置文件和配置选项设置不当,同样会导
36、致网络故障。如服务器权限的设置不当,会导致资源无法共享的故障;计算机网卡配置不当,会导致无法连接的故障。当网络内所有的服务都无法实现时,应当检查Hub、交换机。 3. 使用诊断工具 ping无疑是网络中使用最频繁的小工具,它主要用于确定网络的连通性问题。ping程序使用ICMP(网际消息控制协议)协议来简单地发送一个网络数据包并请求应答,接收到请求的目的主机再次使用ICMP发回相同的数据,于是ping便可对每个包的发送和接收时间进行报告,并报告无影响包的百分比,这在确定网络是否正确连接,以及网络连接的状况(包丢失率)时十分有用。 ping是Windows操作系统集成的TCP/IP应用程序之一,
37、可以在“开始”“运行”中直接执行。w ping主机名w ping IP地址w ping本地计算机名(即执行操作的计算机) 如ping lily或 ping本地IP地址 如ping172.0.0.1(任何一台计算机都会将视为自己的IP地址) 使用ping命令后常见的出错信息通常分为4种:(1) Unknown host(不知名主机)w 这种出错信息的意思是,该远程主机的名字不能被命名服务器转换成IP地址。故障原因可能是命名服务器有故障,或者其名字不正确,或者网络管理员的系统与远程主机之间的通信线路故障。这种情况下屏幕将会提示:w C:windows(2) Network unreachable(
38、网络不能到达) 这是本地系统没有到达远程系统的路由,可检查路由器的配置,如果没有路由,可添加。 (3) No answer(无响应) 即远程系统没有响应。这种故障说明本地系统有一条中心主机的路由,但却接收不到它发给该中心主机的任何分组报文。故障原因可能是中心主机没有工作,本地或中心主机网络配置不正确,本地或中心的路由器没有工作,通信线路有故障或中心主机存在路由选择问题。(4) Timed out(超时) 即台站与中心的连接超时,数据包全丢。故障原因可能是到路由器的连接问题或路由器不能通过,也可能是中心主机已经关机或死机。此时,屏幕提示:w Ping 10.11.1.1with 32 bytes
39、 of data:w Request timed out.w Request timed outw Request timed outw Request timed outw Ping statistics for 10.11.1.1:w Packets: sent=4,received=0,lost=4(100% lost),w Approximate round trip in milli-seconds:w Minimum=0ms,Maximum=0ms,Average=0msw C:windows 4. 使用硬件工具网络测试仪使用硬件工具网络测试仪 使用网络测试仪测试网使用网络测试仪测
40、试网线。线。1.4.4 网络故障的内容和故障排除的5个步骤 网络故障的排除是计算机专业人网络故障的排除是计算机专业人员面临的最困难的任务之一。问员面临的最困难的任务之一。问题往往出现在工作过程中,或者题往往出现在工作过程中,或者在任务有期限要求的时候,要快在任务有期限要求的时候,要快速修复出现的问题,困难就会很速修复出现的问题,困难就会很大。大。 网络发生故障后,首先是要诊网络发生故障后,首先是要诊断,协议故障断,协议故障? 连通性故障连通性故障? 配配置、设备故障置、设备故障? DDOS攻击攻击?找到找到问题的来源,然后进行故障排除。问题的来源,然后进行故障排除。 网络故障排除的过程大致可分
41、为5个步骤。(1) 定义问题 这一步非常重要,却经常被人们忽视。如果对整个问题没有进行全面的了解,就有可能将大量的时间花在对症状的研究上,而不是对问题的原因进行探讨。这个阶段所需的工具仅仅是纸、笔和良好的接受能力。 听取客户或者网络用户的意见是最好的信息来源。记住,尽管您可能知道网络是如何工作的,并且可以发现故障的技术原因,但那些每天都使用网络的人在问题出现之前或者之后都在网络上工作,并且可能会回想起导致故障的事件。通过从他们的意见中汲取信息,可以从纷繁复杂的各种可能的故障原因中理出头绪。列出故障发生之前的时间发生顺序将有助于了解问题。您可能希望能建立一张表格系统地向用户提出以下一些问题(具体
42、问题将由具体的情况而定): w 您是在何时注意到问题或者错误的?w 计算机最近是否进行了移动?w 最近是否在软件或者硬件上有所更改?w 工作进行了变化吗?是否有某些东西砸在电脑上面?咖啡或者苏打水是否曾经洒在键盘上?w 问题发生的确切时间是什么时候?是在启动的过程中吗?在午餐后?仅仅在星期一的商务活动中?在发送电子邮件之后?w 您可以使问题或者错误在线吗?如果可以,怎样产生错误?w 问题或者错误的症状怎样?w 描述计算机的任何变化(如噪声、屏幕更改和磁盘工作情况等) 用户(甚至那些没有技术背景的人)在收集信息的过程中都可能非常有帮助,只要您有效地对他们提出一些问题。例如,您可以问他们当网络出现
43、何种表现时让他们感觉到出现了问题。用户的观察可能会构成解决网络问题的基础。这些问题包括:w “网络真慢”;w “我不能连接到服务器”;w “我曾见连接到服务器上,但是后来又掉线了”;w “我的一个应用程序不能运行”;w “我不能打印”。w 当您继续提问的时候,就可以逐步缩小范围。 (2) 找出原因 这一步是隔离问题。首先排除明显的问题,然后再排除复杂的、隐晦的问题,目标是将重点缩小为一个或者两个分类之内。 要确保您亲眼见到故障。如果可能的话,让某些人为您演示一下发生错误的情况。如果这是一个操作人员引起的问题,那么很重要的一点是观察问题是如何发生的,以及问题造成的后果。 最难以隔离的问题是间断性
44、发生的问题,并且,它们似乎从来不在您在场的时候发生。解决这类问题的唯一办法是重新创建产生问题的环境。有时,使用排除法是最好的方式。这个过程需要时间和耐心。用户也应该对问题出现之前和期间的所作所为进行记录。这可以有助于告知用户在计算机出现问题的时候不要对它进行任何操作,并且及时通知您,这种方式可以保证现场不被破坏。 尽管收集的信息为隔离问题提供了基础,但管理员也应该参考记录的基准信息,并与当前的网络操作进行比较。在与创建基准条件相同的环境下重新进行测试,然后比较两个结果。两者之间的任何变化都可能指示出问题的原因。 信息的收集包括对网络进行扫描,以及寻找问题的明显原因。快速扫描包括对网络的历史记录
45、进行查询,以确定问题以前是否发生过,如果是的话,是否存在记录在案的解决办法。 (3) 计划修复在缩小了研究的范围之后,就可以开始下一过程的:排除。 根据目前已经掌握的情况制订一个隔离问题的方法。首先尝试使用最显而易见的或者最简单的方法来进行排除,然后再采用更复杂和麻烦的方法。必须对过程中的每个步骤都进行记录,以及每个操作和该操作的结果。 在制订好计划后,必须严格遵循计划的步骤。随意的行为可能会导致问题的出现。如果第一个计划没有成功(非常有可能),那么,根据您在先前计划的基础上重新制订一个计划。一定要对前一个计划中所做的任何假设进行参考、重新检查和重新评估。 在确定了问题后,或者对缺陷进行修复,
46、或者替换有缺陷的部件。如果问题是与软件有关的,那么一定要对前后的变化进行记录。 (4) 证实结果 在进行修复之后,如果没有证实结果如何,就不能下结论说已经成功地完成了任务。您应该确保问题不复存在了。请用户对问题的解决进行测试和验证。您也应该确保修复没有带来新的问题。不仅要证实您已经修复了问题,而且要确保您的操作没有对网络的其他任何部分带来负面的影响。 (5) 对输出进行记录 最后,对问题和修复进行记录。记录故障排除过程的收获非常有益。没有任何东西可以取代您排除故障的经验,并且,每个新问题都为您提供了一个丰富经验的机会。在您的技术资料库中保留了一个修复过程的备份。这样,当问题(或类似的问题)再次
47、出现的时候就非常有用了。对排除故障的过程进行记录是建立、保持和共享经验的一种方式。 要记住,您所做的任何更改都可能会影响基准条件。您可能需要对网络的基准进行更新,以备未来出现问题时使用。 如果对网络统计数字和症状进行初步了解之后,还不能提出一个明显的问题,那么,排除故障的下一步就是把整个网络分为较小的部分,以帮助隔离出问题产生的地方。1.5 网络故障管理网络故障管理 故障管理是网络管理中最基本的内容之一, 网络故障管理的目的在于防止类似故障的再次发生,确保网络系统的高稳定性。网络故障管理是相当重要的。 在网络出现故障时,一般情况下,网络管理员应报警。网络管理员应执行一些诊断测试来辨别故障原因。
48、网络管理员必须及时发现故障部位,对所有节点动作状态的监控、故障记录的追踪与检查,对网络系统测试。 网络发生故障可能会对社会或生产带来很大的影响。但在发生故障时,往往不能具体地确定故障所在的准确位置,而需要相关技术上的支持。因此,需要有一个故障管理系统,科学地管理网络发生的所有故障,并记录每个故障的产生及相关信息,最后确定并改正那些故障,保证网络能提供连续可靠的服务。网络故障管理包括故障检测、隔离、纠正、分析故障原因、网络故障报告和设置优先顺序。 1. 故障检测 故障检测时按照顺序列出可能的原因,第一条是最有可能的原因,最后一条是最不可能的原因。然后逐条测试,看看是不是这种原因造成的问题。例如,
49、如果怀疑计算机中的一个网卡问题是造成问题的原因,那么就用一个正常工作的网卡来替换它进行测试。故障检测要做到: 接收故障发生错误的检测报告并做出响应; 分析故障发生情况,制定排错方案; 使用各种故障诊断工具,执行诊断测试; 确认故障类型及性质。 2. 隔离 启用备用线路或设备,进行故障隔离。3. 纠正 跟踪、辨认故障; 进行故障追踪定位; 根据故障分析结果,制定并实施解决方案。 4. 分析故障原因 根据网络系统故障的类型及发作频度,分析故障产生的原因和故障性质,预测将来网络故障的发作趋势,建立故障报警数据库,通过对历史故障警报资料的统计分析,寻找网络故障发生的规律,建立故障预防体系,制定并实施解
50、决方案。5.网络故障报告(1)通过各种途径报告网络故障;(2)网络故障自动报警,具有自动通知的手段,包括寻呼机、手机、电子邮件等方法。(3)根据网络故障的危害程度将报警指示分级管理,系统根据故障级别做出不同反应。 6. 设置优先顺序 解决网络故障问题的一个基本要素是设置优先顺序。每个人都希望自己的计算机最早修好,所以设置优先次序并不是一件容易的事情。尽管最简单的方式是根据先到先服务的原则,但这并不总是可行的,因为某些问题与其他问题相比可能更重要。所以,第一步是根据问题的重要性,设置优先顺序。1.6 网络故障的定位网络故障的定位 针对图1-5,做出如下考虑:w 服务器或某客户机可能简单挂起,或者