交换机二层环路问题处理指南218.pdf

上传人:深夜****等你... 文档编号:84171623 上传时间:2023-04-04 格式:PDF 页数:13 大小:852.27KB
返回 下载 相关 举报
交换机二层环路问题处理指南218.pdf_第1页
第1页 / 共13页
交换机二层环路问题处理指南218.pdf_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《交换机二层环路问题处理指南218.pdf》由会员分享,可在线阅读,更多相关《交换机二层环路问题处理指南218.pdf(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、目录 1 介绍.2 网络业务故障,如何确认存在环路?.2.1 第一步:是否可以通过端口流量发现数据风暴?.2.2 第二步:是否可以通过MAC-Flapping检测漂移?.2.2.1 框式交换机.2.2.2 盒式交换机.2.3 第三步,是否可以通过环路检测发现环路?.2.3.1 Loop Detection(框式).2.3.2 Loopback Detection(盒式).3 环路问题发生后,如何快速破环?.3.1 第一步:是否理解网络业务并明确拓扑?.3.2 第二步:是否需要用影响最小的方法破环?.3.2.1 方法一:端口退出成环VLAN破环.3.2.2 方法二:shutdown成环端口破环.

2、3.2.3 方法三:通过拔出成环光纤破环.3.3 第三步:操作后确认业务是否恢复?.4 环路问题发生后,如何定位问题根因?.4.1 第一步:是否由于近期施工操作引入环路?.4.2 第二步:是否由于近期修改配置引入的环路?.4.3 第三步:是否典型的常见环路问题?.4.3.1 交换机自环出现环路.4.3.2 交换机下游设备自环出现环路.4.3.3 环形组网链路震荡导致环收敛震荡.4.3.4 环形组网寄存器下发失败无法破环.4.3.5 链路单通引入RRPP网络单向环.4.3.6 协议堵塞的端口L2PT(bpdu-tunnel)协议报文成环.4.3.7 下游设备报文转发异常导致疑似环路.4.4 第四

3、步:收集信息返回研发分析.5 环路问题解决后,网络是否需要优化?.5.1 第一步:是否需要部署适当的破环协议?.5.2 第二步:是否需要提升链路质量和可靠性?.5.3 第三步:是否需要部署广播抑制提升网络健壮性?.5.4 第四步:是否需要部署QoS保证协议报文优先转发?.6 结束语.1 介绍 以太网链路由于各种原因,导致数据或协议报文环形转发,导致网络形成数据风暴,最终影响正常业务。本文档仅介绍二层网络的常见环路问题识别和处理。本指导手册按照如下思路进行二层环路问题分析和处理:1、网络业务故障,如何观察确认存在二层环路?2、环路问题发生后,如何快速破环恢复业务?3、如何排查环路问题的根本原因,

4、是否已知案例?。4、针对问题原因,对网络进行适当的优化。处理二层环路问题,您首先需要准备如下:1、整网的拓扑图,包含设备名称、登陆方式、系统 MAC。2、登陆软件,记录全部的操作记录。准备好这些,我们开始二层环路问题的处理之旅。2 网络业务故障,如何确认存在环路?网络业务故障后,如发生二层环路,通常会存端口流量数据风暴和反复大量的 MAC 漂移现象。因此,在骨干链路所在的节点,通过如下三步操作:图 1:环路排查流程图 可以判断网络是否可能存在二层环路。2.1 第一步:是否可以通过端口流量发现数据风暴?通过 display interface brief 命令,查看所有接口下的流量,存在环路的接

5、口上 InUti 和OutUti 两个计数会逐步增加:第一次查询:151disp interface Ethernet brief|in up PHY:Physical*down:administratively down(l):loopback(b):BFD down InUti/OutUti:input utility/output utility Interface PHY Auto-Neg Duplex Bandwidth InUti OutUti Trunk GigabitEthernet0/0/2 up enable full 100M 0%0.01%-GigabitEtherne

6、t0/0/16 up enable full 1000M 0.56%0.56%1 GigabitEthernet1/0/12 up enable full 1000M 0.56%0.56%1 MEth0/0/1 up enable half 100M 0.01%0.01%-最后一次查询:151disp interface Ethernet brief|in up PHY:Physical*down:administratively down(l):loopback(b):BFD down InUti/OutUti:input utility/output utility Interface P

7、HY Auto-Neg Duplex Bandwidth InUti OutUti Trunk GigabitEthernet0/0/2 up enable full 100M 0%0.01%-GigabitEthernet0/0/16 up enable full 1000M 76%76%1 GigabitEthernet1/0/12 up enable full 1000M 76%76%1 MEth0/0/1 up enable half 100M 0.01%0.01%-一般情况下,查询只能看到网络的当前流量结果,此时需要和网络的正常业务流量进行比较,业务流量的带宽可以从客户的网络流量监控

8、图获取。如果只有一台设备的一个端口出入方向流量较大,可能是单端口环回。如果只有一台设备的两个端口流量较大,可能是本设备两个端口环回;如果某端口只有单方向流量,只有出或者只有入,需要重点排查,因为环路有可能在该端口的上下游设备。通常情况下:如果当前网络流量远大于正常业务,可能存在二层环路。如果当前网络流量正常,没有部署广播抑制,没有二层环路。如果当前网路流量比正常流量稍大,且部署了广播抑制,需要继续后面的第二步和第三步操作。2.2 第二步:是否可以通过 MAC-Flapping 检测漂移?MAC 地址漂移即设备上一个接口学习到的 MAC 地址在同一 VLAN 中另一个接口上也学习到,后学习到的

9、MAC 地址表项的覆盖原来的表项。导致 MAC 地址漂移的因为包括网络存在环路、或者非法用户进行网络攻击。例如下图,当 Switch1 向两个方向同时发报文时,在 Switch2 上的两个不同端口都会收到该报文,从而出现 MAC 地址漂移。当 Switch2 的两个端口出现了 MAC 地址漂移时,说明交换机的两个端口间可能出现了环路。图 2:MAC-Flapping 示意图 MAC 地址漂移,交换机所有形态和版本均默认支持漂移,具体的 MAC 漂移配置主要是指漂移后是否告警,漂移后是否设置端口堵塞的功能。由于框式交换机和盒式交换机 MAC 漂移检测的命令行和检测存在差异,我们分别介绍:2.2.

10、1 框式交换机 V1R2 版本,在非 S 系列单板上支持全局使能的 MAC-Flapping 检测功能(全局使能,只支持发送 TRAP)。在 V1R2 上,开启 MAC 地址漂移检测:Quidwaymac-flapping alarm enable V1R3 及以后的版本,在 V1R2 版本的基础上,新增了基于 VLAN 的 MAC 地址漂移检测、检测到 MAC 地址漂移后执行对应的动作策略。在 V1R3 及以后的版本上,开启 MAC 地址漂移检测(下面两个命令均可使用):系统视图下:Quidwayloop-detect eth-loop alarm-only VLAN 视图下:Quidway

11、-vlan1001loop-detect eth-loop alarm-only 各个版本的告警信息存在一定的差异,样例如下:版本 告警信息 V1R1 不支持 V1R2 全局检测 VLAN 检测 不支持 V1R3 全局检测 VLAN 检测 V1R6 全局检测 VLAN 检测 2.2.2 盒式交换机 盒式交换机(不包括 23、27 系列)V1R3 及以后版本,不支持全局使能的 MAC 地址漂移检测,只支持基于 VLAN 的 MAC 地址漂移检测,同时支持检测到漂移后的发送 TRAP、阻塞端口等动作。开启 MAC 地址漂移检测:VLAN 视图下:Quidway-vlan1001loop-detec

12、t eth-loop alarm-only 各个版本的告警信息存在一定的差异,样例如下:版本 告警信息 V1R3 V1R3 V1R6 2.3 第三步:设备作为三层网关,是否存在大量 ARP 报文被CPCAR 丢包记录?disp clock 2011-11-30 20:04:32 Wednesday Time Zone:BJ add 08:00:00 disp cpu-defend arp-request statistics slot 3 CPCAR on slot 3-Packet Type Pass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)-d

13、isp cpu-defend arp-reply statistics slot 3 CPCAR on slot 3-Packet Type Pass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)-disp clock 2011-11-30 20:04:35 Wednesday Time Zone:BJ add 08:00:00 disp cpu-defend arp-request statistics slot 3 CPCAR on slot 3-Packet Type Pass(Bytes)Drop(Bytes)Pass(Packets)Drop

14、(Packets)-disp cpu-defend arp-reply statistics slot 3 CPCAR on slot 3-Packet Type Pass(Bytes)Drop(Bytes)Pass(Packets)Drop(Packets)-通常情况下,ARP 的交互是有序进行,短时间内不会出现超多报文的丢弃。问题一般发生在 9300 作为汇聚网关场景,出现上述情况后,可能的原因是 ARP 的广播报文在物理环形的网络中转发,形成协议报文的风暴,当前设备上送 CPU,被交换机 CPU限速丢弃。2.4 第四步,当前是否可以增加配置环路检测发现环路?框式交换机和盒式交换机都支持检

15、测环,框式交换机的环路监测称为 Loop Detection;盒式交换机的环回监测称为 Loopback Detection。2.4.1 Loop Detection(框式)框式交换机端口配置 Loop Detection 功能以后,设备会从该端口发送环路检测报文,在端口所属且使能 Loop Detection 功能的 VLAN 内进行环路检测,如果设备接收到自己发送的检测报文,网络上存在环路。框式交换机上的环路监测能检测到下面两种情况下的端口环路:1、设备上端口收到本端口发送的检测报文。2、设备上端口收到非本端口发送的检测报文。开启了 Loop Detection 以后,用 display

16、loop-detection 命令可以查看当前环路检测的状态,用 display loop-detection interface 命令可以查看具体某一个端口的状态。display loop-detection Loop Detection is enable.Detection interval time is 5 seconds.Following vlans enable loop-detection:vlan 556 Following ports are blocked for loop:NULL Following ports are shutdown for loop:NULL

17、Following ports are nolearning for loop:NULL display loop-detection interface gigabitethernet 1/0/0 The port is enable.The ports status list:Status WorkMode Recovery-time EnabledVLAN-Normal Shutdown 200 556 告警示例如下:版本 告警信息 V1R2 V1R3 V1R6 2.4.2 Loopback Detection(盒式)盒式交换机端口配置 Loopback Detection 功能以后,设

18、备会从该端口发送环路检测报文,一个 untagged 报文和指定 VLAN Tag 报文。盒式交换机的 Loopback Detection,只能针对设备上端口收到本端口发送的检测报文的环路。开启了 Loop Detection 以后,用 display loop-detection 命令可以查看环路检测功能的配置信息和接口状态信息。display loopback-detect Loopback-detect is enabled in the system view Loopback-detect interval:30 Loopback-deteck sending-packet int

19、erval:5 Interface ProtocolID RecoverTime Action Status -GigabitEthernet0/0/2 602 30 block NORMAL 盒式交换机告警示例如下:版本 告警信息 V1R3 V1R6 3 环路问题发生后,如何快速破环?以太网的环路,会在短时间内形成数据风暴,当端口的流量达到带宽的最大负荷,会形成链路拥塞,影响网络业务。因此,在确认网络发生数据环路后,请按照如下步骤处理:3.1 第一步:是否理解网络业务并明确拓扑?环形网络拓扑一般较为复杂,可以向客户寻求网络拓扑结构全图,具体到网络的 VLAN规划信息,每台设备名称、系统 MA

20、C、管理 IP,本端端口名称、对端端口名称。完整的拓扑信息是解决环路问题的首要条件,如果没有拓扑图,需要从发现环路的设备,通过逐跳登陆,记录设备信息、端口信息和 VLAN 信息,手动绘制完整的拓扑。3.2 第二步:是否需要用影响最小的方法破环?紧急破环又称手动破环,当网络风暴严重影响正常的业务时,需要在尽快恢复业务。可以通过如下三个方法紧急破环:(注意紧急破环不要影响远程 telnet 路径所在的设备、端口和 VLAN,避免无法登陆。)3.2.1 方法一:端口退出成环 VLAN 破环 将成环的网络上,其中一个端口退出成环 VLAN,属于影响面最小的方法。端口 命令行 备注 Access und

21、o default vlan 可能影响下游业务。Trunk undo port trunk allow-pass vlan id 无 Hybrid undo hybrid vlan id 不区分 tagged 和 untagged 备注:需要注意不要 shutdown 远程 telnet 路径所在的端口,避免无法远程登陆。3.2.2 方法二:shutdown 成环端口破环 Shutdown 成环的物理端口,也可以达到破环的效果。此时,需要保证 shutdown 的端口两端在全部 VLAN 内能够通信。3.2.3 方法三:通过拔出成环光纤破环 通过拔出成环的光纤,可以紧急破环。备注:该方法可以使

22、用 shutdown 端口代替,只有在设备无法登陆时才使用。3.3 第三步:操作后确认业务是否恢复?通过 ping 等测证网络通信质量,并和客户一起观察现网业务是否已经恢复。环路拓扑存在冗余链路和配置,环路破除后业务会自行恢复,特殊情况在此不一概而论。4 环路问题发生后,如何定位问题根因?4.1 第一步:是否由于近期施工操作引入环路?如果环路问题是由于近期施工操作引入,可以和施工方确认,了解施工的过程,特别是新增线路连接的细节,结合拓扑结构,确认后排出物理环路。4.2 第二步:是否由于近期修改配置引入的环路?常见的容易配置引入环路的命令行如下:特性 命令行 成环原因 应对方案 接口管理 Und

23、o shutdown 端口进入转发引入环路。关闭端口或者部署破环协议 STP Bpdu enable 盒式交换机端口下需要使能bpdu enable命令才能接收并处理 STP 报文。配置命令(V1R6 及以后版本已默认使能)框式交换机端口下需要去使能该命令,交换机才不会透传 STP报文。删除命令 bpdu bridge enable 使能该命令会导致 STP 报文透删除命令 传,无法上送处理。bpdu-tunnel stp bridge role provider 使能该命令会导致 STP 无法处理报文。删除命令 RRPP Rrpp enable 全局不配置 rrpp enable,无法计算堵

24、塞端口破环。配置命令 SmartLink Smartlink enable SmartLink 组模式下不使能该命令,无法计算堵塞端口。配置命令 4.3 第三步:是否典型的常见环路问题?4.3.1 交换机自环出现环路 图 3:设备自环出现环路 前置条件:交换机未配置 STP 和 LDT 问题现象:端口出方向和入方向流量持续增加。问题原因:端口自环或者链路环回。处理方法:1、首先在端口下去使能 loopback internal。2、设备由于链路引入环路有两种:一种是单端口收发环回。第二种是设备上两个端口环路。此类环路造成的原因是光纤或者网线误接,需要拆除连线。4.3.2 交换机下游设备自环出现

25、环路 图 4:下游设备自环出现环路 前置条件:设备未部署 STP 和 LDT,本设备未环回。问题现象:端口入方向和出方向流量持续增大,环回链路在下游。问题原因:下游链路环回或者自环。处理方法:1、首先逐跳向下游寻找环路的链路。1、然后在端口下去使能 loopback internal。2、设备由于链路引入环路有两种:一种是单端口收发环回。第二种是设备上两个端口环路。此类环路造成的原因是光纤或者网线误接,需要拆除连线。4.3.3 环形组网链路震荡导致环收敛震荡 图 5:环路堵塞端口存在振荡 前置条件:设备部署 STP、RRPP、SEP 或者 SMLK 等破环协议。问题现象:环路一段时间收敛正常,

26、一段时间收敛失败,或者持续震荡。问题原因:网络上链路存在震荡,导致环网协议报文转发失败,反复超时震荡。如:1、链路存在错包,协议报文被丢弃。2、未知单播抑制、不合理的 qos 等配置丢弃协议报文。处理方法:1、如因为错包丢弃,建议更换问题网线、光纤或者光模块。2、如因为被抑制丢包,建议修改单播抑制和不合理的 Qos 配置。3、观察当前网络带宽,确认是否是网络流量拥塞,导致协议报文丢失,超时放开堵塞端口导致临时环路,此类问题需要进行网络优化。4.3.4 环形组网寄存器下发失败无法破环 图 6:环形网络无法破环 前置条件:物理环路,协议已经破环。问题现象:网络数据风暴 问题原因:软件计算堵塞端口正

27、确,但是芯片下发失败。处理方法:此类问题极其少见,可以通过 shutdown、undo shutdown 期望的堵塞端口,观察协议是否收敛成功。4.3.5 链路单通引入 RRPP 网络单向环 图 7:链路单通造成的 RRPP 环 前置条件:RRPP 组网 问题现象:RRPP 堵塞端口超时放开 问题原因:RRPP 心跳检测方向,链路单通。处理方法:解决单通链路问题。该问题有两个规避方法:1、链路自协商,链路质量较差的情况下,链路单通无法协商 UP,无单通问题。2、通过在链路上部署 DLDP 检测协议,检测到链路单通后,会完全 shutdown 两侧的端口,解决单向环环路问题。4.3.6 协议堵塞

28、的端口 L2PT(bpdu-tunnel)协议报文成环 图 8:已经破环的网络协议报文成环 前置条件:二层网络环路收敛正常,堵塞端口状态下发正常 问题现象:disp l2protocol-tunnel statistics 查看到报文增加很快,软转发成环。问题原因:由于堵塞端口软件转发 L2PT(bpdu-tunnel)协议报文,未判断端口是否堵塞,从堵塞端口发送 L2PT 报文,引起的 L2PT 报文成环,处理方法:R6 以前版本需要加载最新的补丁解决问题。V1R6C00SPC900 解决该问题。4.3.7 下游设备报文转发异常导致疑似环路 图 9:报文转发异常导致环路 前置条件:二层网络环

29、路收敛正常,堵塞端口状态下发正常 问题现象:在 LSW3 形成频繁的 MAC-Flapping,出现疑似环路问题。问题原因:二层网络的边缘设备,由于个别厂家实现差异,对于无法处理的报文,会反弹转发,常见的设备有机顶盒等。处理方法:由于报文反弹,此类问题需要更换边缘设备解决。4.4 第四步:收集信息返回研发分析 如果问题还没有解决,那么问题可能是由于交换机的软件或者硬件故障导致环路,您需要收集信息返回研发进行分析。相对其他单台设备问题,环路问题涉及多台设备或者整网。相关信息参考价值、收集方法以及细节要求如下表。序号 环路相关 是否必选?信息价值?如何收集?信息是否达标?1 全网拓扑图 是 有利于

30、研发理解网络业务,确认组网拓扑。向客户收集或者执行绘制,需要明确到。设备名称、设备和接口 MAC、端口连接信息、VLAN规划 2 登陆方式 建议 有利于研发远程登陆设备,查看设备运行状况,远程登陆分析。向客户收集或者自行整理表格。需要有设备名称、IP 地址、用户明和密码,网络内的角色。3 初步结论 建议 呈现一线分析进展,重点怀疑的方向。据实提供。怀疑的模块,怀疑的证据,初步的验证记录。4 全部配置 是 有利于研发熟悉全网配置,实验室镜像环境复现。登陆设备逐台收集。全部配置。5 操作记录 是 有利于研发分析问题是否和操作步骤时序、命令行配置、特性组合应用等相关。登陆设备时,采用登陆软件记录。文

31、件名明确操作起始时间。6 日志信息 建议 有利于研发分析是否由于其他未知原因导致问题。ftp 或者 tftp 获取文件 覆盖问题发生前后各 24 小时,截止收集时间。7 诊断日志 建议 有利于研发分析是否由于其他未知原因导致问题。ftp 或者 tftp 获取文件 覆盖问题发生前后各 24 小时,截止收集时间。8 STP 计算历史记录(可选,当时能使)STP 问题 必选 协议重要记录,分析协议计算过程。命令行逐台收集。隐藏模式 Disp stp history,每一台设备都要收集。9 display diagnostic-information(可选,收集时间大概3 分钟/台)条件允许情况下,补

32、充收集 整机级的诊断信息,便于研发排除未知的原因和问题。命令行逐台收集 每台设备,完整的信息。5 环路问题解决后,网络是否需要优化?5.1 第一步:是否需要部署适当的破环协议?如果当前的环路问题是由于物理环路引入,且没有配置破环协议,请按照网络规划合理部署破环协议。以太网交换机常见的破环协议为 STP/RSTP/MSTP、RRPP、SEP 等,具体应用请查询配置手册。5.2 第二步:是否需要提升链路质量和可靠性?如果当前环路问题是由于物理链路质量不可靠,存在协议报文拥塞丢失导致超时临时环路,请检查链路,并更换光纤光模块。如果当前问题因为带宽不足导致协议报文被丢弃,需要扩充带宽或者使用聚合链路,

33、提升链路可靠性。5.3 第三步:是否需要部署广播抑制提升网络健壮性?为了避免再次成环,成环后再次引入数据风暴,建议在环上设备端口下,部署广播抑制,按照经验,部署 5%的广播抑制可以很好的防止广播风暴,具体抑制的比例值可以按照客户并发网络广播流量来评估确认。5.4 第四步:是否需要部署 QoS 保证协议报文优先转发?如果当前环路问题是由于网络拥塞导致协议报文,需要部署 Qos,报文协议报文高优先级转发。5.5 第五步:是否需要优化网络设计,提升网络?复杂组网可以通过分层控制,建议合理规划设计接入层、汇聚层。单层组网内设备数量较多时,建议按照逻辑组织和地理分布,划分不同的域。6 结束语 该文档可以指导简单的环路排查,复杂问题还是需要协调各方联合定位解决。关于本文档的建议和想法,请不吝赐教,邮件反馈给我们,谢谢。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁