《AC优化指导手册 .doc》由会员分享,可在线阅读,更多相关《AC优化指导手册 .doc(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中国移动浙江公司WLAN AC优化指导手册(V1.0)浙江移动 网优中心2012年7月目 录1.设备问题优化21.1AP假死问题21.2AC频繁重启/宕机问题42.N+1冗余优化52.1 主备AC未能进行正常切换62.2 AP切换异常62.3 用户业务切换异常72.4 CPU负荷异常82.5 切换时间过长83.组网构架优化93.1 单点故障问题93.2 组网问题104.安全问题优化144.1外网恶意攻击144.2 账户安全问题144.3 内网安全145.AC性能优化165.1AC负荷高问题165.2上联链路拥塞问题165.3 AC温度高问题176.用户漫游致计费问题优化187.性能指标优化19
2、7.1 关联成功率低问题197.2 关联拥塞问题201.设备问题优化1.1 AP假死问题AP假死问题分析:AP假死是指AP设备在运行过程中出现的挂起,死机等情况,导致用户WLAN无线上网感知差。AP假死主要表现在:(1) AP闪灯正常,在AC上也显示在线,并无异常告警(2) 现场有信号覆盖,但用户无法关联和获取地址(3) AP宕机或者频繁冷重启(4) 可导致弱覆盖问题,造成信道内过多低网速用户和影藏节点问题出现AP假死的主要原因:(1) 内核崩溃造成的进程挂起(2) AP硬件模块故障(3) 交换机端口POE远供不足或者因网线过长导致AP获取的功耗始终在一个临界阀值徘徊(4) 施工工艺问题场景案
3、例分析:案例一:内核崩溃造成进程挂起导致的AP假死故障描述:某现场人员反映一个AP出现吊死现象,用户在现场无法获取地址。在AC的内核崩溃记录中查找到以下信息:同时在Log日志中,我们也发现了关于内核崩溃问题引起AP假死的相关信息:May 28 09:34:00 ZJSHX-MS-WLAN-AC51-CD %CC-6-APREADOPTREASON: AP 5C-0E-8B-45-4E-9B readoption reason: ColdBoot/WatchdogMay 28 09:34:09 ZJSHX-MS-WLAN-AC51-CD %CC-4-TXAPRESET: Requesting A
4、P 5C-0E-8B-45-4E-9B reset (AP adoption not complete)May 28 09:34:26 ZJSHX-MS-WLAN-AC51-CD %CC-6-APREADOPTREASON: AP 5C-0E-8B-45-4E-9B readoption reason: ColdBoot/Watchdog解决方案:断电重启AP或者远程重启AP使挂起的进程恢复。对于重启无效的AP需要进行软件版本升级解决。案例二:施工工艺引起AP假死故障描述:某AP出现频繁掉线引起假死,查看后发现AP指示灯闪烁为绿色,但过一段时间后出现闪黄灯,反复变动。通过分析发现主要是AP远程
5、供电不稳或者数据传输异常引起。造成这两种情况的主要原因为网线水晶头未按标准进行制作和射频口松动和弯曲。射频口松动和弯曲会造成AP发射和接受的信号不正常,导致数据出现异常。解决方案:加强提高施工质量及施工工艺,规范验收环节验收内容。施工和验收时对网线长度、网线达到的性能、水晶头达到的性能,施工注意事项落实情况都纳入验收环节,施工队伍在施工时也需要按照施工要求进行施工。案例三:交换机端口POE远供不足或者因网线过长导致AP获取的功耗始终在一个临界阀值徘徊故障描述:AP 供电不足致时常重启。交换机端口远供一般为15.4W,AP功耗大于12W,所以当网线过长或POE供电不足时将导致AP获取的功耗始终在
6、一个临界阀值徘徊。解决方案:规范验收环节验收内容,网线过长不应大于70米。对于交换机端口供电不足问题,可以将交换机纳入网管系统,监控端口POE供电异常。1.2 AC频繁重启/宕机问题AC频繁重启/宕机问题分析AC频繁重启/宕机故障将影响用户的无线使用感知,引起AC稳定性差的主要原因如下:(1) AC 内核运行不稳定导致的AC 重启/宕机(2) AC 电源老化问题导致AC 重启/宕机 场景案例分析:案例一:AC 内核运行不稳定导致的AC 重启/宕机故障描述:在某次AC 非正常Down机后查看 AC 重启记录,可以看到 AC 由于 kernel panic (内核出错)原因导致 AC shutdo
7、wn,间隔一段时间 后AC 重新启动。AC flash crash 文件夹生成一个故障的说明文件。如下:Jan 13 11:37:28 2012 startupJan 13 03:37:28 2012 shutdown (ungraceful:kernel panic)同时查看 AC的 crash file :可以看到在 2012 Jan 13 11:37 分 在 AC startup 时候产生了一个 dump 文件,拆开dump 文件,可以看到 在 panic 字段 有一 注释为 Watchdog panic ,为此可以判断 此次AC down 机 为 watchdog 原因导致。解决方案:
8、增加AC的内存,对一些配置参数进行优化,删除多余无用配置和关闭一些未用的功能,减小AC的AP和用户负荷。案例二:AC 电源老化问题导致AC 重启/宕机故障描述:某台AC重启后,找到以下的重启记录提示:Feb 02 10:29:16 2012 startup- - - shutdown (ungraceful:unexpected cold restart)查看AC Log日志,AC在shutdown时无任何信息留下,在重启时间点也无dump 文件产生。由于AC电源出现问题时,AC会瞬间掉电,不会自动记录任何数据,而且接通电源时AC 又会自动启动,所以无任何信息记录。 解决方案:在AC不能进行双
9、电源冗余改造的情况下,可以对有电源故障隐患的AC进行电源更换操作解决。2.N+1冗余优化N+1热备针对的是AC的临时故障所做的一种备份技术,通过备份,来避免长时间的服务中断,保证业务长期,可靠的运行。对于无线网络的关键设备和设施,需要提最高冗余能力。保证在核心设备临时故障发生时,维护人员能够快速恢复正常的网络应用,获得更多的故障处理时间和空间。2.1 主备AC未能进行正常切换问题描述:在主机宕机时,备机未能有效接管主机的业务,造成业务中断时间过长。问题分析:1. 主备AC冗余关系没有建立2. AC间心跳线缆出现问题3. AC间心跳通讯出现异常,链路出现丢包或拥塞延迟4. 设备问题处理步骤:1.
10、查看“show wireless ap”确认冗余是否启用,查看“show redundancy members”,确认主备AC间冗余关系是否建立。如果没有建立,请查找是否是以下原因引起: Redundancy未启用,组员未添加 主备AC之间建立的心跳IP地址是否能够互通 上联端口是否透传心跳vlan 其他配置问题2.查看心跳线缆是否正常,端口是否启用3.查看心跳通讯是否正常,主机ping备机的心跳地址是否有丢包,有时延。4.查看热备配置是否完整5.检查AC版本是否支持切换,主备AC是否版本相同6.检查设备是否出现异常2.2 AP切换异常问题描述: 主备AC切换后,备机未能接管AP或者备机接管了
11、比之前宕机主AC还多的AP(包含其他主机的AP) 。问题分析:1. AP网关侧未进行备机私有地址的relay指向2. 备机的AP 地址池option 选项有误3. 备机路由未指或指向错误4. 备机国家代码(country-code)未设置5. 备机 dhcp服务是否开启6. 其他配置问题处理步骤:1. 查看AP网关侧是否指向了到备机私有地址的relay,并确认relay配置没有问题2. 查看备机的option选项是否为备机私有地址3. 当出现备机接管的AP比之前宕机主AC的还多时,需注意将备机AP地址池中的option选项改为之前主AC的地址和备机的地址共两个4. 确认备机存在指向AP地址段的
12、路由。在备机上ping AP的网关不存在丢包或延时5. 检查备机国家代码(country-code)是否设置成cn6. 确认DHCP服务开启2.3 用户业务切换异常问题描述:AC主备切换后,用户无法正常自动弹出portal页面或者无法认证上网问题分析:1. 确认用户是否可以获取地址2. 备机 WLAN 配置出现问题3. 备机 用户地址池分配出现异常4. 备机 路由指向错误5. 其他问题(如radius问题)处理步骤:1. 确认用户可以获取地址,不然查看用户地址池和DHCP进程是否开启。DHCP进程挂死的,需要进行重置恢复。2. 检查WLAN配置参数是否设置错误,例如query参数是否错误,po
13、rtal重定向地址是否错误等。3. 确认路由指向没有问题,在备机上ping一些公网地址没有丢包,时延。4. 确认radius服务器等没有问题2.4 CPU负荷异常问题描述:热备实施一段时间后,由于关联人数过多造成热备集群内组员AC CPU普遍负荷严重。问题分析:当集群中的某台AC上有大量的关联用户的时候,其它组员AC将同步这些关联终端的信息。因此当这个集群中的每台AC都有大量关联终端的时候,就会造成AC因需同步大量终端信息而高负荷运行,AC的主进程ccsrvr cpu利用率会特别的高。处理步骤:1. 控制集群组内各组员AC的用户数,每台AC的关联人数不应大于1000人,集群组内所有AC的关联人
14、数总和不应大于2500人2. 实施热备主机不应过多,N小于等于33. 叫厂家将AC版本中的用户冗余机制去除2.5 切换时间过长问题描述:当主机宕机时,备机切换过程时间过长,大于1分钟问题分析:1. 心跳链路出现异常,是否出现链路拥塞2. 心跳间隔周期和保持间隔时间设置过长所致3. 备机自动revert恢复时间设置过长所致4. 主备机发现时间设置是否设置,设置是否过长处理步骤:1. 检查心跳链路是否正常,主AC ping 备机是否出现丢包或者延时2. 将主备心跳周期“heart-period”设置为510s, “hold-period”设置为1530s3. 备机启用auto-revert设置,并
15、将auto-revert-period周期设置为最低1分钟4. 将主备机discovery-period间隔周期设置为1530s左右,默认设置为30s3.组网构架优化3.1 单点故障问题问题描述:网络拓扑中,往往存在一些单点故障,无论是设备或者链路单点,一旦出现问题将影响全局造成很大的隐患。案例分析:如上图出现就出现了两种情况的单点故障:S5500的单点设备故障和链路单点。如果将上图拓扑改成以下就会明显改善问题。H3C 5500进行堆叠技术处理,AC的上联链路和S5500的上联链路做链路捆绑技术来解决单点故障隐患。上层设备可利用路由技术实现解决单点问题的隐患。处理步骤:1. 设备堆叠技术解决设
16、备单点问题2. 链路捆绑技术解决链路单点问题3. AC上层最好选用性能可靠,转发能力强的设备3.2 组网问题目前AC主要的组网构架有三层和二层。三层拓扑维护比较方便,对现网改造也很小。但三层使用需要大量的IP地址,无论是私网IP地址还是公网IP地址,开通业务涉及部门较多。二层拓扑不需要为AP分配地址,在热点和AC所在中心机房使用专线互联情况下部署比较方便,但跨城域网改动需求较大。在实际组网部署中,我们倾向于二层组网模式,它比三层更加简单,可靠。案例一:二层组网改造问题描述:三层组网模式需要大量的IP地址,无论是私网IP地址还是公网IP地址,开通业务涉及部门较多,改造成二层拓扑就比较清晰。解决方
17、案:将AC放置在各个县市区的移动机房内,AC旁挂在城域网设备.AP与AC建立二层连接,AP正常工作不需要IP地址。用户的网关在与AC直联的汇聚交换机上,用户的地址池可迁移在汇聚交换机上,由汇聚交换机给用户分配地址。操作步骤:1. 将AC上用户地址池和网关的相关配置迁移到AC的上联汇聚交换机或者其它城域网设备(只要支持DHCP功能即可)上2. 在AC与汇聚交换机的互连端口上透传用户的vlan和AP的vlan3. 在AC上删除用户原有的地址池和网关地址4. AC上启用一个用户网关地址段内的地址二层AP上线机制:1、 AP在本地vlan上发送一个广播包,以试图发现AC2、 Hello广播包经过交换机
18、等中间设备二层透传到达AC3、 AC接收到这个hello广播包,并回应一个Parent数据包4、 AP与AC连接建立CAPWAP隧道,获得配置信息,开始正常工作。二层用户上网机制:1、 用户接入AP,将DHCP请求报文进行广播。2、 该请求在AP上起封装,通过CAPWAP隧道传送至AC3、 AC端解CAPWAP封装,传递给AC,AC根据SSID,由AC上打上不同的VLAN标签,再把DHCP请求报文发往汇聚交换机。4、 汇聚交换机响应DHCP 请求,给用户分配合适的IP地址5、 用户发起认证请求,该请求被发送至AC的BAS模块上,BAS业务模块根据AC传递过来的VLAN标签,将相关信息发送至集团
19、公司的认证平台,请求推送不同的页面。6、 由AC上的BAS模块获得推送页面后,将页面推送至用户端。7、 用户输入用户名密码后,BAS模块将信息与集团公司的AAA服务器交互,进行认证。8、 认证通过后,用户接入到Internet中。案例二:三层组网DHCP地址池外迁改造问题描述:三层组网AP需要地址,地址池放置在AC上势必会增加AC的负荷。并且在热备时,由于每个AC的地址池AP网关需要指两个relay地址(主机和备机的私网地址),在备机启用的状况下主机掉线AP可能会被备机接管。同时还可能存在DHCP地址请求成功率降低和AP获取地址冲突等众多问题。解决方案:进行地址池外迁操作:1. 将AP地址池迁
20、移至AP网关侧或者将地址池迁移至AC上联的某台稳定运行的城域网设备上。2. 将AC上用户地址池和网关的相关配置迁移到AC的上联汇聚交换机或者其它城域网设备(只要支持DHCP功能即可)上3. 在AC与汇聚交换机的互连端口上透传用户的vlan4. 在AC上删除用户原有的地址池和网关地址5. AC上启用一个用户网关地址段内的地址进行互联6.在实施热备后,也可进行DHCP冗余操作,将备机作为DHCP服务器,主机的DHCP状态保存standby状态。改造前后拓扑如下: DHCP外迁改造前 DHCP外迁改造后案例三:NAT外迁工作问题描述:在实际应用中,某些地市AC的用户地址段采用私网地址,需要在AC上实
21、施NAT来对用户私网地址进行转换。NAT的使用会造成AC负荷增加,这对于那些负荷已经很严重的AC造成更加严重的故障隐患。解决方案:将NAT功能进行外迁,放置在AC上联的城域网设备上。具体步骤如下:1. AC上将NAT功能关闭,删除所有NAT相关的配置2. 在上联城域网设备上启用NAT,使用策略将AC上匹配的用户私网地址进行NAT转换操作。4.安全问题优化4.1外网恶意攻击问题描述:AC经常遭受各类攻击,导致AC CPU负荷异常,严重的引起宕机问题分析:1. 未启用防火墙2. 未启用策略3. 允许了所有人员登陆,没有指定特有的地址段4. 未用的一些端口未关闭5. 未做公网禁ping AC 操作处
22、理步骤:1. 开启防火墙2. 在AC启用策略,只指定特定的地址段登陆,禁止其它,可以再上层设备做跳板3. 在公网端口上启用策略,只允许特定地址ping AC ,禁止其它4. 关闭telnet,http,https,ftp,tftp等端口,启用SSH登陆4.2账户安全问题问题描述:AC存在一些默认账户,一些账户密码等级设置过低,易造受莫名人员登录破坏。处理步骤:1. 删除AC上存在的默认账户2. 设置账户存活时间,定期更改密码3. 密码设置应包含特殊符号,长度不应小于8位4.3内网安全问题描述:使用内网的网络时,会发生用户信息被盗取,有很多非法用户上线问题分析:1. 内网SSID广播2. 使用了
23、安全性低的加密技术3. 未做安全过滤处理步骤:1. SSID隐藏2. 使用安全级别高的加密技术3. 安装安全扫描系统,对网络中的所有部件(包括防火墙,交换机,路由器,AC等)定期进行攻击性扫描,分析和评估,及时发现并报告系统存在的弱点和漏洞4. 对用户数据完整性校验5.AC性能优化5.1AC负荷高问题 问题描述:AC负荷高主要为CPU和内存利用率大于60%的情况,主要原因:(1) AC上AP数和用户数过多,导致业务承载过多(2) 无效配置过多(3) AC遭受外网攻击引起(4) AC性能不足(5) 机房环境差,灰层多引起AC老化 处理步骤:1. 合理规划每台AC的AP数和用户人数,每台AC上的A
24、P数不应大于AC可接纳总数的80%,关联人数不应多于2000个。2. 查看AC的配置,清除无效参数,关闭未用的功能。例如radius,http,https,telnet,ftp,tftp等。3. AC上启用防火墙,启用相关策略。在上联城域网设备上设置相应的防火墙,IDS,IPS防护设备。安装扫描软件,定期对AC进行弱点和漏洞的扫描和分析。4. 对于设备性能方面引起的负荷问题,应积极督促厂家研发进行改造,如增加内存条,更改版本来有效解决。5. 对于AC的挡风板等器件应定期(三个月)进行清洗和维护。5.2上联链路拥塞问题 问题描述:用户在高峰时段上网速度慢,出现丢包和延时问题分析:1. AC上联链
25、路出现瓶颈2. AC上联设备出现转发瓶颈3. AC上联设备到用户侧链路出现流量瓶颈解决步骤:1. 对AC的上联链路进行合理改造,进行双联路或者多链路捆绑2. 对用户侧上联的城域网设备进行改造,使用性能更加优异,转发能力更强劲的设备3. 对到用户侧的链路进行改造,使用双联路或多链路捆绑技术解决4. 对于AC出现流量瓶颈问题,因合理规划用户数和AP数,做到各台AC间业务均衡处理5.3 AC温度高问题 问题描述:AC出现高温预警,CPU温度出现异常问题分析:1. AC 风扇出现损坏2. 机房空调出现问题3. 设备运行时间过长,老化或由于灰层层积引起4. 设备安放位置空间狭小引起解决步骤:1. 使用“
26、show environment“查看风扇转速,看风扇是否停机。对于出现风扇问题的AC应及时进行更换,拆机查看是否是风扇电源的插槽松动引起。2. 询问机房空调是否出现异常。出现问题马上联系人员解决。3. 使用“show version”“service show reboot-history”查看设备是否运行时间过长。4. 查看AC挡风板上是否有浓厚的灰层积压。AC挡风板应定期进行清洗维护。5. 查看AC安放位置,空间是否狭小,AC上下应保持5厘米左右的空间距离,保证AC能够及时散热。6.用户漫游致计费问题优化问题描述:某用户投诉WLAN使用中有计费重叠现象问题分析:用户在一台AC下认证成功后
27、,继而断开与这台AC的关联,漫游至一台“新AC”上,AC会依据省公司规定为该用户维持15分钟的保持时间。用户关联至“新AC”后,因用户信息的变更会弹出相应portal,用户继续认证后,并在AC和“新AC”之间持续短时间内(15分钟)来回切换,导致AC,“新AC”的活动计时器被不断清零,引起计费重复问题。用户在AC的状态如下:用户在新AC的状态如下:处理步骤:用户漫游导致的计费重复问题,最终的解决方法还是需要radius侧对同一账户同一终端做唯一性限制,阻止用户的二次认证过程。7.性能指标优化7.1 关联成功率低问题问题描述:某地市AC关联成功率一直维持在99.7%的较低水平,急需进行优化问题分
28、析:查看AC的Log日志信息,发现关联成功率低主要为以下问题引起:1. 信号弱覆盖导致用户关联失败May 17 14:20:46 ZJZSH-MS-WLAN-AC03-DH2 %CC-4-STATIONTXRATES: Station 00-20-E0-97-31-FA denied association to radio 52 : TX rates specified by MU are not supported这种日志的产生原因我们认为是用户的所在区域是信号弱覆盖区域,用户与AP之间的传输速率协商始终协商不起来(AP用最低速率与用户协商,两边也协商不起来)。 2. AP关联人数限制导致
29、用户关联失败111.2.159.14 local7 11:20:38 %CC-4-STATIONRA Station 8C-B8-64-A9-13-2E denied association to radio 411: maximum Stations per radio 100 reached这种日志产生的原因是由于AP上做了关联人数限制导致的。3. AP的负载均衡策略导致用户关联失败111.2.159.94 local7 08:37:10 %CC-4-STATIONRA Station 7C-11-BE-EB-D4-AA denied association to radio 187: r
30、adio loaded, MU load balancing.differing request to alternate radio in group 14. 用户终端问题,导致用户关联失败2012-6-28 9:50 Jun 28 09:52:34 ZJZSH-MS-WLAN-AC07-LC5 %CC-4-STATIONCAPERR: Station 00-15-AF-73-A3-6F denied association to radio 100 : 802.11 capability field unsupported5.用户主动连接的SSID信号不合法2012-6-28 9:54 .
31、WarningJun 28 09:54:32 ZJZSH-MS-WLAN-AC07-LC5 %CC-4-STATIONSSIDERR: Station 00-15-AF-73-A3-6F denied association to radio 100 : ssid (ChinaNet) is not supported on radio处理步骤:1.对于像”用户主动连接的SSID信号不合法”而引起的关联失败问题需要厂家在AC上进行屏蔽掉,这部分是由于用户缓存了其他信号,关联时广播引起。2.对于用户因连接受限问题而引起的关联失败,需将关联限制关闭。3.对于用户弱覆盖问题引起的关联失败。可以调整AP功放和速率,减少覆盖范围外的用户关联或者增加AP扩容。7.2 关联拥塞问题问题描述:AP发生拥塞后,造成用户无法正常上网,影响用户的无线感知问题分析:(1)AP超忙(关联用户数过多),新用户无法成功关联(2)AP限制了接入用户数限制,超出上线的用户被拒绝关联(3)AP启用了负载均衡设置,AP为达到用户关联平衡而拒绝用户关联处理步骤:1. 对超忙AP的热点进行AP数重新规划,合理扩容2. 关闭AP关联人数限制3. 关闭AP负载均衡设置