《故 障 汇 总 报 告.doc》由会员分享,可在线阅读,更多相关《故 障 汇 总 报 告.doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、XXXXXXXXX 故 障 汇 总 报 告【二零壹参年壹月陆月】 报告人: 报告时间:2021-07-10 内容摘要: 1、故障内容概述。2021上半年度重大故障汇总。2、故障原因分析重大故障原因分析。3、故障总结、后续工作重点故障总结、后续工作安排。各位领导好:首先感谢贵方选用我司的WLAN系列产品。在此我们对上半年所有在网设备发生的重大故障做一个汇总并加以分析,并对我们的工作内容进展调整;以保证我司设备运行更稳定。同时也敬请各位领导对我们维护工作中的不中足之处提出重要建议。一、故障内容概述:1、设备概况: 目前在网的AC设备26组,AP两万台以上包含:室内AP、村通、大覆盖。具体信息见下表
2、:地市7605I8610AQ2000-ENH AQ2000-E2AN2 AQ3000AF4000AF3120AF3120-N榆林11910延安1126535163242咸阳219793004374503宝鸡228750西安22624铜川197240545渭南127531安康311900汉中12103668112商洛4473641257430合计141264269923231923042921122、重大故障统计: 在过去的半年中,我司设备故障较多14次,平均每台设备发一次故障。经过比照分析,共有9个故障。故障汇总如下:序号地市故障现象简述故障次数设备型号1咸阳1号业务板下AP设备离线,手动使A
3、P上线后用户无法接入网络,AC自动重启1Autex86102咸阳某一业务板下挂的热点断电再来电后用户出现无法翻开PORTAL页面以及无法认证的情况2Autex86103咸阳陕西服装学院用户无法翻开认证页面,现场用户可以搜索到CMCC-EDU信号,可以获得业务IP地址,但无法推送认证页面,认证用户流量显示为01Autex86104咸阳4号业务板数据丧失1Autex86105咸阳AC自动重启2Autex86106宝鸡AC掉死,现场测试无信号1Autex86107宝鸡PING不可达告警,不用认证直接登录,但用户上网正常1Autex7605i8榆林SNMP协议间隙性不同1Autex86109汉中用户不
4、能认证,提示浏览器异常4Autex8610二、故障原因分析、故障进展地市故障现象简述故障原因是否彻底解决咸阳1号业务板下AP设备离线,手动使AP上线后用户无法接入网络,AC自动重启AC设备软件存在漏洞,对于dbus与主线程处理用户表项时,未加线程互斥锁;导致收到用户离线报文,主线程删除用户,同时在dbus侧调用该用户的相关参数,导致asd模块挂死,asd模块异常,频繁调用dbus,导致dbus收发包拥塞,AP接入关键进程WID需要dbus通信,dbus繁忙时会出现AP频繁上下线问题,由于asd进程长时间异常导致AC自动重启咸阳某一业务板下挂的热点断电再来电后用户出现无法翻开PORTAL页面以及
5、无法认证的情况当热点断电再来电后,CMCC与CMCC-AUTO用户突然占用了同一个端口,导致EAG负责用户认证的模块效劳锁死,用户出现打不开PORTAL以及无法认证的现象咸阳陕西服装学院用户无法翻开认证页面,现场用户可以搜索到CMCC-EDU信号,可以获得业务IP地址,但无法推送认证页面,认证用户流量显示为0现网配置的是iptables授权,从iptables取流量。iptables授权与取流量需要调用某个接口函数,从日志看,每次调用该函数都失败了,导致给用户的授权与取流量也失败了咸阳4号业务板数据丧失FD指针耗尽导致配置丧失咸阳AC自动重启由于nat内存模块在使用了rcu锁之后,没有使用ca
6、ll_rcu去free该内存模块,而是直接free掉。导致非法内存访问,令内核挂掉,从而导致整机异常重启补丁解决,已实施宝鸡AC掉死,现场测试无信号内核异常宝鸡PING不可达告警,不用认证直接登录,但用户上网正常EAG模块掉死Autex7605i榆林SNMP协议间隙性不同SNMP进程占用内存过高,导致进程重启006补丁解决,未实施汉中用户不能认证,提示浏览器异常eag模块异常三、故障总结,后续工作重点:从上半年发生的故障分析得出结论,造成故障原因如下:1、 设备软件BUG。2、 与其它设备厂商的配合、组网等。针对故障原因,我们会在以下方面做出改良:1、加强与贵方维护人员、我司产品技术支持中心的沟通。对于其它省市发现的故障引患,在第一时间拿到解决方案补丁或软件更新并进展部署工作。防止因为的故障引患,造成设备重启、断网等重大事故。此事由我司李永强专人负责。2、加强设备巡检工作,提高巡检频率。由目前的一天一次提高到一天两次。由各地市常驻人员负责。3、发生重大故障后,由专人地市技术负责人,目前有5位资深工程师,分别负责各地市负责恢复业务,对故障进展跟踪直到处理完成;在处理故障及时给贵方汇报故障处理进展。第 7 页