《上海联通GSM网性能实时监控系统--总部征文.pdf》由会员分享,可在线阅读,更多相关《上海联通GSM网性能实时监控系统--总部征文.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 上海联通 GSM 网性能实时监控系统 上海联通 GSM 网性能实时监控系统 撰稿人:张浩、后彬华(上海联通西安路 78 号、邮编:200080)摘要:本文主要介绍了上海联通的交换维护人员自行开发的一套实进监控交换机性能指标的软件系统。正文首先介绍了该项目产生的历史原因和背景资料,接着介绍了该系统与其它同类系统的优势和特点,随后简单介绍了该软件的使用方法,以及使用至今的一些成功案例,最后提出了下一期该软件系统的改进方案,并附有一相关附录。关键词:性能监控、实时 1 项目背景项目背景 首先,上海联通的 GSM 网络在经过了十年的建设和发展历程后,目前已经成为一个拥有 300 万上网用户,忙时话务
2、量超过 20000erl 的一个“超大型网络”。交换网上任何一个小问题,不仅会对成千上成万的用户行为产生影响,而且会给联通的形象带来无法挽回的损失。网络规模越大,随之,运营商对网络安全性的要求也就越高。而安全性必须通过有效的工具和手段来保证“实时监控系统”应运而生。同时,我们不仅网络规模空前,而且“设备的利用率”在任何时候也都相当之高。很长一段时间以来,总是有交换机逼近于满负荷工作状态,因为交换机软硬件扩容的速度总感觉跟不上业务发展的速度。鉴于这种情况,每当逢年过节,或话务高峰,无不是一次对交换机承受能力的考验。能不能掌握第一手交换机性能数据,也就随之成为能否有效保证网络安全的关键。而“实时监
3、控系统”就是这样一套能在最短时间内掌握现网第一手资料的工具。另外,虽然中国在移动通信领域的起步较晚,但是“发展速度”之快却令那些国外的设备制造商始料不及。比如说,SIEMENS 的 SR9 版交换机,就是根据中国市场每交换机下的用户数迅速增多而设计的超大容量交换机。(每交换机的最大容量是 66 万户,据说SIEMENS 的新版 SR10 交换机容量更大,最高可达 100 万户。)由于设备制造商在本土没有这么大的网络环境供其对设备进行极限情况下的性能测试,中国成为了这些新新研制出来的交换设备的“实验田”,而上海联通由于需求最旺盛,所以自然而然成了这块实验田中的“试点”。每次大大小小的版本升级、补
4、丁升级,由于没有前车之鉴,所以都可能带来意想不到的后果。因此,如何保证升级之后的网络与升级之前的网络在功能、性能等方面平滑过渡,话务文件的比对成为了关注的焦点。“实时监控系统”是最快的将话务文件进行前后对比的工具。2004-08-02 2 项目优势项目优势 虽然,目前我们拥有不止一套话务分析的软件系统,如由联通维护人员自行研发的“TGRP 话务分析软件”、“亿阳”综合网管系统以及“浪潮”综合网管系统,这三套系统从交换机的不同侧面很系统地将交换机的所有行为进行全面地分析和展示。“实时监控系统”虽然规模小,但较这三套该系统仍有如下三大优势:2.1 优势一:时延短,近似于实时显示 2.1 优势一:时
5、延短,近似于实时显示 四套系统中,实时监控系统的时延最短,这也正是我们称之为“实时”监控系统的原因,另三套系统的时延与数据流转的流程有关。下图是以上三套系统的数据传输方式,由图可见,从交换机产生数据,到数据的呈现,中间要经过 PDC 进行数据采集;SPOTS 定时从 PDC 的指定目录下采集所有文件、并入库、备份;最后 Print Centre 从 SPOTS 的数据库中用数据库插入行时的”Trigger”采集数据,分析入库后呈现,而亿阳和浪潮的设备是从 SPOTS 备份目录下取文件,然后入自己的数据库,分析、呈现。为保证数据的完整性,每经过一个节点,就会有至少 5 分钟的延时,即使是开成 C
6、YCLIC 的话务文件,所以从文件产生到最后呈现也至少需要 20 分钟以上。MSCPDCSPOTS亿阳浪潮PrinterCentreDAILYCYLICDAILYCYLICSPOTS数据库 图 1 常用监控软件的连接方式 而如今的这套实时监控系统,流程相当简单,即从 MSC 用 GETTRAFILE 直接查看话务文件,通过该软件后便可直接呈现。其优势是显而易见的。由于其数据采集方式简单、易操作,在话务文件产生的当即,便可对其进行处理。从交换机数据产生到呈现绝对不会超过2 分钟。MSC实时监控系统DAILYCYLICDAILYCYLIC 图 2 实时监控系统的连接方式 2004-08-02 2.
7、2 优势二:填补了当日无 USMM、USVM 数据的空白 2.2 优势二:填补了当日无 USMM、USVM 数据的空白 由于目前上海联通交换机统计数据除 TGRP 外大部分的测量文件我们都是以 DAILY的方式采集的,即每天产生一个话务文件,隔天对前一天的话务文件进行分析、呈现。之所以只把 TGRP 开成 CYCLE 格式,是因为现网中 11 个交换机,5 个 HLR 的性能文件均需通过 Switch Command 中的 PDC 进行采集,而统计文件的类型也相对较多,16 个网元如果取3 种类型的统计文件的话就需要在 15 分钟内完成 48 个文件的采集工作,且 24 小时不间断,这很有可能
8、对维护人员的网络例行巡检、故障处理等日常维护工作产生负面影响。因此,基于以上这种机制,除了开成 CYCLE 的 TGRP 即中继群上的统计内容可以在当天看到以外,其他统计项,如交换机的“PAGING 成功率”、“短信收发成功率”、“交换机系统接通率”等数据若不通过“实时监测系统”就只有等到隔天才能看到。因此,“实时监测系统”的出现填补了这一项空白,使维护人员可以在第一时间掌握到全面的交换机的性能资料。2.3 优势三:简单、方便、灵活、实用 2.3 优势三:简单、方便、灵活、实用 该系统的运行不需要安装,对操作系统的要求也很低,只需要将一个可执行文件拷贝至任意目录下即可使用。而大规模的话务分析系
9、统,不可能在每个机房现场均能方便地使用。它们一般安置在集中监控的机房中,而在设备机房的现场是无法使用的。当然,这也是出于对大系统安全性、保密性等因素的考虑,该机制本身没有问题。与此同时,小系统灵活、方便的优势自然就显现出来了,该系统可以任意地装载在任意一台 PC 机,或是个人笔记本电脑上,在升级、扩容结束后,可即时比对一下交换机性能的前后变化,在遇到紧急情况时,无论你在哪里,只要能收到话务统计的原始文件,即可对交换机性能做出分析、判断,非常简单、方便。另外,该系统充分结合了 Switch Command 的优势,在用交换机指令 Gettrafile 获了原始数据的时候,可灵活地将任意时段,任意
10、交换机的所有原始数据封装在“一个文件”中保存下来,然后根据文件内容中的时间标识以及网元标识对不同交换机不同时间点加以区分。避免了多个交换机要取多次原始文件的麻烦,设计相当灵活。最后,该系统实用性很强。我们现在拥有的其他三套话务分析软件,规模大、内容全、数据长期保存,的确是日常话务分析,网络优化的重要工具。这些都是小规模系统无法与之抗衡的地方。但是,小系统的特点就是灵活、方便,在遇到紧急情况的时候,数据过多,过杂反而会影响到维护人员做出及时的判断。而该系统的所有统计项均是通过精挑细选出来的重要统计项,可以一目了然地了解到交换机的性能状态,然后对症下药,实用性很强。具体统计项详见“附录 1”。20
11、04-08-02 3 软件操作方法及步骤软件操作方法及步骤 3.1 步骤一:从交换机获取待观察的数据 3.1 步骤一:从交换机获取待观察的数据 执行命令:GETTRAFILE:FILE=MT.USMM.TH1(daily 文件名或者 cyclic 文件名),IV=16-30-16-45(时间范围);将生成的结果用文件保存下来。可同时保存多个交换机的数据。2004-08-02 图 1 2004-08-02 3.2 步骤二:打开实时监控软件 3.2 步骤二:打开实时监控软件 双击可执行文件即可。图 2 3.3 步骤三、选择原文件 3.3 步骤三、选择原文件“文件”菜单下的“打开”菜单用于载入先前保
12、存的统计源文件,在软件底部”源文件”状态栏将显示载入的文件名,便于提示使用者,当前所用的源文件,因为各统计值使用的是不同的源文件。2004-08-02 图 3 3.4 步骤四、选择所需观察的测量 3.4 步骤四、选择所需观察的测量 从“接通率分析”、“短信业务分析”、“交换机处理能力分析”、“交换机其他行为成功率”,每一个菜单内都包括了若干子菜单,一一对应着各 counter 值,例如短信业务分析如下图,每一个 counter 值旁都标明了应该使用的源文件名 图 5 在确定了当前载入的源文件后我们便可以马上列出当前各 counter 值。例如:图 6 图中列出是 2003-12-31 17:3
13、018:45 每一刻钟各交换机切换成功率的值,在软件底部的“状态栏”列出是当前的 counter 名称。如果你要将当前列出的值保存下来,首先鼠标点击软件界面左下角的“模式”按钮,由“浏览”模式切换为“保存”模式,如下图所示:2004-08-02 图 7 图 8 然后鼠标选中数据区后,右键即可将结果保存为 txt 文件,便于你作为其他报表的依据。2004-08-02 4 成功案例成功案例 自从这套系统诞生之后,每逢节假日,或是比较重大的升级、扩容工作以后,交换维护人员都会使用这套系统进行实时监控。及时发现网络瓶颈,有效分流话务量,避免一些可以人为避免的故障发生。以下列举一些成功的案例:1、200
14、3 年中秋节,C1、C2、C7 三个交换机的 SSP BHCA 负荷高达 0.95,及时发现后,将部分智能网呼叫分流至两个 BHCA 容量较大的 G 局。避免了由于 BHCA 负荷过高而引起的用户投诉。2、2004 年,年三十晚,短信量猛增,短信收发成功率每刻钟都在逐步下降,通过该系统及时发现了这一现象,并通知短信部门关注。一直到短信收发成功率恢复正常。3、2004 年端午节,C7 的 SSP BHCA 负荷过高,最高值达 0.98,及时分流话务至 G局后,未造成任何用户投诉。5 改进方案改进方案 以上我们简单介绍一下这套系统的项目背景、优势、使用方法及成功案例,实际上,我们认为这套系统仍然存
15、有改进的余地。下面谈一下,我们准备在下一期项目中采取的改进措施:目前,无论是总部还是运监部的考核指标均是出于对“成功率”的考核,每个分公司都在总部统一的指挥棒下,围绕提高“成功率”的目标做着大量的工作。然而,有过优化维护经验的人一定知道,当我们看到“成功率”下降的时候,下一步就是要观察,是哪项“失败率”的提高导致了“成功率”的下降。那么,我们为什么不能把“失败率”作为平时维护及优化的重点内容呢?在上报总部及其他职能部门报表的时候,我们可以用“成功率”来反应网络运行情况,而我们日常在做维护工作的时候,应该更关注“失败率”的变化情况,使问题显现得更加直接,我们处理故障的效率也会相对有所提高。因此,
16、下一步,我们准备在现有系统统计项(见附录)的基础上,增加相对应的“失败率”的统计,相信会使我们的现场维护更加合理、有效。6 附录附录 附录 1 实时监控系统所能实现的监控参数 公式描述 公式描述 分子 分子 分母 分母 一、接通率分析(success rates)一、接通率分析(success rates)主叫系统成功率(PSTN)SPCH_CALLS_WITH_ANS_MNPLMN+BS_REL_WITH_ANSWER_MNPLMN+CALL_REL_A_ALERT_MNPLMN 早释+CALL_TIOUT_ALERT_MNPLMN 超时+CALL_REL_BEF_A_ALERT_MNPLM
17、N 早释+UNS_MS_BUSY_MNPLMN 用户忙 CALL_ATTEMPTS_MNPLMN 主叫系统成功率(PLMN)SPCH_CALLS_WITH_ANS_MOPLMN+BS_REL_WITH_ANSWER_MOPLMN+CALL_REL_A_ALERT_MOPLMN 早释 CALL_ATTEMPTS_MOPLMN 2004-08-02+CALL_TIOUT_ALERT_MOPLMN 超时+CALL_REL_BEF_A_ALERT_MOPLMN 早释+UNS_MS_BUSY_MOPLMN 用户忙 被叫系统成功率 SPCH_CALLS_WITH_ANS_MTER+BS_REL_WITH_
18、ANSWER_MTER+UNS_MS_BUSY_MTER+CALL_REL_ALERT_MTER+CALL_REL_BEF_ALERT_MTER+CALL_END_CALL_FORW_MTER+UNS_MS_BLOCKED_MTER+CALL_REL_BEF_ALERT_MTER CALL_ATTEMPTS_MTER 忙时系统话音接通率 SPEECH_CALL_WITH_ANSWER(MPLMN)+SPEECH_CALL_WITH_ANSWER(MNPLMN)+SPEECH_CALL_WITH_ANSWER(MTER)+CALLS_WITH_ANSWER(MTRANS)+BS_REL_WITH
19、_ANSWER(MPLMN)+BS_REL_WITH_ANSWER(MNPLMN)+BS_REL_WITH_ANSWER(MTER)+TS11_EMERG_WITH_ANSWER(MNPLMN)+TS12_EMERG_WITH_ANSWER(MNPLMN)+IN_ATTEMPTS(MORTR)-IN_ERROR_DEST(MORTR)-IN_ERROR_SCP(MORTR)-IN_NO_ANSW_SCP(MORTR)-IN_OVERLOAD(MORTR)-IN_SERV_CHECK(MORTR)-IN_TRANS(MORTR)-IN_REROUTE(MORTR)CALL_ATTEMPTS(MO
20、RTR)+CALL_ATTEMPTS(MICTR)-MSC_MSC_HO_CALL_ATTEMPTS(MTER)-CALL_END_CALL_FORW_MORTR CALL_END_CALL_FORW_MICTR-CALL_END_CALL_FORW_MTER STARTED_INTERROGATIONS(MICTR)+OMPL_INTERROGATIONS(MICTR)-IN_ATTEMPTS(MICTR)+IN_REROUTE(MICTR)1、主叫接通率具体分析 主叫应答率(PLMN)SPCH_CALLS_WITH_ANS_MOPLMN+BS_REL_WITH_ANSWER_MOPLMN
21、CALL_ATTEMPTS_MOPLMN 主叫应答率(PSTN)SPCH_CALLS_WITH_ANS_MNPLMN+BS_REL_WITH_ANSWER_MNPLMN CALL_ATTEMPTS_MNPLMN 无应答率(PLMN)CALL_REL_A_ALERT_MOPLMN 早释+CALL_TIOUT_ALERT_MOPLMN 超时 CALL_ATTEMPTS_MOPLMN 无应答率(PSTN)CALL_REL_A_ALERT_MNPLMN 早释 CALL_TIOUT_ALERT_MNPLMN 超时 CALL_ATTEMPTS_MNPLMN 主叫早释率(PLMN)CALL_REL_A_AL
22、ERT_MOPLMN 早释 CALL_ATTEMPTS_MOPLMN 主叫早释率(PSTN)CALL_REL_A_ALERT_MNPLMN 早释 CALL_ATTEMPTS_MNPLMN 用户忙(PLMN)UNS_MS_BUSY_MOPLMN CALL_ATTEMPTS_MOPLMN 用户忙(PSTN)UNS_MS_BUSY_MNPLMN CALL_ATTEMPTS_MNPLMN 目的码错误失败率 MOC UNS_REQ_DEST_ERR_MNPLMN+UNS_REQ_DEST_ERR_MOPLMN CALL_ATTEMPTS_MNPLMN+CALL_ATTEMPTS_MOPLMN Techn
23、ical Fault MOC UNS_TECHN_FAULT_MNPLMN CALL_ATTEMPTS_MNPLMN 2004-08-02+UNS_TECHN_FAULT_MOPLMN+CALL_ATTEMPTS_MOPLMN Base Station Reasons MOC UNS_BS_REASON_MNPLMN+UNS_BS_REASON_MOPLMN CALL_ATTEMPTS_MNPLMN+CALL_ATTEMPTS_MOPLMN Protocol Error MOC UNS_PROTO_ERR_MNPLMN+UNS_PROTO_ERR_MOPLMN CALL_ATTEMPTS_MN
24、PLMN+CALL_ATTEMPTS_MOPLMN 2、被叫成功率具体分析 被叫应答率 SPCH_CALLS_WITH_ANS_MTER+BS_REL_WITH_ANSWER_MTER CALL_ATTEMPTS_MTER 被叫无应答率 CALL_REL_ALERT_MTER+UNS_BLACK_LIST_MTER CALL_ATTEMPTS_MTER 被叫用户忙 UNS_MS_BUSY_MTER CALL_ATTEMPTS_MTER 被叫早释 UNS_BLACK_LIST_MTER CALL_ATTEMPTS_MTER 被叫用户拥塞 UNS_MS_BLOCKED_MTER CALL_ATTE
25、MPTS_MTER 目的码错误失败率 MTC UNS_REQ_DEST_ERR_MTER CALL_ATTEMPTS_MTER Technical Fault MTC UNS_TECHN_FAULT_MTER CALL_ATTEMPTS_MTER Base Station Reasons MTC UNS_BS_REASON_MTER CALL_ATTEMPTS_MTER Protocol Error MTC UNS_PROTO_ERR_MTER CALL_ATTEMPTS_MTER Rel.Before ACM REL_BEFORE_ACM_MICTR CALL_ATTEMPTS_MICTR
26、3、无线信道溢出及拥塞率分析 BSSAP 主叫 MORTR 溢出率 UNS_OVERLOAD_MORTR CALL_ATTEMPTS_MORTR BSSAP 来话 MICTR 溢出率 UNS_OVERLOAD_MICTR CALL_ATTEMPTS_MICTR BSSAP 终接 MTC 溢出率 UNS_OVERLOAD_MTER CALL_ATTEMPTS_MTER BSSAP 主叫 MOC 拥塞率 UNS_CONGESTION_MNPLMN UNS_CONGESTION_MOPLMN CALL_ATTEMPTS_MOPLMN CALL_ATTEMPTS_MNPLMN BSSAP 终接 MTC
27、 拥塞率 UNS_OVERLOAD_MORTR CALL_ATTEMPTS_MTER TCH 主叫 MOC 拥塞率 CALL_TCH_ALLOCATION_MNPLMN+CALL_TCH_ALLOCATION_MOPLMN GEN_TRAFF_CHAN_REQ_MNPLMN+GEN_TRAFF_CHAN_REQ_MOPLMN TCH 终接 MTC 拥塞率 CALL_TCH_ALLOCATION_MTER GEN_TRAFF_CHAN_REQ_MTER 二、短信业务分析 二、短信业务分析 短信 MO 成功率 短信 MO 成功率 SUCC_SMS_OTG SMS_OTG_ATTEMPTS 短信 M
28、T 成功率 短信 MT 成功率 SUCC_SMS_INC SMS_INC_ATTEMPTS 短信 MT 试占 SMS_INC_ATTEMPTS 用户原因导致短信 MT 失败率 UNS_SMS_INC_ABSENT_MS SMS_INC_ATTEMPTS 短信 MO 试呼 SMS_OTG_ATTEMPTS 三、交换机处理能力分析 三、交换机处理能力分析 VLR 网上用户占用比 ENTRY_USED_OWN+ENTRY_USED_FOREIGN VLR 容量 忙时用户开机率 ENTRY_USED_OWN+ENTRY_USED_FOREIGN-ENTRY_USED_DETACH ENTRY_USED
29、_OWN+ENTRY_USED_FOREIGN 交换机 CP 负荷 忙时交换机 BHCA 比(含CALL_ATTEMPTS(MORTR)各交换机 BHCA 容量(C1-550.8K、2004-08-02 TRANS)+CALL_ATTEMPTS(MICTR)C2-285.6K、C3-673.2K、C4-255K C5-285.6K、C6-673.2K、C7-591.6K 忙时交换机 BHCA 比(无TRANS)CALL_ATTEMPTS(MORTR)+CALL_ATTEMPTS(MICTR)-CALL_ATTEMPTS_MTRAN 同上 忙 时 各SSP BHCA比(INST)DIALOGUE
30、 INITIATION ATTEMPTS4 同上 交换机话务量 TRAFFIC_VOLUME_MORTR+TRAFFIC_VOLUME_MTER 交换机转接话务量(G、T)TRAFFIC_VOLUME(MTRAN)/3600 每用户 MSRN 值 PROVIDE_MSRN_RECEIVED ENTRY_USED_OWN+ENTRY_USED_FOREIGN 四、交换机其它行为成功率四、交换机其它行为成功率 VLR 鉴权失败率 AUTH_WITH_ILLEGAL_SUB AUTH_REQ 切换总成功率 HO SUCC_COMPLETED_HO+SUCC_MSC_MSC_HO_MSCA+SUCC_
31、MSC_MSC_HO_MSCB+SUCC_SUBSEQ_MSC_MSC_HO_MSCB+SUCC_HO_SEC_MSC_MSC_HO_MSCB HANDOVER_ATTEMPTS+SUBSEQ_MSC_MSC_HO_MSCA+HANDOVER_MSC_MSC_IC_ATTEMPTS 位置更新成功率 LUP SUCC_REQUESTS_LOCUPD+SUCC_LOCUPD_WITH_IMSI_ATTACH REQUESTS_LOCUPD 寻呼成功率 PAG RECEIVED_PAG_RESP_MTER STARTED_PAGING_PROC_MTER 忙时向 HLR 查询成功率 COMPL_IN
32、TERROGATOINS_MORTR+COMPL_INTERROGATIONS_MICTR STARTED_INTERROGATIONS_MORTR+STARTED_INTERROGATIONS_MICTR 参考文献:参考文献:SIEMENS 操作维护文档 作者简介:作者简介:张浩,男,1980 年 7 月 10 日出生,2002 年 7 月毕业于上海大学通信工程系,取得学士学位,目前工作于中国联通上海分公司 GSM 交换技术支持中心工作,助理工程师,2003 年曾获分公司的年度优秀员工称号,通信地址:上海市虹口区西安路 78 号,邮编:200080,电话:13002123511。后彬华,女,1978 年 7 月 7 日出生,2000 年 7 月毕业于上海大学通信工程系,取得学士学位,原工作于中国联通上海分公司 GSM 交换技术支持中心,现工作于上海分公司移动部网管中心,助理工程师,曾获 2003 年分公司的年度先进工作者称号,2004 年分公司优秀党员称号。通信地址:上海市虹口区西安路 78 号,邮编:200080,电话:13301672018。2004-08-02