《降低移动互联网微信业务时延.doc》由会员分享,可在线阅读,更多相关《降低移动互联网微信业务时延.doc(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 降低移动互联网微信业务时延中国电信上海公司移动互联网部移动网络优化中心“优翼青春”QC小组2014年12月10日目录1概况31.1小组简介31.2术语解释52选题理由62.1课题背景62.2选题理由63选题理由94可行性分析104.1关键要素分析104.2可行性分析145原因分析166要因确认176.1要因确认表176.2要因确认187制定对策298对策实施309效果检查419.1目标检查419.2效益分析429.3无形成果4310措施巩固4410.1指标跟踪4410.2标准化4411下一步计划451 概况1.1 小组简介课题名称:降低移动互联网微信业务时延QC小组名称:“优翼青春”QC活动
2、小组课题类型:攻关型注册日期2014.3.1出勤率:100%QC培训市级小组活动次数12实际完成日期2014.10.31成员名称年龄职称文化程度成员分工宋晨杰29工程师硕士小组组长李波34室主任本科技术顾问姚坚35室主任本科技术顾问陈晓芳34高级工程师本科技术攻关、系统性技术难题曹逸文32工程师本科技术攻关、系统性技术难题皇甫俊伟27工程师硕士侧重现场调查张儒申28工程师硕士侧重现场调查詹黎30工程师硕士侧重数据分析张天韵27工程师硕士侧重数据分析赵佳融26工程师硕士侧重数据收集、方案实施周佳俊30工程师本科侧重数据收集、方案实施陈喆30工程师本科侧重数据收集、方案实施王丽娟33工程师硕士侧重
3、数据收集、方案实施沈璐旸26工程师硕士侧重数据收集、方案实施表1-1 小组简介(数据采集及制表人:陈晓芳2014-3-15)本QC小组的名称为“优翼青春”质量管理小组,即挥洒青春,打造优质天翼网络。小组成员均有信心通过本次QC项目开展,改善中国电信CDMA网络质量,提升“天翼”品牌形象。本小组的特点是:专业化、年轻化、分析能力强。本小组曾获得2013、2014年全国优秀质量管理小组。图 1-1 小组获奖情况(陈晓芳2014-8-15)1.2 术语解释 3G第三代移动通信技术(3RD-Generation),主要为移动终端用户提供高速数据传输的蜂窝移动通讯技术。目前中国电信现行运用的3G标准为E
4、VDO,峰值下载速率为3.1Mbps,上传速率为1.8Mbps。 4G第四代移动通信技术(4nd-Generation),即LTE,数据传输速度更快,最高上行可达150Mbps,下行50Mbps。目前上海电信LTE已覆盖中心城区。 时延用户发起业务到服务器响应所需要的时间,或服务器发起寻呼到用户终端反馈所需时间。2 选题理由2.1 课题背景自09年中国电信3G EVDO网络投入商用以来,依托CDMA-1X网络为基础,大力发展移动业务。无论从移动用户规模及网络规模都得到了迅猛的发展。伴随着近年来各地网络建设及优化工作的不断深入展开,中国电信移动网络质量也获得了大幅提升。但是随着近年来流量经营的理
5、念在全公司的逐步加深、苹果三星等智能操作系统终端在用户中的逐渐普及以及以微信、微博为代表的Over The Top业务的快速扩张,移动网络业务形态与热点区域也与建网初期发生了巨大的变化!这给无线网络优化提出了新问题和新的挑战!为此,中国电信集团公司于2013年初组织各地开展“三重”3G网络优化专项活动,“三重”包含重点业务,重点区域,重点用户。2012年,2013在中国电信集团公司展开三重优化活动的背景下,本小组通过QC活动,成功对重点区域中徐家汇商圈进行优化,有效改善了重点区域的网络性能质量。2014年,集团公司在前期重点关注网络性能质量的基础上,进一步关注用户业务实际使用感受,即用户感知,
6、并开展了相关网络优化劳动竞赛,以确保电信移动网络比较优势!综合而言,本课题的主要意义如下:公司战略要求推广意义:品牌价值:落实(中国电信2013225号)开展2013年移动网络优化劳动竞赛中的要求,确保电信移动业务比较优势!上海作为本次“改善用户感知”网络优化专项工作的牵头试点城市,在各省公司具有推广意义!随着4G牌照下发,保障重点业务质量,成为推广“天翼”品牌的很好契机表 2-1 课题主要意义(制表人:李波2014-4-10)2.2 选题理由在用户感知中,业务时延是重要指标。在关于“改善用户感知”的网络优化专项活动,中国电信集团公司要求重点关注重点业务的时延,集团公司要求为:重点业务时延1.
7、3s从移动互联网业务形态分类,可以将目前现有的应用分为多连接少流量业务和少连接多流量业务,多连接少流量业务主要以即时通讯类业务为主,例如微信、微博等等,少连接多流量业务主要以视频音频类业务为主,例如优酷视频、QQ音乐等。集团公司定义,各省两类业务用户使用量排名TOP5的业务为该省重要业务。通过端到端平台,对2014年3月至5月每日实际忙时样本分析,发现电信用户少连接多流量业务TOP5为微信、新浪微博、QQ、百度搜索和淘宝。而多连接少流量业务TOP5为优酷视频、百度音乐、酷我音乐、虾米音乐和奇艺视频,统计这些业务占比及时延如下所示:图2-1多连接少流量业务占比图(陈喆2013-6-10)多连接少
8、流量业务样本量占比每连接时延微信1767279877.61%1695.56新浪微博437525941.89%481.26淘宝305223671.32%518.9百度地图105377600.45%651.18QQ43172320.19%1173.78合计2658579401310.76表 2-3 少连接多流量业务TOP5业务时延对比(数据采集及制表人:陈喆 2014-6-10)少连接多流量业务样本量占比每连接时延优酷视频738977083.18%912百度音乐636908992.74%667酷我音乐293051571.26%587虾米音乐47839220.21%776奇艺视频407981901.
9、76%711合计212475876752表 2-3 少连接多流量业务TOP5业务时延对比(数据采集及制表人:陈喆 2014-6-10)从上图可以看出,少连接多流量业务平均时延为752ms,达到集团指标要求,而多连接少流量业务时延为1310.76ms,未达标。因此,多连接少流量业务优化迫在眉睫,一定要解决。对多连接少流量业务进一步分析发现,微信样本量远大于其它业务,且时延最大,因此,小组认为可以以微信作为切入点,对其展开优化,以降低微信业务时延,这样便可以大幅改善多连接少流量业务的总体时延。图3-3 选题理由示意图(赵佳融2013-6-10)综上,结合公司战略及指标要求,经小组讨论,我们最终选定
10、“降低移动互联网微信业务时延”这一课题。3 选题理由公司要求重点业务时延40%时,全网业务信道建立成功率明显下降张天韵2014/6/24前5异常连接占比过高调查分析是否存在异常连接且及占比情况确认现网存在异常连接,且异常连接次数占比超过10%张儒申2014/6/26前6导频污染调查分析现网覆盖导频情况确认现网区域无明显导频污染情况,呼叫记录中导频集数量大于3个的占比小于5%周佳俊2014/6/29前7设备硬件故障现场测试调查分析是否存在设备硬件告警存在设备硬件告警信息陈喆2014/6/22前8控制信道负荷过高调查分析现网控制信道负荷情况控制信道负荷超过20%皇甫俊伟2014/6/27前表6-1
11、 要因确认表(詹黎2014-6-18)6.2 要因确认末端原因一:缺乏培训机制末端原因确认方法确认时间确认人缺乏培训机制调查分析2014年6月20日宋晨杰评判标准:2014年参加网络优化及维护培训次数超过20课时、5科目,同时通过中国电信集团认证的网络优化资格考试。对小组9名成员2014年的培训、考核进行统计分析,如下表:姓名培训课时科目通过考核等级陈晓芳60122级通过曹逸文60122级通过周佳俊45103级通过宋晨杰45103级通过张天韵3593级通过张儒申4073级通过陈喆4563级通过皇甫俊伟4563级通过赵佳融4563级通过参考要求2055级通过表 6-2小组成员培训考核成绩表(陈晓
12、芳2014-6-20)从上表可以看出每个小组成员都有符合要求的培训经历,并且都通过了考核要求。小组大部分组员具有多年CDMA网络优化分析工作经验,组员曹逸文曾获得“中央企业技术能手”称号,中国电信集团网优技能竞赛二等奖等成绩。图 6-1 小组成员荣誉情况(陈晓芳2014-6-20)结论:缺乏培训机制为非要因。末端原因二:缺失统计工具末端原因确认方法确认时间确认人缺失统计方法调查分析2014年6月21日曹逸文评判标准:有规范的指标统计体系,完善的统计工具。中国电信在2009年运行EVDO网络开始之初,即建立了EVDO指标统计体系,供各省市使用;同时,各省市公司根据集团规范,进行了网络优化平台的开
13、发,供优化人员进行网络性能分析。前期,在多维感知项目中,开发了端到端分析系统,即无线业务分析平台,可以进行业务级统计。图 6-2 集团无线网络统计指标、网优平台与无线业务分析平台界面(陈晓芳2014-6-21)结论:缺失统计工具为非要因。末端原因三:传输负荷过高末端原因确认方法确认时间确认人传输负荷过高调查分析2014年6月22日陈晓芳评判标准:确认现网基站传输资源利用率70%根据中国电信集团关于基站EVDO扩容标准指导手册,传输负荷扩容标准,传输负荷超过70%的基站属于传输高负荷基站。通过对于全网在3月至5月的传输负荷情况进行统计分析,得到下图:图 6-3 基站A-Bis口平均带宽利用率(数
14、据采集及制表人:赵佳融 2014-6-22)可以看到,该基站在3-5月中平均传输利用率仅53.21%,低于70%的传输扩容门限。结论:基站传输负荷过高为非要因。末端原因四:接入信道负荷过高末端原因确认方法确认时间确认人接入信道负荷过高调查分析2014年6月24日张天韵在EVDO系统中,反向接入信道负荷是EVDO基站反向接入信道业务情况的主要指标。根据集团下发的3G业务规模发展优化操作手册,当EVDO载扇在实际忙时的接入信道负荷超过40%时,说明该载扇接入信道负荷过高,这将导致从用户侧发起的接入探针产生碰撞,导致接入时间过长。图 6-4 3G业务规模发展优化操作手册(赵佳融 2014-6-24)
15、为了验证手册内容的准确性,我们对网络忙时接入信道负荷以及微信空口时延的76个样本提取出来,并统计得到了接入信道负荷与接入时长的关系调查表如下:序号接入信道负荷空口时延序号接入信道负荷空口时延序号接入信道负荷空口时延140%5002762%20205255%1300248%4602864%25905357%2250355%9802964%19905461%2350456%11903056%11105563%1470557%15803141%3705662%2450644%5003245%9005768%2620740%5803351%11505856%1190863%23703462%23605
16、959%1800948%7003561%15706055%11801045%5903660%17906163%21401148%10503747%4806258%11301269%24603864%20206354%10201357%14103942%3806462%19701459%19804041%3906558%15301553%12504158%10806645%4101649%5304253%15806752%11801749%10104356%21306849%11301848%10404446%6106947%5801947%9404568%22607055%12102049%6
17、404668%25407153%11402152%9204749%11507267%23402268%24704842%4707352%13802363%16204953%12907460%22002450%13305066%18407557%16402541%4005147%7107648%7002659%1130表 6-3接入信道负荷与空口时延关系调查表(皇甫俊伟2014-6-25)根据上表,得到散点图如下:图 6-5接入信道负荷与业务信道建立失败关系散点图(皇甫俊伟2014-6-25)用相关系数判断法判断相关性:X为接入信道负荷,Y为业务信道建立失败次数。计算相关系数得到:通过查询“相关
18、系数的临界值”表,按照N-2=73,=0.01,则在0.217到0.283之间,|所以认为接入信道负荷超过40%时,接入信道负荷与空口时延存在强正相关。结论:接入信道负荷过高是要因。末端原因五:异常连接占比过高末端原因确认方法确认时间确认人异常连接调查分析2014年6月25日张天韵评判标准:现网存在异常连接,且异常连接次数占比超过10%我们选取Iphone4s(ios系统、还原出厂设置)、iphone4(ios系统、已破解)以及华为C8500(Android系统)进行业务测试,发现iphone4和华为C8500两部终端在打开数据连接后,经常会收到来自互联网的业务请求,由于产生了TCP的交互过程
19、,所以此时如果空口已经被释放,则空口会被重新配置资源。AT侧被请求连接的部分端口有共同特征,初步判断是由于部分互联网上的端口扫描器扫描导致。对其中的135端口进一步分析,过程如下:首先查看Android的抓包信息1. 对端的请求端口是AT的135端口:图 6-6 Android抓包(皇甫俊伟2014-6-25)2. A11申请空口资源结合PCMD的日志话单,确认空口建立的过程,如果产生了PCMD的话单,说明这次空口资源调度产生了开销。3. AT返回RST信息135端口关闭,所以返回rst。说明AT没有监听135端口的服务请求。在Iphone4的抓包信息中也出现了类似的请求图 6-7 Iphon
20、e抓包(皇甫俊伟2014-6-25)分析135端口的主要用途和作用根据TCP的协议描述,端口256以下的服务均为公共服务端口,主要是一些常见的应用类型(例如FTP、email等等),一般应用开发商不会使用这些端口。135端口主要用于使用RPC(Remote Procedure Call,远程过程调用)协议并提供DCOM(分布式组件对象模型)服务,通过RPC可以保证在一台计算机上运行的程序可以顺利地执行远程计算机上的代码;使用DCOM可以通过网络直接进行通信,能够跨包括HTTP协议在内的多种网络传输。这个端口经常被黑客和病毒所利用,例如冲击波病毒,该病毒就是利用RPC漏洞来攻击计算机的。RPC本
21、身在处理通过TCP/IP的消息交换部分有一个漏洞,该漏洞是由于错误地处理格式不正确的消息造成的。该漏洞会影响到RPC与DCOM之间的一个接口。判断135监听端口是否是AT的正常业务需要连接Android系统中由于需要进程间访问,所以也是需要RPC服务的,但是与Windows的RPC服务不同的是采用了Java AIDL RPC来实现,并不会直接用到RPC服务,因此Android系统默认是不会开放135端口的。同样IOS系统关于Socket的使用更严格,也没有开放135端口的监听,因此可以判断此请求不属于智能终端正常请求范围。对所属网端进一步分析进一步研究发现,只有在本地IP段为114.81和10
22、1.81的网段内有被扫描的情况发生。通过CHAP消息可以看出其为CTNET连接。图 6-8 Android Chap消息(皇甫俊伟2014-6-25)测试中Iphone4通过CHAP消息接入帐号为DxSjiaN,分配IP地址段与CTNET接入方式相同。图 6-9 iphone chap消息(皇甫俊伟2014-6-25) 而iphone4s从未发生IP扫描情况,其本地IP为10.9X网段,通过CHAP消息可以看出此为CTWAP连接。图 6-10 iphone chap消息(皇甫俊伟2014-6-25)通过测试看出,并不是所有软件打开后,都会伴有IP扫描的问题,且扫描开始的时间也不固定,因此,推断
23、为基于IP地址的扫描行为,尤其是针对通过CTNET接入的方式的终端。通过对Android手机和iPhone的抓包分析,我们还发现了以下的可疑的端口请求服务信息:8909、1433、23、3306、4899、6000这些端口都属于已知的系统漏洞,非常容易被黑客所利用,也成为端口扫描工具经常关注的端口。而这些漏洞所属的应用均不属于目前现网的智能AT常用业务,因此可以判断这些请求均不属于正常的业务请求。通过端到端平台统计MSC frame23一天早忙时连接次数,并关联话单统计出异常连接话单数如下表:ip地址异常do话单数ip所属端口号61.160.207.20358528XX省XX市 电信60006
24、1.160.207.15646782XX省XX市 电信6000222.186.26.845068XX省XX市 电信600061.160.207.13829943XX省XX市 电信600061.160.207.18329417XX省XX市 电信600061.160.207.15723168XX省XX市 电信600061.160.207.15023107XX省XX市 电信600061.160.207.15922723XX省XX市 电信6000111.123.180.5222593XX省XX市 电信200061.160.207.13922271XX省XX市 电信600061.160.207.1632
25、1305XX省XX市 电信600061.160.207.15121184XX省XX市 电信600061.160.207.20416538XX省XX市 电信600061.160.207.19116182XX省XX市 电信6000180.153.154.5515918上海市 电信999761.160.207.19015514XX省XX市 电信6000122.88.215.715119XX省XX市 铁通6000185.35.151.9415019英国3798061.160.207.17914863XX省XX市 电信6000180.153.154.5514570XX省XX市 电信505361.160.
26、207.14714020XX省XX市 电信600042.51.4.22211331XX省XX市600061.160.212.14511097XX省XX市 电信600061.160.212.20410691XX省XX市 电信600061.147.68.18410468XX省XX市 电信600060.173.14.7810453XX省XX市 电信6000表 6-1呼叫记录对比调查表(张天韵2014-6-25)话单数突增显著的主要是来自61.160.212网段和61.160.207网段,通过IP地址反向查询,发现这两个地址段属于XX省XX市电信。从IP地址段的分布情况来看,是由于服务器漏洞造成部分服
27、务器成为“肉鸡”,被安装端口扫描软件后,对外进行电信的IP地址段的扫描。与此同时被扫描端口为6000,该端口是黑客可以用以攻击的端口。 这些由端口扫描发生的连接并非是真正业务触发,因此为异常连接,这类连接大量占用了空口资源,造成空口资源浪费,该时段异常连接为557872次,而该时段总连接次数为2985731次,异常连接占比为18.7%,超过10%的门限。结论:异常连接占比过高是要因。末端原因六:导频污染末端原因确认方法确认时间确认人导频污染调查分析2014年6月29日周佳俊评判标准:微信连接样本中无明显导频污染情况,呼叫记录中导频集数量大于3个的占比小于5%根据EVDO通信原理,当EVDO前向
28、同时收到3个以上强度相近的导频信号时就会极大地降低EVDO前向无线覆盖质量,我们称之为导频污染。为确认微信业务连接时导频污染情况,我们对3-5月时间段内微信连接样本中前向导频集数量进行数据统计,发现超过96%的样本未发现导频污染现象。样本分类非导频污染样本数导频污染样本点导频污染率数据建立样本17135545653725313.04%表 6-11导频污染样本点分析(宋晨杰 2014-6-29)图 6-12微信样本导频污染分析(宋晨杰 2014-6-29)根据上述分析及现场确认可知,无导频污染情况,导频污染也并非造成网络拥塞的主要因素。结论:前向导频污染为非要因。末端原因七:设备硬件故障末端原因
29、确认方法确认时间确认人硬件设备故障现场测试调查分析2014年6月22日陈喆评判标准:确认基站是否存在硬件告警经网优后台分析人员核查确认,在3至5月间,基站无严重故障告警,工作正常。图 6-13基站告警确认(周佳俊 2013-6-22)结论:基站设备故障为非要因。末端原因八:控制信道负荷过高末端原因确认方法确认时间确认人载频边界调查分析2014年7月3日曹逸文评判标准:控制信道负荷20%在3G网络中,寻呼主要占用控制信道资源,控制信道负荷过高,会导致空口寻呼时延过长,统计3月至5月间,现网控制信道负荷,如下图所示图 6-14控制信道负荷(曹逸文2013-6-22)根据集团下发的3G业务规模发展优
30、化操作手册,当EVDO载扇在实际忙时的寻呼信道负荷超过20%时,说明该载扇控制信道负荷过高,分月统计现网控制信道负荷如下:月份平均控制信道负荷3月21.24月215月20.7表 6-5 3月至5月控制信道负荷(曹逸文2014-6-29)通过以上分析,3月至5月指标,92天指标中54天控制信道负荷超过20%,且每月平均控制信道负荷均超过20%。结论:控制信道负荷过高为要因综上,各末端因素确认完毕,要因总结如下:1)接入信道负荷过高。2)异常连接占比较高。3)控制信道负荷过高。7 制定对策针对分析得出的主要原因,小组成员按照5W1H原则,提出了对策方案,具体情况如下:序号要因对策目标措施地点预计完
31、成时间负责人1接入信道负荷过高降低接入信道负荷将接入信道负荷降低至40%以下1.方案优选全网8.5曹逸文2.最佳方案实施3.效果验证及评估2异常连接占比过高降低异常连接连接突增现象得到解决配置网络安全策略全网8.5陈晓芳3控制信道负荷过高寻呼优化控制信道负荷降至12%1.载频扩容 全网8.30宋晨杰2.载频属性设置 3.异频切换4.异频切换优先级调整表 7-1 对策实施表(周佳俊 2014-7-10)8 对策实施我们按照从点到面的原则制定措施先后顺序,逐步实施各项优化措施,如下对策实施一:降低接入信道负荷针对该要因,小组进行讨论,决定将通过参数的优化,降低接入信道负荷,从而提升反向信道的资源利
32、用率,与此相关的参数总共有7个,即AccessCycleDuration、ProbeBackoff、capsuleLengthMax、OpenLoopAdjust、ProbeTimeOutAdjust、ProbeSequenceBackoff、preambleLengthslot我们将通过正交试验法来获取最优参数组合,以降低接入信道负荷。正交试验法过程如下(L8(27):试验计划试验结果参数OpenLoopAdjustprobeSequenceBackoffProbeBackoffAccessCycleDurationcapsuleLengthMaxprobeTimeOutAdjustpreambleLengthslot接入信道负荷ABCDEFG123456711(3)1(12)1(4)1(64)1(0)1(79)1(4)48.50%21(3)1(12)1(4)2(32)2(2)2(82)2(6)53.70%31(3)2(8)2(16)1(64)1(0)2(82)2(6)63.60%41(3)2(8)2(16)2(32)2(2)1(79)1(4)34.80%52(4)1(12)2(16)1(64)2(2)1(79)2(6)45.80%62(4)1(12)2(16)2(32)1(0)2(82)1(4)30.90%72(4)