《系统运行管理方案.docx》由会员分享,可在线阅读,更多相关《系统运行管理方案.docx(94页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、系统运行管理方案1.1 监控管理监控管理主要是通过对被管对象的配置数据、性能数据、告警数据的统 一采集,实现对IT基础设施、应用软件以及业务的监控,主动发现被管对象 当前的故障或告警信息并进行处理,保障xxxxIT系统的稳定运营。1. 1. 1 IT基础设施监控IT基础设施监控是指对xxxx所有主机、数据库、中间件、网络、存储、 备份等设备及软件进行统一监控,及时发现平台类的告警。1.1. 1.1统一采集与控制根据XXXX移动核心系统运维监控管理平台技相关的要求,本期IT基础 设施监控数据采集的范围包括各种设备的告警、性能、配置数据。采集范围包括但不限于:IT基础设施监控的管理范围包括xxxx
2、所有生产环境的IT基础设施,包括 但不限于以下IT基础设施对象:支持类型HDS华为防火墙fortigate思科netscreen等taz;盾日再分我方EM。利失分。主,32 C -中。书为典中wmsa主kf口*疝011”口一 回 口尸f 团用虐叵工&WQMiaHfiQBSnFBOMti3 E/今”日鹏口“口工团baMOhKOMDFBQM3 *S*B(oom)(11 ,EI回“口工口00口“口 尸口($39客量前回峥 回用倒囱工&。0MI0-W0W001图:告警前转告警操作告警操作主要包括告警确认、告警清除、告警级别调整、转事件单等。【主要功能】支持根据告警对象、告警级别、告警类别、告警时间等属
3、性设置自动转事件 单的规那么。可提供可视化的转事件单规那么编辑功能;,A &动中A 8动中,A &动中A 8动中,力 冲执67311的为:口FH* I工注,10 沃 1“|;加216*骤10皿*用力.产生,夏占 . 事=,(2n4Ag t4 1uW家整!:2M137.-9999y in山口覆:务公旧币黔匕22窗5MSI):方力管轶东.雨s中ftWitWttfl2012-00*20 H;M 03 |r桃1就 OliWlN2012-03-20 U:S4:M |fHMM:TW-2012-03-19 18:500)无女生rti耳2012-OT-19 .:3800V筷加 幅工金等U_CDU管内立:nwH
4、flbOKW* : 2*4gi,广生 ll tfi图:告警派单可提供根据告警的属性字段设置自动确认规那么的功能,并能根据自动确认规 那么对符合条件的告警进行自动确认,告警确认需要提供灵活的过滤规那么,应能够 通过组合不同的告警信息字段设置告警过滤规那么。VL32#8.20&67)sjzzw11的CPU使用率为:2三超过40%,产生重要告售i请美:囿告警刷新 孕告警确M 回告警清除 +告警升级28.20&86阳11_14的CPU使用率为:2超过4。%,产生重要告警,请关注.加告警批量确认回告警 ,告警派 &故障单 夕修改阀 一. I丁电现圄详细信与告警确认-网页对话框区I告警确工备注:确定取消
5、:/132. 228. 96. 59:8080/拉 Internet图:告警确认可提供根据告警的属性字段设置自动清除规那么的功能,并能根据自动清除规那么对符合条件的告警进行自动清除;可提供可视化的自动清除规那么编辑功能, 并且能够对清除的告警设置告警清除标志。告警刷新告警确认告警清除告警升级告警批量确U23208.&6billJ珀PU使用率为:25超过40%,产生重要告告劄I图:告警清除根据系统告警已发生时长、告警发生次数方面发生的变化,重新调整告警级 别,保证根据正确的告警系统处理的正确性。营总MAS wltTNS21帕W* 2/r:/t B*1t/色普MW14 no $Cl*“口AH/M
6、ca*”口 C*90【r * eISflfiftttVV覆与w口期断也, 恒史豪 a体帅M13.w1中1中Eiiwiie图:告警升级1.1. 1.4性能处理性能数据计算与汇总对预处理后的数据进行必要的计算、汇总形成所需的性能指标。处理后的性能数据保存到数据库中,供分析和呈现使用,性能数据的保存时 间可配置。针对局部不需要保存较长时间的性能数据,在统计汇总后,可将历史数据进 行清理,减少系统对存储空间的浪费。(批注:与技术规范”预处理完成后的数 据的保存时间,应该根据不同的数据类型进行区分”要求呼应起来)M 9改更宜家长至1 0 112MW44晒*国18皿 ar1事i:diun mzsa 琏2
7、n 切符明且由1-il-生幺1tiBll a故 liXJSB MKK&1 53 113B旧制i3M的400AY_W_C_GCJ5LtB!tiMJO4 0 112BD旧岬小.的卒10CAYHi.CJCTJSlBEK S )MiUH&lf.电人OttmanMM询通I O “251月B卬Hi* *询.0*1不*n仍图:指标计算规那么性能数据阀值预警性能数据反映了系统及应用的运行状况,是判别被管资源运行是否正常的关 键数据。性能数据一旦超出预先设定的阀值时,可及时触发性能阀值越限告警, 该告警称为性能阀值告警。提供基于应用系统性能指标趋势数据的分析处理功能,实现性能预警,并为 分析优化工作提供必要的依
8、据。提供设定、查询、修改、删除性能阀值的工具,针对统一性能指标,可设多 个阀值进行分级告警。性能阀值告警的内容应能比拟全面地描述该性能数据超出阀值的情况,方便 分析、排除事件。A /系统BS5ES5:出费系统硬件k台设畚SRVjRSS( =CS)后照茅筠指击应用厢势寻1(1C 2 3 6/CPU ( CPJ) icpt基有喧JB主注龟色主於美手堤丁.沃帝理康耍矽重宇1逑庶堂仔工匏那么旧萋百冠M用二电一E)冲珀匚继承实例名称告孰1剧口晟佰实洌状零实何艳常用弗住1 口CPU至田军秒警5%13%,堇要告警3e对非一二 ttPT2 口CPU生用宰血害0 0%-20%)一般告警3已生效对城ES整3 CP
9、U空闲率侑警053产堇传誓3已切对家配置H再图:性能数据阀值预警性能数据梯度预警系统提供梯度告警的功能,也就是两个时间点的性能数据差值如果超过了门 限,那么应该上报告警。这种告警不同于性能数据的阀值告警,性能数据的阀值告 警只是对一个时间点上的性能数据设定了门限,而梯度告警那么是对两个时间点的 性能数据的差值设定了门限。梯度告警能够迅速发现性能数据的异常变化。用户资X比对懵然必戒;10000水=三丘戴75昨王谈叵&5gII周身M !”及臼ew记冬驾mm于1/1页W附到:第I贡星e宏步霹愀1“串1-弗理 1南备人壬暂时日130tM-24 DO DO CO(EH1邦鳖M2B &2109 91不4f
10、2airtOT-24 QD CO 00(Sil讨事比1至分IS6M切5 2SM2 51不平U3201Ag24 00 0 000619的也讨弊5)7S1Yq 8甲,435i3-OT-2i 00 (0 CO0519计得肛ISS多E匐似冷0o s印专5OTIhgN 00 K) CO计费比3一Z50Czxe0 E七CZ01J-OT-M 00 B B0uc5eIIH 啦?550Q7331W-2a D0:E:8051gee*不普图:性能数据梯度预警性能数据汇总统计为了性能数据分析和呈现,以及事件的分析,系统应能定期生成统计数据。 通过分析历史指标的情况,预测未来的开展,提升管理层次,到达面向服务品质 的管
11、理。CPUC CPU )开始时间::S刷新2012-03-1910:08:51结束时间2012-022 100851 刁口 查询尽导出(Xb)10:0011:0012:0013:0014:0015:0016:0017:0018:0019:0(佗用率(cpu)一系统cpu占肓率(cpu)空Ffl军(cpu)0000000009876543 (再吁止o O2 1图:CPU汇总1. 1. 1.5拓扑处理拓扑图的生成可支持手工配置或导入,也可通过系统自动发现并注册实现, 以上几种方式都是以CMDB为基础,进而获取每个节点在拓扑图中的位置和它们 间的依存关系,从而构建出整个IT运营网路,通过实时刷新拓扑
12、图,可反映出 当前网络中节点的最新状态,帮助运维人员从宏观上对对整个IT支撑系统的运 行情况有直观的掌握,进一步提高运维的效率。拓扑管理通过CMDB对象实例树,可方便的对拓扑图中的节点,及节点间的关系进行 维护,系统支持对节点的增加、删除、修改属性,状态及更改不同节点间的依 附关系等。图:网络拓扑拓扑监测拓扑监测是根据拓扑模型,对在模型上定义的关键节点,节点关键性能、质 量指标数据进行实时监控,将业务系统运行中出现的告警、预警信息直观呈现在 拓扑模型中,来实现对应用系统运行状态的专题式监控,及时发现用户关注的异 常。支持通过拓扑图关联到应用节点详细信息页面,可根据时间段来查询该节点 的告警信息
13、列表,进而进行相关告警处理如告警确认、告警级别调整、告警清除 等操作;支持通过拓扑图关联到应用节点详细信息页面,可根据时间段来查询该节点 的历史指标数据,以表格或走势图的方式展现,支持业务指标数据导出功能,导 出格式包括但不限于文本、EXCEL等文件格式;拓扑视图支持定时无闪烁刷新功能,刷新频率不宜过高,以不影响系统性能 和展现效果为基准,也不宜过低,否那么无法到达监测的实时性要求。3号节amusaeaeR(E用m马Ml货,132 226 206 j65m132229209 TBm忸 “J-州: 132226 J06j66IET1132.220 208 97用“忸0tl 13Z 228.119
14、OT网用i我&网主机 13222B20BJB2免*,卅i+胃氐闲主虱8 228 208 6132228063fthMEtaa用主力132228OT97m132 22806.3(T)132228208 94m _ m王检tsra用主工132228 2088&,H.EhtGS用主力192.221.201 99192228 119.4曾施ffi能啦修三%计!TK 132J28.110j66能0修三补务M ABOXE他t购隹用王H132228 119 3父河运收入保B网元H&十詹53充值JT . rU如B投口登到寄旨 10000MA一 fQHB瑞5R/005图:拓扑监测应用拓扑以IT系统内的业务类型作
15、为索引来组织被管资源的业务拓扑结构。典型的 业务拓扑图是一个树型结构,实现业务与IT基础设施关联关系的直观展现。系 统提供方便的图形化配置修改工具,允许管理维护人员灵活修改相关联资源等基 本配置信息。以下以某电信运维监控管理平台拓扑处理为例:WJg图:应用拓扑点击HB计费:货川能惴坨M-照务酶栏*中?4口 上 TOa酒工用苫建点击具体节点:H飨&母人无01匚啊M出q百理托收出惊图:节点拓扑jEttifWXWM 口凭电无蜴日网IBB-*利丽,匕业母 1无星cW看尸巨地韵底推送GTSW 1 询&*2h,各莒理0C就然询像施#Re BA_一互蜕理wnnw停机E虔畲市上下信朽窃电ttitxrt图:地市
16、拓扑以应用系统作为索弓1来组织应用软件包含的被管资源的拓扑结构。应用拓扑 表达应用软件被管资源的分布和关联情况。系统通过提供方便的图形化配置修改工具,允许管理维护人员灵活修改组成应用系统的相关联资源等基本配置信息。 拓扑图能够展现应用软件被管资源的运行状态,包括应用软件的配置信息、告警 信息和性能信息,且可以实现相关拓扑图的自动生成。图:计费生产流程拓扑1. 1.6操作控制主要完成运维监控管理平台控制模块与被监控对象之间的操作指令传递与结 果反应通道,以便完成对被管对象的自动化控制,在运维监控管理平台中的主要 应用为进程、服务的启停和调用等。,, 3X/99 tr weo,*fle,ef/W
17、/emV,.04/telr*w/i|bfUbw Rv94c4rwctir ” .,4 /Tllr,vw,i,”X,et|i4t/BhflvfAt4Qr4r frcfritet,,*r/,”-rw7,,Ar4rU4t Vt4ww. .J*,“U/W b“8 viAi4o frrtiM pi izrj9”y/W”“g4, 5缗,“/TLBr niuv/T1A,bt/,,Xevb“ NQ,6dFD/TlAw,wbe、e/W3,a,!1/tMfbt eei/Ww“d gJ!t/T.l.,vwMOc,f/W:“eSQ rwtiB idB*、*FF*=*F甯*f* EEIfflHBiFirHtfl正IF正
18、irllriEffiFIirlftflE0MIMKLMHM3bmOIZt3433e/T34t,orM)w*UtZf,17)wOI61mOI/T34,,sn/TlrAvrm3wv01wIMiIvrrOl每62mQB/C3b.,m3u901/r34”rttt)IvtrOIZT3n,1reIwrCI/t3Ui,9re)w*O1/te)C vr,uOI/T34”,sn1CW0I/T3CWfsnIttrOlZt33”r*)wr01verBaXff ftfAHBC U 4 Mr1 JiMLic flftlxiXB 名 ULXB 也 BlflttHC Mkr4Xff ftti21tta uerrs CUB.
19、IX2 *wH/ ULXft 一二;,筲i idkft UJittn RT6-5.值 mt日工 鼻 号 IfMHC 14办 MAHBC lf!X mr r. 出2泌 .m Rjtttr, ULC *mmhifu IB r40I000t钿Bit务10431R0000010432teciSLFH21&Sxjest000*003好日九务吁无电tiW一132HW5wvfSilx_t000100王3HU.30*无叫湎M糙仆9L0100100王i1臣山信dwcSdu*SLP1331 teM工 imi0100*00襁助D拉务104305无M值2 M支文,M2HW5010000王U皿利用3第士rw ratSL
20、fX21I6HL10e00*00tuteeir*图:进程监控图系统支持对某一时刻的进程状态进行记录拍照,在后续时刻发现与拍照记录 不一致时,可按拍照状态复原;发现进程运行状态与拍照状态不符时的及时告警, 通知运维人员。进程池监控进程池监测是指对假设干个具有相关性的应用进程进行集中管理监控,进程池 的主要作用是在有多个客户端并发请求时提高服务器的处理效率。系统能够进程池的配置信息进行管理,包括最大进程数量、最小进程数 量以及进程池对应的日志文件。系统能够通过进程池所应当包含的进程数量等性能数据的处理与分析, 及时发现进程池的异常情况,保障系统正常运行,并为分析优化工作提 供必要的依据。在性能数据
21、处理过程中,保证处理的完整性和连续性。 当出现异常情况时,应能够生成相应告警并转发对应处理人员。文件积压监控对应用系统间文件类传输接口进行积压监控,及时发现进程异常和接口异常。应用服务监控提供对中间件的应用服务和ORACLE的job进行监控,当中间件的应用服务异常,或者ORACLE的job异常时,能够生成相应告警。侦听监测可集中监测CRM、服务开通等系统后台侦听的运行状态信息,当侦听异常时, 系统可提供集中的操作功能,重启目标侦听进程。蝇乂 rwk8 atiia *va ,f底nrcAnsarif. JCMBIS eHbKR3/MMtMwai: ISm , .匚 fl弟8 8#t,TU,Riv
22、w,i,”“iOlcifQDico yt44/Tmrr Um.5ntfitn 门”r,1c pi/Tl,Riw,i,”rlcc7 JCBBQi”idb/Telalb vtt/lxirA*f/U*leCetcludMB 2rUec li9/Teleb“10nL山 jp,LU”cUc/cncra”ujx pa IItyi412meivw/i,”c /d13/Talab4mh prrtlM. pi 4X q一辽阡M昕务,U31/TeXatbM”,,tiec t 4illicit atvt/lmihrKiibcititcyteu pxicrix a I16/Tigiw,i,”kriAriQeiak,i
23、,yt4t?TtltIVivw/tfWil?lciftciiywr,”Ey i4/Taleb AVt/lci40/411trrarc. pcpsrllet 卬6WEZFIMIMEEZ王王 EE工rrluxn门G5n作Itw4)fcBC2tno-o-l 5 OO 0stiBHaz iflfAmmiJrifee2tHO-O-t4 20 S 8 0IcwOnoxn-i4 xd s oo a1gr林麦电If日士 月MIcwO)0bm O-G9-14 n ia ao a力1q支林-Slf日七旦flIUX5J1/ladxi52MQ-W-L4 泣90Q.Q片,出线IfirtIt*/4)nartcano-o-
24、L so co tn o以皿内国立白石且S/MOrifrc10-OI-L4 迎 S M 0M=1TN4M1km 40 ao aNi-vr湾 seWBt 与博lca/01naunama-m-14 xd to ao aMtogK件MMBt 后情/lauxitec2W0-W-LC 泣gw”生4电线a。lam11W4)1nart6c映 5 8 0支仲atifitf BZ 且值mfreS0l0-0-l 20 40 00 02M1R8X ,眉情IcwOl/TUeln*nno5i4 m s ao a孵且俏luxn/TUelntemo-m-14 xd 40 oq aQig宣裨,母心日士 一jaMnadxi c
25、加午*“.90Q.Qmw仰碧电口a石lai!/Ytltlrt6bc颗 5 3。Xifiisbx ifltiImOl”lOrifrc2tH0-0-l以 /18秘日盒以情LcwOl/TUUnfiiCwio-Qi-ii n m EMttB身天设MH*6 查。至91Knrau。以品SO即mn皿1n?rv URDU 3i innAbUrCln*rmnrrn mi m. cvurtSKia Ami itfA ociemUrflUOKstsrm auth 皿 qm8S1S1W CU5TIE ttnenoif WMinir ANfFZHsrstn custd uncnter anac工9不 ouium omI
26、.UMTg力(aim omI90005nsrw ursminnitbUrCltxvnnrm uvn evtitBnui outline ourlaurCltXOKvwk. cectBim out1naoT5tl Aldi CUAC. EMITabUrAlUttSE. MttH numL EMVT8SBI MB CUJ1CL exwritd4rflgoSTSTW M CHJjni Ewsisiw custir Efftenoif ocuM4T AlUlKTnsw mum nuniL mr23)0I)srsna m nr*inirHUKMY$tST MW DkT* QIVX30w,, ”Msict
27、w urqii(* mnitHrAUCMOSI no ”,& EVlfYISrrrm axjti ita qicikiftUrdtXVCTmrm Airm dmt* qraxterrnw axci cimwl nxrricbUrtlmarmw Mmv nuntt mxrt?Gm cirrik itKcnuif selecbUrlIUK3sent cueru u但由 qaa18ernmaBttOl)ig, ccn)onovrzxouikiwo ont9Mo19cusTtt twmir am。(xaci:sr?n cwsm iiFtcmef aan图:队列监控图1. 1.2.7 Web应用监测可集
28、中监测前台Web应用的运行状态、挂起线程数、超时时长,当挂起线程 数较多时,系统可及时触发告警,提醒业务支撑人员进行及时处理。.崎KSVfl 卜殳*各*V&8IdIM !TVC XQSSMIWBV诟 I960MMKffa# 4姬1专口主凯坦电除&用=主懂JRttflItrwwiiFVxrwtarwwl0051Aoe*1 9) 8 (20I正IT父】Ml0030l(rOB-K 00 J (S2正uS002QIOO-I4 3Q C4cn6iEWmceS00效 UHA14 21 43 (SmS正r5rv60030tlK-131 20 3 (10EmrflrWEl00tO-K 80 6 (hensue
29、mr0030tlH-laiCT21Zloccb -37X,一。,TC*一1一 Q.MftM t/i t图:web监控图接口平台监测系统可及时监测各个接口平台运行服务的运行状态和响应性能信息,针对运 行异常和性能较差的服务系统可及时触发告警,并能够对服务当天的探测性能和 历史响应能力进行图形化的展示。AITdOCS图:服务运行状态实时监控aftan:刈。g” m斗妁国程町长EK什叼过多HSU、攻w1A92f929) r20too 003d“XmU1 n2St07SLiaoao3A密理mtX22f9616 r202ft18 84A4Mrc&0事138A5S47ru141 ra2aaiaoao6A8) Msme20M1COOO?A3窿ru祝EXt0却fOQOOaAtn Km454 VW75b