中国AIOps现状调查报告.docx

上传人:太** 文档编号:52014145 上传时间:2022-10-20 格式:DOCX 页数:71 大小:6.87MB
返回 下载 相关 举报
中国AIOps现状调查报告.docx_第1页
第1页 / 共71页
中国AIOps现状调查报告.docx_第2页
第2页 / 共71页
点击查看更多>>
资源描述

《中国AIOps现状调查报告.docx》由会员分享,可在线阅读,更多相关《中国AIOps现状调查报告.docx(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、_云计算开源产业联盥OpenSource Cloud Alliance for industRy OSCAR中国AIOps现状调查报告20222022年7月二,NGps开展现状(一)NOps能力建设基本情况在当前数字化转型的浪潮下,企业IT运维方面的投资规模将逐步增加,IT运维的关注方二,NGps开展现状(一)NOps能力建设基本情况在当前数字化转型的浪潮下,企业IT运维方面的投资规模将逐步增加,IT运维的关注方向也将逐步从自动化运维向智能化运维开展。伴随着企业规模扩大,业务模式更新,以及云计算、大数据、人工智能等新技术应用,智能运维能力已在科技、互联网、金融、电信等行业逐步落地应用,并呈现出

2、多样化的开展趋势。近三年中,近4成企业在运维方面年平均投资规模超50005000万元的受访者所在企业占比12.74% ,500-2000万元后比21.26%,100万元以下占比13.88%。模在2000-:100-500万元占13.88%21.26%5.62%3.26%13.45%18.55%11.24%12.74% 100万元以下 100万元500万元 500万元2000万元数据来源:中国信息通信研究隗0万元.5。00万元5000万元7亿元亿元-5亿元 5彳乙元-10亿元 10亿元图7企业运维年平均资金投入规模(20192021)在实现自动化运维.自动化部署的基础上进一步增强监控.运维智能化

3、能力。根殿呆次调 查显示DevOps自动化部署(61.21% 升级监控和AIOps ( 52% )是大局部企业的优先关 注和投资的方向。数据汇总来看,提升系统自动化部署能力,实现基础架构代码化、测试自 动化等是企业当前投资的重点方向。另外可观测性、SRE等时下热点也成为企业的投资方向 和选择。数据来源:图8企业在技术投资时优先考虑的IT运营指标行,并进一步降低运营本钱。根据调查结果显示,60.04%的受访者所在企业最关注可用性、 正常运行时间和性能指标,同时有46.60%和44.66%的企业关注发生故障/W牛的数量 与用户满意度,40.29%的企业关注MTTR(平均恢复时间),此外28.33%

4、的企业将IT运营本钱也纳入了运营关注指标。60.04%46.60%44.66%40.29%28.33%可用性、正常运行时间和性能 发生故障/事件的数量 用户满意度 数据来源:中国信息通询审限恢复时间)IT运营本钱9企业IT运营关注指标智能运维已在各行业逐步落地应用,特别是在科技、互联网、金融、电信几大领域应用效 果十分显舂,根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能运维 平台并形成了相关评价体系分别占比49.64%和37.96% ,其次是银行和电信企业(28.99% 和 25.97% ) 0科技 4.32% 14.39%科技 4.32% 14.39%49.64%互联网7.

5、30% 11.68%18.25%银行银行8.28% 9.62%14.20%28.99%电信电信9.11%12.07%20.96%25.97%暂未建立智能运维能力,正在规划或建设过程中已开始在局部场景探索实践,尚未形成平台能力 已建立智能运维平台,能力覆盖了多种不同业务场景数据来源:中国信,蜀原詹祈照肄维平台并形成了相关评价体系(如算法模型的适用性,能力指标体系等)图10企业智能运维能力建设情况图10企业智能运维能力建设情况内外双修,智能运维系统I工具I平台既可用于增强企业自身运维能力,同时也可以对外输生产品敝7。根据调查显示,企业的智能运维系统/工具/平台同时具备行业特性,如科技和互 联网企业

6、,主要对外提供智能运维产品及解决方案(48.29%和43.64% ),金融行业那么更多面向内部使用(50.36% ),电信行业相对较为均衡,面向内部使用,同时也对外提供产品及解决方案(51.80% ) o面向内部使用 内部使用也对外服务互联网 43.64%互联网35.50%科技 21.41%银行 50.36%银行 36.50%科技 29.84%电信25.18%银行 12.41%电信 51.80%电信 23.02%科技 48.29%互联网 19.67%数据来源:中国信息通信研究院、提供产品服务智能运维系统/工具/平台提供服务类型超半数企业以自主研发的方式建设NOps能力。根据本次调查结果 超过半

7、数57.83% ) 的受访者所在团队主要以自研的方式搭建智能运维平台/工具,22.98%的受访者所在团队采 用共研方式搭建智能运维平台/工具,另外还有19.20%的受访者所在团队选择采购第三方解 决方案搭建智能运维平台/工具。采购19.20%采购19.20%数据来源:中国信息通信研究院多数企业内部组建了专职团队负责N0ps能力建设。根据本次调查结果,25.84%的受 访者所在企业组建了专职团队/部门负责智能运维能力建设,此外还有由多个团队/部门联合 组建(13.17% ),各团队/部门分别建设(13.06% )和联合第三方厂商/外包组建(12.45% ) 等多种团队模式,共研(19.81% )

8、或者采购第三方服务的形式(16.55% )搭建智能运维平台 /工具。已组建了专职团队/团队中044日中04日日|1.425.84% ,由多个团队/部门联合组建中.中中13.17%各团队/部门分别建设13.06%联合第三方厂商/外包组建12.45%没有建设专门的运维团队/部门 市 中 由市 09.85%根据不同场景采用不同团队组建模式中,0中8.74%数据来源:中国信息通信研究院13企业智能运维能力建设组建团队/部门情况智能运维解决方案丰富而多样,反映了市场的创新活跃性和多元化开展。本次调查统计了目前中国市场已有的智能运维解决方案提供商(数据仅根据问卷调查结果统计,不涉及市场份额情况,):智能运

9、维解决方荆是供商新炬网络ZnAiops智能运维管理平台腾讯蓝鲸智云BMC Helix数字化服务智能运营平台 阿里云AIOps智能监控解决方公亚信全域智能运维平台AISW西瞿耕冬产弋W统一运营管理平台 法金隼* IlOps智慧运营平台 爹 必示智能运维平台数据智能运维算法能力平台Swift AI建信金科孔明产品紫羚一体化智能移动IT运营管理平台宝兰德Opslink AIOps解决方案云杉网络DeepFlow云原生可观测性平台百度智能运维平台日志易智能日志中心广通优云智能运维管理平台AIOps华青融天鹰眼EZSonar业务监控系统浩鲸WhaleDI IntelliOps智能运维平台IBM Wats

10、on AIOps 解决方案听云北冥LinkedAIOps根因分析星汉未来云原生基础治理平台SchedulX云新信息iBSM , DCOS金蝶天燕AIOps智能运维平台智能运维,数据先行,数据是智能运维的原料.是搭建智能运维能力的基础。多数企为下一阶段运维数据的智能化分析做准备。目前企业智能化运维重点还在于数据的采集和规范方面。根据调查显示,37.84%的受访者认为开展智能运维最优先的能力是对数据采集分析, 其次是对数据的规范化能力(22.54% )和工具平台的支持(21.09% ),在此基础上完善算法能力(9.79% ) .8.74%9.79%21.09%22.54%需要有一定的数据采集分析能

11、力需要有一定的数据规范化能力需要具备一定的工具平台能力需要具备算法能力不需要37.84%数据来彩4国蕉息通信研究院14智能运维的前置条件AIOps能力建设基本情况多数企业近年来在运维方面的资金投入仍处于增长阶段。近4成企业运维方面年平均投资规模超5000万元,投资规模在5000万元-1亿元的企业占比11.24% ,1亿元-5亿元的企业占比13.45%。智能化能力。,业对于用户体验的关注正在可用性、正常运行时间和性能反响了企业对于用户体验的持续升温。超半数企业在实现自动化运维.自动化部署的基础上进一步增强k根据本次调查显示,61.21%的企业选择优先关注和投资D业选择优先关注和投资升级监控和AI

12、Ops。以结果为导向的大运维指标是当前企业关持续升温。根据本次调查显示,60.04%指标。用户满意度也获得了 44.66智能运维已经在各行业逐步落地应用,特别是在科技.互联网,金融.电信几大领域应用效果十分显著。根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能运维平台并形成了相关评价体系分别占比49.64%和37.96% ,其次是银行占比28.99%和电信企业占比25.97%。,运维系统I工具I平台既可用于增强企业自身运维能力,同时也可以对外输o根据调查显示,企业的智能运维系统/工具/平台同时具备行业特性,如48.29%的科技公司和43.64%的互联网企业,主要对外提供智能运维

13、产品及解决方案,50.36%的金融企业那么更多面向内部使用。超半数企业以自主研发的方式建设NGps熊力;根据本次调查结果超过半数(57.83% )的受访者所在团队主要以自研的方式搭建智能运维平台/工具,22.98%的受访者所在团队将现有监控平台.大数据平台等多种数据源接入智能运维工具I平台.进行多场景数据融合是当前比拟常用的智能运维实践方式。目前近一半(46.21%)的受访者所在企业采用数据 接入方式,同时也有一定比例(37.85%)的智能运维工具/平台具备数据采集能力。37.85%37.85%46.21%数据来源:中国信息通信碉解据采集能力采用数据接入方式,对采集的数据进行处理看能运维工具/

14、平台数据获取方式当前企业的智能运维系统I工具更多集中于对系统(服务器.操作系统)监控数据和业务 /应用监控数据的处理和分析。根据本次调查显示,目前57.39%的企业智能运维系统/工具处理分析的数据中包括应用指标、日志等数据,53.35%涵盖系统监控数据,其次占比42.50%的是网络监控运维中关注的流量类型数据,最后是动力环境监测数据,占比20.14%。智能运维工具/平台分析的数据种类多数企业采用第三方提供的智能计算引擎为ZOps频麻篇辘级根据本次调 查结果统计,目前78.57%的受访者所在企业均已搭建了计算能力引擎主要以自破37.63% ) 和采用第三方提像40.91% )两种方式为主在使用第

15、三方提供的计算引擎的基础上,20.96% 的受访者所在企业根据业务需求进行了定制化开发,更好的适配业务场景需求。37.63%采用自研的算法能力引擎 未建立算法能力/不清楚数据来源:虫搦箍11音髀隐据业务进行定制化开发采用第三方提供的算法引擎图17企业智能运维计算能力引擎大局部企业已经在数据分析和算法模型分析方面已经逐步开始场景探索。智能运维中的计算分析能力,包含了常用的数据分析方法和算法模型分析,从目前的应用情况来看,企业 实践普遍集中于在局部典型场景进行试点及应用。并且m有15.61%和11.07%融受访葡行在企业将数据分析方法和算法模型应用于大局部业务场景。15.61%大局部场景进行使用(

16、40%以上)11.07%20.37%23.96%12.51%少量场景中进行使用(20%-40%)局部场景进行试点(5%-20%)目前处于探索阶段(5%)18.32%22.86%14.61%数据来源:中国信息通信研究院 数据分析方法应用情况 算法模型应用情况事前运维工作中数据分析与算法模型应用情况事前运维工作中数据分析与算法模型应用情况围绕智能运维,大量的算法模型被尝试和应用。在本次调查中,我们统计了目前智能运 维领域中使用较为广泛的数据分析和模型分析方法。国虹作声常陶辎媚分析方法,包括密度聚类DBSCAN、相关系数Pearson、正态分布 N-sigma.统计学分类Bayes等方法。正态分布N

17、sigma 密度聚类DBSCAN 相关系数P&fson中趋势分析中趋势分析图19企业目前运维信度分析相关分析参数检甄 聚类分析因子分析推论统计用的救够析方法数据来源:中国信息通信研究院运维工作中常用的算法模型分析方淤潴磕度学习LSTM、聚类分析K-means,关联规那么挖掘Apriori、趋势预测-Arinja、孤立森林Isolation Forest、时间序列预测Prophet等算法。文本聚类词一计集成学习聚类分析叫过回归A 蚣矶稼研因子分子 深度学习LSTM器管聚类分析K-means 程舞关联规那么挖掘A前ori数据来源:中国信息通信研究院图20企业目前运维工作中常用的算法模型分析方法(二

18、)NGps场景应用情况根据由中国信通院牵头制定的行业标准云计算智能化运维(AIOps)能力成熟度模型 第 1局部:通用能力要求中的AIOps能力建设分级要求,可以将智能化运维整体能力从感知、 分析、决策、执行、知识更新五个维度进行级别划分,系统的参与程度随智能化程度逐级递 增,并结合智能运维应用场景特点,形成AIOps能力成熟度模型。度级别划分从目前的开展情况来看,沙段小膏助大多集中在L2级别,主要以系统辅助分析, 帮助人工进行决策和操零吏,券幼先的能力实践可以到达L3级别,而L4和L5级别随 着AIOps的技术发商J增强,将是未来智能运维能力建设的开展方向和目标。AIOps仍处于初期开展阶段

19、,受访者对目前ZGps能力水平的评价与期望超过其所在 企业实际应用的情况。从整体来看,参与本次调查半数以上的受访者自评企业目前智能运维 处于辅助智能化(30.27% )和进阶智能化阶段(28.61% X此外,21.47%的受访者自评处于 初始智能化运维阶段,13.72%的受访者自评已到达全面智能化运维阶段,5.92%的受访者自 评到达了高度智能化运维阶段。高度智能化运维 5.92%全面智能化运维 13.72%辅助智能化运维 30.27%22企业AIOps开展阶段初始智能化运维 21.47%不同NOps能力成熟度阶段的企业关注领域各不相同,到达全面智能化运维阶段的企业 更加关注在效率和平安领域的

20、智能化运维能力建设。根据本次调查结果显示,自评为初始智 能化运维阶段的受访者更多的是从质量领域开始进行场景探索(50%),质量领域的关注度 远超其他局部。自评为辅助智能化运维阶段的受访者持续增加了质量领域(61.97% )的关注 度,并且开始探索本钱(52.47% )和效率领域(46.62% )的实践。而自评为全面智能化运维的受访者在质量、本钱领域的关注度比拟均衡(49,60%, 45.16% ),并且关注度逐渐向效率领域( 55.65% )倾斜,以及增加了对平安领域(40.32% )的关注和投入。最后自评为高度智 n az/八、/ x能化运维阶段的受访者认为在质量、本钱、效率、平安四个领域的

21、关注度接近一致,也说明 7 J .上/未来要到达高度智能化运维阶段需要逐步完善各个领域及场景的智能化运维能力。 V/初始智能化运维辅助智能化运维进阶智能化运维/ 全面智能化运维J 高度智能化运维数据来源:中国信息通信研究院50%32.47%31.70% 20.62%61.97%52.47%46.62%32.54%57.45%50.48%53.00%31.91%49.60%45.16%55.65%40.32%34.58%33.64%34.58%31.78%质量本钱 效率 平安初始智能化运维辅助智能化运维进阶智能化运维/ 全面智能化运维J 高度智能化运维数据来源:中国信息通信研究院50%32.47

22、%31.70% 20.62%61.97%52.47%46.62%32.54%57.45%50.48%53.00%31.91%49.60%45.16%55.65%40.32%34.58%33.64%34.58%31.78%质量本钱 效率 平安23各阶段智能运维场景关注情况智能运维在质量.本钱.效率.平安四大运维领域均已开展部署和应用,其中质量领域最 受关注,调查显示,54.79%的受访者所在企业当前智能运维着重关注质量领域(包括异常检 测、告警收敛、根因分析、故障处置等)能力建设其次是效率领域(45.77%)、本钱领域(45.49%) 和平安领域(30.82%)。数据来源:中国信息通信研究院质量

23、领域最先考虑的智能运维场景是异常检测(6226% )和告警收敛(57.SS% ),其次 是故障预测能力(46.76% X故障自愈(43.72% 根因分析(42.67% ),最后是故障预防 (33.04% 62.26%62.26%异常检测告警收敛46.76%故障预测43.72%故障自愈42.67%根因分析33.04%质量领域应用情况故障预防 数据来源:中国信息通信研究院57.55%采用共研方式搭建智能运维平台/工具,另外还有19.20%的受访者所在团队选择采购第 三方解决方案搭建智能运维平台/工具。多数企业内部组建了专职团队负责NOps能力建设。根据本次调查结果,25.84%的受访 者所在企业组

24、建了专职团队/部门负责智能运维能力建设,此外还有由多个团队/部门联合 组建(13.17% ),各团队/部门分别建设(13.06%而联合第三方厂商/外包组建(12.45% ) 等多种团队模式。合是当前比拟常用的智能运维实践方式。目前近一半(46.21%)的企业采用数据接入方式, 同时还有37.85%的企业智能运维工具/平台具备数据未蠢历?持续完善数据能力,搭建计算分析引擎,进行数据分析和模型构建是智能运维能力中不可 或缺的一局部。根据本次调查结果统计,目前76.93%的受访者所在企业均已搭建了计算 能力引擎,主要以自研(36.86% )和采用第三方提供(40.07% )两种方式为主。必赞缪腑颦从

25、整体来看30.27%的企业自评目前处于辅助智能化运维阶段,28.61% 的温炉足于进阶智能化运维阶段。智能运维在质量、本钱、效率、平安四大运维领域均已开展部署和应用,其中质量领域最为关注。调查显示,54.79%的企业当前着重关注智能运维的质量领域(包括异常检测、告 警收敛、根因分析、故障处置等)能力建设,其次45.77%的企业关注效率领域,45.49% 的企业关注本钱领域,30.82%的企业关注平安领域。资源优化本钱领域的场景建设较为均衡,资源优化(44.49% ),本钱评估(40.40% ),容量预测 (40.40% ),但有2Q59%的受访者所在企业表示还未开展本钱局部内容也是这四大场景

26、中占比拟高的。44.49%容量预测40.4%本钱评估40.4%未涉及20.59%数据来源:中国信息通信研究院领域应用情况系统评估37.52%知识库构建36.58%智能变更34.42%智能问答30.99%16.60%27智能运维能力-效率领域应用情况数据来源:中国信息通信研究喘变更734.42% ),智能i26智能)(31.52% X知识构建(3658%工智能(即芈),舆情分析(16.60% 平安领域最先考虑的智能运维场景是风险可视化(40.12% 1威胁感知(32.81% 安 全知识图谱(31.10%)其次是脆弱性感知(24.02% X SOAR( 20.09% UEBA( 16.05% 风险

27、可视化40.12%威胁感知32.82%平安知识图谱31.10%脆弱性感知24.02%平安编排与自动化响应(SOAR)20.09%16.05%用户和实体行为分析(UEBA) 数据来源:中国信息通信研究院图28智能运I嚏全领域应用情况4小时1-4小时30-60分钟互联网没有明显区别有一定效果提升(1 5-25%)随着智能运维能力的持续完善以及应用场景的不断深入,将明显感知到智能运维带来的 就我翻。相较未引入智能运维能力,在使用工具链、智能运维工具/平台处理一次典型的故 障(如核心系统的一次故障发现到完全修复),整体故障处理时间大概有多大提升。从数据来看, 53.96%的受访者还是可以感知到智能运维

28、带来的效率提升,其中25.4%的受访者表示有一 定效果提升(15-25%) , 16.77%的受访者表示提升效果明显(30-50%),还有11.79%的受访 者感受到效果十分显著。10-1 5分钟50%)数据来源:中国信息通信研究院通过使用智京运维算法,可快速提升运维智能化、自动化水平,大幅降低故障平均检测时飞间,加速平均修复时长。通过调查发现,目前已经有11.95%的受访者所在企业核心系统故障 服务恢复超可以到达10分钟内的水平,并且还有11.23%已经达至I15分钟内进行恢复。大局部受访者所在企业处于15-30分钟的恢复时间(18.76% )和30-60分钟进行故障服务恢复(17.54%

29、),仅有7.86%的受访者所在企业恢复时间超过4小时。(=)AIOps开展趋势与挑战智能运维开展道路欣欣向荣,通过调查我们发现,绝大多数的领导层已经对智能运维能力 建旗加以吸制榜行动,但在智能运维的建设过程中仍有诸多困难与挑战,主要是在不同 运维场景中的实践探索中产生的。比方能力定制化,难以跨业务应用或泛化本钱高(35.81% ),场景有限,大量运维场景没有成熟的方案(33.98% ),新场景建设周期长(30.71% )。技术应用方面,如数据集成与标准化本钱过高(27.95% ),模型效果难以维持,持续优化本钱高(23.46% )。企业内部环境和组织架构方面,如环境复杂,难以支持智能运维建设(

30、19.76%)受限于AI团队规模(18.43%)。此外还包括了 /才、7、一1,智能运维的运用和价值表达,运用困难,不了解如何使用智能运维的分析结果指导运维决 /V XX 策与管理(17.49%), 智能运维的建设价值难度量和表达(16.93%)。智能运维的建设价值难度量和表达数据集成与标准化本钱过高新场景建设周期长模型效果难以维持,持续优化本钱高领导层*蟠度缺乏受限于AI团队规模研究院数据来源730智能运维建设过程中遇到的困难需求驱动能力升级,除普遍关注的质量场景,运维下的平安场景成为更多企业未来关注和 提升的方向。根据本次调查结果,我们将运维系统中需要进一步完善和提升的能力按照场景 进行划

31、分,质量场景仍然是主要提升方向,其中包括提升故障的根因定位效率(36.75% ), 提升故障修复速度(32.82% ),完善故障预测能力(31.82% )以及建立故障处理流程规范 (23.52% )。本钱场景中,包括需要进一步优化资源配置与本钱优化(33.31% ),建立系统健康度评估 (29.88% ),完善对变更过程的检测(19.98% )。效率场景中,涵盖运维知识库的构建与相关解决方案的关联(32.15%, 23.63% ),并同时将 舆情信息纳入运维场景分析(26.34% )。平安场景得到更多的关注,其中需要加强对平安事件的快速响应以及相应的防范措施的建设 (40.79% ) 0质量场

32、景31目前企业使用的运维系统改进方向企业不断优化现有场景能力,提升稳定性.易用性,持续探索智能运维新场景并加强人员 与技术方面投入是未来开展趋势。47.76%的企业将在目前已有的智能运维场景中继续优化改进,提升效果。44.71%的企业将在易用性、可用性、稳定性等方面持续改进。40.73%的企业 将在更多新场景的应用中建设智能运维能力。32.1%的企业将研究与探索新技术/场景以满足 未来业务的增长需求。27.67%的企业将加强人员方面投入,对技术人员进行AIOps相关培iJIIo在目前已有的智能运维场景中继续优化改进在目前已有的智能运维场景中继续优化改进47.76%在易用性、可用性、稳定性等方面

33、持续改进44.71%研究与探索新技术/场景以满足未来业务的增长需求在更多新场景的应用中建设智能运维能力40.73%32.10%加强人员方面投入,对技术人员进行AIOps相关培训 数据来源:中国信息通信研究院加强人员方面投入,对技术人员进行AIOps相关培训 数据来源:中国信息通信研究院27.67%图32未来企业智能运维建设方向图32未来企业智能运维建设方向三、NGps实践案例(一)运营商篇随着国内企业数智化转型的深入推进,电信行业运维从传统的基础设备运维逐渐转为软 硬件结合的综合管理,运营和运维工作面临着越来越大的压力。运维人员数量无法随着设备 数量线性增加,每万台服务器运维人员的数量持续下降

34、,亟需引入智能化运维手段,解决人局配置平安范围,对不同设备的时序力缺乏的矛盾。同时,也需要借助智能化工具提高资源的可用性,提升智能运营平台是联通数守科技自彳进行设备监控的产品,在业界得到了广彳用体验。款基于动态基线算法台采用人工智能技术,根据基线动态配置浮动阈值,参照数据进行强针对性监控。发的智能运营台IT设备国家开放大学附息:化改造工程选用了联通数字科技开放大学三个校区(五棵松、魏公村、东直门)200+进行集中监控管理。五棵松数据中心魏公村数据中心东直门数据中心台耗管理该工程实现了故障诊断、问题定位、分析结果自动化,结合运维知识库,确 定处置方案;实现了自动完成故障感知、决策、执行的全过程,

35、实现自动扩容、 流量调度等操作;实现了对性能数据进行特征提取、分类,利用机器学习算法进 行集成学习,动态分析设备运行参数的变化趋势,针对重要特性数据进行预测算 法学习,预测网络流量、性能趋势、磁盘容量以及故障发生的可能性,规避潜在 系统风险;实现了对人工无法覆盖范围的延展,对客户动环指标进售方位移动 式环境监测、周期巡检;实现了定期检测资源的能耗指标,计,自动 生成能耗报告,运用机器学习算法对未来资源能耗进行主 模型,结合业务负载情况,动态调整IT设备的上番,到达绿色 节能的目标。角、能耗管理落后、运维重要号灵珍城传问题。翕构蠡虚拟化、容器化、微服务化,IT云资源池规模及技术栈 ,指标数据日益

36、增大;网元间的业务差异性要求网元评分标准;%人干面,同参数模型精确度差;独立参数配置虽然能局部解决问题,但 需要极高的维护本钱;为了解决数字化转型出现的问题,结合AI算法、大数据 技术、自动化操作能力等打造了晴雨表产品。晴雨表系统采用可视化展现层、应用分析层、数据采集层三层架构。评分 结果通过页面实时展示,同时结果回写至Kafka后再存入ES集群进行长久保存,整个过程无需等待指标采集上报。系统 应用分析层部署方案系统 应用分析层部署方案可视化展现层通过大数据运维,AI算分,自动化操作发现低分故障网元,推送故障详情信息到kafka ,自愈系统消费到Kafka数据后匹配到对应的自愈脚本执行自愈,实

37、现自动化故障恢复,减少人工干号。晴雨表以交付类产品进行输解藕案部署。目前已在浙江 移动、新疆移动、集团大数啜斤研究院等多个环境投入生产使用。接入流程%接入流程图21年4月在本地部署了晴雨表,对接现场数据采集能力,通过 /卜普莫型及个性化模型编排耗时一周成功上线,解决了系统实时监控盲区,故障感知率提升90%。集团大数据BG于21年12月在一级IT云哈尔滨资源池部署了晴雨表,用 于行程码系统日常监控保障,截止目前使用良好。晴雨表目前打分覆盖33000余个网元,基本涵盖云平台所有组件,日均评 分网元约10w个,平均每年规避G4及以上故障50起,平均先于用户5分钟感知发现故障,有效缩减了用户断服时长,

38、提升了用户感知。晴雨表中基于 OCDT算法的智能异常检测模型,目前已在参与评分的千余条指标中进行运用, 提高了晴雨表16%的查准率,大大减少误报情况。案例3业务端到端故k中移动T障智能发现诊断自愈信息入原生技术的引入使得IT系统规模万 IT业务系统集群规模越发庞大,传统的总 量日志无法有效分析,业务调用链复杂J 难。C本案例围绕业务系统的me喀( 向 SaaS/PaaS/IaaS 分析端分析操但底大、架构复杂JT运您养斛砧戈, 与警不能及町唳麴新凳常,海 可观测臂5至荆蔡定位极其困(trace数据进行横向业务分析,纵 也发现、诊断、自愈三个阶段的端到诊断自愈( 数据源 :/根公份析横向:与指标

39、异常检测2r纵L86方案通曲线嬲露用无监督metrics. 1 故障发现。无监督日志异常检测算法,可 的日志比例、新的异常参数等。算法首先柔图besi )og异常检测,通过多维数据分析实现 自动学习日志的模式,如新的类型、新 基于预训练的AI模型和专家词典对日大局部企业在数据分析和算法模型分析方面已经逐步开始场景探索。并且已有15.61%和11.07%的受访者所在企业将数据分析方法和算法模型应用与大局部业务场景。通过使用智能运维算法,可快速提升运维智能化.自动化水平,大幅降低故障平均检测时间,加速平均修复时长。通过调查发现,目前已经有11.95%的企业核心系统故障服务恢复时长可以到达10分钟内

40、的水平,11.23%的企业已经到达15分钟内完成系统故障恢复。复。障的根因定位效茕AIOps开展趋势与挑战中仍有诸多困难与挑战。根据调查统计,目前萼卿英端糠柝生的,比方能力定制化业务应用或泛化本钱高(35.81%),场景有限大量运维场景没有向。根据本次调查结勺企业将会提升故障修复速度,31.82%的企业将完善故障预.98% ),新场景建设周期长(30.71% )。测能力以改力减%白罐业将会建立故障处理流程规范。平安场景得到更多的关注,40.79%战主要在不同运维场景中的胃,平安场景成为更多企业未来关注和提升的方梦呼景仍然是主要提升方向。36.75%的企业在未来将提升故及殴全事件的快速响应以及相

41、应的防范措施的建设。提升稳定性,易用性。47.76%的企业将在目前已有的智能运维场景中继续优化改进,提升效果。44.71%的企业将在易用性、可用性、稳定性等方面持续改进。志分词,然后基于词序和词频等相似度特征,将日志聚类成多种模板进行异常 检测。故障诊断阶段机用trace日志还原业务链拓扑、节点信息。通过业务链异常挖掘算法进行横向根因分析,确定引起了整个业务链故障的节点排名。通过日志异常检测算法智能发现相关节点的异常日志,以及结合跨层告警,结合知识库关联分析,在主机进程、中间件、网络拓扑中纵向定位根因。物够翻阂吏用自动化编排,实现自愈策略配置,;完成故障处理的闭环。价值与效益:N钟缩短到10分

42、钟。故障定位收益。系统自动完成自愈。操作完成后,系统自动跟踪自愈故障发现时间平均提前2口基于AI算法定位疣效告警,月均告警量下降20%o运维自采用本系统的7个月来,累计节约260人/天,获案例A异构系统智能故障诊断平台的应用广东移动近年来广东移动业务支撑系统加快向云化、容器化、微服务化的架构转变, 带来系统架构复杂、故障点激增的问题,对故障处理的人员技术水平要求随之提高。为解决痛点问题,融合业界规范,开展成为广东移动特色的异构系统智能故障诊断平台。2020年10月份开始生产应用,已持续稳定运营一年 以上。基本实现流程,通过日志、告警、KPL性能指标、调用链、资产多种维度数据进行精准的故障诊断。

43、其中有三个创新点:1 .金官模型;综合多维度数据异常检测综合评估,精确度高。而一般通用 扰、方案是对单个指标异常检测,并不能代表系统真的有异常,不够精准。应用的算法包括 3sigmax 柯西、基于 fft 的 SR、arimax FP-growth、xgboost. tf- i/idf、有向图随机游走pagerank算法和pcmci根因定位算法(针对容器环境2无差异诊断:物甫适应Kubernetes容器化/微服务云化环境与传统物 丁D理机、虚拟机的环境。针对云化环境与传统环境有不同相关性分析,传统环境 因为拓扑稳定,采用FP-GROWTH相关性分析,而针对云化环境,采用有向 图随机游走的分析方

44、式,能够明确告警指标等原始数据的相关性。3 .我朝四勤晋;在异常感知和故障识别阶段能够根据自建的知识图谱对 故障诊断的结果做修正,保证诊断结果的正确性。故障诊断流程图投入使用以来,该平台为我司带来实际的应用效益,可使故障诊断智能化、前后变化运维效率人力投入传统运维人工排查处理5名高级运维工程师本能力AI 运维AI智能处理,90% 的系统故障可依赖 本能力准确诊断1名初级运维工程师 (本钱降低80%)故障定位迅捷化、运行质量高质化,降本增效。平均每个故障30分钟处理时间辽宁移动系的不断演进,投诉运维逐渐从人能化运维,表达智能投诉价值,是智慧运维平台面临的亲,投诉投入再多人力,也难以满足用户对问题快速解工平均每个故障2分钟 (效率提升93%)2宁移动通过小步快走,植入AI智慧、自动化敏捷能力,案例s AI驱动决策,双换助推转型,七步法a随着IT技术的迅猛开展,投诉通工运维转变为智能运维,如彳寸业务拓展及客户满意度已经形成风险,人工运维海量的投诉工单进行分析,多种模式组合运用,铸造核心价值,网股诉处理效率,提升服务支撑质量,降低投诉量。智慧投诉平台整体技术架构分为门户和服务层:投诉门户层包括营业厅用户、地市支撑用户、省支撑用户各自相应的定制门户,可以将定制化的服务能 力集成在门户中;投诉服务分为两局部,分别是针对投诉的应用和场景服务, 和应用或场景服务所需的基础能力服务(黑色局部

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁