《2022年中国面向人工智能的数据治理行业研究报告-76正式版.pdf》由会员分享,可在线阅读,更多相关《2022年中国面向人工智能的数据治理行业研究报告-76正式版.pdf(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中国面向人工智能的数据治理行业研究报告2022.3 iResearch Inc. 击破业务落地要害22022.3 iResearch Inc. 摘要来源:艾瑞研究院自主研究绘制。实践-高频高价值应用及数据痛点:本篇报告选择金融、零售、医疗和工业四大典型行业为切入点,分析呈现各行业的信息化建设阶段与高频高价值的AI应用场景,并基于高频高价值AI应用引发的数据治理需求,对面向人工智能的数据治理体系搭建给到建设指导。展望-治理陷阱与趋势洞察:1)企业需避免落入“数据埋点大而全”的治理陷阱;2)供需两侧需共同保证数据治理体系建设后的运营流转;3)企业需建立符合管理现状及发展需求的数据安全治理框架,确保
2、数据全周期的安全与合规;4)联邦学习技术可带来数据安全合规线内的共同富裕;5)数据的“自治与自我进化”成为未来数据处理发展的必由之路,为企业打造“治理+AI”体系的良性循环。前言-数据与数据治理:如今数据不再局限于传统数字形式的认知,由结构化数据延伸到半结构化、非结构化的数据范畴。数据治理越来越受到企业的普遍重视,在数据生命周期的各个阶段通过相应的工具与方法论,使数据发挥出更大的价值,是实现数据服务与应用必不可少的阶段。参与-行业规模与受益圈立足点:数据治理与AI应用产品开始交汇融合,厂商参与更加多元,咨询公司、数据服务提供商和人工智能产品服务商三方阵营构建行业竞合格局,而“智”,即AI应用,
3、为面向人工智能的数据治理服务的核心立足点。2021年面向人工智能的数据治理市场规模约为40亿元,预计五年后规模将突破百亿。主题-面向人工智能的数据治理:AI技术创新应用走向大规模落地,带动了大数据智能市场的蓬勃发展。2021年大数据智能市场规模约为553亿元。目前传统数据治理体系多停留在结构性数据化治理工作,尚难满足AI应用对数据的高质量要求。企业可吸收传统体系的智慧沉淀,以AI应用数据需求为核心,优化建设“面向人工智能的数据治理”体系,显著提升AI应用的规模化落地效果。SMS3前言:数据与数据治理1主题:面向人工智能的数据治理2参与:行业规模与受益圈立足点3实践:高频高价值应用及数据痛点4案
4、例:标杆企业与新锐势力5展望:治理陷阱与趋势洞察642022.3 iResearch Inc. 数据:范围界定信息经济的“货币”,早已不限于数字形式数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化数据,元数据与主数据等。来源:艾瑞研究院自主研究绘制。企业数据的主要类型企业内部数据按照数据来源分类在企业内部经营中产生的数据,在企
5、业的业务流程中产生或在业务管理规定中定义,受企业经营影响企业外部数据企业通过公共领域合规获得的数据,其产生、修改不受公司影响按照数据格式分类结构化数据可以存储在传统的关系型数据库中,用二维表结构来表达实现的数据,可以用关系型数据库存储非结构化数据形式相对不固定,不方便用数据库二维逻辑表来表现的数据,通常存储在非关系型数据库中,数据量通常较大半结构化数据介于结构化与非结构化之间,半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定元数据是描述数据的数据(描述性标签),描述了数据(如数据元素、数据模型)、相关概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系国家、币种
6、、汇率合同、项目、组织日志文件、XML文档、JSON文档、Email等Excel表格、 SQL数据库里的数据文本、图片、HTML、各类报表和音频、视频主数据描述企业核心实体的一组一致而统一的标识符和拓展属性,实体可包括现有或潜在客户、产品、服务、员工、供应商、提供商、层次结构和会计科目表等实时数据是在收集后立即传递的信息,所提供信息的及时性没有延迟数据治理常用数据类型分类标准定义以及特征数据类型举例实体型组织、客户、人员基本配置数据标准、业务术语、指标定义实时OLAP场景下的数据数据抽象的内容,独立时无意义信息经过收集和整理的数据智慧经过人为解读和经验充实的信息产生辨析判断、发明创造能力知识5
7、2022.3 iResearch Inc. 2022.3 iResearch Inc. 182633414717561221422016201720182019e2020e2025e2030e2035e全球每年产生的数据量(ZB)数据量:爆发式增长基础设施“扩容”、IoT 广泛连接带来的数据量暴涨数据时代来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效益。数字化转型从头部企业的可选项,转变为更广泛企业的必选项。新变化为企业带来新机遇的同时,也带来了诸多挑战。很多企业在前期的信息化建设中,缺乏统筹规划,为解决当下业务问题而按照垂直的、个性化的业务逻辑独
8、立采购与部署IT系统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据价值。这种先建设后治理的常态,使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地,也带领数据治理需求在加速攀升。注释:1ZB = 10244GB来源:中国信通院,Statista(2020),艾瑞研究院自主研究绘制。来源:中国信通院,艾瑞研究院根据专家访谈与公开资料研究绘制。2016-2035年全球产生的数据量2015-2020年中国数字经济内部结构变化CAGR=28.6%74.3%77.0%77.4%79.5%80.2%80.9%25.7%23.0
9、%22.6%20.5%19.8%19.1%201520162017201820192020产业数字化占比(%)数字产业化占比(%)62022.3 iResearch Inc. 2022.3 iResearch Inc. 非结构化数据, 30%结构化数据, 70%数据治理:需求释放治理需求普遍存在,非结构化数据成为价值挖掘的重难点企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和使用中的问题,而数据治理的需求与复杂度也会随着企业数字化程度提升而增加。从企业内部的数据类型来看,非结构化数据占企业内数据总量的80%,却仅占整体使用率的30%,长期以来其价值未得到充分有效利用。未来,随
10、着非结构化数据的积累增加与AI应用的数据需求推动,企业对非结构化数据的价值化需求将加速释放,而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。注释:仅列举代表性数据治理需求。来源:艾瑞研究院自主研究绘制。来源:艾瑞研究院根据专家访谈自主研究绘制。非结构化数据, 80%结构化数据, 20%企业内结构化数据与非结构化数据占比情况在企业的数据中,结构化数据仅占20%,其余80%都是以文件、语音、图片等形式存在的非结构化数据。且非结构化数据的增速远远高于结构化数据,随着时间的推移,非结构化数据所占的比例将会越来越高企业内结构化数据与非结构化使用现状企业长期以来,受技术影响,对结构化数据的利
11、用率均高于对非结构化数据的利用率。但实际上,非结构化数据的体量与其包含的信息量都更多,是企业未得到充分利用的宝贵资产不同企业数字化程度下的主要数据治理需求企业数字化程度治理需求局部数据优化提升数字化业务流程打破数据孤岛可视化呈现内外部协同数字化管理智能辅助决策监控预警数据安全、合规要求72022.3 iResearch Inc. 数据治理:范围界定数据治理为实现企业数据应用服务的重要环节数据治理以数据源汇入为伊始,对数据进行清洗加工,并在数据存储、数据计算、数据服务应用等环节予以持续的治理服务,是企业实现数据服务与应用的重要环节。从数据层面来看,数据本身存在着从生产到消亡的生命周期,而数据治理
12、会在数据生命周期的各阶段通过相应工具与方法论进行规范与定义,在企业内部构建出切实有效的数据闭环,使数据发挥出更大的价值。来源:艾瑞研究院自主研究绘制。数据治理在数据应用流程中的位置服务接口智能BI数据分析分布式关系数据库分布式NoSQL数据库分布式文件系统数据仓库数据湖智慧决策精准营销.可视化分析预测性维护智能推荐数据源社交媒体互联网社会机构第三方机构HR财务OACRMERPCDP数据治理数据治理环节开始,对数据清洗加工,对整个企业内部的数据集进行规范和定义贯穿数据使用周期,是实现大数据服务必不可少的阶段数据标准管理数据模型管理数据资产管理主数据管理数据质量管理元数据管理数据共享管理数据安全治
13、理数据存储数据计算数据服务与应用内存计算批量离线计算在线流式计算机器学习模型训练数据治理环节82022.3 iResearch Inc. 数据治理:整体概述让数据可知、可用、可管,成为业务发展与创新的基石数据治理旨在消除数据的不一致性,建立规范的数据标准,提高组织的数据质量与实现数据广泛共享,最终将数据变为宝贵资产,应用于企业的经营、管理与决策中。当下,让数据可知、可用、可管,充分发挥数据资产的价值已成为企业共同的数据治理目标。数据治理的对象与范围则会根据企业需求差异而有所区别。在不断发展变化的外部环境与业务需求下,企业数据治理工作在对应阶段也会有各自不同的目标。来源:艾瑞研究院自主研究绘制。
14、数据治理的对象、目的与范围概述数据治理的对象数据治理的目的数据治理的范围大部分企业都有明确的数据治理目的,供应商仅需要围绕企业需求的模型及模型效果来确定需要治理的数据源,在其中,充分了解企业需求与现状是必要程序。找到企业可变为的“数据资产”:数据治理范围并非为企业全部数据,而是要在企业海量数据中找到“值得”治理的数据范围,将其变为可用宝贵的“数据资产”,为企业进一步发挥数据要素价值。从企业的数据使用现状来看,集中于对结构化数据的开发与利用,所以数据治理工作多围绕于结构化数据的治理,非结构化数据仅做入库、入湖等初步处理,利用率并不高。结构化数据非结构化数据半结构化数据结构化数据转化可用、可知、可
15、管、可量化,可运营达到一致性、质量与安全水平等指标企业数据外部数据价值化数据原始数据初步处理过的数据供业务使用提升数据使用价值:在实践中,企业发现原始数据或只经过初步处理的数据,与价值化数据之间存在巨大鸿沟,需经由数据治理做对应的清洗、规范及定义等,以提升数据使用价值。缺乏技术手段、缺乏方法指导、缺乏保障机制、缺乏流程规范的等是大多数企业无法解决数据价值化问题的主要原因。贯穿数据生命周期:数据治理是贯穿整个数据生命周期,复杂且需要长期建设的项目。对不同企业而言,业务需求千差万别,聚焦于核心数据问题、结合企业特点选取合适的数据范围,方能把控好治理方向。产生新的数据再次治理已有数据规划制定规范标准
16、落地采集存储应用维护销毁92022.3 iResearch Inc. 数据治理:体系架构结合企业的特点及需求,设计符合企业要求的数据治理架构虽然业界对数据治理的定义不尽相同,但涉及的数据架构模块大体一致,核心包括数据标准管理、数据集成管理、元数据管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据服务与数据安全管理模块。依托于企业对数据治理的侧重点不同,数据治理体系与架构也会根据企业所在的行业特点、经营性质及信息化程度的不同而有所差异。在实际设计时,一方面,企业可参考先进体系框架与行业最佳实践,另一方面,企业也需从实际需求与发展需要出发,设计搭建适合自身情况的数据治理架构。来源:艾
17、瑞研究院自主研究绘制。数据治理各模块内容以及相互之间的关系技术元数据业务元数据自定义调度数据集成管理API人工数据数据库 流式数据清洗转换集成传输运维可视化元数据管理管理元数据盘点企业数据情况元模型元模型联系建立奠定基础维护企业重要业务核心数据的一致性、统一性、准确性血缘分析影响分析数据生命周期主数据管理主数据识别主数据规范治理支撑企业业务流和工具链的打通和串联数据资产管理建立数据资产目录数据全景可观以元数据为基础,通过脚本注释形成数据资产形成数据关系网络丰富的服务接口拓展数据质量管理数据质量标准数据质量目标数据质量度量数据质量管控数据服务数据模型管理来源层数据模型设计数据安全管理集市层数据模
18、型设计数据分层,建模,对数据有更清晰的掌控搭建统一总线,提供数据接口,通过接口服务化方式对企业内外提供数据服务为数据应用提供可追溯的数据数据安全等级定义数据安全访问控制身份验证数据访问日志审计数据在应用过程中的拉通提供有数量、质量保证的数据数据标准管理业务运营人员数据管理人员IT技术人员标准制定标准管理标准执行数据开发支撑统一指标体系数据标准业务系统建设基础类 指标类数据质量规则依据统一输出沉淀满足业务服务102022.3 iResearch Inc. 数据治理:政策指引推动各行业数据治理标准建设,为相关主体提供指引性文件近年来,我国政府从战略规划、体系建设、标准制定和制度落地四个方面,全力推
19、动数据治理的行业规范发展。一方面,国家通过立法构建数据安全保障、明确数据安全法律责任、完善监管体系;另一方面,各地方政府、行业主管部门、各行业组织、标准化机构积极规划制定数据规范文件与鼓励政策,推进数据治理考核、评估标准建立,为相关数据治理项目主体提供指引,共同促进数据治理行业的发展。来源:艾瑞研究院自主研究绘制。中国数据治理相关政策梳理与解读数据的利用与保护战略规划强调要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值。培育数字经济新产业、新业态和新模式,支持构建工业、安防等领域规范化数据开发利用的场景。加强数据资源整合和安全保护。探索建立统一规范的数据管理制度,提高数据质量
20、和规范性,丰富数据产品关于构建更加完善的要素市场化配置体制机制的意见2020年4月10日 国务院促进大数据发展行动纲要2015年8月31日 国务院建立标准规范体系,推进关键共性标准的制定和实施,开展标准验证和应用试点示范,建立标准符合性评价体系行业主管部门探索制定和出台数据治理相关要求、标准、框架与体系2018年5月21日中国银行业监督管理委员会银行业金融机构数据治理指引2019年9月29日中国银行保险监督管理委员会银行业金融机构监管数据标准化规范2016年9月5日国务院政务信息资源共享管理暂行办法2018年5月25日民政部关于加强和完善民政统计工作 全面提高统计数据真实性的实施意见地方政府、
21、行业组织、标准化机构陆续发布数据规范文件与鼓励政策2019年1月1日国家标准化管理委员会信息技术数据质量评价指标2021年5月31日深圳市人大常委会办公厅深圳经济特区数据条例(征求意见稿)2018年3月15日国家标准化管理委员会国家标准数据管理能力成熟度评估模型(DCMM)2021年6月10日全国人大会常务委员会数据安全法个人信息保护法数据安全管理办法构建数据安全保障,明确数据安全法律责任,完善监管体系2021年11月1日全国人大会常务委员会2019年5月28日国家互联网信息办公室个人信息安全规范2020年3月6日信息安全标准化技术委员会2020年2月27日工业和信息化部办公厅工业数据分类分级
22、指南(试行)11前言:数据与数据治理1主题:面向人工智能的数据治理2参与:行业规模与受益圈立足点3实践:高频高价值应用及数据痛点4案例:标杆企业与新锐势力5展望:治理陷阱与趋势洞察6122022.3 iResearch Inc. AI应用规模化AI技术创新应用大规模落地,带动大数据智能市场蓬勃发展近年来,随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互联网等泛C端领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生产活动主要环节的人工智能技术与应用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主
23、营业务相结合,以实现产业地位提高或经营效益优化,进一步扩大自身优势。AI技术创新应用的大规模落地,带动了大数据智能市场的蓬勃发展,同样也为底层的数据治理服务注入了市场活力。来源:2021年中国人工智能产业研究报告(IV),艾瑞研究院自主研究绘制。人工智能技术广泛渗透进经济生产活动主要环节政府金融互联网交通零售教育制造能源电力电信产品设计、定价及组合优化采购评估工艺优化货仓物流产能补充与作业效率提升情报大数据研判、决策支持客户触达营销运营管理调度运筹优化质控、风控和安全窗口服务远程办事远程作业人机对话交互设备运维故损分析该行业较少涉及该场景尝试应用AIAI价值得到验证,进入规模化落地AI示范项目
24、增加,形成典型应用场景图例医疗与制药132022.3 iResearch Inc. 2022.3 iResearch Inc. 大数据智能市场的行业规模2021年市场规模约为553亿元,金融数据率先得到价值释放据艾瑞咨询统计测算,2021年涵盖大数据分析预测(机器学习/深度学习模型)、领域知识图谱及NLP应用的大数据智能市场规模约为553亿元,预计2026年市场规模将达到1456亿元,2021-2026 CAGR=21.3%。随着市场大数据基础的完善与数据需求的唤醒推动,大数据智能市场的规模将持续走高,但未来在行业理性建设与增量市场逐步完善的大背景下,大数据智能市场增速会出现下降趋势。从细分结
25、构来看中,金融领域的数据价值率先得到释放,市场规模占比高达32%。来源:2021年人工智能产业研究报告(IV),艾瑞根据专家访谈、招投标项目统计推算而得来源:2021年人工智能产业研究报告(IV),艾瑞根据专家访谈、招投标项目统计推算而得2019-2026年大数据智能市场规模2021年大数据智能市场规模细分结构32141755368684410151215145630.0% 32.6%24.0% 22.9%20.4%19.6% 19.8%-200.0%-150.0%-100.0%-50.0%0.0%50.0%-300200700120017002200201920202021e 2022e 2
26、023e 2024e 2025e 2026e大数据智能市场规模(亿元)大数据智能市场增长率(%)金融32%互联网12%医疗11%工业10%其他35%142022.3 iResearch Inc. 2022.3 iResearch Inc. 84514304643586872992011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021大数据智能市场投融资事件数量(起)大数据智能市场的投融资热度融资规模稳步提升,事件数量创历史新高从2011-2021年的投资数量来看,资本市场对大数据智能市场的关注度不断提高,融资事件逐年攀升,2021年大数据智能
27、市场单年投融资数量已高达99起;从2011-2021年的融资轮次来看,C轮及早期投融资事件占比达到50%。受政策的高度支持与技术的成熟推动,大数据智能应用在多行业的成功落地极大地增强了市场与投资者的信心,“大数据智能”标签已成为市场创业与投资的热点,具备市场想象空间与明确使用价值是企业早期吸引投资的关键。来源:艾瑞研究院根据融资网站数据调整与处理绘制注释:其他包含IPO上市与基石投资轮。来源:艾瑞研究院根据融资网站数据调整与处理绘制2011-2021年大数据智能市场投融资事件数量2011-2021年大数据智能市场投融资事件轮次情况共计447起事件C轮及早期投融资事件:占比50%70252193
28、1294153049114527其他股权转让股权融资定向增发并购pre-IPO战略投资E-E+轮D-D+轮PreC-C+轮PreB-B+轮PreA-A+轮天使轮种子轮大数据智能市场投融资事件数量(起)152022.3 iResearch Inc. 大数据智能产业生态圈注释:以上厂商与行业为不完全列举,排名不分先后。来源:艾瑞研究院自主研究绘制。提供数据基础咨询公司大数据智能数据可视化/数据分析AI基础数据服务数据治理服务数据库/数据仓库咨询服务合作提供AI基础数据解决智能应用场景痛点咨询服务部署实施合作提供基础服务外包数据治理提供数据平台数据基础设施芯片IDC网络基础智能硬件云服务金融其他零售
29、医疗工业行业应用行业客户大数据产业图谱与数据服务关系链提供数据治理服务大数据平台/数据中台基础云服务162022.3 iResearch Inc. 面向人工智能的数据治理:需求传导人工智能应用引发的数据治理需求企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作
30、。来源:艾瑞研究院自主研究绘制。AI应用对数据治理需求传导图AI应用的数据要求数据治理的需求传导基于AI应用的数据治理需求数据规模挖掘企业内外部信息,纳入结构化数据、半结构化数据和非结构化数据,提升与AI模型相关的数据积累。数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此建立针对性的数据治理体系特征工程AI模型需纳入实时数据,构建批流一体的数据聚合计算模式传统的数据治理更多是以人为面向对象,基于有限数据容量进行聚合类信息展示,AI可以接纳的数据量远远大于人所接纳的数据量和信息量,且可用高质量数据越多,模型质量和准确性越好。AI应用,尤其是知识图谱的搭建,需要大量的半结构化和非结构化数据
31、支持来开展工作。因此AI应用在结构化数据的基础上,会将各类半结构化或非结构化数据纳入数据源并支持上层分析应用。AI模型对数据高度敏感,其质量优劣极大程度影响AI模型的应用效果,因此AI数据源需极力规避“garbage in, garbage out”的问题发生,多维度的质量检查成为必修课。AI模型对实时性要求高,大部分应用需基于实时数据实现分析、推荐和预警等目的,支持AI应用的数据源更强调具备实时性接入能力。接入实时性数据1)多个数据源下的数据内容不一致等问题2)缺失值、缺失字段;3)错误值、异常样本;数据融合&质量优化融合结构化数据、半结构化数据和非结构化数据,进行以AI应用为目的的特征工程
32、接入多源异构数据源数据类型数据质量数据实时性172022.3 iResearch Inc. 面向人工智能的数据治理:反复治理面对反复的治理工作,搭建针对性体系解决重复性环节数据治理在人工智能项目的实施中花费90%以上的精力,而面对企业的各人工智能项目,在AI数据层面多存在反复治理工作,极大拉低了AI应用的规模化落地效率。借助有效的方法论和实用的工具提高数据治理的效率,是企业管理数据资产与实现AI规模化应用的重要课题。搭建面向人工智能的数据治理体系,可将面向AI应用的数据治理环节流程化、标准化和体系化,降低数据反复准备、特征筛选、模型调优迭代的成本,缩短AI模型的开发构建全流程周期,最终显著提升
33、AI应用的规模化落地效率。来源:艾瑞研究院自主研究绘制。搭建面向人工智能的数据治理体系 解决AI数据的重复性“治理”反复准备数据反复特征筛选反复模型调优反复模型迭代数据收集数据选择数据清洗特征抽取特征构造特征选择运营监控模型自学习模型更新模型训练模型调参模型评估182022.3 iResearch Inc. 面向人工智能的数据治理:体系搭建吸收传统体系智慧沉淀,以AI应用数据需求为核心优化建设面向人工智能的数据治理是传统数据治理体系在以AI应用落地为导向下的体系“升级”。从数据管理维度来看,在接入并处理分析半结构化数据、非结构化数据与流式数据的多源异构数据基础上,面向人工智能的数据治理体系仍会
34、根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理,满足AI模型所需数据的规模、质量和时效,以AI应用的数据需求为核心,优化对应模块的体系建设。来源:艾瑞研究院自主研究绘制。数据源流式数据其他系统数据结构化数据半结构化数据非结构化数据数据接入数据采集数据存储分布式关系数据库分布式NoSQL数据库分布式文件系统数据仓库数据湖数据治理元数据管理企业大数据智能/人工智能应用数据资产管理主数据管理数据生命周期管理数
35、据安全隐私管理数据标准管理数据质量管理全量抽取增量抽取实时抽取基于AI模型的训练、推理对企业数据原料的高质量要求,面向人工智能的数据管理体系打造升级针对性的“数据标准管理体系、数据质量管理体系与特征管理中台”。以AI模型落地应用为角度出发,对数据质量进行多维度的评估治理,并在数据汇入标准基础上统一数据模型开发与特征化工程标准,为企业AI数据沉淀复用打下优质基础。DB2DB2DB2文本XML视频音频面向人工智能的数据治理体系吸收传统体系智慧沉淀针对性优化建设特征管理中台192022.3 iResearch Inc. 面向人工智能的数据治理:数据准备基于AI模型需求明确数据的特征准备、实时与否和闭
36、环流通从搭建流程来看,AI模型可大致分为离线训练和上线推理两个阶段。离线训练时,需基于AI模型运行目的确认数据采集来源,选择数据对应的时间间隔和时间节点,让AI能够在离线建模及上线运行后获取真实业务数据,模型训练效果能够保质保量落地。如果模型需要AI数据的实时接入,还需打造批流一体式的产品体系。基于实时数据处理、实时特征开发和实时应用开发等数据架构搭建批流一体的数据产品,将流式数据的接入实时反馈到模型运行输出,使模型结果更加及时准确。另外,AI模型上线后,需达到AI数据的闭环流通,通过打造数据采集和回馈分析的闭环式自学习体系,达到AI模型上线后的持续迭代优化。来源:艾瑞研究院自主研究绘制。AI
37、模型的数据准备时序性AI数据的闭环流通AI数据的时间选择AI数据的实时接入时序性数据为按照时间维度索引的数据,描述了数据产生主体在某时间范围内的时点上的产生值。面对时序性数据,需准确记录每个数据的产生时间点,并基于AI模型运行目的选择所需数据的时间间隔和时间节点。比如,若想通过AI模型去预测分析某导演A电影的上映票房 ,则需选择该导演A电影上映以前的历史票房数据作为模型原料,而不能将A电影上映以后的电影票房数据计算在内,避免AI“偷看”未来数据,给模型判断结果带来偏差。在批式数据(全量)基础上,将流式数据(增量)纳入模型计算,打造“批流一体”的数据产品,使模型分析结果更加实时准确,满足用户对动
38、态变化的场景可即时作出反应的需求为了让AI模型的预测结果更加准确,可将模型运行后的结果数据更新反馈给AI模型,利用实时闭环数据进行自学习,强化反馈回路以优化模型算法,防止模型效果因搭建时间久远而衰退。比如,在智能推荐模型上线后,如果持续用静态模型预测动态数据,不更新闭环数据反馈的话,随着时间的流逝,模型将逐渐降低精准推荐效果,导致业务决策的效果越来越差。实时特征开发实时AI应用开发判断是否需要需达成实时推荐 /实时交易反欺诈 /实时订单监控.运行数据反馈更新保证离线和在线的特征开发标准一致确认AI模型所需数据的采集来源,对接企业IT系统获取数据源202022.3 iResearch Inc.
39、面向人工智能的数据治理:数据质量对应AI应用的高质量要求,唤醒沉睡数据,挖掘核心价值多源异构数据的质量管理体系可从数据有效性、数据一致性、数据唯一性、数据时序性、数据完备性、数据完整性、数据合理性和数据准确性六个维度建立。其中,传统数据治理体系同样会高度关注数据的有效性、一致性和唯一性,但当数据治理范围扩大到多源异构数据时,需在数据融合过程中对这三个维度进行重新判断,例如非结构化数据在清洗处理后与结构化数据出现实体重复或内容不一致的情况;数据时序性是对数据时间维度的质量要求,从AI应用模型的需求出发,考虑数据接入的实时性和如何选择数据的时间间隔;数据完备性和数据完整性是对数据选取的评估维度,数
40、据完备性要求数据需符合多维度字段特征以满足建模,数据完整性则对数据从历史到上线反馈的完整性接入以达到优质闭环;数据合理性和数据准确性则是对数据本身表达的更高质量要求。传统数据治理体系为做数据可视化和数据基本分析应用服务时,不会过多考虑到数据分布是否合理及表达内容是否准确等问题。然而在AI模型开发训练时,数据的合理分布和准确表达极大程度上决定了AI模型的分析决策效果,因此在面向人工智能的数据治理体系中,数据合理性和数据准确性的质量评估是体系需重点关注提升的维度模块。来源:DAMA数据管理知识体系指南第二版,艾瑞研究院根据参考资料与专家访谈自主研究绘制。多源异构数据的质量管理体系数据有效性即数据值
41、与定义的值域(有效值/有效参考范围/通过规定确定的值)一致数据一致性即数据属性表达一致,数据一致性是数据标准化的基础,确保数据符合内容和形式规范数据唯一性即数据集的实体不会重复出现。对数据进行去重,底层实现数据一致性管理数据时序性一方面需根据数据更新频率和数据需求时效判断数据的及时性,一方面需根据AI模型的需求结果判断数据选取的时间间隔数据完备性数据完整性数据合理性数据准确性即数据字段维度是否符合AI建模要求。尤其对于非结构化数据来说,需要有足够完备的数据基础可提取到建模时所需字段特征AI 应用的算法模型不仅需要业务历史数据训练,也需及时更新模型上线后的数据,基于反馈对模型进行不断的迭代优化,
42、打造优质数据闭环即数据模式符合预期的程度。或通过基准数据比较,或基于过去相似数据集实例判断数据的分布、变化和模式是否合理,是否出现异常值影响建模效果即数据正确表示“真实”实体的程度。数据准确性是基于数据有效性和数据合理性的进阶版,需人或机器基于事实或规则判断数据是否准确212022.3 iResearch Inc. 面向人工智能的数据治理:数据标准为AI模型开发提供“一致的数据语言”,实现数据复用共享数据标准是数据治理工作的开展基础,为AI模型开发及应用提供“一致的数据语言”。在面向人工智能的数据治理体系中,数据标准的建立仍是数据实现共享流通、价值挖掘的核心环节。企业根据对应的国家标准、行业标
43、准、地方标准等规范,结合自身情况和业务术语参考,以AI应用需求圈定的数据范围为治理导向,构建相关基础数据标准、指标数据标准和数据模型标准,形成全局统一的数据定义与价值体系。来源:艾瑞研究院自主研究绘制。多源异构数据的标准体系国家标准行业标准地方标准业务术语基础数据标准指标数据标准数据模型标准数据元代码集编码集指标参照&指标源系统指标名称指标定义指标口径使用场景数据元,专业定义又称数据类型,是通过定义、标识、表示以及允许值等一系列属性描述的数据单元。通过对数据元的标准化,可以让企业人员对数据达到一致的理解、记录与应用,有效增加跨部门跨系统的数据共享与沉淀复用,减少对数据的重复性沟通。通用属性行业
44、属性例:人口相关的数据元包括姓名、身份证件名称、身份证件号码、性别等代码表是能够完整表达特定业务对象某个特性的全部值的集合,一般与对应的数据元配套使用,作为数据元表示中的值域,可作为统计分析维度为机器和人类使用。例:性别代码:0为未知性别,1为男性,2为女性,9为未说明的性别将文字、标点符号、图形符号等字符转换为计算机可以接受的数字系统的规则。例:GB2312编码指标在数据基础上增加了计算和统计维度,是反映了企业经营管理在一定时间和条件下的规模、程度、比例、结构等的概念和数值。指标口径不统一指标体系不完整指标问题追溯难指标数据通常从企业管理和经营需求角度选取,达到企业数据的灵活使用与准确分析,
45、指标数据的标准化可以保障跨部门之间对指标展现有统一理解认知,带来企业数据应用的价值提升。需建议统一指标体系数据模型是用于表示一组数据和概念的定义,即数据的数据结构,可理解为元数据的标准化,从源头提高数据的一致性。在传统数据治理中,数据模型标准的统一多为规划数据的存储结构,以数据表述数据,方便数据共享。但在面向AI的数据治理中,因面向上层应用,因此数据模型的概念会被扩大,不仅仅为元数据的标准化范围,还会包括如何让机器理解数据的数据开发模型,即特征工程。数据开发模型的标准化可有效实现面向AI应用高质量数据的高效复用,减少AI数据反复清洗、标注的成本,实现AI应用的快速落地与高效复用。数据存储结构的
46、标准化-元数据的标准化数据开发模型的标准化-特征工程的标准化&特征管理中台222022.3 iResearch Inc. 面向人工智能的数据治理:特征管理将多源异构数据源转化为机器可理解的“结构化数据”在圈定AI数据源范围并接入相应数据后,特征管理中台会对数据进行预处理,基于AI应用的数据要求处理缺失值、异常值、重复值和数据格式等问题,而后经过特征工程转化为人工智能模型可理解的结构化数据。在特征化工程环节中,面向人工智能的数据治理体系可浓缩沉淀业务场景中的数据治理和模型开发经验,对AI数据形式进行标准定义,搭建特征管理中台,将特征工程环节标准化、自动化、智能化,快速对接得到可被机器理解的优质结
47、构化数据,投喂给AI模型。来源:艾瑞研究院自主研究绘制。让机器 “理解”多源异构数据的流程图面向人工智能的数据治理覆盖环节结构化数据面对多源异构数据源,面向人工智能的数据治理体系会结合AI模型需求,以AI应用落地为导向,选择性圈定数据治理范围,并对数据源的对应调取给到梳理参考半结构化数据优质结构化数据用于人工智能算法模型的调优训练-模型上线非结构化数据可被机器理解的结构化数据数据预处理特征抽取特征构造特征选择模型训练缺失值处理异常值处理重复值处理数据格式处理特征化工程 挖掘有效特征:利用机器学习/深度学习技术,对企业的结构化数据、半结构化数据和非结构化数据进行降维与特征抽取,去除原始数据中的杂
48、质和冗余,将其转化为人工智能模型算法可理解的结构化数据,可从语义层面进行深度关联和融合,根据场景需求特性选取适配的结构化数据,展开AI模型的调优训练,并基于AI应用需求进行数据源的持续性优化。隶属于数据质量评价体系,在数据源进行特征化工程前进行数据清洗,达到质量提升数据标准特征工程 特征管理中台面向人工智能的数据治理体系会浓缩沉淀业务场景中的数据治理和模型开发经验搭建特征管理中台,对AI数据形式进行标准定义,将特征工程标准化、自动化、智能化,快速对接得到可被机器理解的结构化数据,投喂给AI模型。数据质量数据标准体系:在数据共享互通的标准化基础上将AI数据形式标准化,实现AI数据的快速转化对接数
49、据质量 提升特征提取范围 提升特征提取精度&颗粒度从小数据量+低特征维度升级为大数据量加高特征维度232022.3 iResearch Inc. 面向人工智能的数据治理:效果优化显著提升AI应用的规模化落地效果来源:艾瑞研究院自主研究绘制。来源:艾瑞研究院自主研究绘制。体系搭建-效果优化关注环节问题优化效果数据采集准备数据质量&标准数据特征维度模型迭代优化 未考虑数据时序性 时效性差,难支持数据实时接入 基于AI模型运行目的选择所需数据的时间间隔和时间节点 接入实时性数据,打造“批流一体”的产品架构数据价值离线实时 离线建模的时候获取真实业务数据 接入实时性数据,发挥数据时效价值时间 多源异构
50、数据的质量待优化 数据标准不统一,难以共享复用 重复性特征工程 特征维度低,模型欠拟合 打造多源异构数据的质量管理体系,从六维度针对性评估提升数据质量 构建基础数据标准、指标数据标准和数据模型标准,在数据共享流通基础上为模型开发提供“一致语言”数据质量管理体系数据标准体系 为AI模型提供高质量数据原料,提高模型拟合效果 一致性语言减少数据反复治理工作 沉淀AI项目的数据治理经验,构建特征管理中台 提升特征提取范围、精度和颗粒度,从小数据量+低特征维度升级为大数据量加高特征维度特征管理中台 减少重复性特征工程的精力投入 指数级提升数据的特征维度,优化模型拟合效果 模型上线后不迭代优化,随时间流逝