《艾瑞咨询:2022年中国数据中台行业研究报告-2022.11.pdf》由会员分享,可在线阅读,更多相关《艾瑞咨询:2022年中国数据中台行业研究报告-2022.11.pdf(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中国数据中台行业研究报告2022.11 iResearch Inc.22022.11 iResearch I摘要来源:艾瑞咨询研究院自主研究绘制。云原生是当下最为确定的技术趋势,存算分离、微服务、ServerLess等核心技术要素驱动数据中台走向云原生。数智融合理念将AI算法模型植入数据治理,高质量数据反哺AI开发能力,让数据和AI开发高效互通。泛中台化趋势明显,业务场景需求的解决方案/产品趋于“中台化”,以数据中台为基础的中台体系不断丰富。狭义来看,数据中台是一套实现数据资产化和服务复用的工具;广义来看,数据中台是一套运用数据推动企业数字化转型升级的机制和方法论。数据中台始于业务数据的沉淀积
2、累,用于数据的收集、整合、分析及应用,循环往复,形成生态闭环。当前数据中台的行业集中度仍保持较低水平,行业的活跃参与者大致分为平台生态厂商、解决方案厂商和独立中台厂商三类,行业格局由竞争转向竞合,以协同生态为核心,集众所长,将成熟的技术方案与行业服务经验结合,协同拓展应用解决方案的广度和深度,深耕于金融、泛零售、政务、制造、工业等多行业应用场景。2021年数据中台市场规模达到96.9亿元。在供给侧,行业的生态化合作趋势明显;在需求侧,企业对数据中台的关注点从中台本身转向了最终的数据变现能力。行业集中度和成熟度持续上升,整体规模稳步增长,增速趋于平稳,预计将在2024年达到187.4亿元。3数据
3、中台行业全景2数据中台产业实践3典型企业案例4数据中台概述1行业前景展望542022.11 iResearch I定义始于业务,用于业务,生态闭环,源源不止数据中台是一种数字化综合解决方案。数据中台采集、计算、存储和处理海量数据,保证数据的标准统一和口径一致,建立全域级、可复用的数据存储能力中心和数据资产中心,组件化服务模块,提高数据共享和复用能力,灵活高效地解决前台的个性化需求。狭义来看,数据中台是一套实现数据资产化和服务复用的工具;广义来看,数据中台是一套运用数据推动企业数字化转型升级的机制和方法论。相较数据工厂时代,数据中台立于业务数据的积累沉淀,破于数据收集、整合、分析及应用的生态闭环
4、。数据中台始于业务,用于业务,循环往复的理念与数据价值时代下数据资产价值最大化的目标相契合。来源:艾瑞咨询研究院自主研究及绘制。数据中台核心架构数据采集数据库日志数据数据应用网页及埋点数据移动设备数据物联网数据存储计算事务性功能HDFSMPPSparkFlink数据治理架构规范管理数据治理机制元数据管理主数据管理数据分布数据模型数据标准数据资产资产目录即席查询在线查询鉴权管理数据服务API服务分析型功能数据运营管理数据安全管理52022.11 iResearch I2022.11 iResearch I驱动因素:宏观层数据量规模快速扩张,数字化进程加快,技术更新迭代新冠肺炎疫情加速推动了从个体
5、、企业到政府全方位的社会数字化转型浪潮。企业方面,疫情的出现为企业数字化转型按下了“加速键”,在线办公、在线交易等线上化运营方式为企业在特殊时期保持正常运转提供了支撑。政府方面,政府的数字化应急能力和在线政务服务能力在疫情下不断“淬炼”,在线服务指数由全球第34位跃升至第9位,迈入全球领先行列。据Gartner预测,2025 年全球将有309亿设备接入物联网。物联网设备产生海量数据,对这些设备的运营、监控以及安全保障,离不开大数据技术的支撑,反过来也推动了大数据技术的进步。云计算以及云计算环境下大数据技术的成熟,使构建一套大数据系统变为低门槛、快速启动的项目,且随着业务增长进行无缝的技术增长,
6、只需为实际使用的计算和存储资源付费,大幅降低了使用门槛。来源:wind,艾瑞咨询研究院整理及绘制。来源:wind,艾瑞咨询研究员整理及绘制。2005-2021年中国数据经济规模及全球占比22 32 49 64 83 92 99 101 114 3 5 10 16 27 31 36 39 45 12%15%19%25%33%34%36%39%39%200520082011201420172018201920202021国内生产总值(万亿元)中国数字经济规模(万亿元)中国数字经济规模占比(%)2015-2030年中国数据量规模及全球占比3124917523%24%28%29%20152020202
7、5e2030e中国年数据量(ZB)中国年数据量全球占比(%)62022.11 iResearch I2022.11 iResearch I驱动因素:行业层大数据核心技术和产品受关注程度高,产业发展再升级大数据技术和应用成为国家基础性战略支撑,是打造数字经济新优势、加快数字社会建设步伐、提高数字政府建设水平的重要力量,因此大数据核心技术创新和产品升级受关注程度高,产业发展具备充足的空间和潜力。随着5G、AI、物联网等技术的普及应用,数据应用场景被释放,数据源不断丰富,数据量快速攀升。云原生技术使企业组织能在公共、私有和混合云等现代动态环境中构建和运行可扩展的应用程序,是继云计算之后,数据基础设施
8、领域实现新增长的重要拐点。在基础软件方面,数据中台、数据治理、数据安全等产品引领细分市场发展。在应用软件方面,BI、可视化、图像分析等产品也备受关注。从企业和行业应用来看,企业更加注重运用数据技术向精细化运营、信息化决策演进。行业应用聚焦于软件和信息技术服务、互联网等领域。来源:工信部,艾瑞咨询研究院整理及绘制。来源:工信部,艾瑞咨询研究院整理及绘制。2014-2021年软件和信息服务业收入增长情况2020-2021年月度互联网业务收入累计增长情况37026 42848 48232 55103 61909 72072 81586 94994 16%13%14%12%16%13%16%20142
9、015201620172018201920202021软件业务收入(亿元)增速(%)29%29%28%24%26%26%25%25%23%22%21%5%2%5%15%14%15%14%14%13%13%13%1-2月1-3月1-4月1-5月1-6月1-7月1-8月1-9月1-10月1-11月1-12月2020年(%)2021年(%)72022.11 iResearch I驱动因素:企业层搭建全栈式的数据功能集成平台,发挥数据资产价值企业的数字化进程不断加快。企业内部和上下游之间的合作越来越依赖各类数据平台和数字化工具,但又形成新的痛点和症结。一方面是缺少统一的业务系统集成途径,数据格式和协议
10、多样化,导致数据难以传输和集成,另一方面是缺少与上下游企业分享数据和API服务的便捷途径。此外,中国SaaS在疫情爆发后迎来了高光时刻,但企业系统运行在多云环境中,私有端大量业务系统与云端系统形成了错综复杂的关系,最终无法快速响应业务需求,阻碍业务创新。企业需要打造一个统一的数据功能集成平台,形成统一的数据资产,提供统一的数据服务,简化开发,敏捷集成,实现业务系统协同和业务需求敏捷响应,真正实现“让数据资产发挥价值”。来源:艾瑞咨询研究院自主研究整理及绘制。数据功能的集成化数据功能集成化业务系统集成途径不统一,重复开发现象严重,效率低下;数据服务接口标准不统一,扩展能力差;数据治理标准不统一,
11、无法进行全域数据治理;业务需求响应不及时,创新能力差,效率低。业务系统的集成结构和服务关系清晰;数据服务接口标准统一,开发效率高;数据治理标准一致,可做到全域数据全生命周期的治理;业务系统协同,可实现敏捷开发。统一的数据功能集成平台错综复杂的集成关系82022.11 iResearch I价值核心价值:提升数据治理,改造业务流程,深化数据应用来源:艾瑞咨询研究院自主研究及绘制。数据中台致力于解决原有数据关系及SOA架构解决企业“数据烟囱”问题,打通数据孤岛,通过完善数据标准体系、强化数据质量管控、统一管理元数据等方式加强数据治理,提升数据可用性,实现数据资产化。数据中台在改造企业业务流程,打通
12、数据壁垒的同时,也打通了企业部门间和事业群之间的业务壁垒,消除“部门墙”产生的冲突,极大提升了企业组织灵活性。数据中台的设计定位是基于企业的顶层战略,集中体现了企业的顶层框架和业务逻辑。数据中台对企业全域数据资产进行开发和应用,实现了统一可比可算,让数据具备了敏捷服务能力,满足了企业各层级对数据服务能力的智能和快速调用,让数据价值最大化赋能业务决策。数据中台核心价值运用可共享复用的数据管理工具进行数据治理,形成统一的数据标准,并结合可视化工具,提升数据质量和数据管理效果。提升数据质量加强数据与人工智能的融合,运用数据挖掘、AI预测等算法模型,加强数据的全生命周期治理,反哺AI算法模型,缩短数据
13、开发周期。丰富的算法模型通过构建通用的数据服用,并进行可视化处理,提升数据资产和服务的复用性,降低开发成本。降低开发成本通过数据治理形成可用的数据资产,降低数据开发难度,覆盖数据加工处理的全应用场景,为上层应用提供服务。构建企业数据资产通过数据安全模块对数据进行敏感级别设定,运用数据加密、脱敏等功能,提升企业的数据安全。提升数据安全92022.11 iResearch I争议搭台还是拆台,做厚还是做薄来源:艾瑞咨询研究院自主研究及绘制。随着企业数字化转型的深入和数据技术的不断推陈出新,关于中台的争议也开始出现,比如中台该做厚还是做薄等。艾瑞通过调研发现,这并非中台本身问题,而是不同群体的语境不
14、同,关注点不同。首先,数据和指标体系保持一致性的理念不会改变,且数字化程度越深,其价值越明显。其次,复用的理念不会改变,“重复造轮子”在大多情况下都不被允许。再次,数用一体、循环往复的理念不会改变。而以上三点,正是数据中台的理念基础,因此中台并不过时。在具体技术架构、产品形态和商业模式上,中台确需与时俱进。首先,传统意义上的广义中台将企业管理、平台建设、数据治理、数据运营,形成了大一统的系统,门槛较高,且任何一环出现问题都难以真正成功。随技术进步,原来需要人工去做的很多事项,都可以用工具和产品代替,在性能、功能、体验均不变情况下,中台变薄了。其次,中台本身也需解耦与分层,数据汇聚、治理为一层,
15、为数据管理层;数据服务与应用为一层,为数据应用层;安全、AI能力等,则纵跨两层。数据中台的解耦与分层数据安全管理主数据管理元数据管理数据模型管理数据治理数据汇聚离线同步实时接入异构数据可视化配置数据标准管理数据管理分析型功能数据应用数据服务鉴权管理API服务在线查询即席查询事务性功能数据应用数据运营管理AI能力102022.11 iResearch I延展技术与业务中台,支撑数据和应用服务技术中台抽象、封装和沉淀公共技术组件的可复用能力,以平台形式对外输出技术能力。技术中台核心特点为云原生和微服务,通过API网关实现前端逻辑和后端支撑的安全分离和独立开发,有效应对高频海量业务访问场景。技术中台
16、的设计和实施只需具备技术属性,不能把业务逻辑封装进去,否则就偏离了技术中台能力抽象与标准输出的本质。业务中台承载企业核心业务,实现企业级的业务能力复用和业务板块协同,提升创新效能。业务中台的典型特点是涉及领域多,需求变化快,业务场景逻辑复杂。在设计和实施中,需要划分业务领域边界,形成共享服务模块,建立分布式微服务体系,为前台应用提供可共享服用的业务能力。此外,也有观点认为业务中台偏事务,数据中台偏分析,但在本报告中,数据中台的概念本身已包括事务性需求。来源:艾瑞咨询研究院根据公开资料整理及绘制。中台基本能力架构技术中台关键组件技术中台业务中台 1数据中台数据采集数据应用数据开发数据服务业务中台
17、 2业务中台 3后台系统前台应用开发框架基础能力运行环境监控预警用户权限公共服务能力流程设计模型服务API网关服务鉴权服务路由降级限流前端开发框架微服务开发框架开发框架负载均衡微服务治理流量控制配置管理配置中心服务发现业务中台关键模块共享服务模块用户中心商品中心订单中心交易中心会员中心店铺中心评价中心支付中心物流中心搜索中心资产中心11数据中台行业全景2数据中台产业实践3典型企业案例4数据中台概述1行业前景展望5122022.11 iResearch I市场规模行业增速有所放缓,市场规模稳步增长来源:艾瑞咨询研究院根据企业年报等公开资料、专家访谈及自有模型统计核算及绘制。我国数字经济蓬勃发展,
18、企业数字化转型步伐不断加快,数据技术加速创新融合应用。2019年是数据中台元年,行业快速完成了萌芽期和成长期的积累,正在积极向成熟期过渡。从供给侧看,生态化合作趋势明显,一方面云厂商在各垂直领域加速布局合作生态,配合生态伙伴的行业积淀和服务协同,使得个性化部署能力和实施效率显著提升;另一方面,部分独立厂商融合云厂商的底层平台能力,结合自身的技术创新和专项优势,发布多样化的数据中台产品。在需求侧,企业对数据中台的关注点已从中台本身转向了最终的数据变现能力,对中台的理解不断加深,需求也更加明确。此外,在疫情影响下,企业的价格敏感度上升,驱动厂商积极探索业务模式创新和服务升级。数据中台行业的集中度和
19、成熟度持续上升,整体规模稳步增长,增速趋于平稳。2019-2024年中国数据中台的市场规模37.8 68.2 96.9 126.0 156.2 187.4 80%42%30%24%20%2019202020212022e2023e2024e数据中台市场规模(亿元)增长率(%)132022.11 iResearch I产业图谱行业千帆竞发,厂商百花齐放,市场格局初显来源:公开资料,艾瑞咨询研究院整理及绘制。近些年,在大数据、云原生、人工智能等技术发展和企业数字化转型加速的双重驱动下,数据中台在多场景快速落地。从厂商类型来看,平台生态厂商、解决方案厂商、独立中台厂商以及自研厂商的边界开始模糊,数智
20、服务的生态协同明显。从市场格局来看,云服务厂商依托完备的服务体系和强生态能力,输出方法论、技术及工具,建立行业服务体系;产品厂商凭借创新技术能力和垂直行业深入的业务认知,取得行业积累,提升品牌竞争力。数据中台产业链生态图谱数据中台厂商类型平台生态厂商解决方案厂商独立中台厂商自研厂商142022.11 iResearch I行业格局从竞争到竞合,破壁搭桥提升数智服务,生态协同正当其时厂商发展逻辑正从竞争转向竞合,以协同生态为核心,集众所长,合力拓展协同应用解决方案的广度和深度。平台生态厂商拥有内部率先落地中台战略,之后对外提供服务的先发优势,为行业发展输出方法论、技术和工具体系,商业模式以“提供
21、云基础服务,生态伙伴实施交付”为主。解决方案厂商积累了丰富的垂直行业服务经验和客户服务基础,可快速准确洞悉企业业务流程和痛点需求,但项目实施交付一般需要外部提供数据能力支持。独立中台厂商核心技术团队普遍来自行业头部厂商,技术背景扎实,行业经验过硬,但品牌影响力相比平台生态厂商较弱。来源:艾瑞咨询研究院自主研究及绘制。数据中台厂商生态平台生态厂商独立中台厂商解决方案厂商协同生态用户提出中台建设需求提供云基础和咨询服务中台实施交付输出技术工具体系作为生态伙伴参与大型项目中小型项目独立提供中台建设用户数据能力(非必要)提出中台建设需求中台实施交付152022.11 iResearch I2022.1
22、1 iResearch I行业挑战产品化和项目制之间的平衡问题来源:艾瑞咨询研究院根据公开资料自主研究及绘制。来源:艾瑞咨询研究院根据公开资料自主研究及绘制。在投融资领域,SaaS理念被众多投资人所青睐。是否云上部署,是否订阅且高续约,是否较少二开,是判断SaaS属性的重要指标。当前,中台以服务中大型客户为主。客户的大数据量及对数据安全的特殊要求,导致较少采用全公有云的部署模式,大多仍采用类项目制(含一次性和私有订阅)的形式。并且,中台尤其是业务中台部分,需要对行业和客户有较深理解,在指标体系搭建、数据建模等环节,常需甲乙方深度配合,如果专心做通用产品,则在投标等环节并不占优势。不管是从业者,
23、还是投资人,都要深入思考:如何在产品和商业模式上下功夫,以寻求降低边际成本和满足客户定制需求的平衡。低零代码的技术理念,大核心研发+多个小行业交付的组织架构,积极发展生态合作伙伴,部分开源打造生态等,都是可供参考的选项。低零代码核心能力1数据模型驱动通过页面操作,方便灵活的进行模型定义,包括定义模型字段、相关数据表的关联操作,以及模型规则和索引,实现低零代码平台的应用对数据模型的便捷操作。234可扩展性一方面为前端和后端开发者提供熟悉的语言扩展,另一方面通过流程图等方式进行业务逻辑扩展,此外,通过API集成第三方系统和服务,为低零代码平台的应用提供灵活调用。一体化能力提供本地开发调试、版本回退
24、操作,有能力预留体验,且回退操作不影响发布态产物。最后,低零代码平台支持自动构建发布上线、免运费以及配套监控的一站式能力。可视化开发业务人员在可视化页面内通过托拉拽的方式形成前端语言交互,进而配置后端数据源和数据模型,定义并执行工作流,实质上通过可视化界面生成了可执行的计算机语言。研发核心核心研发+多行业交付的组织架构零售金融地产政务制造控制开发成本,提升厂商ROI:通过研发核心抽象和沉淀产品研发能力,提升产品基础侧的稳定性、拓展性和适应性,在不改变产品原有基础功能的前提下,节约厂商研发成本。同时,通过与企业IT部门、技术架构师等协调,与技术强的生态伙伴合作,制定科学合理的部署方案,以合理的投
25、入获得最大回报。16数据中台行业全景2数据中台产业实践3典型企业案例4数据中台概述1行业前景展望5172022.11 iResearch I需求诊断企业搭建数据中台应当按己所需,量力而为来源:艾瑞咨询研究院自主研究及绘制。尽管随着技术进步,中台实施难度逐渐降低,但仍然不是所有企业都适合中台建设。中台汇聚、打通的特点,要求企业已经或者在未来较短时间内会有大量的数据积累和应用。如果企业体量不大,或者企业体量虽大但业务单数较少,在数据需求出现时,一对一地解决,可能性价比更高。中台复用的特点,要求企业业务既不是完全一成不变的,也不是多业务线毫无关联的,如果企业业务非常稳定几乎无变化,则中台建设的必要性
26、不足。中台为整体解决方案的特点,要求企业有相应的配套机制,包括企业战略、组织架构等,如企业没有专门的数据部门仅靠业务部门,则企业数据建设容易陷入“公地悲剧”:每个业务部门都想使用数据,但谁都不愿贡献、建设、治理数据。总之,中台是一个基础设施,其以底层的稳态保障上层的敏态,以公共的建设保障各业务线的使用,以当前的重投入保障未来的高产出。凡企业不是此类规划的,均不完全适合,可以用中台里的某个模块如数仓、数据湖或主数据治理等先行解决当前问题。企业是否引入中台的考量要素信息化程度数据积累业务特征经营模式配套机制组织结构企业信息化建设程度已达较高水平,业务经营由多个信息系统支撑,且壁垒明显。企业已经或未
27、来较短时间内有大量的业务数据积累,对数据资产价值转化需求高。企业组织结构复杂程度高,跨部门协作障碍严重,已经显著影响到企业深度发展。企业拥有比较完善的配套机制,包括企业战略、组织文化、数据部门成熟度等。企业有多条产品线或横跨多业态,呈多元化经营,各部门需对各条线做分析决策。企业业务既不是完全一成不变,也不会有颠覆性变化,且业务线之间有所关联。182022.11 iResearch I整体分析金字塔型分析,由“虚”入“实”,从宏观到微观来源:艾瑞咨询研究院根据公开资料自主研究及绘制。中台项目实施难点,在于企业数字化过程中,虚实结合不到位。传统咨询常Top-Down打法,但往往是Top(规划)有了
28、,Down(落地)困难,常被称为“缺腿和脚”。纯技术出身的中台厂商则需补充Top-Down 的方法论。目前,大多中台厂商在为企业提供服务时,多采用从规划到组织再到工具的自上而下打法,这其中要么自建咨询团队,要么生态合作完成。企业首先要明确自己的使命、愿景(To-Be)和当前状况(As-Is),然后确定企业接下来一段时间的北极星指标,然后将该指标拆分为子指标,然后确定数据管理和应用体系,最后才是中台具体路线。一开始这些看上去较“虚”的动作,其实是中台能坚定、持续走下去必不可少的要素。这种方式,其实可以看成是“金字塔原理”以及“OKR”在数字化转型中的具体应用。所以,企业中台建设不仅是技术问题,更
29、是管理问题,是企业的一把手工程。中台建设的整体分析1使命愿景一般没有固定方法,主要看创始团队情怀,例如:以数智能力赋能业务,打造数据驱动的智能企业,让业务更加智慧。2当前环境分析汇集和筛选业内主要分析方法:SWOT分析、价值链分析、波特五力分析、波士顿矩阵分析、K-R策略分析等。3指标搭建北极星指标(SMART):S=具象化;M=可衡量性;A=可用性;R=相关性;T=期限明确。4企业架构企业架构的全球标准TOGAF:划分企业的四个关键领域;定义企业业务战略和组织;记录数据资产结构及数据管理资源。5具体实施192022.11 iResearch I核心方法论OneData+OneService+
30、OneID头 部 的 平 台 生 态 厂 商 在 内 部 落 地 中 台 战 略,获 得 检 验 后 对 外 输 出 成 熟 的 中 台 建 设 核 心 方 法 论:OneData+OneService+OneID。OneData的本质是构建从算法定义、数据研发到数据服务的统一指标和算法,数据采集、汇聚、清洗、加工、调动一次完成,避免因不同的业务场景造成不同部门对数据的重复建设,让数据成为可复用、可深挖价值的资产,而非拖垮业务推进的隐性成本。OneService的本质是数据即服务。传统数仓从不同的系统调用数据时受数据库权限限制,需要开发人员定制不同的访问接口,出错时还难以追溯影响到哪些应用和报
31、表。数据中台通过平台化的工具/接口,一方面为应用开发屏蔽了底层数据存储,提供数据查询统一接口,另一方面提高了数据应用的管理效率,建立了从报表到应用的清晰链路,提升数据开发的友好性。来源:阿里云,艾瑞咨询研究院整理及绘制。OneData+OneService+OneID实现路径OneIDOneModelOneServiceOneDataOneModel 统一数据构建管理规范定义建模,构建数据资产:细化指标定位;设计派生指标;基于数据分层。OneService 统一数据服务复用而非复制数据:屏蔽复杂的主题式数据服务;一般查询+OLAP+在线服务;屏蔽多源异构的数据服务。OneID 统一数据萃取实体
32、识别连接和标签生产:ID自动化识别和连接;行为元素和行为规则;标签生产。效率 大数据、微服务、高可用等技术开发门槛降低;研发和运维耗时降低,研发和运维效率提升。成本 烟囱式开发形成的数据孤岛被连接,人力成本降低;数据能力复用率提升,资源成本降低。质量 数据统一治理能力加强,数据稳定性得到有力保障;数据一致性、及时性和准确性得到提升。202022.11 iResearch I厂商选型人、活儿、事儿三方面考量来源:艾瑞咨询研究院根据公开资料自主研究及绘制。企业在中台选型时,应从人、活儿、事儿三方面进行考量。“人”是指:企业应该考虑中台厂商的团队背景,如是否有大数据背景,是否有行业背景。“活儿”是指
33、:目前中台厂商的产品中,哪些是开源的,哪些是自研的;如果是开源的,是否是主流且代表未来趋势的技术路线;如果是自研的,核心优势在哪,与开源产品的语法、体验等是否一致,会不会为自己带来相应IT人才的缺乏;各个模块之间是松耦合还是紧耦合;产品的使用门槛是否较低,体验是否良好。“事儿”是指:中台厂商在历史上,是否有本行业的成功案例,取得了哪些显著成果;中台厂商与本企业的其他系统(如ERP、CRM等)是否有成功的对接先例,从而在实施中可以提高效率并降低风险。中台选型考量要素厂商产品案例主要考量中台厂商用于部署中台的产品和技术,例如开源比例如何,开源产品在开源社区的活跃程度如何,未来的技术趋势怎么样;对于
34、商业或自研产品,使用门槛怎么样,较开源产品的亮点或优势体现在哪些方面,未来的可替代性和依赖度如何等等。活儿主要考量中台厂商的团队背景,包括团队技术背景、行业背景、服务能力、响应时效等方面。人主要考量中台厂商在中台解决方案方面已有的标杆案例,重点关注包括ERP、CRM等业务数据,内外部设备数据的对接等。事儿212022.11 iResearch I数据管理机制数据中台建设伊始来源:公开资料,艾瑞咨询研究院整理及绘制。企业要从烟囱式的多系统多平台向数据中台转变,建立统一的数据采集、处理、计算及服务平台,形成统一的数据管理机制是基础,实现路径大致可分为五步:1)明确建设思路。企业应基于自身业务现状,
35、梳理核心业务域,做到研发、制造、物流、营销、财务、人力等各业务模块的全覆盖,设计数据标准管理、数据质量管理、质量评价等相关管理流程,并责任到人。2)数据资产管理。支持资产归属、资产分类、资产概览、资产搜索、统计分析、血缘分析等功能,并提供多格式文件的导入/出。3)数据标准管理。支持信息架构管理、模板管理、逻辑建模、维度建模、模型物化、标准校验以及发布同步等功能。4)元数据管理。元数据管理是打破数据孤岛,实现数据统一治理的基础,需包含元数据采集、解析、管理、元模型管理、支持元数据展示和搜索等功能。5)数据质量管理。需具备质量规则,规则校验、质量监控、规则关联以及发布评价等功能。数据管理机制建设路
36、径建设思路资产管理标准管理结合企业业务现状设计数据管理组织,编制数据管理流程,明确数据责任人构建统一的数据模型、数据分布和数据流转方案基于业务现状调研,规划设计核心业务域,覆盖研发、营销、制造、财务、等不同业务模块支持按照企业组织架构灵活设置多级数据资产的归属部门,提供部门与数据集的归属关系,并以此进行管理支持数据资产按照一定的分类进行管理,可通过树型结构、网状结构进行管理,快速检索定位数据资产支持按业务域、业务主题、业务对象、对象关系、业务流程、业务属性的原则建设数据标准支持按照业务域模板化管理数据标准支持ER模型管理、逆向数据库、主外键管理、分区设计、临时表管理元数据管理将企业中技术元模型
37、、业务元模型、数据元模型、管理元模型等进行提炼管理,让企业各部门能够轻松、准确找到所需的数据具备元数据管理能力,查看和维护数据字典详细信息、具备数据血缘分析、影响力分析等功能质量管理支持预定义常见数据质量规则及自定义数据质量规则支持数据资产全目录扫描、支持质量告警及标识功能支持创建数据质量监控指标,设定相关监控阈值,支持数据质量告警模型开发关联数据标准和质量规则222022.11 iResearch I底座技术选型先进性和适应性应综合考虑来源:公开资料,艾瑞咨询研究院整理及绘制。中台技术,即广义的大数据技术(中台数字化咨询+大数据技术+数据治理与管理+数据运营)。由于大量行业客户,并不能自己玩
38、转大数据,所以一般需要“端到端”的产品或服务。供应商提供端到端服务,一般有几种路径:(1)公有云厂商提供从IaaS到SaaS的全套的云、数、智服务,一般云资源为自家提供,而数和智既可以选择云厂商自有组件,也可以选择开源组件。(2)部分厂商如Cloudera对不同的大数据组件进行组合,形成CDH和CDP套件。(3)解决方案厂商,基于客户需求和自身理解,利用开源技术,进行自由组合和二次开发。(4)独立中台厂商,基于开源+自研的方式,打造全链条产品和服务。(5)一些新型HATP厂商,通过对流数据的进一步融合,以更轻巧的方式满足中小企业的中台需求。在技术组件选择时,一般遵循以下原则:(1)确有明显优势
39、及取代趋势时,选择有优势的(如Flink相对于Storm)。(2)不同技术各有利弊时,根据自身业务、历史架构、供应商擅长综合选择。(3)供应商有深度自研的,除体验外,还应考虑后期服务的持续性以及自身IT人才的供给。常用的大数据技术大数据技术集群调度数据接入KubernetesYarnmesos日志数据埋点数据数据库数据网页数据物联网数据消息队列数据存储分布式文件存储NoSQL数据库ETL任务调度数据检索elasticsearchlucenesolr数据分析(OLAP)实时分析:DruidClickhouseDoris离线分析:HiveImpalaKylinPrestoSpark SQL数据计算
40、实时计算:StormSpark streamingFlink离线计算:MapReduceSpark232022.11 iResearch I2022.11 iResearch I数据治理元数据管理&主数据管理来源:公开资料,艾瑞咨询研究院整理及绘制。来源:公开资料,艾瑞咨询研究院整理及绘制。元数据中心技术架构基于统一API访问的元数据服务层数据血缘消息处理血缘清理数据字典连接管理器DDB接口Oracle接口MySQL接口Nest接口结构化数据源非结构化数据源数据特征标签管理访问热度数据搜索MySQLOracleDDBKafkaRedisNeo4j主数据管理实施方法论元数据管理用于确保全局指标的
41、业务口径一致,主要包含数据字典(描述数据的结构信息)、数据血缘(用于影响分析和故障溯源)以及数据特征(描述数据的属性信息)。常用产品分为:1)开源产品Metacat(擅长管理数据字典)和Atlas(擅长管理数据血缘);2)商业产品Cloudera Navigator。元数据中心对外统一提供API访问接口,数据传输、数据地图、数据服务等其他的子系统都可以通过API接口获取元数据。主数据管理用于提供完整、一致、准确、相应的主数据来源,以支撑跨部门、跨系统数据融合应用,四大关键功能为生命周期管理(编写主数据间的层次、关系及分组)、质量管理(建立主数据质量基线和评估改进程度)、协调功能(主数据管理系统
42、与业务系统集成)以及分析功能。主要解决方案厂商包括IBM、Informatica、Stibo Systems、SAP等国外大厂,产品成熟,但产品灵活性和扩展性不足,同时国内厂商如用友、浪潮等也在此领域崛起,不断灵活创新,更贴近企业需求。1.制定编码标准与业务部门共同确定主数据范围,制定编码标准,包括确定分类规范、编码结构、数据粒度、属性描述等。2.编制编码内容编制符合数据标准的主数据代码库,包括数据检查、数据排重、数据编码、数据加载、数据监控策略等。3.建设管理平台建设主数据管理平台,实现主数据申请、主数据管理和主数据发布功能、数据清洗。4.建立组织管理流程建立标准管理和编码管理的运维组织架构
43、以及考核流程,不断完善主数据管理流程和实现知识转移。实施方法论242022.11 iResearch I数据资产管理数据模型管理搭建数据中台的本质是构建企业公共数据层,把原先分散、烟囱式的数仓合并成可共享、可复用的数据中台,具体实施路径可概括为:1)接管ODS层,控制数据源头。ODS是业务数据进入数据中台的第一站,是所有数据加工的源头,应从业务系统的源数据库权限入手;2)划分主题域和拆分业务维度,构建总线矩阵。主题域是业务过程的抽象集合,划分时尽量涵盖所有业务需求,保持稳定性和扩展性;3)构建一致性维度。构建全局一致性的维表,确保维表只存一份。维度属性分为两种情况:公共维度属性与特有维度属性拆
44、成两个维表,产出时间相差较大的维度属性拆分成单独的维表;4)整合事实表。事实表整合的核心是统计粒度必须保持一致,不同统计粒度的数据不能出现在同一个事实表中;5)模型设计完成后,进入模型开发。数据全生命周期管理,ODS和DWD尽可能保留所有历史数据,DWS/ADS/DM需设置生命周期,可保留7-30天不等;6)应用迁移。进行数据比对,确保数据一致。来源:艾瑞咨询研究院根据公开资料整理及绘制。数据模型分层架构ADS数据应用层ADS层DWD公共明细层CDM层DWS公共汇总层DIM公共维表ODS层ODS操作数据层公共数据层(包括公共明细层 DWD和公共汇总层 DWS),负责数据加工与整合、建立一致性的
45、维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标,主要采用维度建模思路进行设计。CDMODS操作数据层,结构上与源系统的增量或者全量数据基本保持一致,相当于数据准备区,承担基础数据的记录及历史变化。原始数据经缓冲层(STG)加载,进入数仓的业务数据层,这一层采用范式建模,基本保持与数据源完全一致的结构,对于变化的数据,使用数据拉链加工与存储。ADS应用数据层,偏向应用的数据加工,也称数据集市层,这一层设计相对灵活,贴近应用,设计思想以维度建模为主。252022.11 iResearch I数据服务数据和应用之间的“桥梁”数据服务是数据中台的能力出口,是数据应用的重要支撑。企业
46、通过中台能力封装关键数据实体,将数据采集、数据传输、数据存储、数据处理、数据交换等数据的各种形态转化为可高效复用的软件服务。数据中台提供的数据服务可大致分为三类:1)主题式数据服务。基于元数据规范定义和建模,构建主题逻辑表,屏蔽复杂物理表,提供业务视角下的查询;2)统一且多样化数据服务。一站式提供一般查询、OLAP 分析、在线接口服务等查询和应用服务,便于数据跟踪管理;3)跨源数据服务。统一数据接入层,屏蔽多种异构数据源的读写差异,减少数据访问和应用成本。数据服务通过平台化、配置化的方式,快速生成API服务,减少定制化开发对不同工种的依赖,同时屏蔽底层数据的技术细节,让数据消费者无需关心数据的
47、源头问题,实现“数据即服务”。从实施路径来看,构建数据服务模块应具备以下五大核心能力,才能担起数据与应用之间的“桥梁”角色:来源:艾瑞咨询研究院根据公开资料研究及绘制。数据服务管理核心能力构建需求申请工单化出于数据安全以及业务需求考虑,接口配置权限需管控在具备数据开发能力的业务开发角色中,相应的接口需求申请流程、已有接口申请token复用流程,形成需求提交、工单流转、处理反馈的数据服务需求流程闭环。接口管理线上化所有接口视为数据资产进行线上管理,接口的需求元数据、技术元数据、业务元数据等信息完善,可查看接口文档、性能指标、流量控制、一键上下线处理。API接口服务配置化数据服务管理最核心的能力,
48、包含指标类接口、用户或商品维度的接口、模型输出类接口、个性化推荐类接口几大类。通过将接口生产流程产品化,业务人员实现数据和算法开发的自助配置上线。数据血缘可视化将平台内接口与模型、字段的血缘关系及接口与下游应用的关系数据,与模型加工产品的血缘链路进行关联补充,形成从源端数据到API以及下游产品应用的全链路数据血缘,通过可视化方式展示。性能监控实时化具备接口实时流量、超时率、平均耗时、日均请求次数、错误率等服务指标,做到异常报警通知,电话、短信、邮件多渠道,出现问题时第一时间跟进修复。262022.11 iResearch I2022.11 iResearch I数据保障数据运营+数据安全数据资
49、产运营的目标是将数据转化为可阅读、易理解、好使用、有价值的数据资产,通过有序的正向循环不断挖掘并提升数据资产价值,构建数据中台运营机制平台,即数据地图,主要包含:数据量指标、标签调用次数、表访问热度、表分区信息等,构建数据资产目录,帮助数据开发、数据分析师、数据产品运营快速发现数据,准确理解数据含义。数据中台的数据安全模块侧重于企业内部数据的安全管理,聚焦于大数据平台的安全管理技术手段,贯穿数据产生、存储、传输、使用、共享和销毁的全生命周期,各个环节基于不同的数据类型和使用者,存在不同的数据安全风险。常用的技术手段包括:1)统一安全认证和权限管理;2)对不同权限的数据资源进行隔离;3)数据加密
50、;4)数据脱敏。来源:艾瑞咨询研究院根据公开资料研究及绘制。来源:艾瑞咨询研究院根据公开资料研究及绘制。数据资产运营的能力实现有价值好使用易理解可阅读在数据资产使用过程中完整记录调用信息、效果信息、反馈信息等所有反映数据价值的信息,评估数据标签的重要程度。数据资产运营平台让业务人员直接了解数据信息,自主配置,解决难以描述数据需求的问题,缩短数据服务配置生成过程,降低数据使用试错成本。面向业务人员组织数据资产的标签化,包含标签名、标签描述、标签逻辑、取值类型等基础元标签信息,帮助业务人员深入了解和使用数据。通过构建数据资产展示地图,让业务人员可通过直接操作平台界面的方式获取数据资产信息,使数据信