《艾瑞咨询-2022年中国知识图谱行业研究报告-2022.8-78正式版.pdf》由会员分享,可在线阅读,更多相关《艾瑞咨询-2022年中国知识图谱行业研究报告-2022.8-78正式版.pdf(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中国知识图谱行业研究报告2022.8 iResearch Inc. 一图胜万言,一目了然2前言研究背景:研究对象:2020年,艾瑞已经发布了2020年中国知识图谱行业研究报告、2020年面向人工智能“新基建”的知识图谱行业白皮书,初步对知识图谱的概念定义、行业场景、整体市场规模与产业链等进行了梳理与分析。2022年,艾瑞将发布第三篇知识图谱行业报告,深入探讨知识图谱技术在通用知识图谱与行业知识图谱的企业诉求,剖析各行业的核心业务痛点,阐明知识图谱技术与应用对业务痛点的针对性与价值,对比各行业的知识图谱发展现状与潜力,展现知识图谱技术的建设重点与未来趋势。希望通过本报告,为读者呈现现阶段知识图谱
2、行业发展的要点,提供辨析和判断知识图谱行业趋势的方法启发。当然,限于研究周期与行业理解水平,报告仍有不足之处,敬请各界读者指正。本报告研究对象分为:通用知识图谱与行业知识图谱,包含互联网、金融、政务与公安、医疗、工业与电力5大行业的行业痛点、知识图谱应用场景及价值、市场规模;知识图谱现阶段的行业热点与建设痛点;知识图谱的行业参与者类型及业务特点。研究方法:本报告通过业内资深的专家访谈、桌面研究、案例实证研究、行业对比研究、投融资数据统计与行业规模数据推算输出相应研究成果。艾瑞咨询产业数字化研究部人工智能研究组报告撰写32022.8 iResearch Inc. 摘要来源:艾瑞咨询研究院自主研究
3、绘制。未来,知识图谱厂商、大数据厂商、NLP厂商、互联网大厂与信息化厂商等知识图谱业内参与者将从强化技术实力与深化行业认知的角度出发,结合自身原有业务优势,持续深化发展行业知识图谱业务。知识图谱业务场景也将不断迭代,行业应用场景边界拓宽,垂直应用场景被做深做透。知识图谱生态也将继续由监管引导方、供给方、需求方、投资方、高校及科研院所融合共建,汇聚建设合力,促进产业生态成长壮大。感知到认知的跨越式发展,须引入发展认知技术,知识图谱在此形势下成为了破局的关键技术。数字经济的持续发展将加速知识图谱产业化进度,推动知识图谱与传统产业融合。高性能图计算可为图计算输送更快更准的计算能力,服务于知识图谱运算
4、,算力规模化部署也为知识图谱计算的高密度、高功耗要求提供了有利发展条件。深度学习技术、NLP技术、知识图谱技术协同并进,尤其是NLP技术近几年的快速发展为知识图谱产业化提供了机会。知识图谱建设需面临的建设难点主要在于数据治理、行业专家储备、底层图数据库存储、算法生产流程与性能待提升、客户认知待培养以及产品封装形式待优化。攻克知识图谱的建设重难点将有利于从源头保证知识与智慧真实可靠、可用正确,储备培养深厚行业专家与技术复合型专家,升级底层图数据的存储方式,改善算法性能,为知识图谱建设减少阻碍。2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元,2021-
5、2026年CAGR=22.5%。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,同时具备建设意愿与资金投入,因而成为了市场规模的主要拉力。未来,随着政务数字化建设的完善,政务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。行业背景行业规模建设重点探讨趋势展望4研究范围界定及赛道评估1行业场景分析2优秀案例实践3建设重点解读4行业趋势洞察552022.8 iResearch Inc. 概念与研究范围界定描绘实体之间关系的数据结构语义网络知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组即“实体关系属性”集合
6、的形式来描述事物之间的关系。知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、预判、归类。知识图谱中的图并非图像概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。知识结构网络化、网络结构复杂、网络由三元组构成、数据主要由知识库承载是知识图谱的四大基本特征。一般而言,知识图谱的数据以文本化数据为主,数据化数据为辅。来源:艾瑞咨询研究院根据公开资料自主研究绘制。人工智能知识图谱实体关系属性抽象出来的事物或具体的事物作为主体,对应知识图 谱 中 的 节 点 / 顶 点(Point/Vertex)事物与事物之间的外部联系,对应知识图谱中的边(Edge)事物内部的
7、本质特征,是实体的固有特性,一般不体现在图表征结构中,而是蕴藏在实体内部或关系内部节点边同一类型的边和节点不同类型的边和节点知识图谱概念界定EntityRelationPropertyPart2: 赛道驱动力评估Part1: 研究范围预热铺垫属性 属性62022.8 iResearch Inc. 主要任务介绍五大任务,复杂关联推理为突破重点一般而言,知识图谱需执行的主要任务包括知识图谱构建与补全、实体统一(消歧)、实体分类、知识检索问答(简单推理)、复杂关系推理。现阶段的复杂关系推理需要更多依赖人类预测与推断各种可能的情况,并优先推荐可能性大的情况。来源:艾瑞咨询研究院根据公开资料自主研究绘制
8、。Task1:知识图谱构建与补全Task2:实体统一(消歧)Task3:实体分类e1e3e2e5e4e6r1r1r1r2r3r3r2e3r2e2、e4利用关联的三元组补全缺失的关系,实现图谱完整构建e3e2e5e4r1r1r1r2r3e1e1e1r1e2e3e4e5r3r2r3r3r4?KG1KG2把实际含义、属性一致的实体统一为1个将不同属性的实体按相同属性归为一大类知识图谱主要任务Task4:知识检索问答(简单推理)Task5:复杂关联推理水和二氧化碳反应可以生成什么?碳酸复仇者联盟黑寡妇的扮演者是谁?斯嘉丽 约翰逊并联电路各支路电压的特征?各支路电压相同蒙娜丽莎卢浮宫巴黎城市埃菲尔铁塔小
9、明男生晓莉达芬奇喜欢性别朋友感兴趣创作位于位于级别坐落于去过预测缺失的信息,推断行为与影响Part2: 赛道驱动力评估Part1: 研究范围预热铺垫归一72022.8 iResearch Inc. 技术架构原理技术架构分五步走,旨在构建实体语义网络 数据获取:主要获取半结构化数据,为后续的实体与实体属性构建做准备。结构化数据则为数值属性做准备。 知识获取:!从文本数据集中自动识别出命名实体,包括抽取人名、地名、机构名等;从语料中抽取实体之间的关系,形成关系网络;#从不同的信息源中采集特定的属性信息。 知识融合:!完成指示代词与先行词的合并;完成同一实体的歧义消除;#将已识别的实体对象,无歧义地
10、指向知识库中的目标实体。 知识加工:!构建知识概念模块,抽取本体;进行知识图谱推理,并对知识图谱的可信度进行量化评估,评估过关的知识图谱流入知识图谱库中存储,评估不过关的知识图谱返回一开始的数据环节进行调整,而后重复相同环节直到评估过关。 知识存储与计算:存储是为了快速查询与运用知识,需支持底层数据描述与上层计算,有的主体计算包含在存储中。来源:艾瑞研究院根据公开资料、专家访谈自主研究绘制。知识图谱技术架构图Step1:数据获取Step2:知识建模与知识获取Step3:知识融合Step4:知识加工结构化数据半构化数据实体抽取关系抽取属性抽取知识融合第三方知识库知识推理质量评估本体抽取知识图谱采
11、用NLP等技术提取结构化信息存储计算Step5:知识存储与计算Part2: 赛道驱动力评估Part1: 研究范围预热铺垫标准化数据*通用知识图谱先进行数据获取,而行业知识图谱先完成知识建模,再进行数据与知识获取,具体可见第四章实体对齐指代消解实体链接非构化数据82022.8 iResearch Inc. 主流产品类型成熟产品:通用互联网知识图谱;起步产品:行业知识图谱知识图谱的产品类型以通用知识图谱与行业知识图谱为典型代表。通用知识图谱经过开拓性构建阶段后,逐渐演变为通用互联网知识图谱,形成搜索引擎、智能推荐、智能问答三大产品类型,产品发展较为成熟。行业知识图谱处于起步期,但其价值及效果逐渐被
12、客户所认可,是知识图谱当前乃至未来一段时期内的发展热点。来源:艾瑞研究院根据专家访谈自主研究绘制。强调知识深度:行业知识图谱强调知识广度:通用知识图谱有哪些产品类型?覆盖哪些知识?用于哪些场景?搜索引擎、智能推荐、智能问答通用/垂类泛知识、百科常识、泛学科领域知识互联网的信息检索、商品/服务/视频/交友推荐、KBQA、KGQA等有哪些产品类型?行业知识图谱解决方案覆盖哪些知识?某一领域内专业的知识,如医学领域的脑卒中诊断依据哪些行业已经投入使用?金融、公安、医疗、电力、军工等产品处于成熟期通用知识图谱与行业知识图谱产品处于起步期产品成熟度时间产品成熟度时间Part2: 赛道驱动力评估Part1
13、: 研究范围预热铺垫92022.8 iResearch Inc. 产品形态解析满足其一即可认定为知识图谱产品,五种形态可相互嵌套来源:艾瑞研究院根据专家访谈自主研究绘制。聚焦:内部搜索引擎起源:网络搜索引擎升级:大数据知识图谱点睛:知识图谱可视化深化:行业知识图谱知识范围:广域网中的通用知识目标:形成通用知识图谱,使检索更准确,并进行相关推荐特征:通用性强,适合生活领域,需强大的爬虫能力举例:百科词条搜索、关键词相关推荐与问答知识范围:局域网中的专业知识目标:形成某一领域或企业内的知识搜索库,核心以搜索为主特征:通用性收缩,专业性变强举例:企业内部的业务知识检索与问答知识范围:某一领域内的大数
14、据成为知识资源目标:完成数据治理,进行知识与关系抽取,服务于组织的后续应用与业务分析特征:是数仓与BI数据分析的形式引申,原来纯知识搜索引擎的知识图谱变为大数据组织形式举例:数据中台/平台等大数据产品的知识图谱模块目标:进行知识与关系网络的直观展示,让人感知到图谱的存在特征:属于知识图谱行业解决方案/大数据产品中的子模块,是产生人机交互的节点举例:可视化大屏知识范围:某一领域内的数据、专业知识组合形成知识资源目标:将数据与知识转换为行业知识库,服务于辅助问答、推理、决策、判断特征:侧重于行业知识应用,具有强烈的行业属性,依赖于领域内专业专家的数据标注,每个行业都要设定特有的数据标准,需要单独构
15、建行业知识库举例:行业知识图谱解决方案知识图谱的产品形态颇有“盲人摸象”之意。各类厂商分别通过自然语言处理、知识库、数据库、数据平台或中台、机器学习等产品逐步接触到知识图谱,在已有的业务基础上叠加知识图谱产品,或开发出独立的知识图谱产品业务线。就当前的五大产品形态而言,其中的任意一种都可算作知识图谱产品,且知识图谱产品一般为五类产品形态的排列组合复合体。主流的知识图谱产品形态Part2: 赛道驱动力评估Part1: 研究范围预热铺垫102022.8 iResearch Inc. 热点探讨一:KG在数据产品中的存在感业务了解不透彻、产品开发承接性等原因诱发的有限存在感在各类知识图谱的产品形态中,
16、大数据知识图谱的数据产品属性强于知识图谱属性。在数据中台、大数据平台以及其他数据解决方案中,可频繁观察到知识图谱这一画龙点睛的模块或组件,多数大数据厂商也常常自诩自己具备知识图谱能力。然而,一旦深究其中的知识图谱行业能力、底层技术能力,多数厂商的知识图谱工具往往难以覆盖知识图谱本该具备的完整生产流程,并且缺失核心的Schema建模技术,现阶段知识图谱在大数据产品中的地位及作用就显得十分有限。注释:KG即Knowledge Graph,知识图谱的英文缩写。来源:艾瑞咨询研究院根据公开资料、专家访谈自主研究绘制。知识图谱在大数据产品中存在感有限的原因视角1:大数据产品通常会配置企业搜索功能,而企业
17、搜索功能依赖于基本知识图谱套件(专业性偏差),二者具有互补性。视角2:数据需要进行知识表示,彰显数据要素价值。大数据产品必定会考虑治理好的数据要用在哪、怎么用的问题,数据治理与知识图谱具备前后环节的承接性,知识图谱是数据应用的一大方向,所以知识图谱是大数据产品的一大商业增长点。大数据产品视角视角1:尽管厂商看到了行业知识图谱的市场规模空间,但有很多的业务场景没想好要怎么设计与实施,对业务了解不透彻,就先做数据汇聚和治理,叠加简单的知识图谱套件,并把知识图谱作为潜在的产品发展目标。视角2:出于品牌宣传效果考虑,做简单的知识图谱套件叠加。一般而言,大数据产品包括企业搜索、BI功能,为提升产品科技感
18、与新颖度,会添加知识图谱套件。视角3:嵌入基本的知识图谱模块即可满足诸如内部检索这类较简单的需求,客户也没有更深层次的场景挖掘需求。大数据厂商视角用户视角视角1:一些大数据类产品使用了知识图谱能力,但业务前端的用户对知识图谱的了解有限,其很难察觉产品中使用了知识图谱能力。数据中台大数据平台其他数据解决方案知识图谱嵌套都带“我”,但“我”在其中的作用、地位又没那么重要?Part2: 赛道驱动力评估Part1: 研究范围预热铺垫112022.8 iResearch Inc. 热点探讨二:场景知识图谱为发展方向殊途同归:高价值、实用性强的垂类场景知识图谱知识图谱产品在当下及未来的行业发展热点主要围绕
19、大数据知识图谱、行业知识图谱两大类产品展开。大数据知识图谱侧,行业参与者主要分化为两大阵营,一类选择做简单的知识图谱可视化展示,不深究场景类产品的开发,另一类则在数据积累的基础上,效仿行业知识图谱厂商做场景的深度挖掘与沉淀,以期实现数据治理能力与场景产品化能力的双融合。行业知识图谱侧,知识图谱作为“行业专家”这一概念的火热潮逐渐退却,参与者在看到B端广大市场空间的同时,也深刻意识到搭建高业务价值、强专业性知识图谱的不易,因而招纳更多的业务端人才,弥补业务短板,促成技术与业务的双融合。来源:艾瑞咨询研究院根据公开资料、专家访谈自主研究绘制。当下及未来行业发展热点知识图谱行业发展点大数据知识图谱行
20、业知识图谱简易知识图谱高价值、实用性强的垂类场景知识图谱*从原先的高预期认知恢复为理性认知,行业参与者认识到大数据知识图谱要想超越情报分析人员,还有很长的路要走*从“行业专家”这一概念火热期逐渐降温至“建设不易”这一冷静认知期,行业参与者意识到行业知识图谱的建设要难于大数据知识图谱,这与行业专家储备不足、知识建立不到位等有关做简单的可视化呈现、信息检索,不深究场景开发与场景价值,此类产品的替代性高,成熟期相较于场景类图谱会较快到来大数据厂商基于大数据产品积累好数据要素,用数据驱动知识工程,挖掘细分场景,聘请行业专家参与其中,做好场景沉淀,提升场景的产品化能力目前行业知识图谱最大的价值领域在B端
21、,B端的业务专家与知识图谱专家融合以后,找到合适的场景模型,高业务价值+大市场空间+强专业性的行业知识图谱不仅能够击中B端客户的需求痛点,也能为供给侧玩家指明产品路线Part2: 赛道驱动力评估Part1: 研究范围预热铺垫122022.8 iResearch Inc. 2022.8 iResearch Inc. 驱动力一:认知智能发展的关键技术构建知识工程,推动认知类产品商业化,拉动第二曲线专用人工智能是当前人工智能产业的主流发展方向,主要包括计算、学习、感知与认知能力,是在某个特定领域的单一人工智能,依赖大规模的标注数据进行监督训练,以单模态交互技术为典型特征,呈现出强感知、弱认知的特点。
22、为提升当前人工智能的认知水平,需要对机器赋予知识能力,搭建高质量的知识库供机器学习训练,而知识图谱正是知识库搭建的核心技术之一。知识图谱为机器语言提供丰富的背景知识,使机器能够理解人类的语言与知识,是认知智能落地的关键技术。如果将感知智能作为人工智能产业发展的第一曲线,认知智能则为第二曲线。从感知到认知的跨越式发展,难免会经历探索的阵痛。但若想突破人工智能产业在感知领域的商业增长瓶颈,必须引入发展认知技术,掀起新一轮的人工智能产业革命,知识图谱在此形势下也就顺理成章成为了破局的关键技术。来源:艾瑞研究院根据公开资料自主研究绘制。来源:艾瑞咨询研究院自主研究绘制。人工智能专用通用计算学习感知认知
23、有监督无监督强化视觉音频语音计算芯片底层机器学习及深度学习算法分析推理决策可提升智能水平,但不等于强人工智能AGI,其可像人一样思考、像人一样从事多种任务,具备与人同等的智慧与能力学术概念人工智能分类及用途第一曲线:感知智能第二曲线:认知智能未来将接近极限点破局点过渡区行业开拓早期,技术、产品、服务不完美,与预期有差距所导致的消沉、迷茫阶段知识图谱是破局的关键技术之一,拉动认知智能发展感知智能与认知智能市场增量发展曲线探讨Part2: 赛道驱动力评估Part1: 研究范围预热铺垫弱人工智能,感知能力强,认知能力弱132022.8 iResearch Inc. 2022.8 iResearch
24、Inc. 驱动力二:数字经济创造发展机遇数字经济时代来临,企业数据利用意识觉醒数字经济是以数据为关键生产要素、以现代信息网络为重要载体、以数字技术应用为主要特征的经济形态。数字经济之下,数字技术的发展与应用,使得各类社会生产活动能以数字化方式生成为可记录、可存储、可交互、可分析的数据、信息与知识,数据由此成为当代社会的新生产资料和关键生产要素,推进产业数字化成为了企业顺应时代发展、打造数字化优势的主动选择,而知识图谱作为产业数字化的技术工具,迎来了难得的发展机遇。这一机遇体现为企业的数据利用意识觉醒。诸多企业开始采购数字化与智能化解决方案,盘活自有数据资产,构建内部知识库与行业知识库,开发各类
25、知识图谱场景与应用,辅助企业的产品研发、安全质量控制、风控管理、精准营销等业务,知识图谱产业也由此得到落实。数字经济的持续发展将加速知识图谱产业化进度,推动知识图谱与传统产业融合,而知识图谱产业将逐渐向传统产业横纵拓展,不断催生新场景、新应用、新模式。来源:中国信通院2021年中国数字经济发展白皮书、艾瑞咨询研究院自主研究绘制。2016-2020年我国三大产业数字经济渗透率77.0%77.4%79.5%80.2%80.9%23.0%22.6%20.5%19.8%19.1%20162017201820192020产业数字化数字产业化来源:中国信通院2021年中国数字经济发展白皮书、艾瑞咨询研究院
26、自主研究绘制。6.2%6.5%7.3%8.2%8.9%16.8%17.2%18.3%19.5%21.0%29.6%32.6%35.9%37.8%40.7%20162017201820192020第一产业第二产业第三产业2016-2020年我国数字经济内部结构占比Part2: 赛道驱动力评估Part1: 研究范围预热铺垫142022.8 iResearch Inc. 2022.8 iResearch Inc. 驱动力三:计算方式与算力规模化推动新计算方式,大算力规模,高智能比重知识图谱为二维链接图,属于图数据结构。图达到一定规模后,对计算的要求会随之提升。若想实现低延迟、高精准的图计算,需引入高
27、性能计算。高性能计算能够加快图的运算速度,满足对大规模复杂图数据的实时处理与存储需求。目前主流的HPC架构能够支持异构结点,性能接近超级计算系统,可为图计算输送更快更准的计算能力,服务于知识图谱运算。算力规模的持续扩大及算力结构的不断演化也助推着知识图谱发展。知识图谱对海量数据的处理与读写操作意味着对内存存取与带宽的高密度、高功耗,知识图谱算法包含大量卷积、全联接计算需求,因而对算力规模与算力结构都具备高要求。2020年,我国算力规模已达到135EFflops,相比去年增长55%;智能算力比重增加至41%,相比2016年增加了38%。来源:中国信通院2021年中国算力发展指数白皮书,艾瑞咨询研
28、究院自主研究绘制。注释:胖节点,即通过大内存、多网络进行单一结点计算的服务器。来源:艾瑞咨询研究院结合公开资料自主研究绘制。中国算力规模及智能算力增长情况高性能计算图计算高性能图计算为知识图谱运算赋能计算集群胖节点存储设备集群管理系统数据网络大规模图数据图遍历社区发现最短路径图算法关系挖掘知识推理事件溯源计算功能输送计算能力输送图数据87 135 20192020中国算力总规模 (EFlops)增长55%3%41%20162020智能算力占总算力比重(%)增加38%2019-2020年中国算力总规模2016与2020年中国智能算力比重Part2: 赛道驱动力评估Part1: 研究范围预热铺垫M
29、PI节点GPU加速节点152022.8 iResearch Inc. 201220152016201820192026人工智能产业NLP产业知识图谱产业驱动力四:算法协同并进算法进步的关联连锁反应知识图谱的迅速发展与人工智能、NLP近几年取得的巨大进步有很大关系。从发展的关键时间点来看,人工智能在2012年取得了深度学习第三代神经网络的技术进步,此后人工智能技术在我国便开始了技术商业化之路,在2015年人工智能产业正式迈入萌芽阶段。作为深度学习技术进步的受益者,NLP技术随后频繁出现在人工智能的舞台,并携带较多惊喜的成就。ELMo模型、GPT模型、BERT模型三大NLP模型均在2018年出现,
30、标志着NLP对文字语义的处理进入了新的历史台阶。NLP技术与知识图谱发展极为紧密,是知识图谱搭建的前置技术环节,常在知识图谱生产流程中用于自然语言信息抽取,对各类词性进行识别标注。2018年后NLP的泛化能力与自动化能力的增强,降低了NLP模型的训练成本,为知识图谱的知识库构建创造了有利机会。2019年前后,国内不少行业知识图谱厂商与客户开始规模签单,行业知识图谱正式萌芽。注释:产业发展曲线为定性判断。来源:艾瑞咨询研究院自主研究绘制。Part2: 赛道评估Part1: 研究范围预热铺垫第三代神经网络模型出现,深度学习在图像、语音领域取得重大突破人工智能产业萌芽AlphaGo战胜人类,深度学习
31、大热,人工智能技术商业化步伐加快ELMo模型提出,模型可根据上下文推断每个词对应的词向量;大规模预训练语言模型GPT出现,可用于分类、推理、问答、相似度任务;BERT模型在机器阅读理解水平测试中获得优异表现,成为NLP发展史上的里程碑模型,NLP对非结构化数据处理获得大量研究与进步行业知识图谱萌芽,知识图谱产业规模兴起,行业知识图谱的厂商与客户开始规模签单三类AI技术与产业发展关键时间点162022.8 iResearch Inc. 57.5%50.6%25.3%20.7%19.5%18.4%13.8%12.6%8.0%6.9% 6.9%4.6%3.4%2.3%1.1% 1.1% 1.1% 1
32、.1% 1.1% 1.1% 1.1% 1.1% 1.1%2.3%金融医疗工业政务公安互联网营销交互服务司法电力电信零售教育能源智慧城市交通物流招聘建筑文旅客服制造智能家居其他驱动力五:资本提供资金支持来源:艾瑞咨询研究院根据公开融资数据自主研究整理及绘制。18.758.049.947.33.331291643420182019202020212022.3融资金额(亿元)融资事件(起)2018-2022年3月中国知识图谱获投企业业务赛道热度统计金融、医疗赛道融资热度领先,融资多处于早期15.4%43.1%18.7%14.6%8.1%天使轮及种子轮A轮相关B轮相关C轮及以后战略融资及股权转让201
33、8-2022年3月中国知识图谱融资事件数、金额及轮次情况金融、医疗、工业、政务、公安为融资赛道TOP5其他领域较为分散,呈现多点“开花局面“2021年融资事件数最多,为43起;统计时间内总融资事件数为123起,融资金额为177.2亿元融资集中在天使轮、种子轮、A轮的相关领域,占比高达58.5%,融资轮次靠前;海致、明略、同盾等企业已完成C轮及以后融资累计获投:87家企业Part2: 赛道评估Part1: 研究范围预热铺垫17研究范围界定及赛道评估1行业场景分析2优秀案例实践3建设重点解读4行业趋势洞察518行业总结:市场空间结构与产业链市场空间结构:所测算规模为TAM。整体市场规模尚处于增量爬
34、坡阶段,以金融、公安为主要行业拉力,行业知识图谱的市场规模潜力要大于互联网通用知识图谱。从供给侧看,行业集中度较低,市场份额分散,尚未形成稳固的市场竞争格局,但在某一行业领域存在市场份额偏高的玩家。整体市场规模方面,2021年中国知识图谱核心产品的市场规模为107亿元,到2026年,核心规模可突破290亿元,2021-2026年CAGR=22.5%。产业链:上游为硬件基础设施与数据采集及治理服务,中游为知识图谱表示与知识建模技术服务,下游为知识图谱应用。下游应用图谱中,金融知识图谱应用的参与玩家众多,其他行业领域玩家偏少,普遍存在同一玩家跨界耕耘的现象。192022.8 iResearch I
35、nc. 65 80 107 139 174 206 246 296 201920202021e2022e2023e2024e2025e2026e中国知识图谱核心市场规模(亿元)19.4%18.8%16.2%10.7%8.9%5.1%21.0%金融公安互联网政务医疗工业与电力其他产业总规模金融、公安为市场主要拉力随着信息化与数字化建设的展开与NLP技术的进步,知识图谱不再局限于网络百科式的搜索,其衍生出了互联网内容与社交、大数据知识图谱与行业知识图谱等多种产品类型,产品专业化与场景化的趋势日渐明显,行业知识图谱已经成为市场开拓重点。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识
36、图谱可密切结合,具备建设意愿与资金投入,因而成为了市场规模的主要拉力。据艾瑞统计测算,在2021年的行业市场结构中,金融与公安的市场份额合计共占总市场的38.2%。未来,随着政务数字化建设的完善,政务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。从市场整体来看,2021年中国知识图谱核心市场规模为107亿元,到2026年,核心市场规模可突破290亿元,2021-2026年CAGR=22.5%。注释:核心规模为软件规模,包含后文金融、政务与公安、医疗、工业与电力的产业规模,以及其他细分行业的产业规模。来源:艾瑞咨询研究院根据专家访谈、采招数据、公开媒体咨询、国家统计局、中国卫生统计年鉴
37、等数据自主建模测算。2019-2026年中国知识图谱核心市场规模2021-2026年年CAGR=22.5%202022.8 iResearch Inc. 技术维度业务维度执行维度信息化与数字化基础数据数量数据质量业务专家储备密集度业务场景明确程度应用开发简易程度建设预算建设周期客户配合度互联网最成熟,金融为兴起标杆,政务与工业长路漫漫行业细分赛道表现总览各行业赛道知识图谱产业情况可从技术、业务、执行三大维度进行评价和对比。互联网是知识图谱产业最成熟的赛道,一般提供轻量级的应用服务,开发难度较低。相比之下,其他行业的知识图谱产业仍处于建设期,以金融的表现为标杆。政务、工业都有巨大的数据量,但业务
38、专家储备密集度、业务场景明确程度、客户配合度的评价偏低,需要较为漫长的磨合过程。尽管医疗领域的专家储备与业务场景明确度表现较好,但因各级医院资源利益不统一,文本数据理解难度大,其产业发展远不如人们所希冀的高专家水准。来源:艾瑞咨询研究院根据专家访谈自主研究绘制。* 色 阶 条越长代表该行业在该细分维度上评价越高各行业赛道知识图谱产业表现情况互联网金融公安政务医疗电力工业212022.8 iResearch Inc. 产业链流程来源:艾瑞咨询研究院自主研究绘制。业务前端数据源结构化数据半结构化数据非结构化数据关系型数据库数据治理知识图谱知识库第三方知识库基础层芯片计算芯片存储芯片服务器PC机网络
39、连接设备、数据安全与运维算法开源框架实体抽取关系抽取属性抽取概念层融合数据层融合本体抽取质量评估知识图谱知识推理中游上游下游知识图谱表示与知识建模技术服务知识图谱应用数据产生数据存储非标准数据流入治理环节标准化数据入库存储以图结构存储以图结构存储补充知识图谱产业链流程图上游着重数据处理,中游搭建模型,应用服务前端形成闭环一般配置知识图谱平台,供快速建模管理,最终形成应用应用模型服务于前端业务对数据治理提出具体要求,重塑模型数据标准,产生新的数据治理工作应用场景反馈,模型修改与调优知识图谱查询&建模&权限配置等可用图的直接存储互联网知识图谱行业知识图谱业务前端用户互联网内容与社交新零售消费与用户
40、分析金融:信贷风控、精准营销、业务流程优化政务与公安:公安研判分析与预警、司法辅助审判与执行、政务便民服务、应急管理医疗:医疗流程辅助、医学科研、医疗用户服务工业与电力:产品与工艺创新研发、安全质量控制、供应链管理交互交互提供计算存储能力提供计算存储能力知识存储图数据库知识计算知识加工知识融合知识获取222022.8 iResearch Inc. 下游中游上游核心产业图谱注释:Logo摆放以企业主营业务为主。图谱中所展示的公司logo顺序及大小并无实际意义,不涉及排名。从产品生产角度出发,挑选产业链中的关键模块进行展示。来源:艾瑞咨询研究院自主研究绘制。数据存储商业关系型数据库基础层数据治理算
41、力算法知识图谱技术层知识图谱应用层搜索引擎智能推荐与问答金融工业电力医疗行业解决方案及应用2022年中国知识图谱核心产业图谱公安政务数据资料开放链接知识库公开/封闭渠道数据:企业、政府、社交、电商、广播电信等数据开源工具KG推理闭源工具KG概念架构KG抽取KG融合图数据存储图数据存储(自研)KG建模与训练开源关系型数据库AtlasGraph快消/营销农业互联网通用知识图谱教育数据源物联网信息传感设备:定位系统、射频识别、传感器、电子标签等NEST23通用知识图谱:互联网篇每一行业的知识图谱内容包括三个部分:行业信息化与数字化基础观察、场景应用分析、市场规模分析。总体评价:属于知识图谱应用较为领
42、先的赛道,在底层建模与内容结构化方面具备增量机会,因上层应用开发一般由需求方自主开发,在上层的应用开发方面增量机会小。行业信息化与数字化基础:行业带有深厚的科技基因,总体信息化与数字化基础良好,大厂具备较为充足的投入预算与建设实力,中小企业主要依托现有基础夯实业务。场景应用:以智能推荐与辅助决策为核心,推出网络搜索、商品迭代开发、商品精准导购、内容个性化推荐等细分应用。市场规模:所测算规模为TAM,2021预计中国互联网知识图谱市场规模为17亿元,2026年可达51亿元,2021-2026年CAGR=24.2%。242022.8 iResearch Inc. 信息化与数字化基础基础扎实领先,为
43、知识图谱创造有利基础环境从巨头的基础设施建设、业内数字化产品与工具诞生、市场风口与底层技术的促进关系三大角度,可窥见互联网行业扎实领先的信息化与数字化基础,这为互联网知识图谱的构建与应用创造了有利的基本环境。来源:艾瑞咨询2021年互联网行业挑战与机遇白皮书,艾瑞咨询研究院根据公开资料自主研究绘制。巨头的基础设施建设全方面展开专业的数字化产品与工具诞生市场风口与底层技术的相互促进盘踞存量下的产业扩张之路:长短视频、即时通讯、网络购物、新闻资讯等互联网大赛道基本被阿里、腾讯、百度、字节系的产品所把控,基于以往的流量红利与当下的存量基本盘,各家巨头实现了基础设施建设的扩张与升级,打造数据中心、云计
44、算等底层基础设施,不仅服务于自身内部,还服务于外部企业服务,用以开拓传统企业端的产业互联网业务。以阿里云为例:其自研了分布式通用云计算操作系统飞天,并以飞天为核心,建立了自研芯片(倚天710)、服务器(架构升级)、存储(存储硬件Aliflash)、计算、网络等软硬一体的新型计算架构体系,同时还自研了新一代云原生数据库PolarDB。生于内,对外进行拓展服务:随着数据量的增加与底层数据处理技术的进步,互联网的数据平台快速迭代,数据产品、数据产品经理等词汇获得广泛认可,DMP、CDP、CRM等专业的数据平台工具成形,数据中台的概念被提出并大火。业内数字化产品与工具的封装与沉淀,为外界企业提供了数字
45、化转型的技术底座解决方案。数字化人才孵化地:在众多中小型数据解决方案厂商中,部分厂商的创始团队来自BAT系,底层的数字化技术人才不乏有互联网行业背景,互联网行业为数字化产业培育了众多的数字化人才。数据中心计算芯片服务器架构数据库操作系统云计算2010:电商2011:团购2012:社交平台2013:在线出行2014:外卖平台2015:共享单车2016:直播2017:短视频2019:社交电商底层技术助推市场风口:互联网行业带有深厚的科技基因。过去十年间,底层的云计算、物联网、5G通信等信息化与数字化技术的推陈出新,推动各类市场风口的纷至沓来,为产业创造了广阔的流量池。风口应用助推底层技术:场景应用
46、触达用户后,海量的内容与数据需要存放与运算,助推着后端存储与计算的扩容与升级,甚至是自研。因而,底层的信息化与数字化技术得到巩固与创新。中国互联网信息化与数字化情况123数据平台数据中台DMPCDPCRM用户运营营销获客数据采集数据计算数据存储数据治理知识图谱搭建与应用充足算力、大容量存储空间、电子化文本数据、标准化数值属性、可供训练建模的多维数据促进提供提供提供Industry: 互联网252022.8 iResearch Inc. 行业需求痛点分析信息碎片化与非结构化突出,产品需持续迭代满足用户需求注释:信息是经过收集与整理的数据,为数据的子集,本质还是数据。来源:艾瑞咨询研究院根据专家访
47、谈与公开资料自主研究绘制。Industry: 互联网商品方面:市场管理差异导致的商品信息差,线上商品存在多种表达方式,标准化程度不足;线上商品缺乏个性化设计与表达,对用户引导不到位,难以激发用户兴趣,不利于用户做出消费决策。用户方面:网页端与移动端都会留下用户的行为数据痕迹,用户的消费观念隐藏在这些数据以及数据间的关联关系中。若要为用户精准推荐个性化内容,将用户切实转化为消费者,需要对用户的数据进行挖掘,刻画用户画像。一、互联网信息碎片化与非结构化的处理需求:二、互联网产品迭代与发展的需求:三、商品与用户信息的精准化、个性化表达需求:互联网的海量信息带有碎片化与非架构化特征。新兴互联网应用的蓬
48、勃发展,让完整信息被分类分解为信息片段,信息被大量简化,从而导致信息本身不全面、内在逻辑不完整。同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘信息间的潜在联系,还原完整的、有价值的信息。然而,信息的关联关系挖掘是一项工作量巨大且复杂的工程。互联网产品的生命周期路径规划需求:任何的互联网产品都会经历探索期、成长期、成熟期、衰退期四大阶段,每一阶段各有其痛点。探索期的产品在设计规范与方向上缺乏可参考的产品,难以找到产品的设计方向;成长期的产品往往同质化严重,难以找到产品的创新点,并在竞品竞争
49、中取胜;成熟期的产品基本定型,需要在产品细节上做设计与把控。针对每一阶段的痛点,都需要做好路径规划,持续进行产品迭代,解决产品所处阶段的核心问题。产品迭代设计规划需要依赖合理可靠的决策依据,而决策依据源自将已经结构化的商品表现数据、行业信息等构建成网络,发现数据之间的潜在关联。以存量产品迭代为例进行解释:某APP起初以本地生活服务为主打功能,但该APP已经较为成熟,同时期还存在一些竞争对手。产品设计师考虑在现有功能上叠加旅游服务与电商服务,以增加产品的差异化程度。收集数据碎片化:信息量巨大而内容分散,信息呈片段式,信息的阅读方式也变为片段式非结构化:没有统一标准的文本、图片、音视频、HTML数
50、据依据数据开发/迭代产品数据汇入探索期成长期成熟期衰退期时间用户活跃度需根据每一阶段的痛点设计迭代产品,设计迭代的依据为前端的数据产品投放依据投放效果调整商业化营销策略互联网数据更新互联网行业需求痛点发现、创造、服务并满足需求对商品需求持续变化用户商品商品表达方式多,客户难定位商品不能满足用户个性化需求需求多样化、个性化消费行为与消费习惯数据待挖掘262022.8 iResearch Inc. 痛点下的知识图谱应用以智能推荐与辅助决策为核心,满足用户与企业决策者需求注释:不同颜色的圆代表不同层次的实体。所展示的四类知识图谱均为列举,知识图谱可依据开发需求调整结构。来源:艾瑞咨询研究院根据专家访