《2023中国AIGC商业潜力研究报告-亿欧智库-2023-WN7.pdf》由会员分享,可在线阅读,更多相关《2023中国AIGC商业潜力研究报告-亿欧智库-2023-WN7.pdf(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023中国AIGC商业潜力研究报告亿欧智库 https:/ reserved to EO Intelligence,July 2023亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)前言在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入
2、智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。本报告将向所有关注未来科技的相关机构、从业者、创业者、投资人传递亿欧对AIGC的市场潜力场景的洞察和优秀企业案例。AI跨入生成式阶段 预学习引发AI技术质变,摆脱过去AI的高门槛、训练成本高、生成内容单一的痛点。基于大模型的泛化能力,知识蒸馏与微调后进入专用领域的应用,覆盖短头、长尾的场景。多模态打破多种信息之间的边界,提升AIGC内容多样性与技术多样性,拓宽应用的场景。原因1原因2原因3 中国生成式AI与国外先进水平存在一定差距,但凭借国内应用场
3、景的多样性,具备AIGC的数据积累优势,有望追上先进步伐。中外差距 AIGC大模型生态圈解析 短期内,扩大算力是AIGC的刚需。FPGA及ASIC有望在远期成为主力AI芯片。算力成本为大模型成本65%算力为大模型能力的下限 为防止中国大模型出现“数据马太效应”,大模型亟需高质量的标注数据进行训练,提高生成能力。数据为大模型能力的上限 目前大模型以服务B端为主,其中平台服务模式的占比相对较高高质量的算法使大模型能力贴近上限数据成本为大模型成本23%算法成本为大模型成本12%亿欧智库:基础原子能力潜力指数亿欧智库:多模态原子能力潜力指数亿欧智库:AIGC商业潜力边界模型2030年中国AIGC市场规
4、模将接近万亿01-导览02-导览03-导览04-导览0.510.690.761.171.87代码视频音频图像文本0.160.180.200.220.25知识图谱AIGS合成数据虚拟人聊天机器人认知谬误边界基础设施边界技术可行性边界经济价值边界2亿欧智库:AIGC原子能力商业潜力评估模型规模潜力利润潜力泛化与通用场景专业场景基础原子能力多模态原子能力亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(2039
5、72)亿欧智库-李先生(203972)目录C O N T E N T SAIGC概述1.1人工智能概念梳理1.2生成式人工智能因素分析1.3中外人工智能对比1.4AIGC原子能力变化01AIGC生态底座价值链分析2.1 AIGC生态底座价值拆解2.2 算力价值分析2.3 数据价值分析2.4 算法价值分析2.5 AIGC生态服务商总结2.6 大模型生态底座产业图谱02AIGC原子能力商业潜力分析3.1 AIGC原子能力覆盖行业梳理3.2 AIGC基础模态原子能力分析3.3 AIGC多模态原子能力分析3.4 AIGC原子能力商业潜力评估总结3.5 原子能力产业图谱3.6 优秀企业案例03AIGC商
6、业潜力规模预判4.1 AIGC商业潜力边界模型4.2 边界突破趋势4.3 AIGC未来商业潜力规模预测04亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)目录C O N T E N T SAIGC概述1.1人工智能概念梳理1.2生成式人工智能因素分析1.3中外人工智能对比1.4AIGC原子能力变化01AIGC生态底座价值链分析2.1 AIGC生态底座价值拆解
7、2.2 算力价值分析2.3 数据价值分析2.4 算法价值分析2.5 AIGC生态服务商总结2.6 大模型生态底座产业图谱02AIGC原子能力商业潜力分析3.1 AIGC原子能力覆盖行业梳理3.2 AIGC基础模态原子能力分析3.3 AIGC多模态原子能力分析3.4 AIGC原子能力商业潜力评估总结3.5 原子能力产业图谱3.6 优秀企业案例03AIGC商业潜力规模预判4.1 AIGC商业潜力边界模型4.2 边界突破趋势4.3 AIGC未来商业潜力规模预测04亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-
8、李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)5资料来源:卡内基梅隆大学、朱松纯浅谈人工智能:现状、任务、架构与统一、公开资料、亿欧智库整理AI跨入3.0+深度加强学习范式,利用奖惩模型强化生成能力u AIGC(AI Generated Content)是基于GAN、预训练大模型、多模态技术融合的产物,通过已有的数据寻找规律,并通过泛化能力形成相关内容。从商业角度看,AIGC是一种赋能技术,通过高质量、高自由度、低门槛的生成方式为内容相关场景及生产者进行服务。u 早期决策式AI依赖逻辑判断的
9、纯粹性,万物都能完美观察、任何测量不存在误差的前提不符合真实世界的“不确定性”;概率范式基于经验主义与理性主义一定程度上解决了“不确定性”;深度加强学习可以利用合理的数据丰度与奖惩模型达到类人类智能的水平,实现高质量内容与内容创作自动化;通用型AI具备泛人类智能,可以像人类一样执行各种任务。自迭代能力伦理道德协作能力执行能力感知能力学习能力决策能力认知能力1.0 逻辑范式2.0 概率范式3.0 深度学习范式3.0+深度强化学习范式4.0?范式AI综合能力AI范式决策式AI生成式AI通用型AIAI在早期工作在于关注逻辑、自动定理证明和操纵各种符号,该类AI理解基础的物理知识,具备一定的逻辑能力,
10、通过分析数据和信息,帮助使用者更好的做出判断与决策。但基于逻辑的AI缺乏感知能力,对真实世界普遍存在的“不确定性”较难处理。概率与统计可以初步解决“不确定性”,但是概率范式需要经验主义先于理性主义进行填充。以Bayes模型为例,需要经验主义者先设定先验数据。以数据为中心,深层次的网络堆叠为架构,样本数据及数据种类的丰富,训练的模型泛化能力就越强,效果越好。同时深度学习训练的AI已经可以很好的执行任务。不过,强化学习的效果却不一定受到数据丰度的影响。强化学习遵循Markov原则,只要奖惩设计合理就能实现不错的效果。Markov奖惩模型:智能体环境奖励行动状态具备泛人类智能的AI,可以像人类一样执
11、行各种任务。目前位置亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)6资料来源:公开资料、亿欧智库整理历次AI寒潮沉淀的技术,终在算法、算力、数据三者共振的情况下诞生出大模型u 在1956年的达特茅斯会议上,“人工智能”的概念被首次提出,六十多年以来,历经逻辑推理、专家系统、深度学习等技术的发展,人工智能也经历了数次沉浮,有如日中天的发展时期,也有因技术不足
12、热度退去后的寒潮。而每一次寒潮后,也会经历技术的蛰伏发展,为人工智能带来里程碑式的进步。亿欧智库:AI发展的2.5次寒潮1970年代第1次寒潮当时主要研究集中在逻辑抽象、逻辑运算和逻辑表达等方面,出现许多逻辑证明相关的逻辑程序语言,如著名的Prolog。但是当时研发出来的人工智能系统缺乏实用性,几乎无法解决任何实际问题,无法达到人们期望,政府逐步减少投资,高潮衰落,进入第一次寒冬。1990年代第2次寒潮出现神经系统与专家网络。神经系统在解决复杂问题上能力不足,且训练时需要的数据量较大。专家系统的实用性只局限于特定领域,同时升级难度和维护成本都居高不下。日本推出第五代计算机计划抛弃冯诺依曼架构,
13、采用新的并行架构,采用新的存储器,新的编程语言,以及能处理自然语言、图像的新操作方式,但局限于理论和计算机算力,以及知识完全依靠人工输入和维护,最终宣告项目失败。2010年代第2.5次寒潮存在计算能力不足的瓶颈,以深度学习为驱动力的人工智能技术更多仍停在分类、聚类和预测阶段,能够完全复制人类思维方式的强人工智能依旧发展缓慢。互联网公司对AI的开发便捷程度与先进程度超过许多AI公司,因为互联网可以使用自己的不公开的内部数据进行训练。感知器l神经网络的第一个里程碑算法l可以解决简单的线性分类问题l为后期更复杂的算法奠定基础Hopfield神经网络l一种具有循环、递归特性,结合存储和二元系统的神经网
14、络l提供了模拟人类记忆的模型l在机器学习、联想记忆、模式识别、优化计算等方面有着广泛应用多层前向BP网络l非线性映射能力:适合于求解内部机制复杂的问题l自学习和自适应能力:训练时能自适应的将学习内容记忆于网络的权值中l容错能力:局部神经元受到破坏后对全局的训练结果不会造成很大的影响深度学习l弥补了传统BP神经网络的缺陷,利于可视化和分类,识别精度上升,训练难度下降l无需人工提取规则特征,机器通过海量数据,即可自动实现规则的特征提取,有机器本身完成最复杂的算法归纳芯片&服务器&数据l计算机硬件设施飞速发展,GPU、TPU等新一代芯片及FPGA异构计算服务器,提供强大算力l互联网、物联网发展迅猛,
15、为人工智能提供了规模空前的训练数据,数据可获得性大幅提升ChatGPT出现亿欧智库:AI技术发展里程碑共振:振动频率相同的物体、当一个发生振动时、引起其他物体振动亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)7资料来源:arXiv、亿欧智库整理预学习引发AIGC技术质变u 预学习的出现解决了过去生成式大模型的痛点,但预学习本身存在模型尺寸、小样本数量、微调
16、能力的不可能三角,解决方法也不尽相同:对于极大模型,使用知识蒸馏;对于少样本学习能力,进行数据增强;对于监督训练表现欠佳的模型,进行提示学习。u 以GPT为例,在目前阶段,厂商通常的做法是扩大模型尺寸。亿欧智库:预学习大模型引发AIGC技术质变亿欧智库:预学习之不可能三角与对应解决方案预学习大模型的出现解决了过去各类生成式模型使用门槛高、训练成本高、内容生成简单和质量偏低的痛点,满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预学习思路:将大量低成本收集的训练数据集中,学习其中的共性 然后将其中的共性移植到特定任务的模型中,再进行微调,去学习该特定任务的特性部分合理的模型尺寸(小于10
17、亿参数量)先进的小样本先进微调能力训练任务共性学习特性学习微调特定任务 知识蒸馏 大模型是网络的集合,拥有良好的性能和泛化能力,小模型网络规模较小,表达能力有限 降低模型时延,压缩网络参数:利用大模型学习的知识指导小模型训练,使得小模型与大模型性能相当,而参数数量可大幅降低,从而实现模型压缩与加速 提升模型精度:训练一个更高精度的大模型,用大模型对原模型知识蒸馏,获得更高精度 数据增强 缺少足够的标记数时,可以生成伪标签和伪数据实例,利用这些额外数据,模型能够进行有效的监督训练。提示学习 利用离散提示(离散文本模板)或连续提示(连续参数嵌入)进行微调,在微调期间仅更新离散提示或连续提示中的一种
18、,提高准确度亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)8资料来源:公开资料、亿欧智库整理AI大模型底座驱动AIGC概念落地u 在AIGC概念实际落地的过程中,只有基础大模型与通用技术是远远不够的,还需要能与场景融合匹配,更需要支持应用落地的工具平台和开放包容的创新生态,三者协同优化,加速AIGC落地。u 在全应用流程中,主要通过大量的无标注文本进行共性
19、学习,获得预训练大模型,此后再根据应用场景特征进行微调,更好与项目任务适配。亿欧智库:AI大模型驱动AIGC概念落地工具平台生态大模型特性学习共性学习通过海量无标注文本和自监督学习,进行共性学习,得到预训练大模型通过任务相关少量数据进行精调,进行特性学习通过工具平台支撑生态应用落地通过学习海量无标注文本与数据进行预训练和自学习监督,提高AI大模型在前期学习的范围与深度,提升模型水平,赋能大模型在后续具体任务中的应用共性学习在共性学习“预训练”的基础上,根据具体应用场景的特性,使用少量数据进行微调,高精度地完成任务特性学习 大模型:在技术发展和产业应用方面占据重要地位,主要包含基础、任务和行业大
20、模型,三层大模型相互促进,共同支撑产业转化与发展 工具平台:推出了基于大模型的AI开发平台、工具套件、大模型API等,让更多开发者能够低门槛地将大模型应用于自己的业务中,从而助力开发者效率提升 生态:释放大模型的潜力,推动AIGC技术的广泛应用和产业化 大模型支撑生态发展,而生态反哺大模型进行技术进步模型+工具平台+生态模式需要协同优化,以更好帮助AIGC在不同领域快速落地亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)
21、亿欧智库-李先生(203972)亿欧智库-李先生(203972)9资料来源:CSDN、中信建投证券、亿欧智库整理多模态打破多种信息之间的边界并生成质量稳定的内容,提升AIGC内容多样性u 相比于信息模态单一的单模态模型,多模态模型可以同时处理更多模态的信息并将它们相互转化。u 现今多模态模型以图文多模块为主。Transformer虽受制于单模态但其权重共享适用于多模态;ViT模型处理输入图片,使得Transformer可用,从而打破NLP和CV间屏障;BEiT将生成式预训练从自然语言处理迁移到了计算机视觉;扩散模型多用于文本图像生成。亿欧智库:从单模态转向多模态亿欧智库:多模态提升AIGC内容
22、多样性文本声音图像视频信号多模态多模态信息单模态模型:信息来源或形式单一,例如文字、图片、音频等信息媒介和红外、雷达等传感器。因为输入数据的长度有限制,所以基于Transformer的大模型只能基于单一文本模态,不能将其泛化能力迁移到其他如图片、音频的模态上,但其拥有的权重共享理念适用于多模态模型,权重共享指部分模块共享权重参数 在图片和文字的多模态中,图片训练得到的权重参数可以直接用于训练文本,结果有效且无需进一步微调Transformer权重共享适用于多模态,但存在单模态局限 扩散模型包括正向扩散与反向扩散两个过程,填补文本图像生成中的技术空白扩散模型帮助生成文本图像利用ViT解除输入限制
23、,进行特征提取图片分割TransformerEncoderClassViT模型对图片进行线性映射处理,变成Transformer可用的输入,打破自然语言处理和计算机视觉之间的壁垒Position EmbeddingBEiT模型将生成式预训练从NLP迁移到CV图片分割MMMBlockwiseMaskingBEiTEncoderPatch&Position EmbeddingDecoderBEiT将BERT中的掩码语言学习方法应用到图像领域,将生成式预训练从自然语言处理NLP迁移到了计算机视觉CV。BEiT解决了计算机视觉上生成式预训练遇到的问题,解决方法:使用ViT结构处理图像信息亿欧智库-李先
24、生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)10资料来源:CSDN、中信建投证券、亿欧智库整理多模态信息持续融合增加技术多样性,拓宽场景u 多模态在视频分类、情感分析、语音识别等领域都得到了广泛应用,涉及图像、视频、语音、文本等融合内容,未来还将进入交互、感知、内容等更多应用场景。亿欧智库:多模态融合架构用户发出模糊指令用户信息环境信息声纹信息声音中的文字声音中的情感
25、肢体动作人脸信息面部表情嘴唇的动作相对位置环境信息服务1生物识别服务2用户意图感知多模态自然语言理解多模态情感服务3服务呈现音视频输出IoT控制应用场景生成内容跨模态搜索图像、文本图像标注图像、文本转移学习图像、文本跨模态嵌入图像、视频、文本视频分类语音、视频、文本事件检测语音、视频、文本情绪分析语音、视频、文本情感分析语音、视频、文本语音识别语音、视频视觉问答图像、文本图像标注图像、文本图像合成图像、文本视频解码视频、文本亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李
26、先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)11u 在决策式AI方面,中国已经处在第一梯队,中国是发表AI论文最多的国家,且近10年来占比逐年增加。u 而在生成式AI方面,与国外还存在参数量的差距,背后隐含着算力资源、数据质量等基础要素的不足的原因。资料来源:中国信通院、Leonis Capital行研、亿欧智库整理中国决策式AI已达到世界一流水平,而生成式AI还与国外存在基础要素的不足亿欧智库:中国的决策式AI已经达到世界领先水平亿欧智库:中国生成式AI参数量与国外有一定差距中国是发表AI相关论文最多的国家,近十年发表9
27、万余篇,占近10年全球AI论文发表总量的22.7%。在2021年AI受关注论文居前十的企业中,中国企业占到4家。技术2023年,中国的“灯塔工厂”增至50座,占比超过总数的1/3以上,持续排名全球第一。此项目由达沃斯世界经济论坛与管理咨询公司麦肯锡合作开展遴选,“灯塔工厂”也被誉为“世界上最先进的工厂”,具有榜样意义的“数字化制造”和“全球化4.0”示范者,代表当今全球制造业领域智能制造和数字化最高水平。应用2018年1月2018年6月2019年1月2019年6月2020年1月2020年6月2021年1月2021年6月2022年1月2022年6月ELMo940万GPT1.17亿BERT1.1亿
28、ERNIE1.02亿GPT-215亿Meena26亿RoBERTA3.55亿KEPLER1.1亿Generative BST94亿Megatron-LM83亿ERNIE100亿DeBERTa15亿Megatron-Turing NLG5300亿Minerva5400亿GPT-31750亿Chinchilla700亿GLM1300亿10亿100亿1000亿10000亿参数量中国开发者其它开发者中国的生成式AI处于发展的初期,底层技术和国外还有较大的差距。国外芯片龙头公司的断供及次品供应使得中国生成式AI的基础硬件提供不了足够算力。技术虽然国内众多厂商开始布局AIGC,但是目前的商业模式还不成熟。
29、技术层面的不足也限制了应用端的发展。应用020406080100120140国家电网英伟达亚马逊华为技术阿里巴巴集团腾讯控股MetaIBM微软Alphabet2021年受关注论文篇数居前10的企业Fast follower First in classCopy to China Copy from China中国开发者其它开发者中外大模型参数量对比亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(2039
30、72)亿欧智库-李先生(203972)12资料来源:公开资料、亿欧智库整理AIGC原子能力动态变化曲线u AIGC的原子能力随着时间的变化,内容呈现复杂化、多维化的特征,基础模态原子能力向多模态转变,表明目前AIGC商业应用的尝试正下沉至长尾场景,大模型的泛化能力、实时性、强推理与共情能力正在不断渗透为虚拟人、聊天机器人、知识图谱、合成数据、AIGS进行多维度的赋能,推动通用人工智能时代到来。原子能力:指支撑各类应用、各类场景的要素技术;以生成内容为例,目前大部分应用和场景都需要AIGC的文本、代码输出、图像生成音视频合成的原子能力原子能力维度(内容复杂度)复杂度根据单位内容的token大小时
31、间亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)目录C O N T E N T SAIGC概述1.1人工智能概念梳理1.2生成式人工智能因素分析1.3中外人工智能对比1.4AIGC原子能力变化01AIGC生态底座价值链分析2.1 AIGC生态底座价值拆解2.2 算力价值分析2.3 数据价值分析2.4 算法价值分析2.5 AIGC生态服务商总结2.6 大模型
32、生态底座产业图谱02AIGC原子能力商业潜力分析3.1 AIGC原子能力覆盖行业梳理3.2 AIGC基础模态原子能力分析3.3 AIGC多模态原子能力分析3.4 AIGC原子能力商业潜力评估总结3.5 原子能力产业图谱3.6 优秀企业案例03AIGC商业潜力规模预判4.1 AIGC商业潜力边界模型4.2 边界突破趋势4.3 AIGC未来商业潜力规模预测04亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(
33、203972)亿欧智库-李先生(203972)14资料来源:专家访谈、国海证券、公开资料、亿欧智库整理短期内算力成本占据生态圈核心,算法与配套的数据价值在远期凸显u AIGC大模型的训练、微调和运营需要大量的计算资源支撑,目前算力占据AIGC生态圈65%成本,数据及算法占据剩下35%的成本。u 从短期看,一头独大的格局不会发生太大变化,大模型新入局玩家的算法训练和老玩家大模型的微调、迭代将会持续刺激算力成本上扬。u 从长期看,有望出现三头并进格局,模型算法的迭代会成为AIGC通往AGI的解决方案,随着应用不断下沉长尾的专用场景,专用算法及场景沉淀的数据将会成为AIGC体验的核心,另外,合成数据
34、及减少算力依赖的框架算法成熟将会加大缓和算力紧张的缺口。亿欧智库:AIGC生态底座价值链AI芯片65%内存17%硬盘4%其他14%数据23%算力65%算法12%数据收集35%数据标注45%数据清洗/存储20%人力算力65%算力层为AIGC模型训练提供最重要的基础支持,成本主要由AI芯片、内存、硬盘等构成,其中AI芯片是算力的核心 数据集快速膨胀和参数量持续上涨导致算力需求及算力成本大幅上升数据23%数据层主要负责AI数据的收集、标注、清洗、储存 随着AIGC不断发展,专业领域的复杂数据标注需求提升算法12%随着AI资产的复用和自动化程度的提升,可以实现规模效应该成本测算基于2023年数据亿欧智
35、库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)15资料来源:浪潮、OpenAI、Nature、公开资料、亿欧智库整理扩大算力是AIGC的刚需u 随着数字经济蓬勃发展,数字化新事物、新业态、新模式推动应用场景向多元化发展,扩大算力是AIGC短期内最需要解决的问题,在后摩尔时代,算力供给和需求都会飙升,据预测,中国智能算力规模将会拥有47.5%的年复合增长率,但与智
36、能算力需求仍存在较大差距。亿欧智库:中国算力需求剪刀差算力构成了AIGC产业的核心底座,主要包括AI芯片、AI服务器和数据中心AI芯片:是算力的基础,主要分为CPU、GPU、FPGA、ASIC四类。CPU是人工智能计算的基础,而GPU、FPGA和ASIC为协助CPU进行大规模计算的加速芯片。AI服务器:对AI芯片进行系统集成。AI服务器的架构为“CPU+加速芯片”,在进行模型处理推理和训练时,效率更高。数据中心:提供计算服务,承接AI算力需求。AIGC使用算力资源在云端实现模型训练。32 75 155 268 427 641 923 1271 0200400600800100012001400
37、20192020202120222023E2024E2025E2026E中国智能算力规模及预测亿欧智库:中国2019-2026年智能算力供应2022-2026ECAGR:47.5%单位:EFLOPS1e-21e-101e-81e-61e-41e+01e+21e+419851995200520152020NETtalkRNN for speechTD-Gammom v2.1亿欧智库:1985-2025年智能算力需求单位:petaFLOPdaysBILSTM for speechMLP-based neural network breaksGPT-32025Megatron-BERTGPT-2BE
38、RTAlexNetRetsNetsAlphaZeroAlphaGoZero2022年之后AIGC时代每年AI算力需求在短期内会有6400%的年需求根据OpenAI预测,人工智能算力需求短期类年均将增长64倍*华为轮值董事长胡厚崑也在2022年WAIC上表示,未来10年人工智能算力需求将增长500倍根据浪潮预测,未来五年内,智能算力的CAGR为47.5%,算力存在明显的短缺状态。亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(20397
39、2)亿欧智库-李先生(203972)亿欧智库-李先生(203972)16资料来源:专家访谈、公开资料、亿欧智库整理短期内GPU不可撼动,但随着AI任务比例变化,FPGA及ASIC有望远期成为主力AI芯片u 短期看,GPU占据AIGC训练及推理的绝对地位,英伟达基于CUDA强大的并行计算能力及自身产品力构建了护城河;远期看,FPGA及ASIC芯片时延低、特需设计等特点将成为主力芯片,国内厂商凭借两者的多年积累有望加速AI芯片的自主化进程。短期内远期变化云端云端边缘端云端主要部署高算力的AI训练芯片和推理芯片进行训练和推理任务,边缘端基本只部署推理芯片进行应用芯片种类GPUGPUFPGAFPGAA
40、SICASICGPU在AI模型构建中具有高适配性与高并行性的特点,可以更好支持AI模型训练中大量矩阵和向量的计算,同时,其强大的通用能力在推理任务中表现良好(GPU目前在训练和推理中占据绝对主力,不过推理的市占地位整体不及训练任务)根据GPU强大的通用能力依旧在AI芯片占据一席之地FPGA在训练任务所需要的浮点运算能力中较弱;可通过编程灵活配置芯片架构适应算法迭代,平均性能较高,拥有可编程性、可重构性和定点运算功能,在推理端使用较多开发时间长,研发成本高,进入门槛高大模型架构未统一,导致训练端未普及应特定用户要求和应用程序的需要而设计、制造的集成电路,有稳定的性能和优秀的功耗控制在面对推断环节
41、的小批量数据处理时,可以凭借流水线并行,达到高并行+低延迟的效果受延迟、隐私和带宽限制的驱动,逐渐被布署于IoT设备当中,以满足低功耗+灵活推理+快速响应的需求随着技术、算法的普及和趋向统一,专业性更强的ASIC将更具备竞争优势,ASIC在研发制作方面一次性成本较高,但量产后平均成本低,具有批量生产的成本优势云端云端雾/边缘端远期来看,大模型进入出清阶段,AI芯片主要负责日常运行的推理任务,训练任务则下渡到雾/边缘侧以满足具身智能应用需求训练推理雾/边缘端训练推理亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧
42、智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)17资料来源:近10年国际学术论文中的语言选择和中文使用情况分析研究、OneFlow、w3techs、亿欧智库整理缺乏优质数据,让中文大模型患上“心脏病”u AIGC由PGC和UGC进行内容支撑,缺乏过往内容的将会直接性影响AIGC,缺乏高质量的中文数据资料,将会影响到中文大模型在知识领域的能力。u 此外,国内拥有大量高价值数据的互联网企业更倾向于将数据封闭在APP和平台中,不同APP间数据不能连通,无法进行搜索,形成“数据孤岛”现象。亿欧
43、智库:英文数据占领主导地位亿欧智库:中文数据质与量皆有差距1英文互联网和中文互联网普及的时间差达到了半个世纪2当今高质量的学术论文以英文为主公开已标注数据集以英文为主,缺乏中文3英文拥有数量极大的训练用数据集GPT训练数据来源 Common Crawl(网站抓取的大型数据集)WebText2(Reddit网页爬取)Books(故事型书籍数据集)Wikipedia(维基百科)Journals(学术写作数据集)Common Crawl 包含约31亿个网页内容和320TB的文字信息 数据包含原始网页、元数据和文本提取 数据集中,英文数据占46%,俄、德、日、中都占5%左右中国移动互联网的兴起,导致数
44、据从更开放的网站,迁移至较为封闭的APP/小程序中移动互联网时代,国内大厂从融资、估值到上升都需要用户数据讲故事,所以大量数据封闭在各企业的APP和平台中,最终形成了APP内部的闭环,产生了“数据孤岛”的现象。5445184684222018.62019.62020.62021.6数量(万个)国内的网站数量规模下降,但是互联网的流量有着上升趋势互联网企业为了实现自己的流量和盈利目的,屏蔽其他软件,切断搜索路径,进行资源与内容的分割。导致不同平台之间数据流通共享大幅减少,信息可检索度降低。亿欧智库:中国网站数量亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(20
45、3972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)18资料来源:公开资料、亿欧智库整理数据马太效应或导致中国大模型难以获得商业循环的支撑u 由于英文数据和中文数据之间的指数级别的差距,建立在数据之上的模型也会出现越来越大的差距,形成数据马太效应。u 数据马太效应或导致英文大模型获得更多的商业机会,中文大模型亟需大量高质量的标注数据提升模型能力。亿欧智库:数据马太效应中文AI大模型缺乏优质中文数据中国下游应用开发者英文大模型海外下游应用开发者无法
46、满足寻求大模型寻求大模型提供大模型提供高质量标注数据使用英文数据训练大模型寻求大模型提供大模型提供高质量标注数据数据马太效应或导致中国大模型发展缺乏商业支撑数据马太效应 对于中国AI大模型服务商,缺乏高质量的标注数据,缺乏愿意买单的下游客户,无法形成积极正向的商业循环,形成中外大模型的马太效应。以GPT-4为例,虽然靠迁移回译能够满足大部分中文对话,但是随着模型的不断迭代,以及英文数据的持续填充,数据马太效应导致英文模型和中文模型的能力差距会逐渐增大。目前来看,中英模型的能力差距在5%-10%左右,长此以往,基于“大模型+微调”的原则,使用中文大模型的下游应用也会出现差距,英语(甚至是日耳曼语
47、系)下游开发企业将会获得相对竞争优势。使用英文数据训练的模型整体能力将比使用中文数据的模型强,且会越来越强亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)19资料来源:整数智能、公开资料、亿欧智库整理中文高质标注数据是国内大模型能力跻身国际先进水平的充要条件u 数据工程是AI工程的基础环节,其核心在于高质高效的数据标注,数据工程所得出的数据的质量,直接影响到
48、整个模型的质量与精度。u 中国数据量呈指数级增长,其中大占比的非结构化数据产生海量数据标注与清洗的需求,未来市场前景广阔。亿欧智库:数据工程占80%工程时长亿欧智库:数据巨量化,标注需求扩张数据采集数据标注影响10%的准确率模型训练模型部署影响1%的准确率亿欧智库:中国生产数据量(2018-2026E)7.51248.656.16201820202025E2026E中国生产数据量(单位:ZB)数据类型结构化数据占20%以文件形式存在的非结构化和半结构化数据占80%标注数据在大模型早起开发和专用领域开发中有着不可替代的作用,模型的监督学习需要数据的标注来保证精度,而半监督学习和无监督学习往往无法
49、达到同样的精度。非结构化数据非结构化机器数据和文件占非结构化数据的90%非结构数据需要经过标注才能被利用,带来大量数据的标注需求 但国内只有22%的企业有自建的数据团队,且目前数据标注的精度与国外顶尖水平还存在差距数据标注 技术理论、算法模型、应用场景不断优化创新,人工智能产业对训练数据的质量与数量要求快速提升 产业对数据类型的需求多样化,垂直类需求增长,产业链出现专业化分工的趋势,使得不同领域的专业化数据服务提供商作用凸显数据工程时长占比80%模型工程时长占比10%充要条件:充分必要条件亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-
50、李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)亿欧智库-李先生(203972)资料来源:公开资料、亿欧智库整理开发通用大模型成为AIGC应用的底座u 算法模型是人工智能的“灵魂”,通过建立算法模型并进行下行研发实现AI资产的复用获得盈利。u 盈利方式通过大模型使用授权、行业大模型定制、工作流订阅及基于下游任务微调三种途径进行订阅模式、平台服务模式、定制化服务模式、API服务模式、广告和推广模式、数据授权模式的商业变现。行业大模型通用大模型原子能力工作流订阅及基于下游任务微调行业大模型定制通用