《全球及中国数据标注行业市场现状分析.docx》由会员分享,可在线阅读,更多相关《全球及中国数据标注行业市场现状分析.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、全球及中国数据标注行业市场现状分析一、数据标注行业概况数字经济是全球新一轮科技和产业革命最典型的标志,其中最关键的动力来自人工智能等前沿技术的创新突破。近年来,得益于人工智能的兴起,数据标注产业应运而生,它主要是根据人工智能企业的要求,对图像、声音、文字等进行不同方式的标注,从而为人工智能企业提供大量的数据供机器训练和学习。发展数据标注产业,对我省绿色健康发展转型,有着重大现实意义。目前数据标注有3种常用的划分方式:(1)按照标注对象进行分类,包括图像标注、视频标注、语音标注和文本标注;(2)根据标注的构成形式,将其分为结构化标注非结构化标注和半结构化标注(3)根据标注者类型,分为人工标注和机
2、器标注:数据标注分类数据标注产业的发展,促进了人工智能的蓬勃兴起,其主要的应用行业和不同行业的标注场景总结如下:数据标注的应用场景二、全球数据产生现状分析近年来,全球数据量依然增长迅速,据统计,2019年全球数据产量为41ZB,同比增长24。24%,预计2020年全球数据产生量约为47ZB。2016-2020年全球每年数据产生量及增速从全球数据标注处理容量需求空间来看,目前市场上有1%的数据能被收集保存下来,据统计,2019年全球数据标注处理容量需求量为378EB,同比增长24。34%,预计2020年全球数据标注处理容量需求空间约为433EB。2016-2020年全球数据标注处理容量需求空间及
3、增速三、中国数据标注行业市场现状分析数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心,据统计,2019年中国数据标注行业市场规模达到30。9亿元,同比增长19。31%,预计到2025年中国数据标注行业市场规模将突破100亿元。2018-2025年中国数据标注行业市场规模及增速从各类型数据标注市场来看,2019年中国图像类数据标注市场占比最高,占比49。7%,其次是语音类数据标注市场,占比39。1%,NLP类数据标注市场占比11。2%。2019年中国数据标注细分市场规模占比(单位:%)从中国数据标注需求相关企业区域分布来看,据统计,2020年4月中国数据标注相
4、关企业数量为565家,截至2020年12月增长至705家,其中企业数量排名前五的分别是北京市、上海市、成都市、深圳市与杭州市。2020年中国数据标注需求相关企业地区分布投融资方面,2020年中国数据标注行业投融资事件数量为6起,在新冠疫情的影响下热度依然未减少,截至2021年4月中国数据标注行业投融资事件数量为2起。2014-2021年中国数据标注行业投融资事件数量目前,语音标注质量评估算法主要有词错误率(worderrorrate,简称WER)算法和句子错误率(sentenceerrorrate,简称SER)算法。词错误率表示为了让识别出来的词序列和标准的词序列之间保持一致,而需要进行替换、
5、删除或者插入的某些词。各数据标注质量评估算法对比如下:各数据标注质量评估算法对比四、中国数据标注行业竞争格局分析目前中国数据标注行业参与企业主要分为三个梯队,其中第一梯队头部企业主要有京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注);第二梯队中部企业主要有龙猫数据、Testin云测、倍赛BasicFinder、数据堂;第三梯队主要为其他广大中小型企业。中国数据标注行业竞争格局五、数据标注行业发展趋势1、细化数据标注任务随着人工智能技术在一些行业的广泛应用,这些行业原有的数据标注任务已经不再满足业务需求。以智能安防为例,为了促进智能安防系统从传统的被动防御走向智能化的主动预警,一些
6、新的数据标注任务也应运而生。例如,当一个神情紧张或者头戴面罩的小偷手握一根棍子准备翻越小区外墙企图实施盗窃行为时,安防系统应该马上启动报警系统,并及时向安防人员发出警告,以保障住户的财产安全。实现异常情况预警的新标注任务,包括表情标注、危险品标注和行为标注,利用这些数据标注就能帮助安防系统识别紧张的表情、违法的面罩和违规的翻越行为以及可能的凶器棍子。从技术角度来看,新标注任务为异常行为的识别与建模提供了高质量的训练数据,也有利于提高模型训练的准确性。因此,针对特定的行业需求细化标注任务,将是今后数据标注的一个发展趋势。2、半自动化数据标注工具的研发随着AI技术的发展,数据标注工具需要从只支持人
7、工标注逐渐转化为人工标注+AI辅助标注的方法。其基本思路为:基于以往的标注,可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做一些校正。以图像标注为例,标注工具首先通过预训练的语义分割模型来处理图像,并生成多个图像片段、分类标签及其置信度分数。置信度分数最高的片段用于对标签的初始化,呈现给标注者。标注者可以从机器生成的多个候选标签中为当前片段选择合适的标签,或者对机器未覆盖到的对象添加分割段。AI辅助标注技术的应用,能够极大地降低人力成本并使标注速度大幅提升。目前,已经有一些数据标注公司开发了相应的半自动化工具,但是从标注比例来看,机器标注占30%左右,而人工标注占比达到70%左右。
8、因此,数据标注工具的发展趋势是开发以人工标注为主机器标注为辅的半自动化标注工具,同时减少人工标注的比例,并逐步提高机器标注的占比。3、数据标注中的安全性与隐私保护为了保证数据标注平台中数据的安全性和隐私不被泄露,可以考虑采取数据治理、数据分割、数据安全传输和区块链等技术。数据治理是指对数据采集、数据清洗、数据标注到数据交付生命周期的每个阶段进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平确保数据在一个可控环境下使用。数据分割是指将涉密的待标注数据拆分成多个部分,分别指派给没有关联的不同团队,并且用数据接口的方式来传输数据,避免客户的数据被直接打包并互相传送,以便尽可能地提高安全性。待标注的数据在分发和交付时都会涉及到数据传输,为了解决数据传输过程中存在的被盗、暴露和复制等安全性问题,就需要设计和开发出一个安全的标注数据传输框架,该框架需要提供数据加密、数据压缩和自动数据发送等功能。此外,基于区块链的数据标注平台采用强加密算法以及分布式技术来保障数据的安全,而且由于实现了社区自治,标注人员直接与提供标注需求的企业对接并获得标注报酬,避免标注任务的层层转包。平台一旦建设完成,全网节点均是平台的维护成员。区块链技术的使用可以避免企业用户(上传数据的账户)恶意搜集数据,也能防止个人用户(标注人员账户)批量搜集数据。