《国家人工智能标准化总体组-人工智能标准化与开源研究报告-2019.4-123页.pdf.pdf》由会员分享,可在线阅读,更多相关《国家人工智能标准化总体组-人工智能标准化与开源研究报告-2019.4-123页.pdf.pdf(124页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、人工智能人工智能开源开源与与标准化标准化研究报告研究报告国家人工智能标准化总体组国家人工智能标准化总体组二零一九年四月二零一九年四月专家咨询组专家咨询组潘云鹤高文戴红谭铁牛吴朝晖李伯虎林宁于海斌吴飞周志华董景辰黄河燕朱小燕张德政朱恺真曲道奎左毅钱恒国家人工智能标准化总体组国家人工智能标准化总体组组长: 赵波副组长: 闵万里 胡国平 徐 波黄铁军 吴文峻 欧阳劲松秘书长:孙文龙编写单位编写单位(排名不分先后)中国电子技术标准化研究院中国科学院自动化研究所 华为技术有限公司北京深睿博联科技有限责任公司腾讯计算机系统有限公司成都四方伟业股份有限公司京东数字科技控股有限公司英特尔(中国)有限公司威麟信
2、息技术开发(上海)有限公司国际商业机器(中国)投资有限公司深圳前海微众银行股份有限公司机械工业第六设计研究院有限公司浪潮软件集团有限公司深圳市商汤科技有限公司重庆邮电大学华夏芯(北京)通用处理器技术有限公司南京云问网络技术有限公司 西门子(中国)有限公司中国电力科学研究院有限公司金税信息技术服务股份有限公司深圳云天励飞技术有限公司上海智能制造系统创新中心有限公司重庆中科云从科技有限公司天津天大康博科技有限公司苏州苏相机器人智能装备有限公司编写人员编写人员(排名不分先后)侯培新堵俊平戴东东代红董建张群马珊珊汪小娟王燕妮关贺符海芳孟繁亮张文杰杨晓光付会文安耀祖翁家良朱兆颖李斌卢丽珊王功明庞宇杜振东
3、杨萌沈盛宇刘鹏刘斌张大伟章谦一霍欣王伟才易明田忠李海杰颜深根叶安华刘军陈江宁张英丽秦湘军王彤郑文先陈斌代翔梅军王飞李军郑晨光瞿卫新杨品I目录目录第一章 概述.11.1 背景及目的.11.2 本报告的价值.21.3 本报告的脉络梳理与导读.3第二章 AI 产业现状及开源面临的宏观问题.42.1 AI 产业现状及产业链.42.1.1 基础层.52.1.2 技术层.62.1.3 行业应用层.72.2 AI 开源所存在的问题.92.2.1 法律道德问题.92.2.2 潜在锁定风险.102.2.3 安全问题.102.2.4 标准统一问题.102.2.5 版本兼容性问题.112.2.6 行业问题.11第三
4、章 AI 开源生态现状.123.1 AI 开源全栈(聚焦机器学习及深度学习).123.1.1 芯片使能.133.1.2 分布式集群.153.1.3 大数据支撑.163.1.4 数据管理.173.1.5 模型格式.183.1.6 深度学习框架.183.1.7 机器学习框架.193.1.8 知识图谱(知识库).203.1.9 强化学习.20II3.1.10 模型中间表示层 IR.213.1.11 端侧推理框架.223.1.12 高级 API.233.1.13 开放数据集.243.1.14 分布式调度.263.1.15 可视化工具.273.1.16 模型市场.273.1.17 应用类项目.283.2
5、 开源组织.323.2.1 开源中国.323.2.2 开源社.333.2.3 OpenI 启智开源开放平台.353.2.4 Linux 基金会. 363.2.5 OpenStack 基金会. 373.2.6 Apache 基金会.383.3 组织/机构参与开源的角色及目的. 39第四章 AI 开源技术目前在落地中存在的问题与差距.404.1 AI 在应用时的总体工作流.414.1.1 概述.414.1.2 经过抽象的工作流实现.444.1.3 实际应用的 AI 工作流应具备的特点.474.2 当前 AI 技术在行业应用中的现状及问题.484.2.1 交通领域.484.2.2 油气领域.504.
6、2.3 公共安全领域.524.2.4 工业领域.554.2.5 电力领域.584.2.6 金融领域.604.2.7 医疗领域.62III4.3 问题总结及应对思路.644.3.1 AI 开源软件的数据支持.654.3.2 AI 开源软件的算法.664.3.3 AI 开源软件的分布式基础设施.67第五章 AI 数据开放及协同.695.1 AI 数据的关系和需求.695.1.1 面对的挑战.695.1.2 AI 数据开放和协同中的相关方.715.2 AI 数据开放和协同中相关行业分析.725.2.1 政府角度分析.735.2.2 医疗行业分析.745.2.3 金融行业分析.765.2.4 交通行业
7、分析.775.2.5 物流行业分析.785.2.6 制造行业分析.805.2.7 教育行业分析.815.2.8 石油行业分析.825.3 AI 数据开放和协同的可行性.835.3.1 顶层设计.835.3.2 法律法规.845.3.3 数据治理.855.3.4 开源数据平台建设.855.4 潜在解决方案.865.4.1 中心化模式.875.4.2 混合型模式.895.4.3 去中心化模式.905.4.4 没有初始数据的模式.92第六章 AI 领域开源与标准的关系.936.1 开源与标准联动的案例.93IV6.1.1 容器.936.1.2 大数据文件格式.946.1.3 OPNFV(网络功能虚拟
8、化). 956.2 AI 领域开源与标准联动的思考.966.3 本次标准机遇研究的范围与内容.976.3.1 行业应用标准.986.3.2 AI 平台标准.986.3.3 安全标准.1046.3.4 应用智能化水平评估.1056.4 制定人工智能标准中要考虑的因素.1066.4.1 伦理与社会关注.1066.4.2 监管与治理因素.1076.4.3 把握开源与标准平衡,促进创新与产业发展.108结 语.109附录 A.110表 A.1 AI 开源项目社区活跃度指标统计.110附录 B.113表 B.1 第五章技术术语表.113表 B.2 第六章技术术语表.1151第一章第一章 概述概述1.11
9、.1背景及目的背景及目的自 2013 年以来,随着深度学习技术的不断发展,引发了新一轮人工智能热潮,诸如:AlphaGo、刷脸支付、无人驾驶、AR、无人超市等应用层出不穷。大量资本和并购的涌入,加速了人工智能和产业的结合,人工智能甚至有可能成为是继蒸汽机、电力和计算机之后,人类社会的第四次革命。人工智能(Artificialintelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在历史上,人工智能有过很多个定义,但是迄今为止没有一个官方的、统一的、正式的定义。人工智能最早由麻省理工学院的 John McCarthy 在 1956
10、年的达特矛斯会议上提出的: 人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。世界各国纷纷将发展人工智能作为抢抓下一轮科技革命先机的重要举措。 随着人工智能领域国际竞争的日益激烈,2017 年国务院印发新一代人工智能发展规划,提出我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,为部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国构建了基础。本报告中的开源指源码公开、源数据公开及其他成果形式(如软件、系统或平台架构等)的公开。近年来开源技术蓬勃发展,诸如计算机视觉开源社区OpenCV、开源数据集 ImageNet、开源智能终端操作系统 Androi
11、d 和其他大量开源工具及平台,无不表明开源创新与协同有力推动了产业进程。同理,人工智能尤其是深度学习相关的开源蓬勃发展, 也将对我国人工智能相关产业产生积极影响。第一,人工智能开源有助于支撑人工智能领域形成高端产业集群优势,逐步引领世界前沿技术的发展。第二,人工智能开源有助于吸引更多人才进入人工智能产业,建设多层次人才培养体系。第三,人工智能开源有助于推动人工智能广泛应用,加快推动人工智能与各2行业的融合创新和赋能。1.21.2本报告的本报告的价值价值本报告旨在为政府及行业的政策制定者、企业业务决策者、技术决策者提供参考,促进经济社会各领域智能化转型,加速人工智能技术在全行业应用落地。(1)促
12、进人工智能产业的发展提升报告集成了各行各业在人工智能领域的经典案例, 提供了丰富的知识积累和发展经验,可以帮助决策者快速形成发展思路(包括实现方法和风险评估),促进行业的发展提升。(2)加速人工智能技术的应用落地报告描述了机器学习、深度学习开源技术全栈,通过介绍开源工具平台及基准的方法论,降低行业人员学习和应用人工智能的技术门槛,提升研发速度,降低研发和运维管理成本, 使前沿技术和新兴算法能快速运用到具体领域业务中并创造价值。(3)推动人工智能生态圈建设报告所描述的人工智能领域的经验和需求能够促进人工智能生态圈的良性发展,促进企业的技术创新。标准与开源的联动能使产业发展更加健康。(4)推动产业
13、以更开放的心态进行协同创新报告所倡导的开源开放的业态有助于推动中国人工智能开源走向更深层次,例如数据开放协同的文化及平台建设、开源分享思维和隐私保密需求的平衡等。报告会给出开放数据平台的构建思路及四种可供参考的方案。3图图 1 本报告的本报告的四四大价值大价值1.31.3本报告的脉络梳理与导读本报告的脉络梳理与导读本次报告分为如下几个部分:第二章对 AI 的产业现状及人工智能开源落地行业的宏观问题进行描述。首先分析了国际国内当前 AI 产业集聚情况,从基础层、技术层和行业应用层等三个层次深入描述了 AI 产业链现状,提及了工业、医疗、电商等典型领域的应用场景,然后对 AI 开源面对的法律道德、
14、垄断风险、标准统一等系列问题进行了深入探讨。第三章主要对人工智能开源现状及相关生态做一个全面的分析, 包括人工智能开源项目(聚焦机器学习、深度学习)的全栈图,并给出全栈各层的定义。其次从各层挑选一些典型的项目来分析其技术及生态特点、 主要的发起及参与的公司及个人。此外也介绍相关的开源组织,包括国内的组织如开源中国、国际组织如 Linux 基金会及 Apache 软件基金会,然后分析各组织、公司在重要开源项目中的角色及目的。第四章首先介绍了 AI 在应用时的总体工作流,然后系统化地分析当前基于开源的人工智能技术在解决行业具体问题时还有哪些不足、开源起了什么作用、还有哪些短板、在全栈中还有哪些缺失
15、等,试图从技术生产者及技术消费者两个纬度来阐述人工智能开源技术是否可以解决所有问题。第五章主要阐述新一代数据驱动的人工智能将给传统以代码为核心的开源4理念带来哪些挑战,从政府角度以及一些典型行业出发分析 AI 数据开放和协同中存在的问题,从顶层设计、法律规范、数据治理、开源数据平台建设说明 AI数据开放和协同的可行性,最后给出四种可行性技术架构推动新一代开源运动(Open Source Movement) 的升级,实现“开放生态圈平台”(Open EcosystemPlatform)的愿景。第六章将着重阐述人工智能领域开源与标准的关系和相互促进。 首先介绍在云计算、大数据、电信网络等几个成功的
16、开源与标准联动的案例,随后阐述人工智能领域开源与标准的相互关系和联动建议, 并针对人工智能落地过程中的问题梳理出标准的机会,最后阐述在标准制定中可能遇到的问题以及相关思考。第二章第二章 AI 产业现状及开源面临的宏观问题产业现状及开源面临的宏观问题2.12.1AI 产业现状及产业链产业现状及产业链现有 AI 开源产品在行业中的应用越来越多, 一些企业利用自身的技术优势,重点打造 AI 应用开放平台,提供语音引擎、视觉引擎、自然语言处理引擎等众多 AI 基础技术;围绕开放平台,构建人才生态和行业生态,全面覆盖教育、金融、家电、医疗、手机、汽车、安防等领域,在内业已产生巨大的经济价值和社会价值。伴
17、随着应用场景的快速发展,数据开源会成为新的趋势,数据收集和标注的标准化需求也会越来越迫切, 业内也产生了一批从事数据收集和标注的初创公司和平台。目前,全球涉及人工智能的企业集中分布在美国、中国、加拿大、德国等少数国家或地区,且在美国和中国的企业数量已占全球的半数以上。美国和中国依靠其卓越的技术研发机构及融合丰富应用场景的各类实验室, 协同领衔全球人工智能的发展,奠定了雄厚的技术基础。中国当前具有多个人工智能聚集中心和地方特色人工智能发展产业,其中以北京与天津、上海与杭州、深圳与广州为重点城市群抱团发展的产业格局逐步显现,形成三大人工智能聚集中心。图 2 是我们制定的人工智能参考框架图, 图 3
18、 是人工智能领域目前在产业界应用的全景图。在产业全景图中的“基础设施”层对应了参考框架中的“数据”与“算力”,产业全景图中的“关键技术”层对应了参考框架中的“算法”,产5业全景图中的“智能系统”及“行业应用”对应了参考框架中的“产品与服务”。图图 2 人工智能参考框架图人工智能参考框架图图图 3 人工智能产业生态圈全景图人工智能产业生态圈全景图人工智能产业链宏观上由基础层、技术层和应用层等三个层次组成,其中基础与核心技术的研究主要分布在大企业及科研机构, 而应用层的研究测试在大中小企业均有涉及,形成了全面开花、全行业覆盖的局面。2.1.12.1.1基础层基础层芯片研发作为基础层的核心,已成为人
19、工智能发展的关键因素。芯片在技术架构方面可分为通用类芯片(如 CPU、GPU 等)、半定制化芯片(如 FPGA 等)、6全定制化芯片(如 ASIC 等)和类脑计算芯片。目前 GPU 是深度学习训练平台的主流配置,而 FPGA 的灵活可编程特点可以使得在算法未完全成熟时切入市场,同时其低功耗特性也被大型数据中心所青睐。 在专用人工智能芯片领域, 自 2016年 Google 发布了 TPU 芯片后,这一市场热潮不断。国内如寒武纪、地平线、华为海思等公司也纷纷研发出可规模商用的人工智能专用计算芯片。随着物联网技术的不断发展,传感、计算、通讯、AI 等功能的集成变得尤为重要,若每个功能均依靠单一芯片
20、,不但效率低下,而且能耗和成本都很高,因此将不同的功能整合在一起,构建异构芯片,会极大缓解上述问题。由 AMD、ARM、华为、HXGPT、高通、IMAGINATION 和三星等公司组成的全球异构系统架构(HSA) 联盟在 2017 年成立了中国区域委员会(CRC)。CRC 的任务是以构建 HSA生态系统为侧重点,提高对异构计算的意识认知,并促进 HSA 在中国的标准化进程。新一代人工智能依赖于海量数据的处理、存储、传输,因此离不开云计算。云计算是把大量的计算资源封装抽象为 IT 资源池,用于创建高度虚拟化的资源供用户使用。通过动态整合、共享硬件设备供应来实现 IT 投资的利用率最大化,降低了使
21、用计算的单位成本及 IT 运维成本,促进了人工智能产业的商业化进程。2.1.22.1.2技术层技术层目前技术层中的核心技术主要由科技巨头企业掌控,如微软、亚马逊、Google、Facebook、百度、阿里、腾讯、京东、小米、商汤等。此外,一大批初创企业和开源组织也陆续加入其中。它们共同探索和推进 AI 技术的发展,催生出了一批在业内有深远影响力的开源项目,如 TensorFlow、PaddlePaddle、Caffe、CNTK、Deeplearning4j、PyTorch 、Mahout、MLlib。这些科技企业,通过招募 AI高端人才及组建实验室等方式加快关键技术研发, 并通过开源技术平台构
22、建生态体系。技术层面, 包含机器学习、 知识图谱、 自然语言处理、 虚拟现实或增强现实、计算机视觉、生物特征识别、人机交互等技术与应用场景相结合,从而衍生出大量的智能化产品与服务,包括智能家居、智能机器人、智能搜索引擎、智能问答系统、一体机 VR、无人驾驶汽车、人脸识别系统、智能客服等。72.1.32.1.3行业应用层行业应用层人工智能是制造业数字化、网络化、智能化转型发展的关键引擎,是促进实体经济发展的重点方向。 近年来各国政府和产业界纷纷采取行动推进基础性研究及产业实践部署,人工智能的各种应用如机器人、无人驾驶、智能客服等百花齐放,大中小企业均有涉及,形成了全行业全覆盖的局面。本次报告的写作单位涉及了如下行业:工业制造、医疗、电商、公安、金融、消费电子、交通、物流、航空、能源、政务等,因此下面报告中不论是行业案例还是痛点分析等主要以它们为主。同时这些行业也是在 AI 应用中诉求