《大数据白皮书(2018年).pdf》由会员分享,可在线阅读,更多相关《大数据白皮书(2018年).pdf(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 大大 数数 据据 白白 皮皮 书书 (20182018年)年) 中国信息通信中国信息通信研究院研究院 2012018 8年年4 4月月 版权声明版权声明 本白皮书本白皮书版权属于版权属于中国信息通信研究院中国信息通信研究院,并受法律保,并受法律保 护护。转载、摘编或利用其它方式使用转载、摘编或利用其它方式使用本白皮书文字或者观本白皮书文字或者观 点的,应点的,应注明注明“来源:来源:中国信息通信研究院中国信息通信研究院”。违反上述。违反上述 声明者,本声明者,本院院将追究其相关法律责任。将追究其相关法律责任。 前前 言言 随着信息技术和人类生产生活交汇融合, 全球数据呈现爆发增长、 海量集聚
2、的特点,对经济发展、社会治理、国家管理、人民生活都产 生了重大影响。近年来,我国的大数据在政策、技术、产业、应用等 方面均获得了长足发展。 本白皮书是继大数据白皮书(2014 年)、大数据白皮书 (2016 年)之后中国信息通信研究院第三次发布大数据白皮书。 本白皮书在前两版的基础上, 集中梳理介绍了我国大数据的最新发展 态势和成果。本白皮书首先对我国大数据的发展进行了回顾与梳理, 对大数据发展的总体情况进行了研判。 白皮书还对大数据的技术发展、 行业应用进行了梳理, 探讨了利用大数据提升政府治理能力的关键问 题,并对数据法律法规体系和地方大数据产业发展的新实践、新动向 进行了追踪研究,力求重
3、点介绍我国大数据发展的最新成果。随着近 年来数据资产管理的概念逐渐深入人心, 本白皮书专门用一章对这一 问题进行了探讨。最后,结合我国大数据发展最新状况及问题,提出 了进一步促进大数据发展的相关策略建议。 目目 录录 一、大数据发展概述. 1 二、大数据政策环境. 4 (一)我国大数据政策回顾与大数据战略的提出. 4 (二)国家大数据战略的内涵. 5 三、大数据技术创新. 8 (一)数据分析技术. 8 (二)事务处理技术. 11 (三)数据流通技术. 13 四、大数据与实体经济融合应用. 15 (一)行业应用大数据的特点. 15 (二)行业应用大数据的深层分析. 16 (三)行业应用大数据的关
4、键因素. 19 五、政务大数据发展. 19 (一)政务大数据总体要求. 20 (二)政务信息系统整合. 22 (三)政务信息共享交换. 24 (四)政务信息对外开放. 26 六、地方大数据产业发展. 29 (一)大数据产业发展主要模式. 29 (二)地方大数据产业发展策略分析. 30 (三)地方大数据产业发展成效与问题. 32 七、数据资产管理体系. 33 (一)数据资产管理的定位和范畴. 33 (二)数据资产管理面临的挑战. 35 (三)数据资产管理的发展趋势. 37 八、数据立法重点. 41 (一)政府数据开放. 41 (二)个人信息保护. 43 (三)数据流通规则. 46 九、建议与展望
5、. 48 (一)制度与技术双管齐下,打破数据孤岛. 48 (二)内部与外部多重并举,推动数据治理. 49 (三)业务与数据加速融合,深化数据应用. 49 (四)监管与自律同时推进,保障数据安全. 50 图表目录 表 1 数据流通技术工具对比 . 14 表 2 部分行业代表性企业大数据应用情况 . 17 表 3 地方政府大数据产业发展定位 . 31 图 1 我国大数据市场产值图 . 2 图 2 事务型数据库架构演进图 . 11 图 3 我国主要政府数据开放平台上线时间 . 28 图 4 数据资产管理在大数据体系中的定位 . 34 图 5 数据资产管理体系架构 . 35 中国信息通信研究院 大数据
6、白皮书(2018) 1 一、大数据发展概述 大数据是信息化发展的新阶段。 随着信息技术和人类生产生活交 汇融合, 互联网快速普及, 全球数据呈现爆发增长、 海量集聚的特点, 对经济发展、社会治理、国家管理、人民生活都产生了重大影响。在 刚刚过去的 2017 年里,大数据在政策、技术、产业、应用等多个层 面都取得了显著进展。 在政策层面,大数据的重要性进一步得到巩固。党的十九大提出 “推动互联网、大数据、人工智能和实体经济深度融合”,习近平总 书记在政治局集体学习中深刻分析了我国大数据发展的现状和趋势, 对我国实施国家大数据战略提出了更高的要求。 在技术层面,以分析类技术、事务处理技术和流通类技
7、术为代表 的大数据技术得到了快速的发展。以开源为主导、多种技术和架构并 存的大数据技术架构体系已经初步形成。 大数据技术的计算性能进一 步提升,处理时延不断降低,硬件能力得到充分挖掘,与各种数据库 的融合能力继续增强。 在产业层面,我国大数据产业继续保持高速发展。权威咨询机构 Wikibon 的预测表示, 大数据在 2018 年将深入渗透到各行各业 (every business) 1。对于我国大数据产业的规模,目前各个研究机构均采 取间接方法估算。 中国信息通信研究院结合对大数据相关企业的调研 测算,2017 年我国大数据产业 2规模为 4700 亿元人民币,同比增长 1 来源: 2 指以数
8、据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬 件产品的开发、销售和租赁活动,以及相关信息技术服务。 大数据白皮书(2018) 中国信息通信研究院 2 30%。在这其中,大数据软硬件产品的产值约为 234 亿元人民币,同 比增长 39%。而中国信息通信研究院中国数字经济发展与就业白皮 书(2018 年)中的数据显示,2017 年我国数字经济总量达到 27.2 万亿元,同比名义增长超过 20.3%,占 GDP 比重达到 32.9%。在这其 中, 以大数据为代表的新一代信息技术对于数字经济的贡献功不可没。 图 1 我国大数据市场产值图(单位:亿元) 在应用层面
9、,大数据在各行业的融合应用继续深化。大数据企业 正在尝到与实体经济融合发展带来的“甜头”。利用大数据可以对实 体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、 能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目 标市场,更成为众多大数据企业技术进步的重要推动力。随着融合深 度的增强和市场潜力不断被挖掘, 融合发展给大数据企业带来的益处 和价值正在日益显现。根据中国信息通信研究院 2017 年大数据产业 地图的统计,为金融、政务、电商三个行业提供大数据产品和解决方 案的企业最多,分别占比 63%、57%、47%。但实践中仍然面临着缺乏 2800 3600 4700 6200
10、 8000 10100 0 2000 4000 6000 8000 10000 12000 2015201620172018E2019E2020E 中国信息通信研究院 大数据白皮书(2018) 3 高质量数据、缺乏平台级工具、缺乏成熟商业模式等一系列问题,阻 碍了实体经济行业充分利用大数据的价值。 在利用大数据提升政府治理能力方面, 我国在 2017 年出台了 政 务信息系统整合共享实施方案、政务信息资源目录编制指南(试 行)等多项政策文件推进政府数据汇聚、共享、开放,取得了诸多 进展。各地纷纷将大数据作为提升政府治理能力的重要手段,通过高 效采集、有效整合、深化应用政府数据和社会数据,提升政
11、府决策和 风险防范水平,提高社会治理的精准性和有效性。 在地方大数据发展实践方面,截至 2018 年 2 月底,我国各地方 政府对外公布了超过 110 份大数据相关政策文件,覆盖全国 31 个省 级行政区划。总体来看,我国大数据产业目前仍处于蓬勃发展阶段, 各地更加注重结合当地发展特色和优势进行大数据产业发展, 区域协 调的发展局面正在形成。 在大数据的发展过程中,无论是政府还是企业,近年来都愈发关 注数据治理和数据资产管理的重要性。2018 年 3 月,银监会出台银 行业金融机构数据治理指引,要求银行金融机构建立自上而下、协 调一致的数据治理体系。 企业的数据资产管理也正在从理论走向实践,
12、为大数据应用打下坚实的基础。 为应对大数据发展带来的各种问题和 需求,各国政府在立法方面也动作频频,在政府数据开放、个人信息 保护和数据跨境流动方面都有了一些进展。无论是政策还是立法,都 旨在实现数据价值的安全释放,提升数据管理的科学化水平。 我国要实现从“数据大国”向“数据强国”转变,还面临诸多挑 大数据白皮书(2018) 中国信息通信研究院 4 战。一是技术创新与支撑能力依然不够,我国无论是新型计算平台、 分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较 大差距,总体上难以满足各行各业大数据应用需求。二是信息安全和 数据管理体系仍未建立,数据所有权、隐私权等相关法律法规和信息
13、安全、开放共享的规范和标准缺乏或可操作性不强,技术安全防范和 管理能力不够。三是人才队伍建设亟需加强,大数据人才远不能满足 发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管 理的综合型人才。未来,需要我们继续坚持国家大数据战略,审时度 势精心布局,努力开拓大数据发展新局面,更好服务我国经济社会发 展和人民生活改善。 二、大数据政策环境 在刚刚过去的 2017 年里,大数据从政策层面备受关注。在党的 十九大报告“贯彻新发展理念,建设现代化经济体系”一章中,专门提 到“推动互联网、大数据、人工智能和实体经济深度融合”,高屋建瓴 地指出了我国大数据发展重点方向。2017 年 12 月 8
14、 日,十九届中共 中央政治局就实施国家大数据战略进行了集体学习, 习近平总书记深 刻分析了我国大数据发展的现状和趋势, 对我国实施国家大数据战略 提出了五个方面的要求。本章将对国家大数据政策进行梳理,并对国 家大数据战略的内涵进行分析。 (一)(一)我国大数据政策我国大数据政策回顾回顾与大数据战略的提出与大数据战略的提出 2014 年,大数据首次写入政府工作报告,而这一年也成为实际 中国信息通信研究院 大数据白皮书(2018) 5 意义上的“中国大数据政策元年”。从这一年起,“大数据”逐渐成为各 级政府关注的热点,政府数据开放共享、数据流通与交易、利用大数 据保障和改善民生等概念逐渐深入人心。
15、 2015 年 8 月 31 日,国务院正式印发了促进大数据发展的行动 纲要(以下简称“行动纲要”),成为我国发展大数据产业的战 略性指导文件。行动纲要作为我国推进大数据发展的战略性、指 导性文件, 充分体现了国家层面对大数据发展的顶层设计和统筹布局, 为我国大数据应用、产业和技术的发展提供了行动指南。 2016 年,中华人民共和国国民经济和社会发展第十三个五年 规划纲要(以下简称“十三五规划纲要”)正式公布。“十三五 规划纲要”的第二十七章题目为“实施国家大数据战略”。这也是“国家 大数据战略”首次被公开提出。十三五规划纲要对“国家大数据战 略”的阐释,成为各级政府在制订大数据发展规划和配套
16、措施时的重 要指导,对我国大数据的发展具有深远意义。 2016 年底,工业和信息化部正式发布大数据产业发展规划 (2016-2020 年)。大数据产业发展规划以大数据产业发展中 的关键问题为出发点和落脚点, 明确了“十三五”时期大数据产业发展 的指导思想、发展目标、重点任务、重点工程及保障措施等内容,成 为大数据产业发展的行动纲领。农业林业、环境保护、国土资源、水 利、交通运输、医疗健康、能源等主管部门纷纷出台了各自行业的大 数据相关发展规划,大数据的政策布局逐渐得以完善。 (二)(二)国家大数据战略的内涵国家大数据战略的内涵 大数据白皮书(2018) 中国信息通信研究院 6 全面准确的理解国
17、家大数据战略的内涵与意义, 才能形成广泛的 社会共识、充分的调动社会资源、完成构建国家大数据体系的各项任 务。全面深入了解大数据及其相关技术的发展脉络和历史轨迹,可以 引导我们准确深刻的把握大数据与国家总体目标相关性和内生性。 2017 年 12 月 8 日,中共中央政治局就实施国家大数据战略进行第二 次集体学习,习近平总书记在主持学习时,深刻分析了我国大数据发 展的现状和趋势, 对我国实施国家大数据战略提出了五个方面的要求, 一是推动大数据技术产业创新发展; 二是构建以数据为关键要素的数 字经济;三是运用大数据提升国家治理现代化水平;四是运用大数据 促进保障和改善民生; 五是切实保障国家数据
18、安全与完善数据产权保 护制度。我们认为,上述五大要求构成了国家大数据战略的“五大内 涵”。 一是推动大数据技术产业创新发展。总书记指出,我们要瞄准世 界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控 的大数据产业链、价值链和生态系统。近年来,我国在大数据技术产 业方面取得了不少突破。2014-2016 年,百度、阿里和腾讯先后拿下 国际上知名的 Sort Benchmark 大赛冠军。 这个竞赛全面比拼分布式系 统软件架构能力,包括如海量数据分布式存储、计算任务切片调度等 方面的能力。而这一赛事 2014 年之前的冠军均被微软、Yahoo、亚马 逊等包揽。 这从一个侧面反映了我国产
19、业界在大数据处理技术水平的 快速提升,但是在互联网与大数据技术的创新与发展方面,同世界先 进水平相比还有很大距离。 中国信息通信研究院 大数据白皮书(2018) 7 二是构建以数据为关键要素的数字经济。总书记提出,要坚持以 供给侧结构性改革为主线,加快发展数字经济,推动实体经济和数字 经济融合发展, 推动互联网、 大数据、 人工智能同实体经济深度融合, 继续做好信息化和工业化深度融合这篇大文章, 推动制造业加速向数 字化、网络化、智能化发展。2016 年,我国数字经济总量达 22.6 万 亿元,占 GDP 比重达 30.3%。数字经济已经成为带动中国经济增长 的核心动力。工业互联网、分享经济、
20、网络零售、移动支付等领域的 快速发展,既为大数据的发展提供了重要应用场景,也对大数据产业 的技术水平提升起到了促进作用。 三是要运用大数据提升国家治理现代化水平。总书记强调,要建 立健全大数据辅助科学决策和社会治理的机制, 推进政府管理和社会 治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高 效化。要实现这一目标,不但要重点推进政府数据本身的开放共享, 还应当将各级政府的平台与社会多方数据平台进行互联与共享, 并通 过大数据管理工具和方法,全面提升国家治理现代化水平。 四是要用大数据促进保障和改善民生。总书记指出,大数据在保 障和改善民生方面大有作为。要坚持问题导向,抓住民生领域的
21、突出 矛盾和问题,强化民生服务,弥补民生短板。民生大数据应用一向是 大数据的重点行业应用,医疗、教育、社保、交通等行业的大数据应 用在 2017 年也不断取得突破。大数据在流行病预测、个性化医疗、 智能交通、治安管理等更广泛的社会场景中,将为增进民生福祉创造 更大的技术红利。 大数据白皮书(2018) 中国信息通信研究院 8 五是要切实保障国家数据安全。总书记强调,要加强关键信息基 础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预 警和溯源能力。要加强政策、监管、法律的统筹协调,加快法规制度 建设。目前,关键数据基础设施的公权力属性、数据的生成、数据的 权属、数据的开放、数据的流通
22、、数据的交易、数据的保护、数据的 治理以及法律责任等问题,都亟需得到法律的确认。 以上五个角度共同构成了国家大数据战略的主要内涵。 大数据是 信息化发展的新阶段,推动了信息化发展模式的变革创新,开启了数 字中国建设的新时代。 三、大数据技术创新 如今,大数据技术体系纷繁复杂,但其中有诸多技术格外受到关 注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法 难以应对, 数据处理系统和分析技术开始不断发展。 从 2005 年 Hadoop 的诞生开始,形成了数据分析技术体系这一热点。伴随着数据量的急 剧增长和核心系统对吞吐量以及时效性的要求提升, 传统数据库需要 向分布式转型,形成了事务处
23、理技术体系这一热点。然而,时代的发 展使得单个企业、甚至单个行业的数据都难以满足要求,数据融合的 价值更加显现,形成了数据流通技术体系这一热点。本章将对数据分 析、 事务处理、 数据流通这三类典型的技术体系的最新进展进行介绍。 (一)(一)数据分析技术数据分析技术 从数据在信息系统中的生命周期看,数据分析技术生态主要有 5 中国信息通信研究院 大数据白皮书(2018) 9 个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查 询与分析、可视化展现。在数据采集与传输领域渐渐形成了 Sqoop、 Flume、Kafka 等一系列开源技术,兼顾离线和实时数据的采集和传 输。在存储层,HDFS
24、 已经成为了大数据磁盘存储的事实标准,针对 关系型以外的数据模型,开源社区形成了 K-V(key-value)、列式、 文档、 图这四类 NoSQL 数据库体系, Redis、 HBase、 Cassandra、 MongoDB、 Neo4j 等数据库是各个领域的领先者。计算处理引擎方面,Spark 已 经取代 MapReduce 成为了大数据平台统一的计算平台, 在实时计算领 域 Flink 是 Spark Streaming 强力的竞争者。在数据查询和分析领域 形成了丰富的 SQL on Hadoop 的解决方案, Hive、 HAWQ、 Impala、 Presto、 Spark SQL
25、 等技术与传统的大规模并行处理(massively parallel processor,MPP)数据库竞争激烈,Hive 还是这个领域当之无愧的 王者。在数据可视化领域,敏捷商业智能(business intelligence, BI)分析工具 Tableau、QlikView 通过简单的拖拽来实现数据的复杂 展示,是目前最受欢迎的可视化展现方式。 相比传统的数据库和 MPP 数据库,Hadoop 最初的优势来源于良 好的扩展性和对大规模数据的支持, 但失去了传统数据库对数据精细 化的操作,包括压缩、索引、数据的分配裁剪以及对 SQL 的支持度。 经过 10 多年的发展,数据分析的技术体系渐
26、渐在完善自己的不足, 也融合了很多传统数据库和 MPP 数据库的优点,从技术的演进来看, 大数据技术正在发生以下变化: 1) 更快 大数据白皮书(2018) 中国信息通信研究院 10 Spark 已经替代 MapReduce 成为了大数据生态的计算框架,以内 存计算带来计算性能的大幅提高,尤其是 Spark2.0 增加了更多了优 化器,计算性能进一步增强。 2) 流处理的加强 Spark 提供一套底层计算引擎来支持批量、 SQL 分析、 机器学习、 实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求 越来越高的现在,Spark Streaming 受到 Flink 激烈的竞争。 3)
27、 硬件的变化和硬件能力的充分挖掘 大数据技术体系本质是数据管理系统的一种, 受到底层硬件和上 层应用的影响。 当前硬件的芯片的发展从 CPU 的单核到多核演变转化 为向 GPU、FPGA、ASIC 等多种类型芯片共存演变。而存储中大量使用 SSD 来代替 SATA 盘,NVRAM 有可能替换 DRAM 成为主存。大数据技术 势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。 4) SQL 的支持 从 Hive 诞生起,Hadoop 生态就在积极向 SQL 靠拢,主要从兼容 标准 SQL 语法和性能等角度来不断优化,层出不穷的 SQL on Hadoop 技术参考了很多传统数据库的技术。 而
28、Greenplum 等 MPP 数据库技术 本身从数据库继承而来, 在支持 SQL 和数据精细化操作方面有很大的 优势。 5) 深度学习的支持 深度学习框架出现后, 和大数据的计算平台形成了新的竞争局面, 以 Spark 为首的计算平台开始积极探索如何支持深度学习能力, 中国信息通信研究院 大数据白皮书(2018) 11 TensorFlow on Spark 等解决方案的出现实现了 TensorFlow 与 Spark 的无缝连接,更好地解决了两者数据传递的问题。 (二)事务处理(二)事务处理技术技术 随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银 行和支付机构传统的柜台式交易模式
29、逐渐被终端直接交易模式替代。 以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支 付机构和金融监管机构带来了海量高频的线上小额资金支付行为, 生 产业务系统面临大规模并发事务处理要求的挑战。 传统事务技术模式以集中式数据库的单点架构为主, 通过提高单 机的性能上限适应业务的扩展。而随着摩尔定律的失效(底层硬件的 变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增 长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能 力。大数据分析系统经过 10 多年的实践,积累了丰富的分布式架构 的经验,Paxos、Raft 等一致性协议的诞生为事务系统的分布式铺平 了道路。新一代
30、分布式数据库技术在这些因素的推动下应运而生。 图 2 事务型数据库架构演进图 大数据白皮书(2018) 中国信息通信研究院 12 如图 2 所示,经过多年发展,当前分布式事务架构正处在快速演 进的阶段,综合学术界以及产业界工作成果,目前主要分为三类: 1) 基于原有单机事务处理关系数据库的分布式架构改造:利用 原有单机事务处理数据库的成熟度优势,通过在独立应用层 面建立起数据分片和数据路由的规则,建立起一套复合型的 分布式事务处理数据库的架构。 2) 基于新的分布式事务数据库的工程设计思路的突破。通过全 新设计关系数据库的核心存储和计算层,将分布式计算和分 布式存储的设计思路和架构直接植入数据
31、库的引擎设计中, 提供对业务透明和非侵入式的数据管理和操作/处理能力。 3) 基于新的分布式关系数据模型理论的突破。通过设计全新的 分布式关系数据管理模型,从数据组织和管理的最核心理论 层面,构造出完全不同于传统单机事务数据库的架构,从数 据库的数据模型的根源上解决分布式关系数据库的架构。 分布式事务数据库进入到各行各业面临诸多挑战, 其一是多种技 术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规 模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、 运维的过程缺少可供参考的经验,需要较长时间的摸索;其三缺少可 行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范
32、市场, 促进产品的进步。 故应用上述技术进行交易类业务进行服务时, 应充分考虑“可持续发展”、“透明开放”、“代价可控”三原则, 遵循“知识传递先行”、“测试评估体系建立”、“实施阶段规划” 中国信息通信研究院 大数据白皮书(2018) 13 三步骤,并认识到“应用过度适配和改造”、“可用性管理策略不更 新”、“外围设施不匹配”三个误区。 大数据事务处理类技术体系的快速演进正在消除日益增长的数 字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以 及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变 革。 (三)数据流通(三)数据流通技术技术 数据流通是释放数据价值的关键环节。然
33、而,数据流通也伴随着 权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据 流通的瓶颈。为了解决这些问题,大数据从业者从诸多方面进行了探 索。目前来看,从技术角度的探索是卓有成效和富有潜力的。 从概念上讲, 基础的数据流通只存在数据供方和数据需方这两类 角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和 安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需 要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产 和再造,形成闭合环路。 安全多方计算和区块链是近年来常用的两种技术框架。 由于创造 价值的往往是对数据进行的加工分析等运算的结果而非数据本身, 因 此对
34、数据需方来说,本身不触碰数据、但可以完成对数据的加工分析 操作, 也是可以接受的。 安全多方计算这个技术框架就实现了这一点。 其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区 分的、定制化的提供安全性服务,使得各参与方在无需对外提供原始 大数据白皮书(2018) 中国信息通信研究院 14 数据的前提下实现了对与其数据有关的函数的计算, 解决了一组互不 信任的参与方之间保护隐私的协同计算问题。 区块链技术中多个计算 节点共同参与和记录, 相互验证信息有效性, 既进行了数据信息防伪, 又提供了数据流通的可追溯路径。 业务平台中授权和业务流程的解耦 对数据流通中的溯源、 数据交易、 智能
35、合约的引入有了实质性的进展。 除了以上两种技术框架外, 近年来还涌现出多种数据流通的技术 工具,这里将其列表总结如下。 表 1 数据流通技术工具对比 3 3 来源:数据流通关键技术白皮书(1.0 版),大数据发展促进委员会,2018 年。 技术工 具 同态加密 零知识证明 群签名 环签名 差分隐私 原理概 述 对原始数据 进行加密,使 得加密数据 和原始数据 进行相同处 理时,结果相 同 证明者向验证 者证明一个声 明的有效性, 而不会泄露除 了有效性之外 任何信息 允许群体中 的任意成员 以匿名方式 代表整个群 体对消息进 行签名,并可 公开验证 一种简化的群 签名,环签名 中只有环成员 没
36、有管理者, 不需要环成员 间的合作 通过添加噪音 来达到隐私保 护效果 技术特 点 可在不解密 的情况下对 密文进行计 算和分析 证明者无需任 何事件相关数 据,就能向验 证者证明事件 的真实可靠 能为签名者 提供较好的 匿名性,同时 在必要时又 通过可信管 理方追溯签 署者身份 不需要分配指 定的密钥,无 法撤销签名者 的匿名性 具有严谨的统 计学模型,能 够提供可量化 的隐私保证 适用领 域 云计算、电子 商务、物联网 等 电子商务、金 融、银行、电 子货币等 公共资源管 理、电子商 务、金融等 云存储、 电子货币等 电子商务、 物联网等 成熟度 全同态加密 理论上可行, 商用化程度 还需
37、提高 通用场景的零 知识证明理论 较为成熟,性 能优化后逐渐 商用 广泛应用在 网络安全中, 需要提高计 算效率 建立更好的安 全性模型,与 群签名、CPK 结合,优势互 补 还需研究复杂 数据的差分隐 私保护和有效 控制连续数据 的累计误差 中国信息通信研究院 大数据白皮书(2018) 15 四、大数据与实体经济融合应用 党的十九大报告中指出,要加快大数据与实体经济的深度融合。 经过几年的发展,各行各业对于大数据应用的重要性基本得到统一, 但受限于各种各样的因素,各行业的大数据应用水平还有较大差异。 本节将以部分行业为例,分析各行业大数据发展现状及原因,并给出 行业大数据应用发展的路径。 (
38、一)行业应用大数据的特点(一)行业应用大数据的特点 近年来,在全球经济数字化浪潮的带动下,我国大数据与实体经 济的融合应用不断拓展。 大数据企业正在尝到与实体经济融合发展带 来的“甜头”。利用大数据可以对实体经济行业进行市场需求分析、 生产流程优化、 供应链与物流管理、 能源管理、 提供智能客户服务等, 这不但大大拓展了大数据企业的目标市场, 更成为众多大数据企业技 术进步的重要推动力。随着融合深度的增强和市场潜力不断被挖掘, 融合发展给大数据企业带来的益处和价值正在日益显现。 然而总体来看, 目前我国在大数据与实体经济融合领域整体上还 处于发展初期。相对于发达国家,在融合行业数量、融合应用深
39、度、 融合业务规模、融合发展均衡性等方面还有一定差距。这一阶段主要 特点如下: 一是一是业务类型不均衡:业务类型不均衡:大数据融合应用主要集中在外围业务上, 而在核心业务方面的渗透程度还有待提高。据调查显示 4,在应用大 数据的行业企业中,营销分析、客户分析和内部运营管理是应用最广 4数据来自中国大数据发展调查报告,大数据发展促进委员会 2018 年 4 月发布 大数据白皮书(2018) 中国信息通信研究院 16 泛的三个领域。61.7%的企业将大数据应用于营销分析,50.2%的企业 将大数据应用于客户分析,将近 50%的企业将大数据应用于内部运营 管理。相比之下大数据分析在产品设计、产品生产
40、、企业供应链管理 等核心业务的应用比例还有待提升,大规模应用尚未展开。 二二是是地域分布不均衡:地域分布不均衡:大数据融合应用在地区之间发展不均衡, 各地大数据应用发展程度差距较大。受经济发达程度、人才聚集程度 和技术发展水平影响,大数据应用的产学研力量仍主要分布在北京、 上海、广东、浙江等东部发达地区。相关的数据显示 5,中西部地区 的大数据应用虽然市场需求较大,但发展水平仍较低。 三三是是行业分布不均衡:行业分布不均衡:大数据融合应用主要集中在部分行业中, 如前所述,大数据与金融、政务、电信等行业的融合效果较好,而在 其它众多行业的融合效果则有待深化。 在下文中将着重对此现象的原 因进行深
41、入分析。 (二)(二)行业应用大数据的深层分析行业应用大数据的深层分析 企业和行业大数据应用体系其实就是在生产业务系统之外构建 统一的企业级数据仓库。 回顾各个领先行业企业级数据仓库建设路径, 从技术架构上大都经历了从传统数据库或者数据仓库的架构到 MPP 数据库架构再到 Hadoop 的架构体系。除技术架构外,企业级数据仓 库的建设还包括数据模型、数据管理体系以及数据应用体系的建设, 整个企业级数据仓库最终实施效果依赖于企业内部专业而有力度的 组织机构来推动。以下以金融、电信、能源、交通、互联网等几个行 5数据来自中国大数据产业发展评估报告(2017 年) 中国信息通信研究院 大数据白皮书(2018) 17 业为例,选取代表企业对其行业大数据应用情况进行简要梳理。 表 2 部分行业代表性企业大数据应用情况 大型国有银 行 (以中国工 商银行为例) 运营商 (以中国 联通为 例) 电网 (以国家 电网为 例) 石化 (以中石 化为例) 大型互联网 (以阿里巴巴 为例) 数据平 台 2000 年开始 建立数据仓 库。 2011 年开 始建立数 据仓库。 2014 年开 始大数据 平台试 点。 2016 年打 造云计算 大数据平 台。 2004年开始建 立数据仓库。 数据管 理体系 2007 年建立 了全行统一 的数据体系。 2013 年搭建 Hadoop 信息 库。 20