《大数据白皮书(2016年).pdf》由会员分享,可在线阅读,更多相关《大数据白皮书(2016年).pdf(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 大大 数数 据据 白白 皮皮 书 书 (2016年)年) 中国信息通信研究院 2016年12月 中国信息通信研究院 2016年12月 版权声明 版权声明 本白皮书版权属于中国信息通信研究院(工业和信息化部电信研究院),并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院(工业和信息化部电信研究院)”。违反上述声明者,本院将追究其相关法律责任。本白皮书版权属于中国信息通信研究院(工业和信息化部电信研究院),并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院(工业和信息化部电信研究院)”。违反上述声明者
2、,本院将追究其相关法律责任。 前 言前 言 大数据是国家基础性战略资源,是 21 世纪的“钻石矿”。党中央、国务院高度重视大数据在经济社会发展中的作用,提出“实施国家大数据战略”,出台促进大数据发展行动纲要,全面推进大数据发展,加快建设“数据强国”。 “十三五”时期是我国全面建成小康社会的决胜阶段,是新旧产业和发展动能转换接续的关键时期,全球新一代信息技术产业正处于加速变革期,国内市场应用需求处于爆发期,我国大数据产业发展面临重要的发展机遇。 本白皮书是继大数据白皮书(2014)之后我院第二次发布大数据白皮书。本白皮书首先回顾和阐述了大数据的内涵及产业界定, 并以大数据产业几个关键要素为核心,
3、 重点从大数据技术发展、数据资源开放共享、大数据在重点行业的应用、大数据相关政策法规等四个方面分析了最新进展,力求反映我国大数据产业发展状况的概貌。最后结合我国大数据发展最新状况及问题,提出了进一步促进大数据发展的相关策略建议。 目 录目 录 一、大数据产业发展概述 . 1 (一)大数据再认识 . 1 (二)大数据产业界定 . 2 (三)大数据关键问题 . 5 二、大数据技术发展趋势 . 6 (一)社交网络和物联网技术拓展了数据采集技术渠道 . 6 (二)分布式存储和计算技术夯实了大数据处理的技术基础 . 9 (三)深度神经网络等新兴技术开辟大数据分析技术的新时代 . 11 三、大数据资源开放
4、与共享 . 15 (一)数据资源总量评估 . 15 (二)政府数据共享 . 16 (三)政府数据开放 . 19 (四)数据交易流通 . 20 四、重点行业大数据应用 . 27 (一)大数据应用整体情况 . 28 (二)各领域应用进展情况 . 28 (三)大数据应用发展趋势 . 39 五、大数据政策法规 . 40 (一)政府数据开放与信息公开 . 40 (二)个人数据保护 . 43 (三)跨境数据流动 . 46 (四)数据权属问题 . 48 六、结论与建议 . 50 (一)避免盲目跟风,大数据热潮还需冷思考 . 51 (二)推动开放共享,倒逼信息化建设升级 . 53 (三)强调供需对接,拉动技术
5、产业跨越发展 . 55 (四)完善法律制度,切实保障数据安全 . 56 (五)突出地方特色,形成差异化的区域产业布局 . 58 中国信息通信研究院 大数据白皮书(2016 年) 1 一、大数据产业发展概述 (一)大数据再认识 (一)大数据再认识 大数据是新资源、新技术和新理念的混合体。从资源视角来看,大数据是新资源,体现了一种全新的资源观。1990 年以来,在摩尔定律的推动下,计算存储和传输数据的能力在以指数速度增长,每GB 存储器的价格每年下降 40%。2000 年以来,以 Hadoop 为代表的分布式存储和计算技术迅猛发展, 极大的提升了互联网企业数据管理能力,互联网企业对“数据废气”(D
6、ata Exhaust)的挖掘利用大获成功,引发全社会开始重新审视“数据”的价值,开始把数据当作一种独特的战略资源对待。大数据的所谓 3V 特征(体量大、结构多样、产生处理速度快)主要是从这个角度描述的。 从技术视角看,大数据代表了新一代数据管理与分析技术。传统的数据管理与分析技术以结构化数据为管理对象、 在小数据集上进行分析、以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网的,面向多源异构数据、在超大规模数据集(PB量级)上进行分析、以分布式架构为主的新一代数据管理技术,与开源软件潮流叠加,在大幅提高处理效率的同时(数据分析从 T+1 到T+0 甚至实时),成百倍的降低
7、了数据应用成本。 从理念的视角看,大数据打开了一种全新的思维角度。大数据的应用,赋予了“实事求是”新的内涵,其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动,甚至像量化股票交易、实时竞价广告等场景中那样,可以由机器根据数据直接决策;其二是“数大数据白皮书(2016 年) 中国信息通信研究院 2 据闭环”,观察互联网行业大数据案例,它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而能够不断地自我升级,螺旋上升。目前很多“大数据应用”,要么数据量不够大,要么并非必须使用新一代技术,但体现了数据驱动和数据闭环的思维,改进了生产管理效率,这是大
8、数据思维理念应用的体现。 (二)大数据产业界定 (二)大数据产业界定 大数据本身既能形成新兴产业,也能推动其他产业发展。当前,国内外缺乏对大数据产业的公认界定。我们认为,大数据产业可以从狭义和广义两个层次界定。 从狭义看,当前全球围绕大数据采集、存储、管理和挖掘,正在逐渐形成了一个“小生态”,即大数据核心产业。大数据核心产业为全社会大数据应用提供数据资源、产品工具和应用服务,支撑各个领域的大数据应用,是大数据在各个领域应用的基石。应该注意到,狭义大数据产业仍然围绕信息的采集加工构建, 属于信息产业的一部分。 中国信息通信研究院 大数据白皮书(2016 年) 3 图 1 大数据核心产业构成 数据
9、资源部分负责原始数据的供给和交换, 根据数据来源的不同,可以细分为数据资源提供者和数据交易平台两种角色。 数据基础能力部分负责与数据生产加工相关的基础设施和技术要素供应,根据数据加工和价值提升的生产流程,数据基础能力部分主要包括数据存储、数据处理和数据库(数据管理)等多个角色。 数据分析/可视化部分负责数据隐含价值的挖掘、数据关联分析和可视化展现等,既包括传统意义上的 BI、可视化和通用数据分析工具,也包括面向非结构化数据提供的语音、图像等媒体识别服务。 数据应用部分根据数据分析和加工的结果,面向电商、金融、交通、气象、安全等细分行业提供精准营销、信用评估、出行引导、信息防护等企业或公众服务。
10、 根据 IDC、Wikibon 等咨询机构预测,2016 年,全球的大数据核心产业规模约为 300 亿美元。 大数据白皮书(2016 年) 中国信息通信研究院 4 数据来源:Wikibon,2016 年 3 月,单位:亿美元 图 2 全球大数据产业规模(2011-2026) 目前大数据产业的统计口径尚未建立。 对于我国大数据产业的规模,各个研究机构均采取间接方法估算。中国信息通信研究院结合对大数据相关企业的调研测算,2015 年我国大数据核心产业的市场规模达到 115.9 亿元,增速达 38%,预计 2016 年将达到 168 亿元,2017-2018 年还将维持 40%左右的高速增长。 数据
11、来源:中国信息通信研究院,2016 年 8 月,单位:亿人民币 图 3 中国大数据产业规模估计 0.100.200.300.400.500.600.700.800.900.1,000.84.0 115.9 168 0.020.040.060.080.0100.0120.0140.0160.0180.0201420152016E产值(亿元)产值(亿元)中国信息通信研究院 大数据白皮书(2016 年) 5 从广义看,大数据具有通用技术的属性,能够提升运作效率,提高决策水平,从而形成由数据驱动经济发展的“大生态”,即广义大数据产业。广义大数据产业包含了大数据在各个领域的应用,已经超出了信息产业的范畴
12、。据华沙经济研究所测算,欧盟 27 国因大数据的引进,至 2020 年将获得 1.9%的额外 GDP 增长。美国麦肯锡预计,到 2020 年美国大数据应用带来的增加值将占 2020 年 GDP 的 2%-4%。中国信息通信研究院预计, 到2020年大数据将带动中国GDP 2.8-4.2%。 (三)大数据关键问题 (三)大数据关键问题 我国大数据产业发展已具备一定基础,但要实现从“数据大国”向“数据强国”转变,还面临诸多挑战。 一是对数据资源及其价值的认识不足。 全社会尚未形成对大数据客观、科学的认识,对数据资源及其在人类生产、生活和社会管理方面的价值利用认识不足,存在盲目追逐硬件设施投资、轻视
13、数据资源积累和价值挖掘利用等现象。 二是技术创新与支撑能力不够。 大数据需要从底层芯片到基础软件再到应用分析软件等信息产业全产业链的支撑, 无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,对开源技术和相关生态系统的影响力仍然较弱,总体上难以满足各行各业大数据应用需求。 三是数据资源建设和应用水平不高。 用户普遍不重视数据资源的建设,即使有数据意识的机构也大多只重视数据的简单存储,很少针对后续应用需求进行加工整理。数据资源普遍存在质量差,标准规范大数据白皮书(2016 年) 中国信息通信研究院 6 缺乏,管理能力弱等现象。跨部门、跨行业的数据共享仍不顺畅,
14、有价值的公共信息资源和商业数据开放程度低。 数据价值难以被有效挖掘利用,大数据应用整体上处于起步阶段,潜力远未释放。 四是信息安全和数据管理体系尚未建立。数据所有权、隐私权等相关法律法规和信息安全、开放共享等标准规范缺乏,技术安全防范和管理能力不够,尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系。 五是人才队伍建设亟需加强。综合掌握数学、统计学、计算机等相关学科及应用领域知识的综合性数据科学人才缺乏, 远不能满足发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管理的综合型人才。 二、大数据技术发展趋势 (一)社交网络和物联网技术拓展了数据采集技术渠道 (一)社交网络和物联
15、网技术拓展了数据采集技术渠道 经过行业信息化建设,医疗、交通、金融等领域已经积累了许多内部数据,构成大数据资源的“存量”;而移动互联网和物联网的发展, 大大丰富了大数据的采集渠道, 来自外部社交网络、 可穿戴设备、车联网、 物联网及政府公开信息平台的数据将成为大数据增量数据资源的主体。 当前,移动互联网的深度普及,为大数据应用提供了丰富的数据源。根据中国互联网络信息中心(CNNIC)第 38 次中国互联网络发展状况统计报告,截至 2016 年 6 月,我国网民规模达 7.1 亿,互中国信息通信研究院 大数据白皮书(2016 年) 7 联网普及率达到 51.7%,超过全球平均水平 3.1 个百分
16、点。其中,我国手机网民规模达 6.65 亿。网民中使用手机上网的人群占比提升至92.5%。线下企业通过与互联网企业的合作,或者利用开放的应用编程接口(API,Application Programming Interface)或网络爬虫1,可以采集到丰富的网络数据,可以作为内容数据的有效补充。 另外,快速发展的物联网,也将成为越来越重要的大数据资源提供者。相对于现有互联网数据杂乱无章和价值密度低的特点,通过可穿戴、车联网等多种数据采集终端,定向采集的数据资源更具利用价值。例如,智能化的可穿戴设备经过几年的发展,智能手环、腕带、手表等可穿戴正在走向成熟,智能钥匙扣、自行车、筷子等设备层出不穷,国
17、外 Intel、Google、Facebook,国内百度、京东、小米等有所布局。根据 IDC 公司预计,到 2016 年底,全球可穿戴设备的出货量将达到 1.019 亿台,较 2015 年增长 29.0%。到 2020 年之前,可穿戴设备市场的年复合增长率将为 20.3%,而 2020 年将达到 2.136 亿台2。可穿戴设备可以 724 小时不间断地收集个人健康数据,在医疗保健领域有广阔的应用前景,一旦技术成熟,设备测量精度达到医用要求,电池续航能力也有显著增强,就很可能会进入大规模应用阶段, 从而成为重要的大数据来源。 再如, 车联网已经进入快速成长期。据 StrategyAnalytic
18、s 公司预计,2016 年前装车联网市场渗透率将达到 19%,在未来 5 年内迎来发展黄金期,2020 年将达到 49%3。 不过,值得注意的是,即便外部数据越来越丰富,但可获取性还1注释:网络爬虫(Web crawler),是一种按照一定的规则自动抓取互联网网页信息的计算机程序。 2http:/ 3http:/ 大数据白皮书(2016 年) 中国信息通信研究院 8 不够高,一方面受目前技术水平所限,车联网、可穿戴设备等数据采集精度、数据清洗技术和数据质量还达不到实用要求;另一方面,由于体制机制原因,导致行业和区域上的条块分割,数据割据和孤岛普遍存在,跨企业跨行业数据资源的融合仍然面临诸多障碍
19、。根据中国信息通信研究院 2015 年对国内 800 多家企业的调研来看,有 50%以上的企业把内部业务平台数据、 客户数据和管理平台数据作为大数据应用最主要的数据来源。企业内部数据仍是大数据主要来源,但对外部数据的需求日益强烈。当前,有 32%的企业通过外部购买所获得的数据; 只有18%的企业使用政府开放数据。 如何促进大数据资源建设,提高数据质量,推动跨界融合流通,是推动大数据应用进一步发展的关键问题之一。 数据来源:中国信息通信研究院,2015 年 5 月 图 4 企业大数据来源情况(企业数量,n=809) 总体来看,各行业都在致力于在用好存量资源的基础之上,积极拓展新兴数据收集的技术渠
20、道,开发增量资源。社交媒体、物联网等大大丰富了数据采集的潜在渠道,理论上,数据获取将变得越来越容中国信息通信研究院 大数据白皮书(2016 年) 9 易。 (二)分布式存储和计算技术夯实了大数据处理的技术基础 (二)分布式存储和计算技术夯实了大数据处理的技术基础 大数据存储和计算技术是整个大数据系统的基础。在存储方面,2000 年左右谷歌等提出的文件系统(GFS)、以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。与传统系统相比,GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集
21、计算中易形成的 I/O吞吐量的制约, 同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。存储架构的变化如图 5 所示。 数据来源:中国信息通信研究院,2014 年 图 5 大数据存储架构的变化 在计算方面,谷歌在 2004 年公开的 MapReduce 分布式并行计算技术,是新型分布式计算技术的代表。一个 MapReduce 系统由廉价的通用服务器构成, 通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。谷歌的MapReduce 是其内部网页索引、广告等核心系统的基础。之后出现的Apache Hadoop MapR
22、educe 是谷歌 MapReduce 的开源实现,目前已经X86 PC集群本机硬盘本机硬盘本机硬盘磁盘阵列服务器存储网络服务器服务器如:IBM、EMC等的NAS、SAN等系统如:谷歌的GFS和Hadoop HDFS大数据白皮书(2016 年) 中国信息通信研究院 10 成为应用最广泛的大数据计算软件平台。 MapReduce架构能够满足 “先存储后处理” 的离线批量计算 (batch processing)需求,但也存在局限性,最大的问题是时延过长,难以适用于机器学习迭代、流处理等实时计算任务,也不适合针对大规模图数据等特定数据结构的快速运算。 为此, 业界在 MapReduce 基础上,提
23、出了多种不同的并行计算技术路线。如 Yahoo 提出的 S4 系统、Twitter 的 Storm 系统是针对“边到达边计算”的实时流计算(Real time streaming process)框架,可在一个时间窗口上对数据流进行在线实时分析,已经在实时广告、微博等系统中得到应用。谷歌 2010年公布的 Dremel 系统,是一种交互分析(Interactive Analysis)引擎,几秒钟就可完成 PB 级数据查询操作。此外,还出现了将MapReduce 内存化以提高实时性的 Spark 框架、针对大规模图数据进行了优化的 Pregel 系统等等。 以 Hadoop 为代表的开源软件大幅
24、度降低数据的存储与计算的成本。传统数据存储和分析的成本约为 3 万美元/TB,而采用 Hadoop 技术,成本可以降到 300-1000 美元/TB。新一代计算平台 Spark 进一步把 Hadoop 性能提升了 30 多倍,性能越来越高,技术门槛越来越低。目前,开源 Hadoop 和 Spark 已经形成了比较成熟的产品供应体系,基本上可以满足大部分企业建设大数据存储和分析平台的需求, 为企业提供了低成本解决方案。 中国信息通信研究院 大数据白皮书(2016 年) 11 图 6 数据管理技术图谱 (三)深度神经网络等新兴技术开辟大数据分析技术的新时代 (三)深度神经网络等新兴技术开辟大数据分
25、析技术的新时代 大数据数据分析技术,一般分为联机分析处理(OLAP,Online Analytical Processing)和数据挖掘(Data Mining)两大类。OLAP技术,一般基于用户的一系列假设,在多维数据集上进行交互式的数据集查询、关联等操作(一般使用 SQL 语句)来验证这些假设,代表了演绎推理的思想方法。 数据挖掘技术,一般是在海量数据中主动寻找模型,自动发展隐藏在数据中的模式(Pattern),代表了归纳的思想方法。传统的数据挖掘算法主要有: (1)聚类,又称群分析,是研究(样品或指标)分类问题的一种统计分析方法, 针对数据的相似性和差异性将一组数据分为几个类别。属于同一
26、类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。企业通过使用聚类分析算法可以进行客户分群, 在不明确客户群行为特征的情况下对客户数据从不同维度进行分群,再对分群客户进行特征提取和分析,从而抓住客户特点推荐相应的产品和服务。(2)分类,类似于聚类,大数据白皮书(2016 年) 中国信息通信研究院 12 但是目的不同,分类可以使用聚类预先生成的模型,也可以通过经验数据找出一组数据对象的共同点,将数据划分成不同的类,其目的是通过分类模型将数据项映射到某个给定的类别中,代表算法是 CART(分类与回归树)。企业可以将用户、产品、服务等各业务数据进行分类,构建分类模型,再
27、对新的数据进行预测分析,使之归于已有类中。 分类算法比较成熟, 分类准确率也比较高, 对于客户的精准定位、营销和服务有着非常好的预测能力, 帮助企业进行决策。 (3) 回归,反映了数据的属性值的特征, 通过函数表达数据映射的关系来发现属性值之间的一览关系。 它可以应用到对数据序列的预测和相关关系的研究中。企业可以利用回归模型对市场销售情况进行分析和预测,及时作出对应策略调整。在风险防范、反欺诈等方面也可以通过回归模型进行预警。 传统的数据方法,不管是传统的 OLAP 技术还是数据挖掘技术,都难以应付大数据的挑战。首先是执行效率低。传统数据挖掘技术都是基于集中式的底层软件架构开发,难以并行化,因
28、而在处理 TB 级以上数据的效率低。 其次是数据分析精度难以随着数据量提升而得到改进,特别是难以应对非结构化数据。在人类全部数字化数据中,仅有非常小的一部分(约占总数据量的 1%)数值型数据得到了深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析(如排序),占总量近 60%的语音、图片、视频等非结构化数据还难以进行有效的分析。 所以,大数据分析技术的发展需要在两个方面取得突破,一是对中国信息通信研究院 大数据白皮书(2016 年) 13 体量庞大的结构化和半结构化数据进行高效率的深度分析, 挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语
29、义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。目前来看,以深度神经网络等新兴技术为代表的大数据分析技术已经得到一定发展。 神经网络是一种先进的人工智能技术,具有自身自行处理、分布存储和高度容错等特性,非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据,十分适合解决大数据挖掘的问题。典型的神经网络模型主要分为三大类: 第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以 Hopfield的离散模型和
30、连续模型为代表。 第三类是用于聚类的自组织映射方法,以 ART 模型为代表。不过,虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则, 而且人们很难理解网络的学习及决策过程。 深度学习是近年来机器学习领域最令人瞩目的方向。自 2006 年深度学习界泰斗 Geoffrey Hinton 在Science杂志上发表Deep Belief Networks的论文后,激活了神经网络的研究,开启了深度神经网络的新时代。学术界和工业界对深度学习热情高涨,并逐渐在语音识别、图像识别、自然语言处理等领域获得突破性进展,深度学习在语音识别领域获得 20%到 30%的准确率提
31、升, 突破了近十年的瓶颈。大数据白皮书(2016 年) 中国信息通信研究院 14 2012 年图像识别领域在 ImageNet 图像分类竞赛中取得了 85%的 top5准确率,相比前一年 74%的准确率有里程碑式的提升,并进一步在2013 年将准确率提高到 89%。目前 Google、Facebook、Microsoft、IBM 等国际巨头,以及国内百度、阿里巴巴、腾讯等互联网巨头争相布局深度学习。由于神经网络算法的结构和流程特性,非常适合于大数据分布式处理平台进行计算, 通过神经网络领域的各种分析算法的实现和应用,公司可以实现对多样化的分析,并在产品创新、客户服务、营销等方面取得创新性进展。
32、 随着互联网与传统行业融合程度日益加深, 对于 web 数据的挖掘和分析成为了需求分析和市场预测的重要手段。Web 数据挖掘是一项综合性的技术, 可以从文档结构和使用集合中发现隐藏的输入到输出的映射过程。目前研究和应用比较多的是 PageRank 算法。PageRank 是Google算法的重要内容, 于2001年9月被授予美国专利, 以Google创始人之一拉里佩奇(Larry Page)命名。PageRank 根据网站的外部链接和内部链接的数量和质量衡量网站的价值。 这个概念的灵感,来自于学术研究中的这样一种现象, 即一篇论文的被引述的频度越多,一般会判断这篇论文的权威性和质量越高。在互联
33、网场景中,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这就是所谓的链接流行度,可以衡量多少人愿意将他们的网站和你的网站挂钩。 让机器自动学习和理解人类语言中的近百万种语义、 并从海量用户行为数据汇总归纳用户兴趣是一个已经持续 20 多年的研究方向。腾讯效果广告平台部研发的 Peacock 大规模中国信息通信研究院 大数据白皮书(2016 年) 15 主题模型机器学习系统,通过并行计算可以高效的对 10 亿*1 亿的大规模矩阵进行分解,从海量样本数据中学习 10 万到 100 万两级的隐含语义。这对于挖掘用户兴趣、相似用户扩展,精准推荐具有重大意义。 需要指
34、出的是,数据挖掘与分析的行业与企业特点强,除了一些最基本的数据分析工具(如 SAS)外,目前还缺少针对性的、一般化的建模与分析工具。 各个行业与企业需要根据自身业务构建特定数据模型。数据分析模型构建的能力强弱,成为不同企业在大数据竞争中取胜的关键。 三、大数据资源开放与共享 (一)数据资源总量评估 (一)数据资源总量评估 未来五年,全球数据量呈指数级增长。据国际数据公司(IDC)统计,2014 年全球数据总量为 8ZB,预计 2020 年达到 44ZB。同期,我国数据总量为 909EB,占全球数据总量的 13%。其中,媒体、互联网数据量占比为 1/3,政府部门、电信企业数据量占比为 1/3,其
35、他的金融、教育、制造、服务业等数据量占比为 1/3。预计到 2020 年我国数据量将达到 8060EB,占全球数据总量的 18%4。 我国具有天然的大数据规模优势。 信息技术与经济社会的交汇融合引发了数据迅猛增长,数据成为物理世界在网络空间的客观映射,如同工业时代的钢铁、石油,已成为新的生产要素和战略资源。我国4https:/ 大数据白皮书(2016 年) 中国信息通信研究院 16 巨大的人口基数以及经济规模,具有形成大规模数据的天然优势。截至2016年6月, 我国网民规模已达7.10亿, 互联网普及率达到51.7%,网站数量为 454 万个。丰富的数据资源,构成了我国推进大数据应用的资源基础
36、。 (二)政府数据共享 (二)政府数据共享 推进政府数据资源开放共享是实施大数据战略的关键, 也就是着力解决“不愿开放共享”、“不敢开放共享”、“不会开放共享”问题,打破部门分割和行业壁垒,促进互联互通、数据开放、信息共享和业务协同,切实以数据流引领技术流、物资流、资金流、人才流,强化统筹衔接和条块结合,实现跨部门、跨区域、跨层级、跨系统的数据交换与共享,构建全流程、全覆盖、全模式、全响应的信息化管理与服务体系。从“十五”计划起,跨部门信息共享一直被各部门和各级政府列为重要课题,但几大难题始终未能解决。 基础信息库总体进展缓慢。2002 年国家信息化领导小组关于我国电子政务建设指导意见提出规划
37、和开发重要政务信息资源,并启动建设政务信息化四大基础数据库,即人口基础信息库、法人单位基础信息库、自然资源和空间地理基础信息库、宏观经济数据库。从全国范围来看,四个数据库建设进度不同,除自然资源和空间地理基础数据库已基本建成外,大部分地方政府的人口基础数据库和法人单位基础数据库建设进程缓慢,而宏观经济基础数据库几乎处于搁置状态。 中国信息通信研究院 大数据白皮书(2016 年) 17 金字工程信息孤岛严重。以“十二金工程”为代表的电子政务重点工程项目为政府核心业务提供了信息化支撑,但各个部委、各级政府分散建设的信息系统形成的信息化壁垒很高,信息孤岛、信息烟囱现象严重。国务院促进大数据发展行动纲
38、要提出到 2018 年,中央政府层面实现金税、金关、金财、金审、金盾、金宏、金保、金土、金农、金水、金质等信息系统通过统一平台进行数据共享和交换。 信息共享和业务协同尚未取得根本突破。 中央和部分省市在综合治税、人口管理、应急管理等方面积极推进信息共享和业务协同,共享内容和范围不断扩大,业务协同能力不断增强,取得了一定成效。但从全国总体来看,跨部门、跨地区的共享协同尚未取得根本突破。数据显示,区域部门间基本实现共享的省级地方仅占 13%,区域部门间少量实现共享的地市和区县仅占 32%和 28%,信息共享和业务协同在地市和区县进展缓慢, 信息共享成为制约部门业务协同的重要因素。 在当前以简政放权
39、为核心,加快转变政府职能的改革背景下,政府数据共享需求迫切、意义重大。建设一体化政务服务平台,打通后台数据流动环节,“让数据多跑路、百姓少跑腿”。“证明我妈是我妈” 、 “老年证丢失找派出所开证明” 、 异地办理准生证跑断腿儿这些让人“添堵”的证明或将成为历史。 为加快推动信息共享工作,国家发改委按照“统一平台、互联互通,存量共享、增量共建,物理分散、逻辑集中”的原则,以开放数据交换接口的方式,推动政府部门间的信息共享,已取得初步成效。目前,全国统一的国家电子政务外网已初步建成,横向连接了 118 个大数据白皮书(2016 年) 中国信息通信研究院 18 中央单位和 14.4 万个地方单位,纵
40、向基本覆盖了中央、省、市、县四级,承载了 47 个全国性业务系统和 5000 余项地方业务系统。依托国家电子政务外网搭建的全国统一的国家数据共享交换平台基本建成,13 个行业领域的跨部门共享交换业务已通过或拟通过国家数据共享交换平台实现,涉及部门超过 100 个。国务院促进大数据发展行动纲要进一步提出要在 2017 年底前形成跨部门数据资源共享共用格局;在 2018 年底前建成国家政府数据统一开放平台。 除了以发改委为代表的中央政府, 数据资源整合需求方和实施的另一个重要主体是城市。 目前全国 650 多个城市中有近 2/3 的城市提出了智慧城市的计划, 智慧城市建设和发展的核心就是基于城市信
41、息资源的整合和利用。 智慧城市建设将推动政务数据在内的城市公共信息资源共享,形成城市数据交换共享平台、GIS 平台和信息资源目录库,实现不同职能部门之间的业务协同和信息共享、信息资源社会化开放与利用,有利于创新社会治理模式,推动形成“用数据说话、用数据决策、用数据管理、用数据创新”的城市管理新方式。北京市从2006 年开始,61 个市政部门通过开展流程和协同工作清、网上服务清、 信息资源清、 实现路径清,统一平台、 统一网络的 “四清两统一”工作,进行业务梳理和资源梳理,编制信息资源目录。基于这项工作,北京市建成了统一的信息化基础设施共享交换平台,各委办局在该平台上每天进行大量的数据交换。另外
42、,有先见的地方政府已经看到大数据带动地方经济的发展机遇,试图通过政府带头,打造大数据基础设施与共享平台,拉动相关产业发展,带动传统产业升级。贵州省建中国信息通信研究院 大数据白皮书(2016 年) 19 设“云上贵州”平台,成为全国第一个实现省级政府、企业和事业单位数据整合和互通共享的云服务平台, 致力打造成为全国的大数据运算中心和交易中心。 (三)政府数据开放 (三)政府数据开放 政府数据资源是大数据资源的重要组成部分。近年来,随着互联网与各领域的深度融合以及数据资源战略价值的日益凸显, 国际社会高度重视数据资源的开放与利用,将其视作促进互联网产业创新,支撑新兴业态发展的必备要素。 政府数据资源可以与社会数据资源互为补充,服务于新兴业态的发展。政府数据资源基于公共事务管理和服务采集和产生,具有较强的公信力,甚至可能是唯一的数据来源,能够促进简单或片面的数据资源进行深度挖掘利用。 政府数据资源采集和产生已经付出了财政成本, 在政府利用之余 “一次投入, 全民利用” ,能够降低全社会的数据资源利用成本, 促进企业产品产出和社会福利提升。 做优存量、做大增量是数据资源开发利用的基本和基础。在近年政府