(5.8.1)--中国地方政府数据开放平台报告数据获取(2017上半年).pdf

上传人:奉*** 文档编号:67730603 上传时间:2022-12-26 格式:PDF 页数:40 大小:2.82MB
返回 下载 相关 举报
(5.8.1)--中国地方政府数据开放平台报告数据获取(2017上半年).pdf_第1页
第1页 / 共40页
(5.8.1)--中国地方政府数据开放平台报告数据获取(2017上半年).pdf_第2页
第2页 / 共40页
点击查看更多>>
资源描述

《(5.8.1)--中国地方政府数据开放平台报告数据获取(2017上半年).pdf》由会员分享,可在线阅读,更多相关《(5.8.1)--中国地方政府数据开放平台报告数据获取(2017上半年).pdf(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、背景与趋势数据是国家的战略性资源,一个国家有大量基础性、关键性的数据掌握在各级各地政府部门手中。大数据建立在开放数据的基础上,政府部门在履行行政职责过程中制作、获取和保存了海量的数据资源,这些数据是整个社会的公共资源,应取之于民,还之于民,释放数据能量,创造社会价值。在保障国家秘密、商业秘密和个人隐私的前提下,将政府数据最大限度地开放给社会进行开发利用,将有利于加强政府透明度,激发创新活力,提高服务水平,转变经济发展方式,提升政府治理能力。近年来,开放政府数据已在全球范围内迅速推进。根据2016 联合国电子政务调查报告的数据,截止 2016 年,联合国 193 个成员国中已有 106 个提

2、供了开放数据目录。我国政府也高度重视开放政府数据。2015 年 8 月,国务院印发的促进大数据发展行动纲要要求稳步推动公共数据资源开放,加快建设国家政府数据统一开放平台。2017 年2 月,中央全面深化改革领导小组第三十二次会议审议通过了关于推进公共信息资源开放的若干意见,要求着力推进重点领域公共信息资源开放,释放经济价值和社会效应。2017 年 5 月,国务院办公厅又印发政务信息系统整合共享实施方案,明确要求“推动开放,加快公共数据开放网站建设”。2012 年以来,我国已有近二十个地方政府陆续推出数据开放平台,先行先试,积极探索,积累了许多经验,也仍然面临着许多挑战。我国各级城市是公众集中生

3、活的重要空间,城市数据具有高密度高价值的特点,开放城市政府数据有利于吸引社会各方基于城市的实际需求和应用场景对开放数据进行融合利用,创造社会经济价值,并形成正向反馈,进一步推动政府数据开放,构建起一个动态循环的开放数据生态系统。在此背景下,复旦大学与“提升政府治理能力大数据应用技术国家工程实验室”联合发布国内首个地方政府数据开放报告2017 中国地方政府数据开放平台报告。报告由复旦大学数字与移动治理实验室基于多年研究积累和数据监测分析制作完成。基于开放数据的原则与标准,借鉴多家国际性评估报告实践,立足我国政府数据开放的实际情况和发展阶段,报告构建起一个系统科学、多维度、可操作的评估框架,并基于

4、该框架对我国现有的地方政府开放数据平台进行综合评价,制作指数报告,提出优化建议。开放数据,蔚然成林。一棵棵开放“数木”的丛然并生、成荫如盖、直至叶茂花开,终将成长为一片繁盛多样、平衡稳定、循环持续的“开放数林”。中国地方政府数据开放平台报告将定期发布“开放数林指数”,持续追踪我国地方政府数据开放工作的推进与深入,精心测量“数木”们的粗细、密度、材质与价值,助力中国开放数据生态系统的形成与发展。1.背景与趋势Background02|032017 中国地方政府数据开放平台报告|数据获取二、评估方法2.1 定义、原则与标准2007 年 12 月,30 位开放数据倡导者聚集在美国加利福尼亚州,首次提

5、出了开放政府数据的 8 大基本原则:完整的、原始的、及时的、可公开获取的、可机器读取的、非歧视获取的、非专属的、免于授权许可的。会议还将“数据”定义为“一切以电子形式存储的记录”,并指出公共数据是指不涉及隐私、安全和其他特定限制的数据1。2016 联合国电子政务调查报告将开放政府数据定义为“主动在网上公开政府信息,使任何人都能不受限制地获取、再利用和再分发”2。根据世界银行的定义,开放数据是“能被任何人出于任何目的不受限制进行自由利用、再利用和分发,并最大程度保持原始出处和开放性的数据”。所谓“开放性”,应具备两个维度的特性:一为法律性开放,即这些数据必须被置于公共领域,或处于自由利用条款下,

6、受到最低程度的限制;二为技术性开放,即数据必须以机器可读的、最好是非专属的、电子格式发布,从而使任何人可使用通用的、免费的软件获取和利用这些数据,数据还应被放置于公共服务器上,可被公开获取,不受密码或防火墙的限制3。2015 年,国际开放数据宪章将开放数据界定为具备必要的技术和法律特性,从而能被任何人、在任何时间和地点进行自由利用、再利用和分发的电子数据。该宪章还提出六项原则:以开放为默认原则、及时和全面、可公开获取和可利用、可比较和互操作、致力于改善治理与公众参与、1 www.opengovdata.org2 https:/publicadministration.un.org/egovkb

7、/en-us/reports/un-e-government-survey-20163 http:/opendatatoolkit.worldbank.org/en/essentials.html致力于包容性发展和创新4。纽约大学政府实验室(Govlab)对国际上具有代表性的十一个研究机构、评估指标、政府部门和咨询公司界定的“开放数据”定义进行梳理后发现,最多被提及的开放数据标准包括免费、公开提供、非排他性、可利用结构、开放授权和可再利用等5。2017 年,国务院办公厅印发的政务信息系统整合共享实施方案指出要向社会开放“政府部门和公共企事业单位的原始性、可机器读取、可供社会化再利用的数据集”。

8、国家公共数据开放的有关要求也指出要保证开放数据的完整性、准确性、原始性、机器可读性、非歧视性、及时性,方便公众在线检索、获取和利用。本次评估根据以上定义、原则与标准,基于目前我国政府数据开放的实际情况和发展阶段,确定了报告的评估对象、指标体系、数据采集分析方法、以及指数计算方法。2.2评估范围报告根据公开报道,以及使用“数据开放”、“数据公开”、“政务数据资源”、“政府数据服务”、“地名政府数据”、“地名数据”等关键词进行搜索,发现了截至 2017 年 4 月我国已上线的政府数据开放平台,并将符合以下条件的开放数据平台纳入评估范围:(1)平台域名中出现 ,作为确定其为政府官方认可的数据开放平台

9、的依据。(2)平台形式为“统一专有式”或“统一嵌入式”。“统4 http:/ http:/odimpact.org/resources.html2.评估方法Methodology一专有式”是指开放数据统一汇聚在一个专门的平台上进行开放,“统一嵌入式”是指开放数据统一汇聚为一个栏目板块,嵌入在政府门户网站或政务服务网站上。各个条线部门建设的非集中式开放数据的平台不在本报告的评估范围内。(3)平台所代表的地方政府的行政级别一般为地级市以上。需要特别说明的是,作为国内最早开放数据的区级政府,佛山市南海区在国内政府数据开放领域进行了先行探索,为持续跟踪比较,“数说南海网”作为唯一的区级平台被纳入此次评

10、估的范围。(4)平台上确实开放了电子格式的、可通过下载或接口形式获取的、结构化的数据集。即使名为“数据开放”平台,但实质上只提供了非结构化的文本内容,不存在可通过下载或接口形式获取的、结构化的数据集,更多属于传统“信息公开”性质的平台未纳入本次评估范围,如江西省人民政府门户网站“用数据”模块、四川省人民政府网站上的“开放数据”模块和广东清远市人民政府网“数据开放”频道等。基于以上选择标准,被纳入本次报告评估的地方政府数据开放平台共 19 个,这些地方的平台符合政府数据开放的平台名称地点层级平台域名1北京市政务数据资源网北京市省级2开放广东数据服务网广东省省级http:/3贵州省政府数据开放平台

11、贵州省省级http:/4上海政府数据服务网上海市省级http:/5浙江政务服务网浙江省省级http:/6广州市政府数据统一开放平台广东省广州市副省级http:/7哈尔滨市政府数据开放平台黑龙江省哈尔滨市副省级http:/8青岛市政府数据开放网山东省青岛市副省级http:/9深圳市政府数据开放平台广东省深圳市副省级http:/10武汉市政府公开数据服务网湖北省武汉市副省级http:/11长沙数据开放湖南省长沙市地级http:/12数据东莞网广东省东莞市地级http:/13佛山市数据开放平台广东省佛山市 地级http:/14贵阳市政府数据开放平台贵州省贵阳市地级http:/15梅州市人民政府数据开

12、放平台广东省梅州市地级https:/ 区级http:/表 1 评估范围04|052017 中国地方政府数据开放平台报告|数据获取基本特征,是我国开放政府数据的先行者。具体平台名称、所属地方政府和平台域名如表 1 所示。“数据”是开放数据的核心,包括数据数量、种类、标准、质量和价值等方面,因此本次评估主要针对各地平台上开放的数据本身。为聚焦重点,本次评估暂不包括开放政府数据的法制、组织、技术、经济和社会环境;开放数据平台功能和体验;开放数据的使用情况和效果等方面。报告的主要观察对象为我国地方政府数据开放平台上可通过直接下载或 API 接口两种方式公开获取的、电子形式的原始数据集及其相关信息;不包

13、括平台上的 APP 应用、数据报告、可视化呈现等数据应用产品。基于开放数据的非歧视和公开获取原则,通过内部授权、协议开放等形式开放的数据也不属于本报告的评估对象。2.3 指标体系(1)指标框架复旦大学数字与移动治理实验室通过对十多个具有代表性的国内外政府数据开放评估项目在“数据层面”的评估指标进行梳理和分析后发现6,最受重视的二级指标依次是:数据标准、数据质量、数据管理、数据数量、数据类别、关键数据集等,其中开放授权、机器可读、可获取、非专属、及时、元数据提供等三级指标最受关注。在充分借鉴国际性开放数据评估报告指标体系的基础上,立足于目前我国各地开放数据实践的实际情况与发展阶段,本着系统科学、

14、多维度、可操作的原则,本报告建构了一套评估指标框架(如表3所示)。框架共包括四个一级指标:数据集总量、数据开放度、数据覆盖面与数据持续性。6郑磊、关文雯,开放政府数据评估框架、指标和方法研究,图书情报工作,第 60 卷第 18 期 http:/ 50 多位我国数据开放领域的学者和数据开发利用专业人士组成专家评委会(详细名单见报告附件)对各项评估指标的相对重要性进行排序,以反映第三方学术机构的专业视角和数据利用者们的实际需求。排序结果如表 2 所示,被排在最重要位置的指标是“数据集价值”,这反映了各界对高价值数据集的需求。然而,数据的价值要通过实际应用来展现和评估,由于目前我国政府数据开放工作刚

15、刚起步,大量高价值政府数据仍未开放,数据尚未被充分应用以展现其价值,因此本次报告暂不评估该项指标。被专家评委会排在第二至第五位的指标依次是开放数据格式、元数据提供、开放授权以及数据集更新,而开放重点领域关键数据集、数据集主题覆盖面与数据集总量的重要性相对靠后,这反映了学界和业界更为重视数据标准和数据质量,而反对一味追求数据数量。表 2 评委专家对评估指标相对重要性排序的结果指标名称排序得分重要性数据集价值3.371开放数据格式(技术性开放)3.662元数据提供3.703开放授权3.724数据集持续更新3.835开放重点领域关键数据集4.476数据集主题覆盖面4.517数据集数量4.517评估指

16、标框架及指标权重的设置意在推进我国各地开放数据实践的持续健康发展,需兼引导性、相关性、明确性、可衡量性、可实现性和动态性,综合考量国际性评估报告的2.评估方法Methodology指标体系、专家评委会的评分结果、以及目前我国各地发展现状、主要问题和亟需引导的方向,本期报告确定了各级指标对应的权重(详见表 3),对数据开放度赋予最高的权重(50%),其次是数据持续性(20%)、数据集覆盖面(15%)与数据集总量(15%)。随着各地政府数据开放实践的不断深入推进,指标框架及指标权重将进行动态调整。2.4 数据采集及分析报告采用自动抓取和人工观察方法采集数据。以 2017年 4 月 18 日为数据采

17、集始点,在之后四周内的四个时间点持续采集数据,采集时间分别为 2017 年 4 月 18 日、2017年 4 月 24 日、2017 年 4 月 30 日与 2017 年 5 月 7 日。报告主体分析部分以 4 月 18 日采集的数据为基准,而在平台数据动态更新部分则使用四个时间点采集的数据进行追踪对比分析。报告对采集到的各项指标的数据进行了描述性统计分析和交叉分析。2.5 指数计算方法报告对各地平台在各项指标上按照 0-5 共 6 档分值进行评分,由低到高分别为 1-5 分(“开放授权”指标的分值例外,4 项三级指标共 5 分,每满足一项得 1.25 分),相应数据缺失或完全不符合标准则分值

18、为 0。各地平台的最终指数总分为每个单项指标的分值乘以相应的权重,再换算成百分制。表 3 指标框架与权重06|072017 中国地方政府数据开放平台报告|数据获取图 1 各地平台上线时间3.主要发现Key Findings三、主要发现3.1 总体分布(1)上线时间自 2012 年上半年上海推出我国大陆地区第一个开放数据平台起,截止到 2017 年上半年,我国陆续上线了十多个符合开放政府数据基本特征的地级以上平台(如图 1)。以2015 年 8 月底国务院印发促进大数据发展行动纲要为分水岭,在此之前,各地开放数据平台增长较为缓慢,上海和北京最早进行了探索,此后无锡、佛山南海、湛江、武汉等地先后上

19、线;促进大数据发展行动纲要出台后各地平台增长速度明显提升,15 年下半年新上线了 4 个平台,16年下半年又增加了 6 个平台,17 年上半年也陆续有新平台推出。各地政府数据开放平台上线时间(2)地区分布截止 2017 年 4 月,我国各地上线的符合政府数据开放基本特征的平台的地理位置分布如图 2。标注为深色的为省级平台,浅色为地级市。由图可见,我国绝大多数地方政府尚未开放数据。目前上线的平台主要分布在东南部沿海地区,部分分布在西南与华中地区,长江以北分布较少。其中,广东省地级市开放平台分布尤为集中,形成了我国最为密集的省级“开放数林”。各地政府数据开放平台的地理分布图 2 各地平台地理分布(

20、3)行政层级报告对各地平台所属的地方政府行政层级及其所占比例进行了分析(如图 3)。目前各地上线的平台中地级市数量最多,省级行政区和副省级城市数量相当,然而我国共有31 个省级行政区(港澳台除外)、15 个副省级城市和 334图 3 各地平台行政层级分布08|092017 中国地方政府数据开放平台报告|数据获取浙江北京贵州广东青岛武汉无锡长沙梅州广州东莞深圳贵阳南海湛江肇庆佛山上海哈尔滨个地级市,与我国省级行政区、副省级城市、地级行政区的总数相比,已开放数据的地方所占比例普遍偏低。(4)平台类型从各地开放数据平台的类型来看,绝大多数平台以统一专有方式呈现,即开放数据统一汇聚在一个专门的平台上进

21、行开放。只有梅州和肇庆为统一嵌入式,即开放数据统一汇聚为一个栏目板块,嵌入在政府门户网站或政务服务网站上。统一专有式平台更有利于用户通过一站集中的方式发现、获取和利用数据,也是目前国际上普遍采用的方式。3.2 开放数据集总量数据集,是一种由数据所组成的集合,通常以表格形式出现,“列”代表一个特定变量,“行”对应于一个样本单位。政府数据开放平台通常以下载或 API 接口的形式开放数据集。个别平台上出现的以下三类情况,在报告中将不视作有效的开放数据集:(1)数据集名称下不存在可直接下载或通过接口获取的数据集;(2)数据集中仅有 0 行或 1 行数据(多为将一个数据集分拆出的单行数据,或未整合成一个

22、数据集的单行数据);(3)数据集名称下提供的是网页链接,且链接跳转后出现的是无法通过下载或接口形式获取的文本内容。同时,报告将各地平台上出现的以下三类情况只视作一个有效的数据集:(1)同样名称的数据集重复出现;(2)平台上标注的数据集名称不同,但实际下载后的数据集具有相同的名称与内容;(3)同一个数据集按行政区划与部门等被分拆成多个数据结构相同的数据集。各地开放数据平台开放的有效数据集总量(含直接下载和 API 接口开放)如图 4 所示。在 19 个开放数据平台中,图 4 各地平台上开放的数据集总量3.主要发现Key Findings武汉开放的数据集最多,与上海、贵阳处于第一梯队,都开放了超过

23、 1000 个有效数据集或接口;其次是青岛,开放了847 个有效数据集。其后,无锡、深圳、北京开放了 400多个的数据集;佛山、东莞、广州、南海、浙江等地开放了300 多个。4 各地平台上开放的数据集数量(包含 API 接口)3.3 数据开放度关 于 开 放 数 据 的 格 式 标 准,万 维 网 发 明 者 Tim Berners-Lee 提出了一个开放数据五星标准7:一星:基于开放授权在网络上开放数据,对数据格式不做要求,可能采用 PDF、JPEG 等格式;二星:以可机读、结构化格式开放数据(如采用 EXCEL 格式而非扫描格式);三星:在满足二星标准的基础上,以非专属开放格式开放数据(如

24、采用CSV 格式代替 EXCEL 格式);四星:在满足以上要求的基础上,为每一个数据集设置固定的 URL 链接,便于使用者7https:/www.w3.org/DesignIssues/LinkedData.html发现和链接到数据集的具体位置;五星:在满足以上要求的基础上,数据之间实现关联,以展现数据的背景。本报告基于该标准和其他有关开放数据格式的标准,重点对各地开放平台上的数据集的开放度进行评估。3.3.1 技术性开放(1)可机读格式为方便用户获取和利用数据,数据集应以可机读格式开放,该格式能被计算机自动读取与处理,如 XLS、CSV、JSON、XML 等格式。图 5 展示了各地平台上可下

25、载数据集总量与可机读数据集总量的对比。总体来看,各地平台上满足可机读格式的数据集比例较高,贵阳、上海、青岛、东莞、佛山、南海、广州、哈尔滨等平台上开放的可下载数据集基本都满足了可机读格式。但也有一些地方平台虽然开放的数图 5 各地平台可下载数据集与可机读格式数据集数量10|112017 中国地方政府数据开放平台报告|数据获取据集总量不小,但其中不少数据集为 DOC、PDF、JPG 等不可机读格式。还有部分平台虽然提供了可机读格式的数据集,但内容多为加工归总后的统计数据,并不满足开放完整的、原始的、可再利用的数据集的开放数据原则。平台可下载数(2)开放格式开放格式是指可下载数据集应以开放的、非专

26、属的格式提供,任何实体不得在格式上排除他人使用数据的权利,以确保数据无需通过某个特定(特别是收费的)应用程序才能访问。例如 CSV 是开放格式,而 XLS 则不是。图 6 是各地方平台上可下载数据集总量与开放格式总量的对比,贵阳平台上开放格式的数据集数量最多,所有的数据集都可通过开放格式下载。东莞、佛山、南海、广州、哈尔滨、长沙等地方平台上提供的数据集也都满足开放格式图 6 各地平台可下载数据集与开放格式数据集数量的标准。北京平台上开放的大多数数据集也达到了开放格式标准。此外,约有一半的地方平台没有提供任何开放格式的数据集,而多以 XLS 格式为主。数据集与开放格式数量(3)API 接口除了数

27、据直接下载以外,有些地方平台还提供了应用 程 序 编 程 接 口(API 接 口,Application Programming Interface)。与通过直接下载方式获取数据集相比,接口方式使用户可通过参数实时高效地获取所需数据,尤其适用于开发应用程序的需求。深圳、北京、东莞三个地方平台为每个数据集提供了接口(见图 7)。其中,深圳开通的接口数量最多。此外,佛山、上海、贵阳等地也提供了一定数量的接口。然而,仍有将近一半的平台没有或很少提供 API 接口,还有个别地方平台上的 API 接口多数处于无法被调用的状态。3.主要发现Key Findings图 7 各地平台数据集总量与 API 接口

28、数量图 8 各地平台开放授权详情12|132017 中国地方政府数据开放平台报告|数据获取图 10 开放数据非歧视性比例3.主要发现Key Findings3.3.2 开放授权开放数据应通过数据开放授权协议从法律上保障数据的开放性,数据开放授权通常包含在开放数据平台的网站声明、免责条款或服务协议中。报告发现,在 19 个政府数据开放平台中,共有 12 个平台配有数据开放授权。7 个平台缺少专门的数据开放授权,占评估总体的 36.8%,这其中有 4 个平台的网站声明与政府门户网站共享,并非专门针对开放数据平台制定,也没有专门涉及数据开放授权的内容。开放授权协议的内容应明确授予用户免费获取、不受歧

29、视、自由利用、自由传播与分享“开放数据”的权利。目前没有一个地方平台的授权协议全部明确授予了上述四项权利。上海和贵阳满足了其中三项指标;青岛、广东、广州、佛山南海、佛山、武汉、无锡和北京满足了其中两项;贵州和东莞满足了一项;其余地方在四项指标上未明确提及,或语焉不详(见图 8)。图 5 各地方开放授权指标详情(1)免费获取免费获取是指平台在开放授权中明确授予用户免费获取和利用“开放数据”的权利。政府数据作为公共资源,原则上应免费向社会开放,除非需要对数据进行额外的增值加工和针对少数人的个性化加工等。目前各地平台上的相应条款分为“免费且未设时限”、“现阶段免费”、“未明确是否免费”三类。其中,贵

30、阳、东莞的条款中明确说明数据免费且未设时限,用户可永久无偿获取数据平台所提供的所有数据资源。其他大部分地方平台则在服务协议中提到“现阶段免费”,但设置有模糊的期限或限制,如“保留收费权利”等表述;其他少数城市未明确表述是否免费(见图 9)。开放数据免费获取比例(2)非歧视性开放授权是指平台明确授予任何用户平等访问、获取、图 9 开放数据免费获取比例使用和分享“开放数据”的权利。目前各地平台上的相应条款分为“明确保障非歧视性”、“未明确保障非歧视性”两类情况。多数地方的开放数据平台明确保障了数据开放的非歧视性,对任何用户都予以平等的数据获取和利用权限;但上海、贵阳、贵州、东莞、青岛等地未明确提及

31、是否保障非歧视性(见图 10)。图 7 开放数据非歧视性比例(3)自由利用开放授权应明确授予用户不受限制地对“开放数据”进图 11 开放数据自由利用比例行商业和非商业性利用的权利。目前各地平台上相应条款分为“明确允许自由利用”和“未明确提及可自由利用”两类。其中上海、青岛和贵阳明确表明用户可“进行商业或非商业性的开发活动”、“享有增值利用的权利”或“拥有自由利用的权利”,其余 9 个地方均未对用户利用数据的权利做出明确说明(见图 11)。图 4 开放数据自由利用比例(4)自由传播与分享开放授权应明确授予用户可自由传播和分享“开放数据”的权利。目前各地平台上的相应条款分为“可自由传播”、“自由传

32、播受限”、“未提及可自由传播”三类情况。贵阳、青岛、上海授予用户享有免费传播现有开放数据的权利;为保障用户免费获取数据的权利,青岛特别说明了用户不得有偿转让获取的数据。其他大部分地方在使用条款中要求“用户不得有偿或无偿转让数据资源”,限制有偿转让数据有利于保障用户免费获取数据的权利,但限制用户无偿传播和分享已开放的数据并不符合开放数据的原则,在实际操作中也很难发现和限制。其他地方未对用户自由传播与分享的权限做出明确说明(见图 12)。图 5 开放数据自由传播与分享比例3.3.3 元数据提供政府数据开放平台为开放数据集提供元数据有助于数据利用者清楚地了解和理解数据集的内容与背景,从而更好地获取和

33、利用数据。本报告对各地平台上的可下载数据集所提供的元数据进行了分析。(1)平台元数据条目图 13 显示了各地平台上提供的元数据条目数量。贵阳提供的元数据条目数最多,其次是哈尔滨与广州,也有少数平台只提供了较少的元数据条目。图 12 开放数据自由传播与分享比例(2)基本元数据覆盖率综合梳理国际开放数据平台上提供的基本元数据条目以及目前我国半数以上的平台已实际提供的元数据条目,报告确定了以下13个条目作为开放数据集基本的元数据条目,包括数据名称、摘要、关键字、数据主题、下载格式、数据提供方、发布日期、更新日期、更新频率、访问量、数据项(字段)、数据量等。其中数据量是指数据集所含的行数(或行数乘以列

34、数),数据项是指数据集中每一列的具体名称,两者有助于利用者更好地了解数据结构与内容。14|152017 中国地方政府数据开放平台报告|数据获取图 13 各地平台元数据条目图 14 基本元数据条目在各地平台的分布数3.主要发现Key Findings图 14 表示以上 13 个基本元数据条目在 19 个地方平台的分布情况。目前,所有 19 个地方平台都已提供了数据集名称与下载格式,大多数平台已提供数据描述、数据主题、关键字(标签)与数据提供方。然而,目前能提供更新频率、访问量、数据项、数据量条目的地方平台还相对较少。图 15 各地平台基本元数据条目覆盖数图 16 各地平台基本元数据条目详情列表图

35、 15 表示各地平台提供的基本元数据条目的数量,目前还没有一个平台提供了所有的基本元数据,东莞、广州、贵阳、哈尔滨与青岛覆盖了 12 个基础元数据条目,仅缺少一条;其次是北京、上海、广东等地,都缺少两条。各地平台提供的基本元数据条目详情可参见图16,无圆点的空格即为该地方缺少的元数据条目。图14 基础元数16|172017 中国地方政府数据开放平台报告|数据获取报告进一步分析了各地方平台开放数据集的主题领域覆盖面,图 18 显示了各地已覆盖的主题个数。在 14 个主题领域中,不同地区间的主题分布情况差异显著。广州、贵阳、青岛开放的数据集主题覆盖面最高,只有一个未覆盖主题,其次为北京、南海、无锡

36、等地。开放数据集总量较少的企业登记监管等民生保障服务相关领域的政府数据集向社会开放”。基于行动纲要的要求,结合国内外开放数据平台上实际开放的重点数据集主题,报告将开放数据主题归纳为财税金融、经贸物流、交通出行、机构团体、文化休闲、医疗卫生、教育科技、社会民生、资源环境、城建住房、公共安全、农业农村、社保就业、信用服务共 14 个大类。图 17体现了各地平台在 14 个主题下所开放的数据集个数。其中,经贸物流的数据集开放数量最高,包含了经济建设和企业服务等内容;其次为社会民生、机构团体的数据集,数据开放相对较少的主题为财税金融、农业农村和信用服务等。据条3.4 数据覆盖面 3.4.1 主题覆盖率

37、开放各个主题领域的数据集有利于提高数据开放的广度和覆盖面,有利于数据利用者充分获取和融合来自多种领域的数据,进行深度的挖掘利用。2015 年 8 月国务院印发的促进大数据发展行动纲要提出要“优先推动信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、图 17 各主题包含的数据集个数3.主要发现Key Findings地方其主题覆盖率也相应较低。这些地方之间的差异可能与各地发展重点、开放意愿和数据储备基础等因素有关。某些地方平台上主题领域的用词与社会上的数据利用者或普通公众的用词习惯有差异,过于宏大和宽泛,更多反映了政府部门的视角,如

38、“经济建设”和“社会发展”等,还有些地方的主题领域用词则过于模糊,如“综合信息”和“工作结果”,不利于用户发现、理解和获取其需要的数据。3.4.2 部门覆盖率 开放数据集的部门覆盖率反映了一个地方政府的各个部门对于数据开放工作的参与程度,也体现了数据集的丰富程度。报告首先梳理了超过半数的地方平台开放数据集所覆盖的部门作为“主要数据提供部门”,由于不同地方具有相同职能的部门在名称上存在差异,报告对这些部门的名称做了相应的合并与调整。图 19 为各地平台上主要数据提供部门所提供的数据集 数量。由图可见,各地平台上来自统计局的数据集数量最多,远高于其后的商务、交通、卫生计生、公安、教育、经信等部门,

39、而提供数据集数量相对较少的是财政、气象和档案等部门。图中的不同色条的纵向宽度反映了各地平台上不同数据提供部门的数据集数量,如上海提供最多数据的部门为交通、卫生计生与公安等,统计部门数据所占相对较少。统计部门提供的数据多为经过归总加工后的宏观数据,各地还应继续提升各个具体业务部门的开放数据集比例。同时,报告还分析了各地平台数据提供部门数量占该地方政府职能部门总数(数据来自各地政府门户网站)的比例,以评估该地方的开放数据部门的覆盖面。结果如图 20,贵阳的部门覆盖率超过了 9 成,此后是上海与南海,均超过了 7 成,仍有部分地方平台的部门覆盖率不到一半,尚有较大提升空间。图 23 各平台关键数据提

40、供部门提供的数据集个数分布图 18 各地平台主题覆盖数18|192017 中国地方政府数据开放平台报告|数据获取图 19 各地平台主要数据提供部门数据集数量分布图 20 数据提供部门占部门总数的覆盖率3.主要发现Key Findings图 243.4.3 关键词覆盖率报告对各地平台上数据集名称进行了文本分析,发现了一批出现频次较高的关键词,这些关键词反映了各地开放数据的内容及其分布。如图 21 所示,各地开放数据集中出现频次最高的关键词是“信息”和“情况”,远远高于其后的“企业”、“机构”、“统计”等。这类词汇仍旧体现了政府部门的用词习惯,而不是社会公众更容易理解的词汇。值得注意的是,作为政府

41、数据开放平台,“数据”一词出现的频次却远小于其它名词,也反映了政府部门的惯性思维。图 17 各平 33 个名词图 18 数据集名称中 52 个高频描述性限定词图 22 为各地数据集中高频出现的描述性限定词,这些限定词描述了数据集的主要内容和方向。由图可见,“经营”、“生产”和“预算”出现的频次最高,其后“审批”、“许图 22 各地开放数据集名称中出现频次最高的 48 个描述性限定词图 21 各地开放数据集名称中出现频次最高的 33 个名词20|212017 中国地方政府数据开放平台报告|数据获取图 23 各地开放数据集名称基本关键词覆盖率3.主要发现Key Findings可”、“机动车”、“

42、企业名单”、“蔬菜”等词也有较高的出现频次。在以上高频描述性限定词与名词的搭配中,“审批信息”、“公开信息”、“许可机构”、“经营企业名录”、“预算公开”等数据集出现频次较高,这些数据集的来源多为政府信息公开的内容,以文本为主,数字较少,更多为统计加工后的数据,具有高价值的、原始的、完整的数据集较少。报告将各地开放的数据集名称中高频次出现的 48 个描述性限定词确定为“基本关键词”,然后分析各地平台数据集名称对于这些基本关键词的覆盖率。如图 23 所示,覆盖率最高的是贵阳,达到了全部覆盖,其次是无锡、武汉、青岛和上海,基本关键词覆盖率都超过了 9 成,少数城市覆盖率较低,不到两成。各地开放的数

43、据集名称对于基础关键词的覆盖详情如图24 所示,数字所在单元格颜色越深,代表涉及到该关键词的数据集越多,颜色越浅则代表该项数据集越少。覆盖详情图 24 各地开放数据集名称基本关键词覆盖详情22|232017 中国地方政府数据开放平台报告|数据获取3.5 数据持续性3.5.1 持续增长运维政府数据开放平台是一项常态化工作,平台上线后还应持续新增数据集,以不断满足社会对开放数据日益增长的需求。报告根据各地平台上数据集的创建日期来判断该平台数据集是否持续增长,以半年为时段进行跟踪分析,持续增长分值取决于该平台数据集保持持续增长的时段的数量。图 25 显示的是以半年为时段的各地平台数据集持续增长情况,

44、颜色区域表示该时段有新增数据集出现,空白区域表示该时段无新增数据集。上海平台上线时间最早,2012 年上半年上线,至今数据已保持了 9 个时段的持续增长;北京平台于 2012 年下半年上线,持续增长时段为6个。在2014年下半年,佛山南海、湛江和无锡的平台上线,但湛江自上线之后便不再新增数据集。2015 年以后新上线的平台基本都能保持数据集增长。图 25 各平台上线时间与持续更新3.5.2 动态更新(1)承诺更新频率报告对各地平台开放的数据集所承诺的更新频率进行了分析,分为不更新、不定期更新、每年更新、每半年更新、每季度更新、每月更新、每周更新、每日更新、实时更新九类。其中,报告将更新频率为不

45、更新、不定期更新、每年或每半年的数据集视为相对静态数据,将更新频率为每季度、每月、每周、每日与实时更新的数据集视为相对动态数据。图 26 显示了各地平台数据集承诺更新频率的分布情况。按照其承诺,约 77%的数据集为相对静态数据,这其中又以按年更新为主(占 59%);其次为不定期更新,占 13。承诺进行动态更新的数据集只占总数据的 23%左右。图 27 为各地平台数据集承诺的更新频率分布。由于部分平台未公布承诺的更新频率,因此未出现在图中。总体上,相对动态数据比例最高的城市为东莞,约半数的数据集承诺2017 中国地方政府数据开放平台报告图 25 各地平台上线时间与数据集持续增长3.主要发现Key

46、 Findings图 26 数据集承诺更新频率分布图 27 各地开放数据集承诺的更新频率分布24|252017 中国地方政府数据开放平台报告|数据获取历史存档是指平台将历史上不同时间更新的多个批次的数据留存在平台上,允许用户下载,有利于数据利用者按时间获取和利用历史数据。图 29 为实现了数据历史存档的平台分布情况,目前只有东莞、佛山、贵阳、青岛与上海五个平台。图 29 实现多批次保存数据的平台分布按季度或季度以下频率更新,其中又以按月更新为主。承诺按日更新比例最高的地方分别为广州、佛山,其次是浙江、青岛、广州、上海等地,多数平台上的数据仍以承诺按年或者不定期更新为主。(2)实际更新情况报告从

47、 2017 年 4 月 18 日开始,在之后四周内的四个时间点持续采集数据,采集时间分别为 2017 年 4 月 18 日、2017 年 4 月 24 日、2017 年 4 月 30 日与 2017 年 5 月 7 日,然后通过比对数据集更新时间的变化发现在该时间内实际更新的数据集,未提供数据集更新时间的地方平台未纳入该项评估。结果如图 28 所示,上海平台上该时段内更新的数据集数量最多,其次为东莞、贵阳和青岛。3.5.3 历史存档图 28 各地平台数据动态更新情况图 29 实现数据历史存档的平台分布3.主要发现Key Findings4.“开放数林”指数分值与排名Index and Rank

48、ing四、“开放数林”指数分值与排名4.1 各项指数均值各单项指标的得分均值与标准差如图 30 所示,均值得分低的指标表示各地在该项指标项上平均达标率较差。均值最低的指标项是动态更新,多数平台没有实现数据集的动态更新;其次历史存档、开放格式数量、API 数量、开放授权;各地达标率较好的指标项主要是主题覆盖率、元数据覆盖率、关键词覆盖率等体现数据集丰富程度的指标。标准差体现的是各地平台在该项指标上得分的离散程度,标准差较高说明各地平台在该指标项上存在较大的差异。图中可见,所有单项得分的标准差都在 1 以上,这表明各地平台在所有指标项上的表现都差异较大,其中差异程度最大的是历史存档、API 数量、

49、开放授权三项指标,既有部分平台表现优异,也有部分平台没有得分。图 30 各指标得分均值与标图 30 各指标得分均值与标准差分布26|272017 中国地方政府数据开放平台报告|数据获取4.“开放数林”指数分值与排名Index and Ranking4.2 指数分值与排序各地平台的单项指标得分(0-5 分)、数据层指数总分及排名如表 4 所示。在所有的地方平台中,表现最好的是上海、贵阳两地,其次是青岛、北京、东莞、武汉等地。在省级行政区排名中,指数得分最高的是上海,其次是北京、表 4 2017 中国开放数林指数(数据层)广东、浙江、贵州;在副省级和地级城市排名中,得分最高的是贵阳,其次是青岛、武

50、汉、东莞、佛山、广州、佛山南海、无锡等地,这些地方都是我国地方政府数据开放的引领者。表 4 2017“开放数林”指数分值与排名表 5 2017“开放数林”指数分值与排名(省级)表6 2017“开放数林”指数分值与排名(副省级与地级)表5 2017中国开放数林指数(省级)表 6 2017 中国开放数林指数(副省级与地级)28|292017 中国地方政府数据开放平台报告|数据获取五、结论与建议1“开放数林”来自每一棵“数木”的生长 近年来,虽然各地已陆续上线了一批政府数据开放平台,特别是促进大数据发展行动纲要出台后,平台增加速度明显加快。但总体上,我国绝大多数地方政府尚未开放数据。已开放政府数据的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁