《(大数据资料)技术方案:数据共享交换平台.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)技术方案:数据共享交换平台.pdf(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(大数据资料)技术方案:数据共享交换平台1 数据共享交换平台数据共享交换平台1.11.1 总总体目体目标标数据交换共享平台是各政务部门、政务部门与社会机构、政务部门与公众之间的桥梁.对于政府内部,一方面通过数据交换、共享、开放系统拉通部门间的数据,提高政务办公效率更好的为民服务;另一方面通过数据交换、共享、开放系统交换的数据汇聚到大数据处理平台,对数据资源进一步的集成、加工,形成更高价值的数据资产,并将处理后的数据以服务的方式对外提供,形成”数据”和”应用”之间的环流.本系统由全市统一部署管理,覆盖市、区政务部门,整体目标实现为政务服务”一张网”、”12345”在线平台、政务网站群等应用提供数
2、据服务.本项目将先实现30家政务部门的数据交换、共享和开放.1.21.2 建建设设原原则则 省据共享交换平台要具有高可靠性、高扩展性、可管理性.总体上要从集约化统筹建设、需求和服务导向、标准化和规范化、安全可控可扩展等方面进行组织建设.1.2.1统统筹和集筹和集约约化建化建设设 共享交换平台建设要坚持统筹规划,集约化实施.为实现资源优化配置和信息共享需要,共享交换平台建设应充分考虑与各部门现有业务系统的对接、对各部门现有软硬件投资的保护及网络、存储、备份等现有资源的统一利用,最大化避免重复建设带来的浪费.1.2.2需求和服需求和服务导务导向向 共享交换平台建设应建立在对各部门需求充分梳理、分析
3、、提炼的基础上,紧密结合加强政府自身建设、强化执行力、提高工作效率和服务水平的要求,以各部门实际业务需求为导向,以提供信息资源共享交换服务为目标,提高跨部门信息共第 1 页 共 33 页(大数据资料)技术方案:数据共享交换平台享业务协同水平,进一步提升政府部门社会管理和公共服务效能.1.2.3标标准化和准化和规规范化范化 在开展共享交换平台建设的同时,应同步制定信息资源共享交换制度,强化信息资源规范化管理,建立信息交换、共享、发布的相关标准规范和运维管理制度.在建设过程中应站在省级信息资源开发利用的角度,进行统筹规划,将信息资源、基础设施和应用服务作为一个整体进行集约化建设.1.2.4安全可控
4、安全可控和可和可扩扩展性展性 共享交换平台应具有足够的安全性,能够防止来自系统内部的恶意破坏及外部恶意攻击;应采用有效的安全防范措施和安全手段,保证系统的完整性和机密性,并对系统访问和操作提供有效的权限认证;系统应采用标准化安全技术与产品,易于扩展、可扩充、可扩容,系统还应提供容灾、容错等保障机制.共享交换平台应充分考虑平台中长期的延续性和扩展性,在建设过程中采用先进管理思想和技术体系,并借鉴现有成功案例和成熟经验,建设一个能够满足未来较长时间内电子政务对信息资源方面需求的平台.1.31.3 平台整体平台整体设计说设计说明明1.3.1设计设计目目标标 数据共享交换平台的设计包括是数据资源交换子
5、系统、数据资源目录子系统,是整个互联网+政务方案的核心组件之一.通过共享交换平台建设能够为各业务部门提供交换服务、共享服务、应用服务以及目录服务,实现辖区内人口、法人税收、空间地理、社会保障和医疗救助、交通管理、财政统计等数据的交换共享,并为行政权力网上公开透明运行、企业注册登记并联审批等重点业务应用提供跨地区、跨部门的数据共享交换支撑.共享交换平台在设计方面要求达到如下目标:1.符合国家相关标准 2.支持跨平台技术3.支持松耦合的应用集成技术4.支持多种通讯模式5.支持多种数据交换方式6.支持多种交换数据格式第 2 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.3.2整体架构整
6、体架构 数据共享交换平台方案的设计包括”数据资源目录子系统”和”数据资源交换子系统”,考虑到政务系统之间复杂的数据交换需求,总结出四种不同的交换模式:1)直接交换方案 2)共享交换方案 3)安全交换方案 4)数据API服务.通过4种数据交换模式覆盖政府部门内各种场景的数据交换.1.3.2.11.3.2.1 数据数据资资源目源目录录 目录服务系统的主要功能是采用元数据对信息资源特征进行描述,形成统一规范的目录内容,通过对目录内容的有效组织和管理,形成目录信息库,为信息资源的交换、共享以及对应用的支撑提供信息资源的发现定位服务.遵循统一的标准规范组织管理所有共享交换信息资源,并通过目录服务系统基于
7、目录信息库,向用户提供目录内容查询检索服务.通过目录服务系统建设推进,对各个业务部门信息资源进行编目,便于全面掌握省级部门整体信息资源状况.1.3.2.21.3.2.2 直接交直接交换换模式模式直接交换模式属于较为传统的数据交换模式,交换之后数据会发生物理搬移,直接交换模式支持大多数关系型数据库、大数据平台(Hadoop、Spark、ODPS)、文件等类型的数据资源.这种交换模式提供增量、全量的数据交换功能,增量交换第 3 页 共 33 页(大数据资料)技术方案:数据共享交换平台时可配置周期性的交换任务,也可配置实时获取增量的任务,确保数据能快速、安全、可靠的同步至目标端.下图是直接交换模式在
8、某市的实际部署方案,该方案主要基于数据交换网关、数据交换中控、资源目录系统,以及需要政务云上提供部门共享库(云上前置库)、数据交换中心库(推荐RDS for mysql5.6)等服务.如下图所示,直接数据交换方案图1.3.2.31.3.2.3 共享交共享交换换模式模式随着数据量的增加以及业务对种类型数据资源的需求增多,大数据平台在政务当中的使用将成会一种常态,开源的Hadoop、Spark、阿里的MaxCompute(即ODPS)以及其他的大数据平台产品将部署在政务云上.大数据平台具有海量数据的处理能力,同时它也具有多租户的特性,各部门的数据将会存储在各租户之内,租户间存储、计算等资源隔离,默
9、认情况下无法直接跨部门访问数据.共享交换模式主要针对这种大数据平台下多租户间的数据交换,这种模式的交换数据不发生物理上的搬移,”数据可用、交换不搬家”,实现直正的极速交换.1.3.2.41.3.2.4 安全交安全交换换模式模式安全交换方案是面向大数据平台的另外一种的数据的交换模式.当部门C需要部门A与部门B的数据进行计算所得的结果数据时,但因为提供方的明细数据第 4 页 共 33 页(大数据资料)技术方案:数据共享交换平台中含有敏感信息,不宜对外开放共享,但数据的需求方又利用这些数据计算出某种结果,就需要安全交换,安全交换会将双方相应数据放入安全交换空间中进行不公开计算,并将计算所得结果提供给
10、需求方.安全交换实现了数据的可用不可见.1.3.2.51.3.2.5 APIAPI服服务务模式模式API服务方案用于满足以下场景:数据供应方不希望直接暴露业务数据库,而是以RESTful 等API接口对外提供数据访问服务.以API接口方式提供服务,让数据共享更加安全便捷.API也可通过资源目录系统进行交换共享.1.3.31.3.3 平台特点平台特点1.3.3.11.3.3.1 丰富的数据源支撑丰富的数据源支撑平台支持多种数据源,包括大部分主流的关系型数据库,比如:Oracle、MySQL、DB2、Teradata、SQL Server、PostgreSQL、Sybase、DB2等,此外还支持H
11、adoop平台的Hive以及阿里的开放数据处理服务(ODPS)、分析数据库服务(ADS)组件、RDS for mysql 5.6.1.3.3.21.3.3.2 提供提供APIAPI订阅订阅在某些场景下,数据供应方不希望直接暴露业务数据库,而是以RESTful API的方式对外提供间接的数据访问服务.对于供应方来说实现RESTful 第 5 页 共 33 页(大数据资料)技术方案:数据共享交换平台API技术难度不大,但用户访问安全方面往往考虑不足,容易被恶意用户利用;此外需要对外提供API使用手册,耗时费力,运营成本较高;对于API使用者来说往往需要分散获取各个API,耗时费力,此外各个API接
12、口认证方式不同导致且编程复杂度提高,不利于快速开发.资源目录系统提供数据API以降低传统RESTful API开发使用的复杂度,以数据目录的形式提供API的汇聚,以方便开发者快速获取到对应的资源;提供API录入界面,以方便生成API文档;提供代理访问真实API的能力,数据供应方的真实API仅暴露给资源目录系统,其它用户看到的都是资源目录系统提供的代理访问地址;为上层开发者提供统一的认证机制及数据获取机制,以方便快速开发.数据API交换方式简化示意图如下:数据API交换流程图1、API供应方发布数据API后,使用方可以浏览API相关信息,并可申请使用该API;2、资源目录系统把审核权请由供应方,
13、审核通过后由平台生成API代理访问地址,并告知申请人;3、API使用方调用API,由数据API网关完成权鉴及调用转换.第 6 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.3.3.31.3.3.3 数据安全数据安全数据是部门的核心价值,数据安全属于资源目录系统的核心任务,从多个层面来保证部门数据的安全.基于RBAC对用户进行角色权限管理,用户只能在权限范围内进行操作.部门目录库与中心目录库分离,以保证部门数据不被中心私自使用.严格的审批流程,以保证部门数据的受控流出.严格的权限控制,以保证用户仅能获取授权数据.完整的数据操作日志,以方便审计.新型的交换模式,以保证敏感信息不被泄漏
14、.数据加密传输,防止数据传输过程上被截获.1.3.3.41.3.3.4 高可靠性高可靠性平台采用分布式架构,在负载均衡层和业务处理层均采用多点部署方式,避免单点故障导致整个系统不可用.同时负载均衡层的负载均衡组件,可以在业务高峰时自动进行业务分流,提升业务的整体性能.1.3.3.51.3.3.5 易用性易用性 门户界面采用BS架构,拥有直观易用的用户界面,数据的发布、撤销、浏览和获取均通过Web页面操作完成.同时,不同角色的用户登录后展示的用户界面不同,比如管理员可通过管理中心监控整个系统数据发布和交换情况,简单明了.1.3.3.61.3.3.6 高性能高性能由于使用了分布式的架构,通过扩展工
15、作节点的方式可以线性的提升平台的整体处理能力,同时,数据交换网关内部的作业调度采用业界比较成熟的任务调度框架,提供job的统一调度,对job提供多种执行方式,减少由于作业之间的资源争抢导致的性能下降.单工作节点的处理能力可达30M/s,满足大数据量数据交换的应用场景.第 7 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.3.3.71.3.3.7 高可靠性高可靠性数据交换网关的分布式架构在前端处理层、任务调度层、集群处理层及任务处理层均采用多点部署方式,避免单点故障导致整个系统不可用.在web serivces和任务调度的前端,还部署了负载均衡组件,实现在业务高峰时间的自动分流,提
16、升调度平台的整体性能.管控节点及作业节点均为多点部署,单点故障的情况下,不影响整个集群的运行.由于作业元数据保存在元数据库中,数据交换网关还支持任务断点续传功能,保证整体作业的高可用,避免整个作业重跑,提升任务效率.在子任务失败的情况下,对已经部分完成的动作进行自动回滚,避免部分入库导致整个ETL失败并不可逆的情况发生.1.41.4 数据数据资资源目源目录录子系子系统统1.4.1系系统统概述概述信息资源库中包含的信息资源种类繁多、数量庞大,必须采用计算机技术,建立起强大、灵活、方便的信息资源导航和检索系统,才能真正共享和使用这些信息.信息资源目录为使用者提供了检索信息资源的便利措施.信息资源目
17、录通过建立科学、合理的分类体系,将共享信息资源和交换服务组织成一系列相关的信息主题.1.4.2系系统统架构架构资源目录系统基于分布式的架构设计,采用分层架构,由界面层、业务层、存储层及交换层共同组成.界面界面层层:负责提供易用的操作界面,完成数据的展示及管理.业务层业务层:负责整个系统管理及业务处理.存存储层储层:负责存储业务数据,同时存储搜索索引.交交换层换层:负责数据交换,其中API服务订阅提供restful API、webservice等接口的申请、审批订阅,数据交换引擎用于完成数据的直接交换、共享交换、安全交换.第 8 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.4.3
18、功能功能设计设计1.4.3.11.4.3.1 数据数据资资源目源目录录管理服管理服务务数据目录可以帮助用户了解数据代表的业务含义,弥补业务与IT之间的隔阂,让数据更容易的被组织内部的各种角色所理解.同时,还可以很容易的获取数据的属性信息,让用户对数据资料有更全面和直观的了解.为建立信息资源目录,首先要对各政府部门提供的信息共享资源和信息交换服务进行分析,理清共享信息资源的结构和相互关系.为方便使用,采用规范的方法和技术,建立科学合理的信息分类体系,对共享的数据信息资源建立分类目录和索引.目录管理系统是对上述过程提供支持的应用系统,它提供公共资源核心元数据和交换服务资源核心元数据的编目、注册、管
19、理与检索功能.资资源目源目录编录编目目资源目录编目是对数据资源提取信息相关特征,形成资源核心元数据,提取交换服务资源的相关特征信息,形成交换服务核心元数据;第 9 页 共 33 页(大数据资料)技术方案:数据共享交换平台资资源目源目录录注册注册发发布布信息资源目录的编制、管理和维护是一项复杂的系统工程,参与该项工作的部门和人员很多,为了保持目录的完整和统一,需要一套科学的管理机制进行全过程的控制,目录注册和审核制度是这套控制机制的核心.目录注册的主要作用是方便地实现信息资源目录内容提供者向信息资源目录体系注册公共资源核心元数据和交换服务核心元数据.目录注册的主要功能包括:1、数据编目提交.通过
20、管理者和提供者之间的信息资源元数据交汇平台,提交信息资源元数据.2、数据审核.通过建立相应的审核机制,管理者确认提供者提交的信息资源元数据是否符合标准要求.未通过审核的元数据应返回给提供者修改.如果提供者已经对信息资源分配了唯一标识符,则管理者对信息资源的唯一标识符进行审核,检查提供者所提交的唯一标识符是否符合目录编制规范的要求.如果不符合,管理者对该标识符进行修订,并将对该标识符的赋码返回给提供者.如果提供者未对信息资源分配唯一标识符,则管理者对信息资源分配唯一标识符.3、数据入库发布.”库”指的是管理者向使用者提供信息资源目录服务的核心元数据库.针对已经通过审核的元数据,实现元数据的入库管
21、理,形成正式的目录进行发布.资资源目源目录录管理管理资源目录管理支持对资源目录进行新增,或对已发布的资源目录进行删除、更改.资源目录管理对注册的资源进行标准化或者按照用户自定义的方式进行分类管理,并对资源的编目、注册与审核进行权限的分配与管理.资资源目源目录检录检索索目录检索的主要作用是保证目录内容的一致性,避免信息冲突.目录的管理者发布目录内容.管理者通过目录服务器,把政务资源核心元数据库的内容发布到一站式系统中为目录使用者提供快速方便的信息定位和导航服务.目录检索与分类导航:提供基于全文检索技术的目录搜索引擎,快速检索出政务资源元数据的信息,以及相关的数据元,代码集,信息类,信息项.根据信
22、息类的提供部门、所属主题、所在行第 10 页 共 33 页(大数据资料)技术方案:数据共享交换平台业、服务类型、资源形态等线索,对信息类进行分类,为每个分类建立资源的索引,供目录使用者进行浏览和直观的导航.1.4.3.21.4.3.2 共享共享业务业务管理服管理服务务共享业务管理服务主要对业务数据共享过程进行标准化、规范化的管理,包括共享申请、共享审批、共享审计等功能模块,其中:共享申共享申请请共享申请主要标准化、规范化业务共享申请的基本资料,明确数据来源、共享范围和数据鲜活度.共享共享审审批批共享审批主要提供标准化的审批流程,确保数据共享安全,避免涉及国家安全、个人隐私和商业机密的数据信息泄
23、露.共享审批主要提供了审批流程管理和审批流程的执行两部分功能.审批流程管理主要管理各共享业务的审批流程,提供可视化流程设计,使审批流程可以灵活配置,方便变更.审批流程执行,指在业务共享审批时系统自动按指定流程执行审批.共享共享审计审计共享审计为资源目录系统会记录所有的资源申请审批过程.1.4.3.31.4.3.3 数据交数据交换驱动换驱动通过资源目录系统可联动下面的数据交换系统,触发资源目录上发布的数据资源的交换,可满足以下三种类型的交换,直接交直接交换换直接交换通过调用数据交换系统的API来实现基于数据交换网关的部门之间数据同步.共享交共享交换换共享交换,依托于大数据平台,授权后数据不需要发
24、生搬移,授权用户可以直接访问共享数据,方便快捷.用户数据的授权是通过调用大数据的权限管理API来实现的.第 11 页 共 33 页(大数据资料)技术方案:数据共享交换平台安全交安全交换换如果想要获取的数据是对方的敏感数据,那么前述交换方式将不再适用.因此出于隐私保护的目的,需要做到数据”可用不可见”,即在防止用户直接接触原始数据的情况下,依然可以使用数据进行计算分析得到结果.数据资源目录系统的安全交换服务基于大数据平台项目空间的数据保护及资源分享等技术打造,并通过一整套包括审核、部署、结果获取等在内的安全交换流程来保证整个交换过程的可控性和安全性,同时在安全交换的过程中,数据不需要搬移.安全交
25、换流程简化示意图如下:1.部门A发布数据到数据目录部门2.部门B浏览数据目录3.部门B申请使用该数据4.交由部门A审核该获取数据申请5.部门A提交审核结果6.系统将敏感数据共享给安全交换空间,将脱敏数据共享给部门B7.部门B基于脱敏数据开发应用,开发完成后提供给系统8.平台管理员审核及部署应用到安全交换空间9.应用运行后得到结果数据10.结果数据由系统共享给部门B第 12 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.51.5 数据数据资资源交源交换换子系子系统统1.5.1系系统统概述概述数据交换系统是数据共享交换的核心部分,面向多个政府部门的公共需求,为多个端交换节点提供一致的
26、政务信息资源的交换系统,同时支持结构化数据和非结构化数据的交换,也支持实时和非实时数据的交互,并采用多种方法保证共享数据的有效性、准确性、一致性和完整性.数据交互系统基于目录服务和数据服务利用灵活可配的数据交互策略,对海量的数据进行采集,通过对数据进行比对、清洗、过滤、安全处理,然后分发给使用部门使用.同时数据交换系统要求具备数据同步统计功能、平台运行情况监控的能力.1.5.2系系统统架构架构数据交换系统包括数据交换中控、数据交换网关和数据总线三部分.1)数据交换中控主要对下面各部门的数据交换网关进行统一配置、统一监管、统一跟踪和统一管理.用户可以在数据交换中控上监控数据交换过程,监控系统资源
27、,包括CPU、内存、硬盘、网络流量等;统计交换信息服务,可以直观的查看指定时间段内部门或表级别的数据交换流向及对应的数据量.2)数据交换网关作为部门数据库的前置交换网关,管控部门内部或部门之间的数据交换,并可横向扩展满足新增业务量.3)数据交换总线主要用于两部门之间数据的直接交换(不依赖于数据交换中心库),是一个高可靠,高性能,分布式的传输系统.第 13 页 共 33 页(大数据资料)技术方案:数据共享交换平台数据交换系统功能架构图1.5.3功能功能设计设计1.5.3.11.5.3.1 数据交数据交换换服服务务数据交换服务主要完成政府各部门间的数据采集、清洗、转换、分发等多重任务,提供数据采集
28、、数据分发、控制中心、策略配置、任务调度管理、交换数据管理、数据脱敏、断点续传等功能及服务.图1-1 数据交换网关功能架构图数据采集数据采集 主要根据数据采集策略,提供数据采集服务能力,支持结构化、非结构化等多种数据类型,也支持实时、非实时、全量、增量等多种采集方式.第 14 页 共 33 页(大数据资料)技术方案:数据共享交换平台在数据采集过程中,支持对数据行或字段的过滤,支持对敏感数据的脱敏处理.此外数据采集支持多表关联、跨库关联的全量与增量采集.数据分数据分发发 主要根据数据传输策略对数据进行分发,对数据进行传输.控制中心控制中心 控制中心用于控制与监控所有(部门)数据网关的运行状况以及
29、数据交换状态.策略配置策略配置 用来管理数据交换过程中各阶段的数据交互任务策略,包括数据采集策略、数据传输策略、数据入库策略、数据加解密方式等的管理.任任务调务调度管理度管理 主要管理数据交换过程中的各类任务进行管理和任务执行状态监控,包括数据采集任务、数据传输任务、数据入库任务等.交交换换数据管理数据管理主要对交互数据进行管理,为数据使用部门提供灵活可配的数据查询功能,并支持对数据导出编辑的功能数据脱敏数据脱敏支持常见的敏感字段脱敏转换处理,如对人名、身份证号、电话号码及地址的脱敏转换,并支持自定义脱敏规则,根据用户的实际需求对敏感信息进行转换处理.对于有主外键关系及公式计算关系的字段,也可
30、进行同步脱敏,保证业务的逻辑正确不受数据脱敏的影响.数据加密数据加密支持SSL加密传输,数据交换网关之间交换数据时,可使用SSL来加密传输.支持Gzip,Snappy,LZ4等压缩算法.通过压缩传输,可有效减少网络带宽.断点断点续传续传当业务部门数据库读写慢而引起的数据同步任务中断,支持数据断点续传,保证在不理想的网络环境下同步数据时数据不丢失、不重复.1.5.3.21.5.3.2 数据整合服数据整合服务务政府资源数据来源与各个业务系统的整合是一个艰巨漫长的任务,对数据质第 15 页 共 33 页(大数据资料)技术方案:数据共享交换平台量的摸底非常重要,数据的清洗程度决定了数据的可用度.数据清
31、洗数据清洗可自定义数据规则,对不符合规则要求的数据进行清洗,按规则对数据项进行转换.数据整合数据整合对来源于不同单位相同数据实体的数据进行整合,包括记录整合与列整合(数据项整合).1.5.3.31.5.3.3 数据数据质质量管理服量管理服务务同步容同步容错错系统根据业务系统录入信息的返回状态判断是否进行数据同步处理,如业务系统返回状态为”失败”,则不执行数据同步操作.针对重复录入的业务数据,可设定某一数据项为唯一字段,每次数据同步,系统自动检查是否存在相同数据,如存在相同数据系统需获取最新的录入信息并更新旧的录入信息,保证数据同步.质质量控制量控制在数据录入和跨平台传输过程中,数据不可避免会发
32、生格式改变等情况.针对此情况系统设定数据转换规则对获取的业务数据进行清洗、转换,转换规则用户可通过图形界面的形式自由配置.1.5.3.41.5.3.4 数据交数据交换统计监换统计监控服控服务务数据交换系统担任着政府数据的实时交换,要求平台具备对数据与平台自身运转情况的统计监控能力.数据数据统计统计服服务务数据交换系统为方便使用者对交换信息有一个宏观上的把握,提供了一系列不同维度的交换信息统计方式.图2-1中展现的是数据交换信息概览,用户可以方便的查看今天及历史各个部门之间交换的数据总量,数据交换部门TOP10展示的是今天或本月在接收和发送两个不同的统计口径下,交换数据量排在前10的各个部门的交
33、换数据量.第 16 页 共 33 页(大数据资料)技术方案:数据共享交换平台图2-2中展现的是今天各个部门之间的数据交换实时信息.图2-3为用户提供了一个查询某一时间段范围内,某一个部门的数据交换信息.第 17 页 共 33 页(大数据资料)技术方案:数据共享交换平台图2-4提供了一个快速查看数据交换过程中,数据交换失败的界面.当发生意外情况时,比如发生网络中断或数据库异常等不可控因素时,将交换失败的信息记录并提供给用户以便查看.当然,在外界环境恢复后,数据交换系统所提供的断点续传功能可以把之前交换失败的数据重新进行交换,这点用户不用担心.运运维监维监控能力控能力数据交换系统为方便使用者对交换
34、网关进行运维监控,可以实时显示每个数据交换网关的系统运行状况,从而在系统出现状况时能快速的定位问题,如节点断线,cpu运行过高,内存泄漏等问题.图2-6中展现的是数据交换网关的大盘信息.第 18 页 共 33 页(大数据资料)技术方案:数据共享交换平台图2-7中展现的是集群的概览信息.图2-8 节点列表,IP,节点角色等信息.图2-9 特定节点的概览信息第 19 页 共 33 页(大数据资料)技术方案:数据共享交换平台图 2-10 特定节点的性能详情,包括cpu,内存,磁盘,网络流量等信息1.61.6 信息信息资资源梳理源梳理根据国家政务信息资源编制指南要求,结合本政府部门”三定方案”,梳理政
35、府部门的权力清单和数据清单,编制信息资源目录.信息资源的梳理要从整体和全局的角度出发,依托系统的方法论,从而保障资源梳理成果的完整性.信息资源的梳理将充分利用前期规划形成的资源成果,再结合信息资源体系的建设要求,进一步完善.本项目将重点梳理基础信息资源.第 20 页 共 33 页(大数据资料)技术方案:数据共享交换平台基础信息资源的梳理,是对政府部门的基础信息在采集、处理、传输、利用的全面梳理,并做出前瞻规划和初步的规范设计.基础信息资源梳理工作要求实现对政府所有组成部门的全部门、全业务、全覆盖梳理,统一标准,明确跨部门数据需求与交互关系.由于梳理工作涉及部门多、人员广、业务深,基础信息资源梳
36、理工作要求使用科学的数据调研、数据梳理工具,以保障信息资源梳理工作的顺畅高效推行.1.6.1信息信息资资源梳理指源梳理指导导原原则则整个梳理要做到科学、简明、实用.科学是要求依靠成熟的理论体系;简明要求方法论符合客观情况,易于实施;实用则要求有信息资源的工具和协同机制支持,提高梳理和规划效率,使得梳理的素材能够充分利用和共享.其他方面还需要遵循如下原则:公共服务驱动原则:公共服务驱动原则:政府信息资源尤其是基础信息资源,是公共服务产品,也是提高政府服务效率和服务质量的手段、工具与依托,梳理并开发这些资源,可以根本上依托信息化手段,完善办事程序、提升办事效率、提供完成公共服务比较迅捷和经济的途径
37、.政务管理驱动原则:政务管理驱动原则:在政务领域,政务管理水平的提高和方式的改革创新,为信息资源梳理和运用提供了广阔空间,政务管理不同领域和不同层次,都可能对信息资源梳理提出需求.架构原则:架构原则:要符合和匹配总体体系架构,尤其是数据架构的关键内容和要素.全面原则:全面原则:全面梳理,跨部门调研和分析.一致原则:一致原则:利用统一的格式,综合各相关用户的资料和观点,消除歧义,保障信息需求一致.第 21 页 共 33 页(大数据资料)技术方案:数据共享交换平台符合标准原则:符合标准原则:要严格遵循本项目相关的各方面系列标准.1.6.2信息信息资资源梳理工作思路源梳理工作思路根据数据资源梳理的特
38、征,政务信息资源梳理工作整体分为以下5个阶段,分别是:”现状分析和需求调研”、”资源整理和入库”、”资源分析和数据建模”、”报告形成”和“成果物评审”.图5-1数据资源梳理思路图1、现状分析和需求调研主要是依据政务大数据中心建设的需求,对相关部门的职能、业务、流程、资源情况进行全面调研.2、资源整理和入库通过对收集资料的梳理,充分利用各部门原有的和正在进行的业务梳理成果,分析各省直部门组织机构设置及职责情况,明确职责、整理和挖掘数据资源、规范数据表示,分析各省直部门信息系统、物理数据库、网络等信息化建设现状,并通过资产架构工具进行统一进行管理.3、资源分析和数据建模通过对收集资料的梳理,分析各
39、省直部门与基础库、主题库有关的业务和信第 22 页 共 33 页(大数据资料)技术方案:数据共享交换平台息资源,并逐步进行提炼、规范、细化,以此来建立政务大数据中心的功能模型、数据模型、体系结构模型以及信息资源管理基础标准,为将来建立以主题数据库为主的高档次数据环境奠定基础,提高信息资源共享程度.4、报告形成通过以上工作,最终形成相关报告,确保基础信息资源库梳理的全面充分、有序、高质量和可靠,为政务大数据中心建设奠定基础.1.6.3信息信息资资源梳理工作方法源梳理工作方法从总体上,梳理是按照信息需求的获取、现状信息环境调研、信息需求分析信息需求的获取、现状信息环境调研、信息需求分析、顶层建模设
40、计、顶层建模设计等阶段进行.通过以数据为核心的架构思维,完成整个基础信息资源的全面梳理、有序规范和适度设计工作.图图信息梳理阶段信息梳理阶段第 23 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.6.3.11.6.3.1 对对相关相关职职能部能部门进门进行需求行需求调调研研依据政务大数据中心建设的需求,对相关部门的职能、业务、流程、资源情况进行全面调研,按照”职责清、情况明、数字准”,配合完成基础信息库核心职能的业务、数据、应用系统调研表格的制作、发放,收集,通过大会培训、走访调研、问卷调研等多种方式,通过需求调研工作,明确各部门信息共享需求、跨部门信息共享需求,明确部门信息哪些
41、可以向社会公开?哪些可以在政务部门之间共享?哪些是内部使用的?逐步摸清各部门与基础信息库有关的业务及可提供的数据、需要使用的数据,摸清信息资源有什么?在哪里?谁负责?做到”信息资源清”.1.6.3.21.6.3.2 对现对现有有资资源源进进行整理行整理通过对收集资料的梳理,充分利用各部门原有的和正在进行的业务梳理成果,分析各省直部门组织机构设置及职责情况,编制部门信息资源目录,梳理基础信息库业务过程与数据过程、跨层级、跨部门业务,识别协同关系和信息共享需求,明确职责、整理和挖掘数据资源、规范数据表示,分析各省直部门信息系统、物理数据库、网络等信息化建设现状,哪些业务已有系统支撑?哪些数据已进库
42、?为信息资源中心后续软件、硬件建设提供重要参考,为基础信息库信息资源建设与系统整合奠定基础.通过信息资源管理和服务平台的使用,依据陆续走访、调研收集到的相关资料,采用信息资源梳理中的需求分析方法,结合本项目的实际要求,介绍如何分析收集的相关资料,并将分析结果通过工具进行规范表达、有效管理与使用,固化工作流程、步骤,使整个资源梳理与分析工作的开展有序、简单、可控,提高分析效率与质量,建立高质量的数据模型,为下一阶段建库与应用夯实基础.1.6.3.31.6.3.3 对现对现有有资资源源进进行分析行分析通过对收集资料的梳理,分析各省直部门与大数据中心有关的业务及各种业务表格,并逐步进行提炼、规范、细
43、化,建立业务模型,实现从物理客观世界到概念模型的演化.研究分析重点省直部门单位的职责业务,对政务大数据中心的信息数据与重点省直部门的重点业务部门之间的关联关系进行分析,业务资源采用”职能域业务过程业务活动”这样的三层结构来梳理业务,其梳理结果是用”职第 24 页 共 33 页(大数据资料)技术方案:数据共享交换平台能域业务过程业务活动”三层列表描述的业务模型.数据资源梳理是按照职能域进行的,对每个职能域绘出一二级数据流程图(DFD),从而搞清楚职能域内外、职能域之间、职能域内部的信息流.根据业务与数据的关联性级别,按照”源头关联、源头扩展关联、强关联、弱关联、无关联、待确认”的六个级别分析评估
44、.按照政务信息资源共享管理办法的规定,将信息资源分为三类:提供给所有政务部门共享利用的政务信息资源属于无条件共享类,提供给相关政务部门共享利用的政务信息资源属于有条件共享类,不宜提供给其他政务部门共享利用的政务信息资源属于不予共享类.1.6.3.41.6.3.4 建模建模设计设计和梳理和梳理报报告告通过不同形式,展现政务大数据中心相关数据资源在各省直部门的分布、使用、流转、组成情况,为进一步定义政务大数据中心的范围、组成、共享、交换内容.对核心业务运作过程、现存与新建的信息资源进行初步数据建模,建立政务大数据中心的功能模型、数据模型、体系结构模型以及信息资源管理基础标准,为将来建立以主题数据库
45、为主的高档次数据环境奠定基础,提高信息资源共享程度,建立基础信息资源共享机制和管理制度.通过以上工作,最终形成信息资源调研报告、信息资源目录与数据模型等成果产物,确保信息资源库梳理的全面充分、有序、高质量和可靠,为政务大数据中心的共享交换奠定基础.1.6.4梳理成果梳理成果信息资源梳理成果是信息资源梳理的重要价值体现,梳理成果将包括两大部分,分别是:政务基础信息资源分析报告和政务基础信息资源目录,详细内容如下:1.6.4.11.6.4.1 政政务务基基础础信息信息资资源分析源分析报报告告政务基础信息资源分析报告主要是对相关部门的职能、业务、资源情况进行全面调研,按照”职责清、情况明、数字准”的
46、原则,明确部门内、跨部门的信息共享第 25 页 共 33 页(大数据资料)技术方案:数据共享交换平台需求,摸清人口、法人、宏观经济和空间地理的业务及可提供的数据和使用的数据等相关信息资源.其主要内容包括:调研综述、信息化现状与分析、政务基础信息数据质量分析和调研总结四个方面,详细内容如下:1、调调研研综综述述主要描述调研前的一些准备工作,采用策略和方式,主要包括:调研的背景、调研的目的、调研的范围、调研的方法和调研的时间安排等.2、现现状与分析状与分析主要是根据对各部门调研情况收集的结果进行整合和分析,充分掌握信息化现状情况,其主要包括:信息化整体现状、基础库建设现状、政务基础数据分布、省直部
47、门系统建设情况、数据量分布情况、机房和网络连通情况、各部门数据吞吐量、数据共享交换情况和重点省直部门走访情况等方面.3、数据、数据质质量分析量分析报报告告由于各个单位数据掌握的多少不等、更新频度不定、准确程度不同,其数据的质量将也各有差异,为了更好利用这些数据资源,我们通过数据的完整性、准确性、鲜活性和权威性来进行分析.图图 数据数据质质量量维维度度第 26 页 共 33 页(大数据资料)技术方案:数据共享交换平台4、调调研研总结总结主要是对调研结构进行分析和总结,其主要包括:调研结论、目前主要存在的问题和相关建议等内容.1.6.4.21.6.4.2 政政务务基基础础信息信息资资源目源目录录信
48、息资源目录是通过信息资源描述项记录政务信息资源结构和政务信息资源属性的数据体系.政务信息资源目录对信息资源共享和提升电子政务水平具有十分重要的意义.资源目录首先可服务于各省直部门,各省直部门可以查询自己业务所关注的数据项、数据来源、数据更新情况,根据目录元数据提示,对各部门的业务提供直接的数据服务.其次信息资源目录可用于确定数据共享过程中的数据规范和接口规范,用于指导系统平台开发商在开发数据共享平台时应该遵守的数据规则和应该实现的接口,同时各业务系统的改造和建设也适用资源目录.根据国家政务信息资源编制指南的规定,部门政务信息资源目录是政务部门履职形成的全集数据清单.包括:无条件共享、条件共享类
49、、不予共享类信息资源部门政务信息资源目录元数据是对政务信息资源的描述.包括:资源分类、资源责任方、资源名称、资源描述、更新周期、共享方式等:1资源分类.参照数据清单分类.在资源分类目录下列示该类资源的清单.2资源责任方.按政务部门的内设司局机构和相关单位明确责任方.3资源名称.在政务履职中形成的信息资源名称.如:工商营业执照、税务登记证、结婚登记证等.4资源描述.对某类资源相关要素的描述.如:结婚登记证的资源描述包括:婚姻双方姓名、身份证号、出生年月日、常住地址、婚姻状况、联系电话、第 27 页 共 33 页(大数据资料)技术方案:数据共享交换平台户籍地等.属于结构化数据的,表明数据类型,包括
50、:字符型C、数值型N、货币型Y、日期型D、日期时间型T、逻辑型L、备注型M、通用型G、双精度型B、整型I,浮动型F.5.资源格式.计算机储存资源的电子格式.例如:电子文件的储存格式为txt、doc、html、pdf、ppt等;电子表格的存储格式为xls、xlsx;数据库类的存储格式为Dm、KingbaseES、access、dbf、dbase、sysbase、oracle、sql server、db2等;图形图像类的存储格式为jpg、gif、pmb等.6.更新周期.信息资源的更新周期,可分为实时、每日、每周、每月、每季度、每年等.7.共享方式.分为无条件共享、条件共享和不予共享.8.使用要求.