《智慧城市运行大数据平台项目需求分析和项目建设的必要性.doc》由会员分享,可在线阅读,更多相关《智慧城市运行大数据平台项目需求分析和项目建设的必要性.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智慧城市运行大数据平台项目需求分析和项目建设的必要性1.1 问题和目标分析1.1.1 存在问题目前,由于通过对城投集团内部的五家公司业务系统、数据资源调研时发现,在项目建设时均经历了一个较长时期内按照各自的规划、建设目标、功能需求、投资强度和技术现状等因素分阶段逐步实现的,因此造成了条块分割,不能互联互通,资源不能共享等问题,主要表现在:(一) 数据难以利用;(二) 系统孤立形成信息孤岛;(三) 缺乏公共服务与决策支持;(四) 信息无法共享与交换;(五) 统计口径不一致;(六) 数据价值难以体现;(七) 缺乏监控与预测。由于缺乏统一规划,所建纵向网络和应用系统大都是以行政系统为背景和依托的,各
2、部门按照各自的规范、标准、需求构建不同的业务应用系统。各应用系统中信息的种类和数据存储格式差异很大,内部之间和各应用系统之间信息共享程度低。因此,在平台建设中,应提供标准的、统一的信息表示和传输方式,提供一个基础信息交换平台,使信息在系统内有序流动,实现各公司之间的数据互联互通和信息资源共享。应满足西安城投集团的业务信息资源的存储和管理服务,也满足数据交换服务,是西安市城市运行管理服务的大数据中心。在西安城投集团同级各部门间、各子公司相互间、各级政府和公众间实现城市运行数据交换,是网上城市运行公众数据交换中心,更是城市运行管理决策支持中心,进行数据挖掘、分析、比较,提供辅助决策信息。1.1.2
3、 目标分析通过对项目前期调研中发现的问题,可以通过以下技术和行政手段进行解决,从而达到项目既定目标。进行数据分类:通过对城投所属各公司的数据资源进行汇总分类,使同一类型的数据汇集到同一个数据中心。从而达到数据快速汇集统一管理的目的。建立数据接入备份系统:对已有接口规范的业务系统数据,在不影响现有业务系统正常运行的前提下直接接入数据。对没有数据接口的业务系统,通过建立大数据接入备份系统接入数据,保证数据的接入可行性和业务系统运行的安全性,同时为数据提供方提供数据灾备服务。设置数据接入中间件:建立完善的数据清洗脱敏机制,保证数据的合法性,将涉及隐私的敏感数据清洗过滤掉,以解数据拥有者的后顾之忧。1
4、.2 业务功能、业务流程和业务量分析1.2.1 应用功能分析数据中心业务功能:负责汇集、清洗、整理、存储城投集团各企业的数据资源。确保数据汇集过程中已经对敏感的隐私数据进行脱敏处理,并将同类型的数据资源进行整理。同时保证数据资源存储的安全性。建立科学、统一的对外接入的接口规范。城市运行体征平台业务功能:将汇集后的数据进行整理,抽取城市运行体征的相关数据,按照平台使用者的需求,提供相关的数据参考演模型。帮助决策部门对新政实施效果的推演;管理部门对应急预案的管理;安全部门对突发事件的处置。信息共享平台业务功能:向信息需求者提供数据共享交易服务和数据挖掘分析服务;向信息订制者提供商业信息定向推送服务
5、。向市民提供突发时间预警信息。1.2.2 应用流程分析基于各行业汇集后的数据,建立三个业务平台。三个业务平台的业务流程如下所示:1.2.3 应用业务量分析(请自行分析现有各业务的数据量)1.3 信息量分析与预测(请自行分析)1.4 系统功能和性能需求分析1.4.1 系统功能需求1.4.1.1 数据交换与开放需求 抽取数据库中的数据除了进行数据挖掘之外,还可以作为数据源对外提供一个统一的数据交换接口。 定义各子公司基础数据、业务数据和服务数据等数据源。 业务数据按照各自的业务规范或相关国家、行业标准定义数据交换格式。 数据交换接口采用Web Service和http数据文件等方式传输,小数据量通
6、过Web Service传输,大数据量通过http文件传输,并支持文件压缩。 数据接口分为查询类、验证类,数据交换类等不同的业务类型。查询类支持各种数据的明细查询,验证类则不给出明细数据,仅仅给出验证结果(如查询某企业的检验结果状态,仅仅给出具体数据)。数据交换类分为数据索取和数据提供,可以通过http文件传输,适合大量数据交换,支持XML、TXT、JSON等多种通用格式,也可以选择各种数据库系统的备份文件等二进制格式,只要接口定义规范有明细的定义即可。 数据交换接口具有完善的身份验证和数据访问安全控制体系,仅允许授权的数据访问。 数据开放分为三类,Web Service接口服务,网站服务,手
7、机App服务。 Web Service接口服务以可编程接口方式对外公开安全访问许可的数据,客户可以通过编程方式直接调用数据,比如天气信息。 网站服务则通过门户网站的公告栏,数据开放板块等开放数据,在安全访问许可的条件下,允许互联网用户直接在网站上查询需要的数据。网站后台应当调用数据交换服务,实现在线式数据公开服务。 手机App的功能和网站服务完全相同,仅仅是表现形式从网站变更为手机App模式,更方便移动用户的使用。 数据公开具有完善的身份验证和数据访问安全控制体系,仅允许授权的数据访问。1.4.1.2 决策数据抽取服务 可以一个抽取服务仅仅连接一个业务系统数据库,也可以一个抽取服务同时连接多个
8、业务系统数据库。 本期抽取数据库要求支持MySQL、Oracle、SQL Server三种数据源。 具备自动识别数据源架构,浏览数据表的功能。 可以选择需要的抽取数据表,并对抽取的数据字段附加中文名称的功能。 抽取过程支持全量、增量、条件过滤、投影等不同的抽取过程。 增量抽取模式,支持全表扫描、时间戳标识、主键标识、事务日志提取等不同模式,能满足各种形式的数据源形式。 可以叠加不同的抽取规则,包括简单直接抽取、汇总抽取、交叉查询抽取、一列到多行的抽取、重复数据选择规则抽取等。 比如临时数据明细记录,抽取时只需要按照年度、季度、月份、日期汇总统计数据。 可以对数据进行验证,包括时间日期类型的有效
9、性检查,地址类信息的规格化处理(将省市县区的名称规范化),全角数字转换等。 可以附加高级的数据验证。 可以附加脱敏去秘规则,比如最简单的身份证信息、姓名、电话号码、银行卡号、信息中间加“*”号保护个人隐私。 可以自定义或者导入数据字典转换,比如数据源的IA代表结婚,IB代表离婚,既可以自定义,也可以从数据源的代码表中匹配。 可以进行视图数据抽取,支持内连接、外连接和交叉查询的数据源,然后对结果映射到目的表。 抽取任务支持定时、条件驱动、手动等多种方式。 抽取任务可以浏览、监控,可以手工停止和删除。 历史抽取任务有记录,并带有数据抽取统计信息(抽取时间、数据量、数据源、数据目的等信息) 数据抽取
10、任务具备Web Service远程控制接口,可以通过编程方式控制。1.4.1.3 分类业务数据浏览 抽取到的各业务基础数据,允许对数据进行基础浏览 浏览权限根据业务范围限制 浏览的内容、项目、形式,由各业务处室给出具体要求 浏览的方式,按照业务处室、业务项分类导航 浏览的具体数据包括业务明细和简单汇总 汇总数据可以按日期、地域或其他自定义条件分组汇总1.4.1.4 统计汇总及数据挖掘 统计和挖掘部分包括三个主要功能,数据报表设计和制作工具,数据报表库的浏览和检索,以及可视化数据展示客户端。 数据报表设计和制作工具在数据抽取服务获得的数据表的基础上,经过数据建模,选择适合的数据向量,以便通过适合
11、的数据钻取,从而获得对业务评估就价值的参考数据,工具支持拖放式编辑。 数据报表库是设计和制作工具创建的所有数据挖掘报表的存储仓库,可以按照自定义分类存储,具备浏览和检索能力,并能再次通过报表涉及和制作工具修改编辑报表。 可视化数据展示客户端,则是通过可定制的数据报表导航门户,以分类图标的方式共用户查阅,同时支持桌面和手机,将负责的数据挖掘分析结果,以简单的可视化图表形式展示,手机和移动设备的支持,实现了数据随处可得。 数据报表分为在线和历史等不同类型,在线数据报表连接数据抽取数据库,可以随着抽取数据的增加而发生变化,历史数据则统计分析的是一定范围内不再变化的数据,可以脱离抽取数据库独立存在。
12、统计报表的结果可以导出不同的格式,方便存档或者嵌入各类报告中。 对统计和挖掘的数据结果,可以利用地图层数据叠加,实现地图数据关联。地图显示服务可考虑用第三方免费地图平台服务。1.4.1.5 大数据管理 需要建设满足海量城市运行大数据分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准要求。支持结构化、半结构化、非结构化数据的管理和搜索。支持实时及用户行为数据的高效管理和分析;支持PB级的海量数据管理。支持海量用户的高并发访问(千万级用户、万级并发);充分释放硬件的潜力(多核、大内存等);大规模部署的自动化和运行状态监控。创新的多检索引擎机制,提供开放的二次开发接口。1.4
13、.2 性能需求1、应具有海量数据存储和管理能力,支持100G以上的总数据量及30G以上的空间数据量的存储和管理。2、应具有良好的并发响应能力,整体响应性能在5s以内,正常情况下并发访问量支持应不小于60。3、应具有较强的用户容量,可以支持1000个用户。4、应具有完备的信息安全体系,能对登录用户的身份进行认证。5、应具有良好的数据安全保障机制,对数据采取集中管理和存储的模式,数据库结构设计良好,具有迅速的数据检索能力。6、文本信息交换的响应时间应控制在1s以内。7、应具有高度的灵活性,能适应日常业务变更的需求,提供日常系统管理和维护。8、正常工作状态下,系统响应速度:电脑终端的事、部件地理信息
14、位置查询和定位时间不超过2s,移动终端不超过3s;地图查询定位时间不超过3s,大数据接收信息时间不超过5s,大数据中心对外发送任务时间不超过5s;本地信息查询响应时间不超过2s,服务器数据查询响应时间不超过3s;单次数据无线交换和传输时间不超过5s;文本信息交换的响应时间应控制在1s以内。10、网络通信质量稳定,信息传递成功率宜在99.9以上;11、具有良好的数据安全保障机制,具有较强的容错能力和灾难恢复能力;12、具有高度的灵活性,能适应日常业务变更的需求;1.5 大数据应用现状与差距在现如今各大城市相继建设“智慧城市”的进程中,各种行业业务系统,产生了大量的行业数据。以交通行业为例:交通数
15、据容量大、增长快、结构多样化,不少数据价值密度低,有待深入的处理挖掘。随着智能交通建设进程的逐步推进,交通数据已经从稀缺走向了极大丰富,并带来了交通大数据的严峻挑战:极大丰富的交通数据未能有效整合,数据依类别、行业、部门、地方被隔离,数据之间的关联性被遗忘,车辆运行状态作为最大的交通信息源没有被充分利用,公众无法获取准确连贯的出行服务信息;数据来源众多,存储方式多样,数据类型复杂,包含大量视频、图像等半结构、非结构化数据,并且数据无统一标准,在组织、融合、清洗和转换这些数据时的难度较大;为深入挖掘交通数据的潜在价值,需要一个数据管理平台来处理各种类型和规模的数据,该管理平台还需要同时能处理结构
16、化数据、半结构化数据和非结构化的数据。针对高增长、规模日益庞大的交通数据,我们需要一种高效的大数据处理技术,对交通数据进行快速有效的挖掘分析,从中提炼出高价值的信息,并灵活支撑日益增多的各类交通业务应用需求。作为西安交通消费数据的拥有者,西安一卡通于2015年底开始调研城市运行大数据平台的建设方案。计划在2016年底完成基础数据中心的建设,并将“长安通”卡交易数据接入基础数据中心,为城市运行大数据平台提供基础数据。1.6 项目建设的必要性1.6.1 从产业发展需求角度分析建设城市运行大数据平台是产业升级的需要目前,各地的智慧城市项目正在如火如荼地推进中,城市运行大数据的有效建设与合理应用,无疑
17、是一个很好的有效载体和途径。建设城市大数据是创新创业的需要 行业信息不通、数据壁垒保护,让许多系统、信息在各部门地区间重复建设,造成资源利用效率下降、甚至效率极低等现象,形成较大的社会浪费。而这,对大数据创新创业无疑是极大和无形的掣肘。在目前国家大力提倡大数据创新创业的大背景下,城市运行大数据建设无疑能够较好破解行业信息孤岛问题。1.6.2 从政府服务的角度分析政府提供公共服务、促进经济社会发展的职能发挥同样需要大数据支持。政府掌握了大量关于人口、法人和城市空间地理等数据,提供满足群众需求、针对性的公共服务需要对所掌握数据的精细分析。凭借大数据,城市公共卫生、教育、城市规划、交通服务能够得到改善,基于大数据分析结论的政府公共服务决策能够更好的满足市民需求。1.6.3 从政府管理角度分析智慧城市建设已成为国内信息化建设的潮流,“智慧”的关键在于对大数据的研究,只有利用大数据分析,才能实现各行业信息系统有效整合,实现跨部门的信息资源共享和业务协同,让政府的管理服务效能提升,让民众感受到政府无处不在服务。政府另一项职能是促进经济社会发展,如在经济异常波动时实施宏观调控,政府对大数据信息的掌握和分析,直接决定了宏观调控的效果。