完整版(2022年)大数据共享交换项目解决方案.docx

上传人:太** 文档编号:91198930 上传时间:2023-05-23 格式:DOCX 页数:97 大小:806.17KB
返回 下载 相关 举报
完整版(2022年)大数据共享交换项目解决方案.docx_第1页
第1页 / 共97页
完整版(2022年)大数据共享交换项目解决方案.docx_第2页
第2页 / 共97页
点击查看更多>>
资源描述

《完整版(2022年)大数据共享交换项目解决方案.docx》由会员分享,可在线阅读,更多相关《完整版(2022年)大数据共享交换项目解决方案.docx(97页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、XXX市大数据共享交换规划设计方案V3.0完整版(2022年) 市大数据共享交换 规 划设 计 方 案XXX市大数据共享交换规划设it方案 V3.0针对政府部门用户建设信息资源政务门户,针对企业、公众用户建设信息资源开放门户。3、大应用系统建设承载电子政务公共数据汇聚平台、数据治理平台、数据运营平台和数据应用平台。4、大基础数据库通过电子政务信息资源梳理,制定U!大基础数据库的建库、入库和管理规那么,建立大基础数据库管理平台,提供基础库内容管理、数据处理、共享和应用功能。大基础数据库包括人口库、法人库、经济库和地理库。5、一套标准规范形成标准规范体系,包括管理制度、标准规范、数据标准等。1.2

2、编制依据1、中力、国办2006-2020年国家信息化开展战略;2、国办关于促进电子政务协调开展的指导意见;3、国务院促进大数据开展行动纲要;4、国家电子政务总体框架;5、国家电子政务“十二五规划(工信部规2011) 567号);第7页.XXX市大数据共享交换规划段计方案 V3.0息、目录发布信息等。2、目录服务信息库目录服务信息库存储用于发布的目录内容。目录服务中心使用 目录内容服务信息库提供目录服务查询检索服务。第97页XXX市大数据共享交换规划设计方案 V3.0共享信息库共享信息库是通过信息共享系统,对分布在各部门业务数据库 或交换信息库的数据进行数据抽取、数据清洗、数据转换、数据装 载后

3、,并按相关规那么汇总的中心数据库库。基础数据库基础信息库主要是建立以经济信息数据库、人口基础数据库、 法人单位基础信息数据库、社会信用数据库、自然资源和空间地理 信息数据库等基础数据库的基本信息、扩展信息、应用共享信息为 主要内容的信息资源库,为各职能部门提供基础性、战略性的信息 服务和决策支持。业务主题资源库业务信息资源库主要指围绕经济建设、政治建设、文化建设、 社会建设以及生态文明建设,满足决策指挥、应急管理、综合服务、 内部办公需要,建设完善的业务信息库和决策支持库,可为跨领域、 跨部门的应用系统提供数据支撑,如诚信库、电子证照库等。数据仓库建设数据仓库主要存储各类大数据分析的数据源,按

4、照分类分主要-第98页-XXX市大数据共享交换规划段计方案 V3.0有三种类型的数据储存区:事件仓库、已处理事件仓库、文件仓库。事件仓库主要储存发布到*xxx市大数据共享交换中的数据,已处 理事件仓库主要储存通过 Apachespark分析产生的数据,文件仓库 用来储存Apache Lucene索引。第99页XXX市大数据共享交换规划设计方案 V3.03.2.2.1.2 数据库选型*xxx市大数据共享交换涉及的数据库包含传统的关系形数据库 ORACLE MySQL SqIServer 等、非关系型数据库MOGO四及分 布式列存储数据数据库HBASE数据中心平安数据中心的平安性将从以下几个方面进

5、行考虑:数据存储平安数据加密存储,保障数据存储平安。每天增量备份数据,每周全量备份数据。建立同城异地备份机制,在条件允许时,建立远程异地容灾备 份机制,提高抗风险能力。数据访问平安根据不同内容的数据,以及不同级别的用户设置不同的数据访 问权限。特定的数据(例如个人住房信息等)只允许经过特别授权 的用户进行访问,其他系统的数据根据角色不同设置授权,保证数 据访问的平安性。数据传输平安第100页XXX市大数据共享交换规划段计方案 V3.0在远程进行数据访问和流程报批的过程中。需要考虑数据远程 传输的平安性,将通过数据压缩传输,加密传输等方法和措施,保 证数据传输平安性。第101页XXX市大数据共享

6、交换规划段计方案 V3.0U!U!大基础数据库设计经济信息数据库宏观经济基础数据库由部门数据信息和类别数据信息组成。宏观经济基础信息库中的部门数据信息反映从各部门采集、清 洗、比对后的信息,信息的存储按照数据部门来源划分;类别数据 信息是按照经济、社会、居民生活等数据类型进行存储,同一数据类别的信息可以来源于多个部门。宏观经济数据库的构成如下列图所示【据库第102页311PI J效力占1日忌宏3见经济部门数据信息来源于统计局、 财政局、发改委等单位,具体情况见下表:序号政府部门1 统计局2 民政局XXX市大数据共享交换规划设计方案 V3.0数据资源情况GDR失业率、CPI等行政区划、优抚救济福

7、利、婚姻、残疾人及-第103页XXX市大数据共享交换规划段计方案 V3.0社区情况等3工商局工商企业登记、私营个体户等数据4财政局财政收入及支出情况5地税局地方税种收入情况6国税局国家税种收入情况7人力资源和社登记失业率、社会保障等数据会保障房产处8干不4? R厉度建以及乂易寸效俯9禾同右诵E孙瑰上土、入贝里、小贝,原万年后加诵 d首弦归匕只吟 甬生加竺和娓10乂胆、JtsMiAZ/t% 乂购季UXb缘循11,用天员物、人贝、贝第E人瑰凯IT数姑12茴力局告关茴力-J利用外黄讥TT数掂国内旅游结计苗全固嶂计等加据13刀 NZOT /HJ1=1 tjU 1、1L 7cU “Lr u 1 - J

8、女人力口在各类宏观经济信息进入宏观经济基础信息数据库之前,各部 门所掌握的宏观经济数据与统计局宏观经济基础信息是相互独立的,存在着信息不一致的问题。各部门要及时提供统计数据,以确保宏观经济基础信息的准确和一致。从财政、税务、公安、保险、海关、银行和其他负责专业性统 计的部门中抽取的宏观经济基础信息统一集中于平台,经过格式转第104页V3.0XXX市大数据共享交换规划段计方案 换后采用集中比对的方式,将比对成功的数据进入宏观经济基础信息数据库;数据比对失败的数据,反响给有关的部门,找出原因修第105页XXX市大数据共享交换规划段计方案 V3.0改后再次比对,比对成功后再进入核心数据库;通过反复比

9、对解决 宏观经济基础信息的不一致的问题。类别数据信息类别数据信息是按照经济、社会、居民生活等数据类型进行存数据类别的信息可以来源于多个部门,具体情况见下表:序号数据类别数据主要来源部门经济统计局、发改委、财政局、国税局、地税局、工商局、民政局、交通局、海关、商务局等社会社会居民生活统计局、发改委等环境资源国土局、规划局、园林局、水务局、环保局、市政、民政局等城市建设与城市建设与统计局、交通局、市政、水务局、环保局、建委、管理公安局等6 科技统计局、教委等类别数据信息入库前的流程跟部门数据信息一致,各部门数据均需与统计局数据进行比对,比对一致方可入库,如有不同需重新 修改后入库。第106页XXX

10、市大数据共享交换规划设it方案 V3.06、改高技7、关于印发十二五国家政务信息化工程建设规划的通知(发C 2012) 1202 号);GB/T 21063-2007政务信息资源目录体系第8页人口基础信息库建设xxx市大数据共享交换规划段计方案 V3.0人口基础信息库中的内容可分为基本信息、扩充信息和共享应用信息三类。基本信息包括公民身份号码、姓名、性别、出生地、第107页XXX市大数据共享交换规划设计方案 V3.0部门数据部门数据出生日期、民族和注销标识。扩充信息包括照片、户籍地址、死亡 注销信息、居民身份证签发信息、服兵役注销信息和出国注销信息。 共享应用信息指政府部门、企事业单位和公民个

11、人在工作生活中迫 切需要应用的信息,例如从业信息、婚姻信息和纳税信息。共享应 用信息来自于公安、劳动、民政等业务系统,并且根据需要可以及 时追加。类别数据(口共享信息一一口扩展信息民政局人口委公安局人口基本信息性别第108页XXX市大数据共享交换规划段计方案 V3.0族地址用名第109页XXX市大数据共享交换规划段计方案 V3.0照片(二代证) 死亡日期 注销机构 职业资格等级 参加工作时间 职业类别 职业名称就业状况 资格审批单位名称 取得资格时间人口扩展信息叶人参保日期个人参保状态险种类型社会保险登记证号码缴费单位名称缴费人员类别第110页期定点医疗机构(用数据共享交换规划段计方案V3.0

12、疗保险证号医疗参保人员类别基本医疗保险个人帐户建立第111页XXX市大数据共享交换规划段计方案 V3.0离退休时间 离退休人员类别 领取养老金标识 曾经冒领养老金标识 曾经冒领养老金金额 享受失业保险起始日期一应领取失业保险金月数失业原因 发生工伤状态 工伤发生时间工伤认定申请号 伤残等级 终止工伤保险待遇关系标志 工伤待遇类别 生育待遇类别 学受起始时间第112页V3.0XXX市大数据共享交换规划设计方案享受终止时间最高学历最高学历毕业学校最高学历毕业时间第113页XXX市大数据共享交换规划段计方案 V3.0最高学历专业 学位 学位授予时间MWfWUE所学外语语种 外语语种熟练程度学生学籍号

13、_参加公积金时间 本年缴存额 本年支取 额上年结转利息余额 产权证号 产权类型 房屋地址 住房来源第114页XXX市大数据共享交换规划设计方案 V3.0购房日期建筑面积欠缴税款标识欠缴税款滞纳金标识第115页XXX市大数据共享交换规划段计方案 V3.0婚姻状况婚姻登记时间救济人员分类享受定期定量救济金额社会福利机构收养人员分享受定期折恤补助状况定期优折金额法人单位基础信息数据库法人基础信息数据库由核心基砒信息、法人扩展信息和法人共享信息等组成。法人数据库! 1类别数据基金会法人社团法人行政机关法人事业单位法人企业法人部门数据法人基础信息库中的核心基础信息反映法人的基本属性,基本 无变化;法人扩

14、展信息反映法人在不同生命周期的状态属性,变化 频率小;法人共享信息反映自然人的专业属性信息,共享需求高、第116页XXX市大数据共享交换规划设计方案 V3.08、CGB/T 21062-2007政务信息资源交换体系9、国家电子政务工程建设工程管理暂行方法10、政府信息公开条例1.3社会问题和政务目标分析社会问题分析作为世界人口大国,理论上我国数据资源储量极为丰富,但大 局部政府数据(例如:交通、社保、税收等),属于结构化数据,距 离海量(volume) 速度(velocity) 和多样性(variety)的3v属性还 有一定距离,但从战略角度而言差距并不大。从数据规模来说,政府拥有国内最为庞大

15、的数据储量。政府数 据广泛存储于各地、各级政府机关院所等不同单位、不同部门、不 同系统甚至不同网络环境中,海量超脱于地理空间的政府数据亟待 存储与处理。从数据来源来说,由于各行业、各地采用的法律法规和标准并 不统一。传统的电子政务信息系统,仅为满足特定功能而生,数据 结构差异性大,大量数据存放于历史遗留应用中,委办局间碎片化、 零散化、低效率的数据交互和分析普遍存在,导致政府数据来源极-第9页-变化频率较大。XXX市大数据共享交换规划设计方案V30-第117页XXX市大数据共享交换规划设计方案 V3.0法人核心基础信息法人核心基础信息即各类法人的核心基础信息,来源于工商局、编办和民政局等审批单

16、位,具体情况见下表:法人类型来源单位名称企业法大内资企业法人工商局外资企业法人事业单位冻人编办行政机关法人社团法人民政局基金会法人民办非企业法大Q)企业法人:指依据中华人民共和国企业法人登记管理 条例、中华人民共扣国公司登记管理条例等,经各级工商行政管理 机关登记注册,领取企业法人营业执照,取得法人资格的企业。0)事业单位法人:指社会公益的,由国家机关举办或者其他组织利用固有资产举办,依法取得法人资格,从事教育、科技、文 化、卫生等活动的社会服务组织。0)机关法人:指各级政党机关和国家机关。)社会团体法人:指依据社会团体登记管理条例,经国务院民政部门和县级以上地方各级人民政府民政部门登记注册或

17、备第118页V3.0V3.0XXX市大数据共享交换规划段计方案案、领取社会团体法人登记证书的各类社会团体;以及依法不需要办理法人登记、由机构编制管理部门管理其机关机构编制的群第119页XXX市大数据共享交换规划段计方案 V3.0众团体。司 )其他法人:指除企业法人、事业单位法人、机关法人、社会团体法人以外的其他符合法人条件的单位。根据法人单位类型的 分析,依据法定职能,企业法人、事业单位法人、机关法人、社会团 体法人和其他法人等不同类型法人单位的设立登记分别在工商、编办、 民政等不同部门完成,因此法人基础信息分散与各个部门分别管理, 而组织机构代码那么作为各类法人单位的唯一标识,由质监局管理。

18、因 此,可以通过质监局获组织机构代码组织机构代码机关法人登记信息法人单位基础信息事业单位法人登记信政I社会团体法人更记信其他法人单位登记信息法人单位信息的组成在各类法人信息进入法人基础信息数据库之前,各审批单位所掌握的法人数据与质监局法人基础信息是相互独立的,存在着信息 不一致的问题。对工商局、编办和民政局业务系统中的法人基础信第120页XXX市大数据共享交换规划设计方案 V3.0息与质监局掌握的法人信息进行比对和清洗,以确保法人基础信息的准确和一致。从工商、编办、民政、质监个部门各自业务系统中抽取的法人基础信息统一集中于数据中心,经过格式转换后采用集中比对的人基础信息统一集中于数据中心,经过

19、格式转换后采用集中比对的第121页V3.0XXX市大数据共享交换规划设it方案 为复杂。从数据质量和价值来说,企业的数据种类单一化程度较高,而 政府数据涉及工商、税务、交通、医疗、教育等领域,数据种类繁 多,事关百姓生活的方方面面,数据质量较高,数据的潜在价值十第10页XXX市大数据共享交换规划设计方案 V3.0分可观。如上所述,政府数据的特点可以概括为:数据规模大、数据来源和结构复杂、数据价值高但利用率低。政府收集了大量有价值的数据,通过这些数据,可以更好地了 解国家资源使用情况,政府开支情况,土地交易和管理情况,这些 将不仅强化政府责任,提升治理能力,还能提高资金支出效率,为 人民提供更多

20、更好的服务选择。1、政府数据体量越来越大截至2014年,中国共有664个城市,2852个行政县,40446 个行政乡。当前,中国中央和省级政务部门主要业务电子政务覆盖 率已经到达70%据粗略估算,全国政府大数据加起来相当于数百 个阿里巴巴的体量。而随着硬件技术的进步,对于数据采集精度、 采集频率、数据存储等能力在增强,使得数据规模仍有提升空间, 近几年数据中心的新建和扩容呈现井喷式的开展,这是以硬件基础 设施带动的变革,促使软件技术也得到了快速开展。随着数据体量的增长,大数据处理、大数据应用分析的门槛将 会逐渐提高。2、多部门协作成为常态化复杂的城市治理问题,对跨部门的协作提出了更高的要求,过

21、第11页XXX市大数据共享交换规划设it方案 V3.0去个别部门间存在的职责交叉分散、协调运行不畅等问题。随着大部制”完善,建立健全了部门间协同运行机制,逐步实现“多个部门、一个政府”目标。随着部门与部门的边界越来越模糊,政府数第12页XXX市大数据共享交换规划设计方案 V3.0据跨部门共享共用已不再是亮点和创新,建立常态化共享机制成为 政府大数据建设的入门。3、国家治理不能仅仅依靠政府由于时间和技术的局限性,以往国家治理基本是政府下达指令、 向下逐层执行的“开环过程”。如今随着互联网开展,人民对于政府的 期望越来越高,国家不仅要在政策出台前广泛征求、准确把握 民意; 出台后还需要获得执行反响

22、,并适时调整,政府治理变为下达指令 执行一反响的“闭环过程”,需要借助社会各方面力量参与到国家治 理过程之中。无论是社会自治还是合作共建,政府数据 共享开放都 是大前提。4、社会普遍开始重视数据平安和隐私数据如同一把双刃剑,在带来便利的同时也带来了很多平安隐 患,随着全球各地用户信息平安事件频出,让人们开始感受到“数 据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极 大的威胁。数据平安和隐私保护不仅是公民个人的责任,对采集数 据和共享数据的政府单位,也有义务保障数据的平安和隐私,此过 程中,政策、技术、意识缺一不可。需严格依照相关规范文件,将 平安运营意识渗透到政府数据开放中。-第1

23、3页-XXX市大数据共享交换规划设it方案 V3.0政务目标分析1、实现政务公开,打造透明政府第14页XXX市大数据共享交换规划设计方案 V3.0电子政务公共数据开放共享促进政府和公众互动, 让政务透明, 帮助政府进行社会管理和解决社会难题,大数据时代下,政府是整 合开放的平台,是一个大数据共享平台,它建立了公众与政府间的 沟通渠道,越来越多的国家和组织利用其开展民意调查,通过在线 交互让民众成为政务流程的节点,透明政务,让公众参与到政策制 定与执行、效果评估和监督之中,使民众参政议政成为可能。大数 据推进政府信息资源进一步开放,政府信息开发利用效率倍增,促 进经济社会快速开展。2、实现数据融

24、合,打造智慧政府电子政务公共数据开放共享真正跨越了政府内部协同的鸿沟, 大大提高工作效率,降低政府运行本钱。其一,政府内部协同除思 想理念上的障碍外,技术上也存在一定障碍,随着大数据技术开展, 跨越系统、跨越平台、跨越数据结构的政府将在技术上使政府内部 纵向、横向部门得以流畅协同。其二,由于利用大数据技术,数据 获取、处理及分析响应时间大幅减少,工作效率明显提高,同时降 低了政府开支。例如,政府利用大数据对社会人群进行细分,对不 同人群进行针对性服务和政策施行。3、实现科学决策,打造责任政府电子政务公共数据开放共享提高政府决策的科学性和精准性,-第15页-XXX市大数据共享交换规划设it方案

25、V3.0提高政府预测预警能力以及应急响应能力,越来越多的政府挨弃经 验和直觉,依赖电子政务的数据和分析进行决策。现在大数据又超 越了传统的数据分析方法,不但是对大数据分析挖掘,对言论、图第16页XXX市大数据共享交换规划设计方案 V3.0目录第一章需求分析和工程建设的必要性 4工程建设目标、内容 41.1.1 工程建设目标 4工程建设内容 41.2 编制依据 5与政务职能相关的社会问题和政务目标分析 61.2.1 社会问题分析 6政务目标分析 81.3 业务功能、业务流程和业务量分析 11用户角色分析 111.3.1 业务功能分析 12业务流程 141.3.2 业务量分析 14信息量分析和预测

26、 151.3.3 存储量分析 15处理量分析 191.3.4 网络流量分析 20系统功能和性能需求分析 201.3.5 系统功能指标 20系统性能指标 221.4 信息系统装备和应用现状与差距 22现状 221.4.1 差距 23工程建设的必要性 23第二章总体建设方案 26建设原那么 262.1.1 统一性原那么第I页XXX市大数据共享交换规划设计方案 V3.0表等都可以进行深度挖掘、人工智能。大数据的深入及广泛应用会 给政府带来科学和精准的决策支持。4、为*电子政务提供一个平安可靠的信息资源存储中心对各部门的共享交换的数据资源进行统一的规划管理和应用, 建设集约化的数据资源存储中心,从而防

27、止了各部门重复建设工作; 同时提高数据平安方面的建设,从硬件设备、网络、信息资源、应 用系统、管理平台、数据库等方面的全面保证数据的平安性,并根 据用户的不同访问需求、防止恶意入侵、病毒防护、分区域的平安 设计,并在应用服务上提供平安检测服务。5、为*电子政务提供一个高效的应用服务平台*xxx市大数据共享交换的建设,为政府应用系统和信息资源 的高效管理和服务提供手段,通过对相关的基础信息、业务信息、 服务信息进行管理,实现*xxx市大数据共享交换的信息管理和服 务功能。城市级交换共享平台那么对各部门的信息资源提供交换共享 支撑,以提高信息资源的综合利用水平。通过整合各部门数据信息, 建设基础信

28、息库,并提供对外服务,实现 *xxx市大数据共享交换 的服务功能。6、为*电子政务提供一个长效和可维护的信息服务体系*xxx市大数据共享交换的建设要对*电子政务体系提供长久-第17页-XXX市大数据共享交换规划设it方案 V3.0的服务,因此在管理和运维上必需配备相应的支撑。这一方面取决 于管理制度的完善、管理手段的完备和对管理本身的技术支撑,另 一方面,也取决于人员的配备和运维体系的建立。第18页XXX市大数据共享交换规划设计方案 V3.01.4业务功能、业务流程和业务量分析用户角色分析*xxx市大数据共享交换的用户分为:领导、各部门、企业单 位及社会公众。政府领导*xxx市大数据共享交换有

29、价值的数据、行政地图、决策方法 和应急进行融合,采用大数据分析技术,有利于各级领导、管理决 策人员方便、直观、形象地进行各种分析,从而使统计决策的科学 化、人性化、智能化管理走上一个新台阶。政府部门可以向*xxx市大数据共享交换提供数据或使用平台提供的数 据;业务部门之间可以通过系统平台交换共享数据;遵循标准规范 进行业务系统的建造和改进,可实现业务系统和数据开放共享平台 的对接。社会公众可以依托*xxx市大数据共享交换提供的应用服务对公众需求 做出快速反响,公众可以更直接广泛的获得政府提供的服务,如证-第19页-XXX市大数据共享交换规划设计方案 V3.0照协同、社保电子传递等。企业单位通过

30、*XXX市大数据共享交换提供的应用服务可以方便企业进第20页XXX市大数据共享交换规划设计方案 V3.0行业务级信息查询,并可通过业务协同对企业提供事项审批、信息 推送服务。业务功能分析数据共享在政府部门内部强调的是共享共用。先把政府部门内部及部门 之间数据共享的工作做起来。各级政府都以数据应用为导向,需要 什么数据就共享什么数据。部门间的信息共享,综合考虑管理难度和技术难度建议分为三 个阶段:“条线内部门共享”、“平级跨部门共享”、“跨层级和跨区域 的共享”,通过统一规划,逐步推进的策略,打造部门间信息资源 共享共用的新格局。数据开放对社会的数据开放,先从方便百姓生活又不是很敏感的数据开 始

31、。特别是涉及公共平安、公共利益的数据,提供公共服务的机构 或企业有义务在一定前提条件下开放,这样一些可以预警、预防的 群体性事件就能够防止。按照社会关注程度、数据量大小和具体实施难度,数据开放建-第21页-XXX市大数据共享交换规划设it方案 V3.0议分为三个阶段:“业务统计数据“少量高频数据“、“重点业务数 据”。通过以平安为前提,重点关注优先试点,逐步扩大范围为原 那么,稳步推行数据服务开放。第22页XXX市大数据共享交换规划设计方案 V3.0数据融合政务大数据归根结底,还是要面向行业应用的,需要基于不同 的业务部门开展,并和现有平台建立联系。融合应用可以分为“数据融合”、“业务融合”、

32、“产业融合”三个层次:其中,数据融合是把本单位数据、从其他单位共享的数 据,以及互联网等社会相关的数据,相互融合,相互比对,建立融 合数据资源中心,统一数据标准和口径。业务融合主要围绕各行业的特定业务场景,比方交通出行、医 疗保障、民生服务等领域,建设智慧应用,形成行业业务的决策分 析体系,支撑城市运行和城市治理的方方面面。产业融合,随着一大批大数据处理、大数据分析、大数据运营 企业的兴起,政府数据将不单单是自建自用,通过建设数据运营平 台,数据交易平台等形式,引入社会资本共同参与城市建设和社会 治理,实现向集约型、服务型、智慧型政府的转变。-第23页-XXX市大数据共享交换规划设it方案 V

33、3.0业务流程业务流程政务数据门户、数据开放门户外部系统对接数据共享数据开放数据共享数据开放业务协同工作汇报领导决策委办局系统数据交换平台数据开放平台社会企业资源统计分析 资源发布管理 资源编目注册 元数据管理RDMMSHBASE自助建模实时分析报表及图形化批处理分析组件交互分析AP发布中心前置库桂库数据仓库GIS数据的格文件政府业务数据库大数据采集大数据分析大数据可视化四大星础库业务库主题库综合治税、诚信麻开放门户注服务负载均衡册服务接入转换资源目录交换发脱密脱敏布非结构化数宪传统数据存禽分布式数据存储分布式计算分布式文件系琉质检 量查 标任 准务 管定任质 务量 执问 行题 调分数据采集数

34、据交换数据处理上传数据交换拷贝配置输入输出蛆件配置交换网络调度及执行数据清洗数据交换数据加载交换监控调处理监控用服务监控故障警告 订、日志分析悦平安管理理义度析物联网数据采集传感设备传感设备物联网数据采集传感设备传感设备政府业务系统外部系统外部数据源1.4.4业务量分析业务量分析可以从平台交互量、每天总用户数(个)、每天每个用户平均执行操作数、高峰时段交互量占全天交互量的百分比、高 峰时段持续时间(小时)、高峰时段在线用户数(个)等方面指标进 行综合估算。*互联网大数据分析平台的业务量估算如下表所示:表3-1业务量估算序号数据名称数据量1平台交互量200 (日均)-第24页-每天总用户数(个)

35、XXX市大数据共享交腆划设计方案 V3.0高峰时段交互量占全天交互量的百分比、高峰时段持续时间(小时)4(,漓峰日锚卷线睇数(iy) 小100060%9 : 00-11 : 00 , 15 : 00-17 : 00 )* 3仃60 (日均)* API . 广API数据标准与安全规范歉提治理平台 MSMl HIII喻放i运行却口I第25页XXX市大数据共享交换规划设计方案 V3.01.5信息量分析和预测1.5.1 存储量分析本工程中存储的数据主要包括两大局部:系统网站群的在线行 为数据和国内外互联网重点渠道、信息源以及政府网站群的在线内容 数据。在线用户行为数据以符合W3微式标准的日志形式进行存

36、储。网站内容更新数据直接存到关系型数据库或其他非关系型数据 库中。1、在线行为数据存储量网站群的在线行为数据存储主要分为三局部:(1)接收数据,是系统储存的原始数据。(2)结构化数据,将原始数据进行数据清洗和去重后进行结 构化后存储。(3)分析数据库,将结构化的数据进行分析预计算后存储。按照本工程需要涵盖*系统网站群的500个网站,每个网站的其中接收数据库的主要条目占用空间,如下表所示:-4-( ucc为500力o接收数据的测算依据及结论第26页XXX市大数据共享交换规划设计方案 V3.01.1.2 可靠性原那么 26可伸缩和可扩展性原那么 261.1.3 开放性原那么 27平安性原那么 27

37、1.1.4 高效性原那么 27友好性原那么 271.1.5 可管理易维护性 28总体目标与分期目标 282.2 总体建设任务与分期建设内容 29总体设计方案 302.2.1 基础设施层 32信息资源层 332.2.2 应用支撑层 34应用层 342.2.3 服务层 34平安保障体系 342.2.4 标准规范体系 35第三章工程建设方案 363.1 标准规范建设 36管理制度建设 363.1.1 标准规范建设 40数据标准建设 433.1.2 标准规范索引 46信息资源规划和数据库设计 473.1.3 信息资源规戈U 47数据中心建设 533.2 门户系统建设 69信息资源政务门户 69第II页

38、XXX市大数据共享交换规划设it方案 V3.0单个PV所要储存的信息空间大小(字节)访问路径信息1600来源路径信息1120其他信息(会话标识、Cookie标识、时间信息等)256汇总2976单个Session所要储存的信息(1个Session大约产生4PV)第27页XXX市大数据共享交换规划设计方案 V3.0其他信息(Cookie标识、时间信息等)256访问路锋信息&12来源路径信息1 1 dX)管广顺1口思(lr x )刈见席等)128具他信息(会话标识、Cookie标识、时间信息等)256汇总单个 Cookie 所要储存的信息(1 个 Cookie 大约产牛2016I .zbosssio

39、n)512汇总768例如:按照其他同类工程的数据估算,PV和Session数量比为4:1, Session和Cookie的数量比为1.25 : 1。那么500万的PV会产生125 万的Session以及产生100万 的Cookie ,总占据空间为 5000000*2976+1250000*2016+1000000*768=18Q 包括索引以及其他 表占用的空间之后,约为20Go原始日志存储到SQLServer中会采 用压缩技术,大小将降为5Go结论:对于接收数据库,采用了压缩和优化技术后,每 500万 PV至少需要25G的储存空间。结构化数据的测算依据及结论*系统政府网站群监测分析调度系统的结

40、构化数据库和原始数 据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结 构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原-第28页-V3.0XXX市大数据共享交换规划设it方案 始数据的一半,也就是2.5G。结论:对于结构化数据库,采用了压缩和优化技术后,每500万PV至少需要2.5GB的储存空间。分析数据的测算依据及结论第29页XXX市大数据共享交换规划设it方案 V3.0*系统政府网站群监测分析调度系统的分析数据库内容基本是结构化数据库的拷贝,大小与结构化数据库基本一致,也为 2.5G。结论:对于“决策支持系统”的分析数据库,采用了压缩和优化技术后,每500万PV至少需要

41、2.5GB的储存空间。综上所述,在不做任何备份的情况下,每 500万的PV ,需要文件存储空间为:25GB+2.5GB+2.5GB=30G到2015年底的存储量为10.5T ,到2019年底的存储量为52.5T ,汇总数据2.5*30=62.5607503750汇总数据2.5*30=62.5607503750合计 875G 6010.5T52.5T具体测算如下表所示:接收日志明细单月数据量(G)25*30=7502.5*30=62.5保存周期(月)6060一年内需要存储9000750五年内需要存储4500037502、在线内容数据存储量国内外互联网重点渠道和信息源按照本工程需要面向国内外互联网

42、重点渠道和信息源进行在线内容采集爬取,按照覆盖包括主流媒体在内的200个信息源,每个信息源爬取3级计算,平均每天可以爬取更新的总的页面数约为30万个,每个页面按照100KB计算,共需要占用的空间为 30W*1000KB=30G到2015年底的存储量为10.8T ,到2019年底的存储量为54T ,第30页XXX市大数据共享交换规划设计方案 V3.0具体测算如下表所示:单月数据量(G) 一年内需要存储 五年内需要存储国内外互联网重点渠道和信息源30 万*30=900G10.8T54T第31页XXX市大数据共享交换规划设it方案 V3.0*级以上政府网站群*级以上政府网站群网站内容更新数据主要包括

43、以下三局部:网站更新页面、网站更新的入口,网站更新的白名单。按照本工程需要涵盖*系统网站群及*各级政府网站群的6500个网站,平均每个网站每天更新 10个页面,就是6.5万个。如果每天爬取10次,就是10x6500=6.5万个入口,每个网站 算10个白名单,那就是10x6500x10=65万个白名单。总共是6.5万+6.5万+65万=78万,共需要占用的空间为78万页 *100KB/页=78G。到2015年底白J存储量为 21J.08T ,至IJ 2019年底的存他量为140.4T ,具体测算如下表所示:更新页面数据网站入口数据 白名单数据 合计单月数据量(G)6.5*30=1956.5*30

44、=19565*30=19502340G序号数据名称初始量5年内的增量1在线行为数据10.5T52.5T2互联网重点渠道和信息源10.8T54T3*团以上政府网站群28.08T140.4T合计49.38T246.9T第32页XXX市大数据共享交换规划设it方案 V3.0处理量分析(1)网站群用户访问行为数据处理量分析以每天725万个客户端访问(包括500万FV、100万Session、第33页XXX市大数据共享交换规划设it方案 V3.0125万Cookie )并发计算,结合在线行为数据的接收主要集中在工作时间,7250000/8小时/60分钟/60秒=251个/秒,日志接收服务器接受每秒钟接收日志请求 251个,远远低于系统的每秒接收到的正常数(该值通常为7000-9000 )o根据日志接收每秒钟的并发量为 251 ,因此

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁