《大数据技术体系建设方案.pdf》由会员分享,可在线阅读,更多相关《大数据技术体系建设方案.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据技术体系建设大数据技术体系建设一、一、编制说明编制说明大数据技术体系建设包括数据汇聚、大数据框架、大数据存储、大数据分析等内容。数据汇聚是组织内的各类数据进行采集并处理的过程。主要目标要实现对结构化业务数据和非结构化数据的抽取、清洗、转换和存储。主要关键技术包括传统数据仓库 ETL 工具,大数据框架平台提供的数据共享,内存级功能和数据 API 等。大数据框架负责对数据系统中的数据进行计算,很多大数据框架已经通过各种组件形成了完整的大数据生态。自动完成计算任务划分和计算处理,负责处理数据分布存储、数据通信、容错处理等底层技术细节。主要关键技术包括 Storm 实时大数据计算,Hadoop
2、离线大数据计算,Spark 并行大数据计算,阿里云数据仓库解决方案等。大数据存储是将数量巨大、难于收集处理分析的数据持久化到计算机中。主要目标实现对结构化数据和非结构化海量数据的存储。主要关键技术包括传统数据仓库,MPP 架构的新型数据库集群,基于 Hadoop 的技术扩展和封装,大数据一体机等。大数据分析是指对数据量大、速度快、类型多、价值低的数据进行分析。主要目标是实现对数据资源的分析和利用。主要关键技术包括传统 BI、OLAP 产品,可视化报表,数据挖掘,大数据画像,大数据模型构建和预测等。其他相关内容,请补充。二、二、编制内容编制内容1 1建设现状建设现状1.11.1现状现状1.1.1
3、1.1.1总体架构总体架构环评应用监测应用监察应用应急应用网站应用部领导局机关与直属单位地方环保部门其他大数据管理平台大数据综合展示大数据资源目录大数据智能检索大数据空间专题展示大数据专题展示大数据分析支撑系统数据并行分析计算作业调度与集群管理大数据建设安全与保密模型算法大数据资源管控数据操作台数据监控台文件其他业务主题库关系型数据库污染源主数据元数据库NOSQL数据库时序数据库分布式文件系统数据服务台标准规范数据集成与整合系统数据源环保内部数据环保外部数据环保云平台其他数据图图 错误!文档中没有指定样式的文字。总体架构总体架构行业云平台大数据管理平台建设完成后将按照生态环境大数据建设项目总体
4、要求,部署在行业云平台上。数据集成和整合系统数据源包括行业内部数据、外部委数据以及其他互联网数据,统一规范各业务数据接入,实现数据抽取、数据校验及错误处理、数据清洗转换及加载、空间及业务对象关联等数据集成工作,为各业务应用提供高质量的数据应用。数据库建设根据数据的特点和共享应用的需求,完成基础数据库、业务主题库、指标库、污染源主数据库以及模型库的设计和建设,建立结构化数据库、NOSQL 数据库、时序数据库、分布式文件数据库,支撑行业监管、环评、监测、应急等业务的海量数据存储管理。大数据分析支撑系统提供并行分析计算、数据挖掘以及作业调度、集群管理和运维管理能力。针对传统 BI,利用现有的报表工具
5、实现。大数据资源管控通过数据监控、数据操作、数据服务实现数据综合管理与监控。系统提供各类数据实时统计分析,以报表和图表的形式进行展示。开发完善数据共享服务和接口,能够提供内、外部的数据共享服务。大数据综合展示建立大数据资源目录体系、大数据智能搜索、大数据空间专题和大数据专题展示;此外,基于大数据管理平台,为各类业务应用提供综合数据查询、展示服务。标准规范建设标准规范建设开展生态环境大数据标准规范建设,编制环境数据资源管理办法,建立总体集成、技术名词、数据接入、数据整合集成、系统服务接口等技术规范,规范统一集成开发和实施管理,保障系统接入和数据整合的有效集成。1.1.21.1.2存在问题存在问题
6、物理架构物理架构问题问题描述描述存储问题存储设备空间不足,日常备份完成后,需要将数据备份文件剪切到移动存储上,保证资源中心存储量的正常使用。硬件设备不稳定数据存储层例如:资源中心从监测总站抽取数据时,总站的服务器经常出现硬件故障,有时一个月5 次损坏,造成数据交换不稳定。故障恢复时间长例如:监测总站服务器出现故障后,因资源中心没有权限运维该部分服务器,我们只能及时联系对方,对方排查问题,修复,这一过程时间较长。资源中 心目前 为应用层单节点应用目前资源中心应用是单节点部署,架构未采用集群方式。1.21.2规划对标规划对标重点任重点任务务方案方案任务点任务点说明说明加强生态环境数据资源规划,明确
7、数据资源采集责任,建立数据采集责任目录,避免重复采集,逐步实现“一次采集,多次应用”。利用任务完成情况任务完成情况建设大数据管理平台,完成数据体系及数据存储的设计,开发数据集成和整合系统、大数据资源管控系统实现不同类型和量级数据的汇聚、存储能力。推进数据资源全面整生态环境大数据建设总体方案统筹建设大数合共享提升数据资源获取能力。物联网、移动互联网等新技术,拓宽数据获取渠道,创新数据采集方式,提高对大气、水、土壤、生态、核与辐射等多种环境要素及各种污染源全面感知和实时监控能力。基于行业云规范数据传输,确保数据及时上报和信息安全。大数据管理平台是数据资源传输交换、存储管理和分析处理的平台,为大数据
8、应用提供统一的数据支撑建设大数据管理平服务。主要实现数据传输交换、管理监控、共享开放、分析挖掘等基本功能,支撑分布式计算、流式数据处理、大数据关联分析、趋势分析、空间分析,支撑大数据产品研发和应用。已完成大数据管理平台初步建设,后续在支撑能力、分析能力上持续建设。据平台台。2 2未来规划未来规划2.12.1建设目标建设目标拓展大数据的存储能力,重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术,提供海量数据的存储管理能力、大数据分析服务能力、大数据安全管控能力,同时提供人工智能、机器学习、模式识别、可视化技术等大数据技术,挖掘隐藏于海量数据中的信息和知识出来提供预测、预警、溯源、模拟模
9、型支持能力,为各类大数据应用建设政府科学决策提供支撑持依据。建立大数据应用支撑平台,针对行业应用的各个领域的共性问题,抽象出了应用的中间件,这些中间件包括:公共基础组件、业务规则引擎、智能分析预警引擎、智能检索引擎和智库等,通过可视化展示方式,将看不见摸不到的环境问题直观展示出来,服务于监测、执法、环境形势综合研判、环境政策措施制定、环境风险预测预警、重点工作会商评估,提高生态环境综合治理科学化水平,提升环境保护参与经济发展与宏观调控的能力。2.22.2建设内容建设内容1、服务节点和基础存储能力升级:升级现有平台,扩展相应管理节点、存储节点、接入节点、应用节点,实现 2PB 的存储量。2、升级
10、大数据管理平台:提升大数据存储管理能力,扩展大数据弹性分析引擎、大数据弹性流处理引擎、大数据弹性计算引擎、大数据统计查询引擎、大数据检索引擎,为大数据汇集、分析做好支撑。3、开发大数据支撑服务平台:增加大数据分析支撑服务能力,包括基础组织支持、大数据分析支持、大数据可视化支持、大数据运维模型支撑等内容,为业务应用分析做好支撑。4、平台非功能性建设:从高可用、安全、可扩展行、性能上进行整体设计及升级。2.32.3建设方案建设方案2.3.12.3.1总体架构总体架构如图如图 总体架构总体架构总体架构主要包括以下几部分,其中标识紫色的部分是现在已搭建部分功能,红色部分是现在已初步建成,其余为后续陆续
11、建立。大数据平台大数据平台包括生态大数据湖、一体化分析引擎、一体化查询引擎、一体化检索引擎、自动化运维五部分,平台基于大数据技术搭建,实现环境信息资源中心基础支撑能力。现已初步建立一体化查询引擎、一体化检索引擎。数据采集接入数据源包括行业内部数据、外部委数据以及其他互联网数据,统一规范各业务数据接入,实现数据抽取、数据校验及错误处理、数据清洗转换及加载、空间及业务对象关联等数据集成工作,为各业务应用提供高质量的数据应用。数据治理与深度融合数据治理与深度融合包括大数据治理、大数据融合、数据资源综合监控、数据资产评估。现在已初步形成数据资源综合监控,正在进行可视化升级。访问服务、分析服务、功能服务
12、平台支持三种数据服务,现阶段只初步实现了业务数据访问、目录数据访问及部分专题数据访问功能。生态环境大数据资产服务目录现已建立基于环境业务、组织机构、环境要素、业务系统四大目录分类,初步形成大数据资产服务目录。后续需要在目录分发、目录审核等方面持续升级。2.3.22.3.2技术架构技术架构大数据管理平台采用分层的架构体系,分为:数据源层、中间库层、采集层、存储计算层、接口层、web 层。其中采集层、存储计算层主要是基于hadoop 和docker 的技术体系,web 层主要基于 j2ee 技术体系实现。Jqueryweb应用层JspNodeJsReactHtml其他权限管理应用支撑(报表工具,在
13、线查看工具)应用服务器(Tomcat)集群管理接口层技术协议(REST,JavaSDK,JDBC)数据协议(XML,JSON,Binary)元数据管理分布式计算引擎(R,MR)时序数据查询引擎SQL on Hadoop引擎IMPALA/HIVE环保快搜Solr任务管理存储计算层元数据存储(mysql)序列化(Avro)实时流计算(Storm)资源调度框架(YARN)时序数据仓库模型库管理列式存储(Parquet)NoSQL数据库(hbase)并行计算框架(MapReduce)关系数据库DB2平台管理分布式文件系统(HDFS)分布式程序协调(zookeeper)数据监控采集层分布式消息队列(Ka
14、fka)ETL工具(关系型数据、文件)文件系统ETL推送中间库层关系数据库(DB2)数据源层关系型数据文件数据流数据图图 错误!文档中没有指定样式的文字。技术架构技术架构核心技术体系:核心技术体系:基于 hadoop 的大数据存储和分析大数据的存储与计算采用基于或围绕 hadoop 衍生扩展而出的相关大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对半结构化数据的存储和计算等,充分利用hadoop 开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装 hadoop 来实现对结构化、半结构化、非结构化大数据存储、分析的支撑。基于 doc
15、ker 技术的系统部署平台底层采用 docker 进行组件封装和部署。docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。基于 j2ee 技术体系实现 web 应用j2ee 体系结构主要分为三个层次,分别是客户表示层、中间逻辑层和数据管理层。j2ee 技术体系具有跨平台的特性,j2ee 支持 B/S 架构,利用成熟的开发平台,进行功能层面的开发。重点系统层介绍:重点系统层介绍:采集层采集层分为两部分:分布式消息队列和 etl 工具。分布式消息
16、队列采用 kafka技术与存储计算层中的 storm 进行联合工作,用来处理行业业务中的实时数据,这些数据具有数据量大、实时性高等特点,比如:环境质量监测数据;etl 工具将源数据处理到关系型数据库 db2 中,文件数据由于数据量不大也是通过 etl 工具处理。存储计算层存储计算层采用 docker 技术 hadoop 技术体系来实现,所有 hadoop 的各个组件都是基于 docker 容器安装的,这样有利于资源的隔离和维护。关系型数据库采用 db2,实时流处理采用 storm 技术进行处理,序列化工具采用 avro,各个组件的分布式协调采用 zookeeper,分布式文件系统采用 hado
17、op的 hdfs 文件系统,时序数据仓库采用产品kmx,nosql 数据库采用 hadoop 体系中的 hbase,资源调度采用 hadoop 组件中的 yarn,分布式计算采用 hadoop 中的 mapReduce 和 R 语言,sql on hadoop 引擎采用 impala、hive 开源框架。web 应用层web应用层采用基于j2ee的B/S模式来实现,应用服务器采用开源的tomcat,应用支撑有报表工具和文档在线查看工具。报表工具采用 j2ee 开发;文档在线查看工具是通过开源工具 aspose 转换为 pdf 或者 html,然后浏览器通过 pdf 浏览插件或浏览器自身进行查看
18、。最上层采用 jsp,html,jquery 等进行实现页面展现与交互。2.3.32.3.3物理架构物理架构DMZDMZ业务应用数据库故障转移集群政务网政务网关系型数据库集群Oracle RAC大数据集群管理节点流处理节点搜索节点应用节点业务1业务2业务3业务4Node 1核心交换机核心交换机Node.业务.业务 n文件服务器故障转移集群数据交换集群Job Tracker防火墙文件服务器故障转移集群数据交换集群Job TrackerTask TrackerWEB服务器如上图所示,网络区域分为两类:DMZ 区(互联网)和政务网区,所有组件全部采用集群部署。其中标识绿色的为已有,后续需要扩展的节点
19、;红色为新增的节点。政务网区:关系型数据库集群,大数据集群中的管理节点、数据节点、流处理节点采用物理机(见上图浅绿色部分),其余节点均可为云虚机。关系型数据库采用 Oracle RAC 做负载集群,数据文件实际存储在专用存储设备上。大数据平台采用分布式集群部署,在其基础之上提供的 WEB 应用采用 Nginx(单活)做负载均衡。3UNode 2Node N3U3U负载均衡数据节点N资源中心应用集群负载均衡业务应用缓存服务集群业务1业务2SlaveTask Tracker业务3业务4Master业务.业务 nSlave3U资源中心应用集群采用两台 Nginx 做负载均衡(单活),后端部署 Tom
20、cat 集群。数据交换采用分布式集群部署。文件服务器采用两台云虚机,采用故障转移集群(单活),文件数据保存在专用存储设备上。缓存服务器提供数据缓存和缓冲的功能,采用集群部署。DMZ 区DMZ 区全部由云平台提供云虚机。本区域的业务应用多为第三方厂商提供,不做具体规划。本区域的文件服务器、数据交换集群架构同专网区域。考虑成本因素,本区域的数据库服务器采用故障转移集群,即双机单活模式,数据存储在专用存储设备上。2.3.42.3.4服务器需求清单服务器需求清单大数据管理平台配置需求大数据管理平台配置需求角色角色类型类型cpu内存master系统盘型号型号Intel E5-2697V4 或金牌 614
21、032G DDR4SAS SSD 480GB支持 Raid 1 0 104GB 缓存10Gb 光口 双端口Intel E5-2697V4 或金牌 614032G DDR4SAS SSD 480GBSAS/SATA 720012TB个数个数2 个16 个2 个4 个2 个2 个8 个2 个4 个8 个备注备注整机需求数量整机需求数量数据磁盘SAS SSD 1.92TBraid网卡cpu内存主节点(系统盘做raid1,数据盘做raid1),双电2batch系统盘数据磁盘SAS SSD 1.92TB数据磁盘批处理/存储节点(系统盘做 raid1,数据盘做单盘raid0 或无 raid),双电20ra
22、id网卡cpu内存stream系统盘支持 Raid 1 0 104GB 缓存10Gb 光口双端口Intel E5-2697V4 或金牌 614032G DDR4SAS SSD 480GB支持 Raid 1 0 106GB 缓存10Gb 光口双端口Intel E5-2697V4 或金牌 614032G DDR4SAS SSD 480GB支持 Raid 1 0 104GB 缓存10Gb 光口双端口2 个2 个8 个2 个8 个2 个2 个8 个2 个8 个2 个2 个堆叠2应用节点(系统盘做 raid1,数据盘做单盘 raid10),双电流处理节点(系统盘做 raid1,数据盘做单盘 raid0 或无 raid),双电数据磁盘SAS SSD 1.92TBraid网卡cpu内存4as系统盘数据磁盘SAS 10k 2.4TBraid网卡3交换机万兆光口考虑扩展性,推荐交换机48 口2.42.4建设步骤建设步骤1、第一步:扩展节点,提升大数据平台汇集、存储、管理能力2、第二步:升级大数据管理平台3、第三步:新建大数据支撑服务平台