《江苏省环保厅生态环境监控系统建设工程1831项目方案建议书78151.docx》由会员分享,可在线阅读,更多相关《江苏省环保厅生态环境监控系统建设工程1831项目方案建议书78151.docx(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、江苏省环保保厅1831项项目云平台台技术方案建建议书、目录1系统总体体概述31.1系统统基本功能能31.2系统统建设的主主要设计思思想和设计计目标、设设计原则441.3系统统的主要技技术特点441.4系统统总体构架架51.5cSStor云云存储系统统简介61.6cPProc云云处理平台台简介91.7系统统设计性能能111.7.11数据流量量处理能力力111.7.22数据存储储读取能力力111.8系统统功能1332系统设计计实施与关关键技术方方法142.1cSStor云云存储系统统142.1.11技术架构构142.1.22工作原理理162.1.33管理机制制172.1.44关键技术术182.2c
2、PProc云云处理平台台202.2.11数据立方方(DataaCubee)202.2.22任务监控控器(JoobKeeeper)222.2.33cProoc数据处处理252.2.44Zookkeepeer可靠性性272.3八大大环境监控控子系统2292.3.11饮用水水水源地监控控系统2992.3.22流域水环环境监控系系统312.3.33空气环境境监控系统统322.3.44辐射环境境监控系统统332.3.55重点污染染源监控系系统342.3.66机动车监监控系统3352.3.77危险废物物监控系统统362.3.88风险源监监控系统3372.4平台台安全4112.4.11云处理平平台信任保保护
3、412.4.22基于多级级信任保护护的访问控控制452.4.33云处理平平台安全审审计482.4.44云处理平平台安全网网关513项目管理理和实施5543.1项目目开发周期期543.2项目目实施5443.3客户户受益5551 系统总体概概述1.1 系统基本功功能“18311”生态环环境监控系系统建设工工程,是建建设一个全全省联网资资源共享的的生态环境境自动监控平平台,实现对全全省生态环环境的现代代化监管,系统于生态省建设,为管理和决策提供参考和依据。系统集饮用水水源地监控、流域水环境监控、空气环境监控、辐射环境监控、重点污染源监控、机动车监控、危险废物监控、风险源监控八大子系统于一体,在省、市
4、、县组建三级环境监控中心,通过一套环境监控管理办法,达到自动监控、科学管理、合理决策的生态建设目标。系统的各子子系统基本本功能和组组成如下:饮用水水源源地监控系系统能够对省内内111个集中式饮饮水水源地地水质进能能监测、汇汇报等。流域水环境境监控系统统能够对全省省252个个河流水质质进行实时时监测,预预警和保护护。空气环境监监控系统能够实时检检测分析全全省环境空空气质量,确确定空气污染程程度。辐射环境监监控系统能够对全省省529个个放射源辐辐射环境进进行实时监监控、实时时查询分析析。重点污染源源监控系统统能够实时监监测全省集中式式污水处理理厂和污水水处理情况况和燃煤电电厂的鼓风风机电量。机动车
5、监控控系统能够实时监监控全省分析机机动车尾气气的污染情情况。危险废物监监控系统能够监控危危险废物的的情况,以以及对废物物管理部门门采集的数数据进行实实时分析。风险源监控控系统能够监控全全省环境风风险源,并并对风险源源进行分析析。1.2 系统建设的的主要设计计思想和设设计目标、设设计原则设计思想:自动监测测设备将采采集到的实实时监测数数据上报到到省环保厅厅云存储系系统存储。八八大监控子子系统操作作平台向省省环保厅云云处理平台台发出查询询请求,云云处理平台台通过并行行计算高效效快速的从从云存储系系统查询数数据并分析析汇总,向向各监控子系统统提供查询询的数据。设计目标:采用云计算算、物联网网和信息网
6、网格技术,对对在用的业业务系统进进行分析,确确定那些信信息需要从从原系统中中抽取出来来进行集成成,然后建建立一个基基于云存储储的、可扩展,具有统一一规范数据据格式的中中心数据库库,将各业业务系统核核心数据抽抽取到中心心数据库进进行数据集集成;利用用云计算平平台的强大大处理能力力进行数据据的处理和和挖掘;最最后,在中中心数据库库上开发建建立包括企企业信息全全寿命管理理(即从企企业登记开开始到企业业注销的全全程信息管管理)、数数据精确分分析、处置置决策、趋趋势分析等等在内的应应用,并为为其它系统统预留数据据调用接口口,最终建建成一个涵涵盖在用系系统数据,支支持全局信信息管理分分析与应用用的监控系统
7、。设计原则:(1)技术术领先,性性能优异系统将采用用国际先进进的云存储储和云计算算技术,并并在此基础础上提供高高效的查询询和分析处处理。(2)数据据安全可靠靠系统将采用用多种容错错技术保证证存储的数数据安全和和故障的自自动恢复。1.3 系统的主要要技术特点点实时性:平平台在高效效率并行分分布式软件件的支撑下下,可以实实时完成数数据入库、分析和管理工作。海量数据入库不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。高可靠性:基于对云云计算可靠靠性深厚的的研究积累累,彻底解解决了当前前分布式计计算平台易易出现的单单点故障问问题。任何何一个节点点出现故障障,系统将将自动
8、屏蔽蔽,而且不不会出现丢丢失数据的的现象。可伸缩性:在不停机机的情况下下,增加节节点,平台台的处理能能力自动增增加;减少少节点,平平台的处理理能力自动动缩减。这这样,可以以做到与云云计算平台台的无缝对对接,根据据计算和存存储任务动动态地申请请或释放资资源,最大大限度地提提高资源利利用率。高性价比:采用X886架构廉廉价计算机机构建云计计算平台,用用软件容错错替代硬件件容错,大大大节省成成本。在目目标性能和和可靠性条条件下,可可比传统的的小型机加加商用数据据库方案节节省10倍倍左右的成成本。全业务支持持:采用分布式式数据库模模式,绝大大部分海量量数据存放放于分布式式平台并进进行分布式式处理,少少
9、量实时性性要求很高高的数据存存放于关系系数据库中中,可支撑撑各种类型型的业务。不不仅支撑查查询、统计计、分析业业务,还可可支撑深度度数据挖掘掘和商业智智能分析业业务。1.4 系统总体构构架江苏省环保保厅18331项目主主要包括八八大环境监监控子系统统:饮用水水水源地监监控系统、流流域水环境境监控系统统、空气环环境监控系系统、辐射射环境监控控系统、重重点污染源源监控系统统、机动车车监控系统统、危险废废物监控系系统、风险源监监控系统。这这八大环境境子系统共共同组成一一个完整的的环境监控控系统,它它们都是充充分利用现现有监测设设备,与省省环保厅联联网后,数数据信息汇汇聚存储至至省环保厅厅云存储系系统
10、中,然然后再由省省环保厅云云处理平台台负责对数数据进行索索引、分析析等处理,并并向八大系系统的应用用层提供AAPI调用用,快速反反馈分析的的结果。图表1 系系统示意图图以数据为中中心,数据据从最底层层的数据采采集层中采采集到,将将这些数据据传输到数数据中心,同同时进行数数据索引、分分类、分割割、清理等等操作,将将遵循一定定规范的数数据和索引引数据同时时实时存储储到云存储储系统中,在在云处理平平台上提供供数据接口口,并与最最上层的前前台应用层层交互数据据。1.5 cStorr云存储系系统简介cStorr云存储系系统是南京京云创存储储科技有限限公司自主主研发的、具具有自主知知识产权的的高科技产产品
11、,是国国内最早实实现并保持持领先的云云存储系统统,整套系系统包括软软件与硬件件,是一个个海量的云云存储平台台。图2 C11000系系列云存储储产品存储储机柜与传统的大大规模存储储系统相比比,cSttor针对对绝大多数数数据密集集型应用的的特点从多多个方面进进行了优化化,从而在在一定规模模下达到成成本、可靠靠性和性能能的最佳平平衡。cSStor凭凭着超低的的价格、优优异的性能能、高度可可靠、绿色色节能、无无限容量、在在线自动伸伸缩、易用用通用等诸诸多压倒性性优势,获获得了广电电、安防、刑刑侦、政务务、交通、动动漫等各行行业用户青青睐,产品品代理和销销售商已发发展到数十十家。目前,cSStor云云
12、存储系统统已成熟应应用于安防防视频监控控、刑侦、广广电、交通通、电信、医医疗、政务务等诸多领领域,性能能卓越,表表现出色,从从未出现故故障,得到到用户一致致称赞。图3部署在在南京政务务云数据中中心云创机机器下图4为一一简单的ccStorr云存储系系统部署示示意图。图4 cSStor云云存储系统统部署示意意图cStorr云存储系系统采用了了分布式的的存储架构构,元数据据服务器采采用主备双双机容错的的方式管理理各个存储储节点,文文件分散存存储在各存存储节点上上。客户端端与元数据据服务器间间只有控制制流,数据据流直接在在各存储节节点间交互互。因此,系统统的整体吞吞吐率随着着存储的规规模的增大大是线性
13、增增加,直到到达到带宽宽的饱和利利用。1.6 cProcc云处理平平台简介云存储层包包括公司自自主研发的的云储存系系统cSttor和aapachhe开源云云储存系统统HDFSS;而在数数据管理层层中,包含含数据立方方、Hbaase;数数据处理层层包含JoobKeeeper和和MapRReducce;最后后的监控协协调层则包包括zoookeepper和CChukwwa来实现现对整个系系统的实时时监控和数数据管理。下图为ccProcc云处理平平台架构:通过数据立立方,可以以对元数据据进行数据据分析、清清理、分割割。对结构化化数据任意意关键字索索引,形成成一个多维维数据模型型,数据立立方的命名名也由
14、此而而来。数据据立方是独独立于cPProc云云处理平台台的技术架架构,用户户可以选择择性采用数数据立方,也也可以单独独采用Hbbase、HHive等等技术框架架,通过数数据立方或或Hbasse,可以以将结构化化数据看成成一张无限限大的表,操操作这张表表跟操作传传统关系型型数据库一一样,上层层应用无需需修改,完完全符合用用户原来操操作习惯。对于非结结构化数据据,cPrroc云处处理平台采采用公司自自主研发的的超安存算算法,对这这些数据块块进行分割割,散乱存存储到云储储存系统上上,然后采采用分布式式并行处理理,对数据据进行实时时处理,ccProcc云处理平平台的处理理性能随着着节点的增增多而成倍倍
15、数增长。cProoc云处理理平台拥有有以下特点点:1.对任意意多关键字字实时索引引2.支持类类SQL复复杂并行组组合查询3.分布布式万兆实实时数据流流秒级处理理4.高可可靠性,系系统无单点点,确保意意外情况下下,系统的的正常运行行以上特点点由云创公公司自主研研发的下面面几大功能能来提供保保证,分别别是数据立立方,分布布式数据处处理,调度度均衡器、数数据传输接接口等。数据立方对对数据建立立高效的索索引结构。数数据立方是是云创公司司研发的高高效数据结结构,该结结构成功解解决了海量量数据的快快速索引和和查询问题题,使得百百亿条记录录级的数据据能够秒级级处理。分布式数据据处理是云云创公司研研发的处理理
16、海量数据据的处理框框架,用于于对大规模模数据集的的并行处理理。处理能能力可以通通过增加或或减少机器器达到动态态调整。采采用先进的的容错技术术,确保处处理任务的的可靠性,即即使在异常常情况下,如如机器宕机机、断网的的情况下,确确保处理任任务的实时时性和准确确性。调度均衡器器是云创公公司研发的的解决单点点故障的一一项技术,用用于解决系系统内的单单点问题,确确保某机器器的应用程程序状态在在宕机或断断网时,可可将状态从从异常机器器转移到其其他机器上上,中间无无数据丢失失。数据传输接接口是云创创公司经过过多年积累累,专门针针对地面数数据传输研研究出高性性能可靠文文件传输协协议,采用用并行流水水线方式、将
17、将传输与存存储作联合合优化,并并支持多点点中继高效效传输。经经过多项实实地远程传传输试验,结结果表明该该技术的传传输效率在在1Gb/s光纤线线路上达到到了带宽的的80%左左右,处于于国际最高高水平。几大功能相相辅相成,高高效且可靠靠地处理海海量数据,确确保响应迅迅速,传输输速度快,处处理结果准准确。1.7 系统设计性性能1.7.1 数据流量处处理能力以下是各部部分处理能能力统计: l 数据存储查查询系统器配置: 88核CPUU2,主主频2GHHz以上,内存322G,硬盘盘82T SATAA处理能力:折合数据据入库流量量 80MMb/sl 应用分析系系统器配置: 88核CPUU2,主主频2GHH
18、z以上,内存322G,硬盘盘82T SATAA处理能力:折合处理理并发访问问量1000次次/s1.7.2 数据存储读读取能力原始数据存存储采用云云存储平台台,分布式式文件系统统存储系统统。性能指标:l 存储量指标标单系统应支支持PB级级存储容量量。l 吞吐量指标标Infinnibannd网络上上文件读、写写性能:(1)写写文件性能1个客户端端写2500G文件,文文件平均写写性能为9932MBB/s,峰峰值为1.9GB/秒。(2)读读文件性能能1个客户端端读2500G文件,文文件平均读读性能为8852MBB/s,读读文件峰值值为1.22GB/ss上述性能测测试数据是是1个客户户端、8个个存储节点
19、点的测试结结果,由于于本次测试试受测试资资源影响,没没能完全测测出Inffinibband最最优性能。但但在8个存存储节点上上,文件写写性能达到到932MMB/s,写写峰值为11.9GBB/s,读读性能达到到852MMB/s,读读峰值为11.2GBB/s。吞吐量是指指在没有帧帧丢失的情情况下,设设备能够接接受的最大大速率。吞吞吐量根据据应用系统统读写方式式和应用系系统读取存存储内容大大小分成四四个指标。分分布式文件件存储系统统按照322个节点并并发500个用户计计算,单节节点8块2T大小的的硬盘情况况下,每个个节点指标标具体内容容如下表所所示:表8分布式式文件存储储系统吞吐吐量指标编号读写方式
20、存储内容大大小总吞吐量指指标(MBBps)平均吞吐量量指标(MMBps)1100%读读250GBB240000482100%写写250GBB200000403100%读读100KBB230000464100%写写100KBB19000038图表分布式式文件存储储系统吞吐吐量指标l 系统响应时时间指标千兆网络环环境下,局局域网客户户端从分布布式文件存存储系统中中读取40096字节节存储内容容的响应时时间应不高高于20ms。1.8 系统功能数据存储:通过云存存储平台存存储海量数数据。实时查询:通过业务务层APII支持应用用层的实时时查询,根根据应用层层的要求查查询相关数数据返回给给应用层。定期汇总
21、:根据用户户定制要求求定期汇总总相关数据据到数据库库中,以备备历史数据据的查询和和报表的统统计。状态监控:可以实时时监控自动动监测设备备和中心系系统器的运运行状态,提提供设备运运行数据并并存储到数数据库,以以备历史数数据的查询询和设备运运行的分析析。历史查询:对存储在在云存储中中心的历史史数据进行行查询2 系统设计实实施与关键键技术方法法2.1 cStorr云存储系系统C10000系列产品品采用cSStor分分布式云存存储文件系系统对数据据进行集中中式海量存存储和统一一管理,其其技术架构构和关键技技术在下面面的章节中中分别详细细介绍。2.1.1 技术架构cStorr云存储文文件系统采采用分布式
22、式的存储机机制,将数数据分散存存储在多台台独立的存存储服务器器上。它采采用包括元元数据管理理服务器(MMasteer Seerverr)和数据据存储节点点服务器(CChunkk Serrver)以以及客户端端节点的结结构构成一一个虚拟的的海量存储储卷,如下下图所示。图2-1 cStoor云存储储系统架构构其中,Maasterr Serrver保保存系统的的元数据,负负责对整个个文件系统统的管理,MMasteer Seerverr在逻辑上上只有一个个,但采用用主备双机机镜像的方方式,保证证系统的不不间断服务务;Chuunk SServeer负责具具体的数据据存储工作作,数据以以文件的形形式存储在
23、在Chunnk Seerverr上,Chhunk Servver的个个数可以有有多个,它它的数目直直接决定了了cStoor云存储储系统的规规模;客户户端即为服服务器对外外提供数据据存储和访访问服务的的窗口,通通常情况下下,客户端端都部署在在Chunnk Seerverr上,每一一个块数据据服务器,及及时存储服服务器也是是客户端服服务器。对对每一个节节点,cSStor云云存储系统统提供的管管理监控中中心都可以以对其进行行管理,包包括设备运运行状态、磁磁盘运行状状态、服务务在线情况况以及异常常告警等功功能;另外外,网管监监控中心还还提供有如如FTP账账户添加等等客户端管管理和配置置工具。这种分布式
24、式系统最大大的好处是是有利于存存储系统的的扩展和实实现,在小小规模的数数据扩展时时,只需要要添加具体体的Chuunk SServeer即可,而而不需要添添加整套设设备。下图2-22为cSttor云存存储系统部部署示意图图。图2-2 cStoor云存储储系统部署署示意图cStorr云存储系系统所有的的节点均通通过网络的的方式连接接起来,其其中存储节节点采用廉廉价的计算算机节点,运运用自适应应副本管理理技术进行行容错。所所有存储节节点同时担担任对外服服务功能,客客户端分别别挂载到不不同存储节节点访问云云存储系统统。通过增增加或者减减少存储节节点的方式式,即可以以对存储系系统进行在在线伸缩,由由于采
25、用了了自适应副副本管理技技术进行容容错,系统统在线伸缩缩的过程中中,不影响响系统对外外提供服务务。下面简单的的介绍下ccStorr系统的工工作原理和和管理机制制。2.1.2 工作原理对于cSttor云存存储的用户户来说,通通过cSttor客户户端可以将将海量云存存储系统映映射成一个个本地海量量磁盘(WWindoows客户户端)或者者映射到一一个目录(LLinuxx客户端),对对于此磁盘盘或者目录录的读写操操作,即可可实现云存存储系统数数据的读写写。同时,由由于cSttor文件件系统支持持POSIIX接口规规范,对于于目前一般般的应用不不需要做二二次开发即即可使用。下面详细的的介绍一下下cSto
26、or云存储储系统的实实际读写过过程。下图2-33是cSttor客户户端向系统统中写数据据的流程图图。图2-3 cStoor客户端端写数据流流程其详细过程程是:1) cStorr客户端向向元数据服服务器发起起数据写请请求;2) 元数据服务务器根据其其管理的存存储节点的的工作和使使用情况,根根据负载均均衡的原理理,在相关关存储节点点上创建一一些新的数数据块;3) 相关存储节节点服务器器创建成功功,将结果果返回给元元数据服务务器;4) 元数据服务务器一方面面备份和同同步此元数数据信息,另另一方面将将相关存储储节点信息息返回给客客户端;5) 客户端根据据得到的存存储节点信信息,向对对应存储节节点发出数
27、数据写请求求,并向存存储节点发发送数据;6) 存储节点接接收数据并并存储到相相应块,同同时也向其其他存储节节点发起备备份;7) 当本地写以以及备份均均成功后,存存储节点将将成功信息息返回给客客户端;8) 客户端收到到成功信号号后,即完完成数据的的存储。下图为cSStor客客户端读数数据流程图图如下所示示:图2-4 cStoor客户端端读数据流流程总的来说,ccStorr云存储系系统的控制制流和数据据流是分离离的,一方方面降低了了元数据服服务的负担担,使得其其处理能力力更强,另另一方面将将数据读写写的负担分分担到各存存储节点,使使得系统的的整体性能能得到了提提高,与节节点数目成成正相关。2.1.
28、3 管理机制cStorr云存储系系统采用的的是一种基基于网络的的管理工具具,称之为为cStoor网管监监控中心,主主要用来对对cStoor云存储储系统进行行远程监控控和管理,其其具体功能能包括:1) 提供存储机机架的虚拟拟化管理;2) 可以监测到到每个节点点服务器的的运行状态态(包括主主备元数据据服务器和和存储节点点服务器的的内存、CCPU、系系统盘的利利用情况等等);3) 磁盘的运行行状态和使使用情况监监控;4) cStorr服务的启启动和关闭闭;5) 所有服务器器的重启、关关闭;6) 卷管理服务务器的设置置和账户管管理;7) FTP账户户的批量添添加和删除除等。2.1.4 关键技术2.1.
29、4.1 负载自动均均衡技术cStorr采用中心心服务器模模式来管理理整个云存存储文件系系统,所有有元数据均均保存在MMasteer Seerverr上,文件件则划分为为多个chhunk存存储在不同同的Chuunk SServeer上。Masteer Seerverr维护了一一个统一的的命名空间间,同时掌掌握整个系系统内Chhunk Servver的使使用情况,当当客户端向向元数据服服务器发送送数据读写写的请求时时,元数据据服务器根根据Chuunk SServeer的磁盘盘使用情况况、网络负负担等情况况,选择负负担最轻的的Chunnk Seerverr对外提供供服务,自自动均衡负负载负担。另外,
30、当某某有一个CChunkk Serrver因因为机器故故障或者其其他原因造造成离线时时,Masster Servver会将将此机器自自动屏蔽掉掉,不再将将此Chuunk SServeer提供给给客户端使使用,同时时存储在此此Chunnk Seerverr上的数据据也会自动动的备份到到其他可用用的Chuunk SServeer上,自自动屏蔽CChunkk Serrver故故障对系统统的影响。2.1.4.2 高速并发访访问技术客户端在访访问cSttor时,首首先访问MMasteer Seerverr节点,获获取将要与与之进行交交互的Chhunk Servver信息息,然后直直接访问这这些Chuun
31、k SServeer完成数数据存取。ccStorr的这种设设计方法实实现了控制制流和数据据流的分离离。Cliennt与Maasterr Serrver之之间只有控控制流,而而无数据流流,这样就就极大地降降低了Maasterr Serrver的的负载,使使之不成为为系统性能能的一个瓶瓶颈。Cllientt与Chuunk SServeer之间直直接传输数数据流,同同时由于文文件被分成成多个chhunk进进行分布式式存储,CCliennt可以同同时访问多多个Chuunk SServeer,从而而使得整个个系统的II/O高度度并行,系系统整体性性能得到提提高。通常情况下下,系统的的整体吞吐吐率与Chh
32、unk Servver的数数量呈正比比。2.1.4.3 高可靠性保保证技术对于元数据据,cSttor通过过操作日志志来提供容容错功能,当当Mastter SServeer发生故故障时,在在磁盘数据据保存完好好的情况下下,可以迅迅速恢复以以上元数据据。为了防防止Masster Servver彻底底死机的情情况,cSStor还还提供了MMasteer Seerverr远程的实实时备份,这这样在当前前的Masster Servver出现现故障无法法工作的时时候,另外外一台备MMasteer Seerverr可以迅速速接替其工工作。对于Chuunk SServeer,cSStor采采用副本的的方式实现
33、现容错。每每一个chhunk有有多个存储储副本(默默认为两个个),分布布存储在不不同的Chhunk Servver上。副副本的分布布策略考虑虑了多种因因素,如网网络的拓扑扑、机架的的分布、磁磁盘的利用用率等。对对于每一个个Chunnk Seerverr,必须将将所有的副副本全部写写入成功,才才视为成功功写入。在在其后的过过程中,如如果相关的的副本出现现丢失或不不可恢复等等状况,MMasteer Seerverr会自动将将该副本复复制到其他他Chunnk Seerverr,从而确确保副本保保持一定的的个数。在在有多个CChunkk Serrver的的情况下,任任意损失一一个节点,数数据都不会会丢
34、失,而而且随着CChunkk Serrver数数目的增多多,整个系系统的可靠靠性越大。2.1.4.4 高可用技术术系统中的所所有服务节节点均是通通过网络连连接在一起起,由于采采用了高可可靠的容错错机制,系系统增减节节点不必停停止服务,可可在线增减减存储节点点,存储节节点和元数数据节点间间通过注册册管理机制制自适应管管理,实现现自动伸缩缩。元数据服务务器采用主主备双机热热备技术,主主机故障,备备机自动接接替其工作作,对外服服务不停止止;存储节节点采用冗冗余备份机机制,多个个存储节点点情况下,任任意损失一一个节点,数数据不丢失失,服务不不停止。2.2 cProcc云处理平台台数据处理是是对数据的的
35、采集、存存储、检索索、加工、变变换和传输输。数据是是对事实、概概念或指令令的一种表表达形式,可可由人工或或自动化装装置进行处处理。数据据的形式可可以是数字字、文字、图图形或声音音等。数据据经过解释释并赋予一一定的意义义之后,便便成为信息息。数据处处理的基本本目的是从从大量的、可可能是杂乱乱无章的、难难以理解的的数据中抽抽取并推导导出对于某某些特定的的人们来说说是有价值值、有意义义的数据。数数据处理是是系统工程程和自动控控制的基本本环节。数数据处理贯贯穿于社会会生产和社社会生活的的各个领域域。数据处处理技术的的发展及其其应用的广广度和深度度,极大地地影响着人人类社会发发展的进程程。2.2.1 数
36、据立方(DataaCubee)我们以B+树的结构构建立了字字段的索引引,每个BB+树结构构的字段索索引相当于于一个数据据平面,这这样一个全全局数据表表与其多个个重要字段段的索引就就组成了一一个类似于于立方体的的数据组织织结构,我我们称之为为“数据立立方(DaataCuube)”。如如下图所示示:数据立方(DataaCubee)是一种种用于数据据分析与索索引的技术术架构。它它是针对大数据据(bigg datta)的处处理利器,可可以对元数数据进行任任意多关键键字实时索索引。通过过数据立方方对元数据据进行分析析之后,可可以大大加加快数据的的查询和检检索效率。数据立方的的原理:由由一个或多多个管理节
37、节点,一个个或多个处处理及存储储节点(数数据节点)组组成,系统统在数据建建立与查询询时,分布布式建立与与应用数据据立方索引引结构,在在数据建立立及存储时时,对规范范化的数据据设定1个个或多个关关键字字段段,将不同同的关键字字字段分别别建立索引引,每张不不同的索引引生成一张张独立的BB+树结构构,多个BB+树结构构垛叠在一一起,与全全局数据表表形成一个个完整的数数据立方结结构。利用用数据立方方存储索引引结构,可可方便快捷捷的在海量量数据云处处理系统中中准确检索索定位数据据。B+树树的插入仅仅在叶结点点上进行。 每插入一一个(关键键码-指针针)索引项项后都要判判断结点中中的子树棵棵数是否超超出范围
38、。当当插入后结结点中的子子树棵数大大于 m 时, 需要将将叶结点分分裂为两个个结点。它它们的双亲亲结点中应应同时包含含这两个结结点的最大大关键码和和结点地址址。此后, 问题归归于在非叶叶结点中的的插入了。在在非叶结点点中关键码码的插入与与叶结点的的插入类似似, 非叶叶结点中的的子树棵数数的上限为为m, 超超出这个范范围也要进进行结点分分裂。在做做根结点分分裂时, 因为没有有双亲结点点, 就必必须创建新新的双亲结结点, 作作为树的新新根。这样样树的高度度就增加一一层了。当有新的记记录到来时时,我们要要将新的数数据记录对对应的一条条索引记录录插入到所所有的字段段索引中,这这时要采取取一定的写写入策
39、略。当当新的记录录积累到nn1条或经经过一定时时间t1时时,对于存存储在MeemCacche中的的字段索引引,可以将将这些数据据记录对应应的索引记记录一次性性批量写入入;当新的的记录积累累到n2条条或经过一一定时间tt2时,可可以将这些些数据记录录对应的索索引记录一一次性批量量写入HDDFS(固固态磁盘)上上的索引文文件。对B+树的的查找类似似于二分查查找,对于于m阶,叶叶子节点中中记录个数数为n的BB+树来说说,其查找找的时间复复杂度为OO(logg m+(n+1)/2)。因因此对于值值匹配和范范围查找来来说,有很很快的速度度。此外,由由于对值按按照大小顺顺序进行了了指针链接接,因此mm阶B
40、+树树还可以进进行对值进进行顺序查查找。 我们对重重要字段建建立索引,存存储在HDDFS(固固态磁盘)上上。将最近近常用的字字段索引加加载到MeemCacche中,同同时删除最最不常用的的字段索引引以节省空空间。详细细来说,对对于每次查查询,系统统统计每个个字段索引引被调用的的次数,对对于被调用用次数最多多的那些字字段索引就就被加载到到MemCCachee中,而在在MemCCachee中被调用用次数最少少的某些字字段将被删删除。数据立方方是凌驾于于数据存储储层和数据据库系统之之上的,通通过数据立立方解析后后,可以大大大增加数数据查询和和检索等业业务,可以以让系统平平台具备数数据实时入入库、实时
41、时查询、查查询结果实实时传输等等优势。2.2.2 任务监控器器(JobbKeepper)JobKeeeperr调度平台台是建立于于虚拟化资资源层之上上,统一调调度,统一一配置的管管理平台,用用于对集群群中任务实实时的处理理调度,实实时结果集集的反馈,集集群的负载载均衡,失失败调度,集集中管理,集集中配置的的平台。用用来保证整整个集群的的超低人员员干预。同同时,提供供完善的集集群伸缩机机制为整个个服务提供供更高的可可靠性。JobKeeeperr云调度技技术架构图图 应用层是是一组用于于管理和结结果反馈的的显示组件件。用于显显示任务的的处理情况况以及集群群中机器的的活动情况况,同时其其也是一个个上
42、层应用用和底层服服务的对接接平台。是是整个系统统面向用户户和开发人人员的基础础承载。 业业务层是对对于应用层层的相关功功能的业务务化,数字字化处理,用用于将应用用层的需求求任务进行行规则化划划分,形成成统一的处处理化模式式。 数数据处理层层是独立的的数据处理理程序,是是对不同需需求数据的的统一处理理方案,他他的运行与与监控的工工作将由JJobKeeeperr调度平台台进行统一一的配置管管理。 存存储层是用用来存储数数据存储层层的处理结结果集或者者其他中间间结果集的的单元。 虚虚拟化资源源层是将实实体的机器器进行虚拟拟化,形成成更大范围围的服务集集群。 JJobKeeeperr调度平台台是由一组
43、组管理节点点(Masster Nodee)和一组组处理节点点(Tassk Noode)组组成,管理理节点组是是一组基于于Websserveer的RPPC(RPPC采用客客户机/服服务器模式式。请求程程序就是一一个客户机机,而服务务提供程序序就是一个个服务器。首首先,客户户机调用进进程发送一一个有进程程参数的调调用信息到到服务进程程,然后等等待应答信信息。在服服务器端,进进程保持睡睡眠状态直直到调用信信息的到达达为止。当当一个调用用信息到达达,服务器器获得进程程参数,计计算结果,发发送答复信信息,然后后等待下一一个调用信信息,最后后,客户端端调用进程程接收答复复信息,获获得进程结结果,然后后调用
44、执行行继续进行行。)服务务器,负责责对处理节节点的系统统信息以及及任务处理理信息进行行实时的跟跟踪和保存存,对应的的信息镜像像存储在基基于cStor或者者NFS服服务的存储储系统上,保保证每个管管理节点中中的镜像信信息的实时时同步。同同时架设在在管理节点点上的ZoooKeeeper服服务(ZoooKeeeper是是一个分布布式的,开开放源码的的分布式应应用程序协协调服务,包包含一个简简单的原语语集。分布式应应用可以使使用它来实实现诸如:统一命名名服务、配配置管理、分分布式锁服服务、集群群管理等功功能。)用用于对整个个管理节点点组进行统统一的配置置化管理。处处理节点组组通过RPPC的远程程调用获
45、取取各自节点点的任务处处理目标,并并实时的和和处理节点点上的任务务处理目标标进行对比比,控制程程序的执行行和结束。(注注:这里的的程序,可可以是任何何语言任何何形式的独独立程序,但但是必须提提供执行脚脚本,和运运行参数选选项)处理理节点组会会在一个设设定的心跳跳间隔内主主动的和管管理节点组组联系一次次,报告节节点存活状状态。如果果在若干个个心跳间隔隔后管理节节点组仍然然没有获取取到处理节节点心跳报报告,那么么该处理节节点将会被被踢出处理理节点组,同同时该节点点处理的所所有处理任任务也会被被重新调度度。随着集集群处理数数据量的不不断增大,处处理节点组组提供了简简单高效的的自动化部部署方案,当当新
46、机器加加入处理集集群后,会会主动的与与管理节点点组同步心心跳信息,从从同一配置置服务器ZZooKeeeperr上获取相相关配置信信息,通过过WebSServeer服务获获取任务列列表,开始始执行数据据处理工作作。JobKeeeperr调度平台台提供了一一套基于WWeb的管管理化界面面,可以实实时的观察察各个处理理节点的任任务运行状状态,以及及任务列表表的分配情情况,机器器的负载情情况等。用用户在管理理系统界面面上可以完完成所有的的工作,如如新任务的的添加,任任务的手动动调度以及及集群日志志的查看与与分析等。任务处理节节点和管理理节点之间间维护一个个心跳时间间,实时向向管理节点点汇报任务务处理信
47、息息,同时,任任务处理节节点在每个个心跳时间间内向管理理节点获取取该处理的的任务列表表,并和本本机正在处处理的任务务列表进行行比对,完完成相关的的任务调度度工作。若若一个处理理节点在多多个心跳时时间范围内内仍然没有有主动的和和管理节点点相互联系系,那么管管理节点将将会根据各各机器的负负载情况,将将失去心跳跳连接的处处理节点上上的任务进进行任务的的重新分配配和执行。2.2.3 cProcc数据处理理cProoc云处理理是云创公公司研发的的处理海量量数据的处处理框架,特特点是实时时性高。主主从式的管管理节点监监控着所有有处理节点点(slaave),并并接受任务务,分配子子任务,监监控任务以以及处理各各类异常情情况。处理理节点(sslavee),接受受子任务,监监控子任务务,向主节节点汇报任任务。结构如下下图所示:cProcc云处理是ccProcc云处理平平台分布式式的核心。该该架构内部部避免了大大多数分布布式系统内内部存在的的单点问题题。里面的的两个管理理员节点(主节点和和备节点)对整个集集群进行着着管理,通通过先进的的调度监控控器解决了了管理节点点的单点问问题和数据据同步问题题,确保在在主节点异异常情况下下,主从节节