《江苏省环保厅生态环境监控系统建设工程1831项目方案建议书32643.docx》由会员分享,可在线阅读,更多相关《江苏省环保厅生态环境监控系统建设工程1831项目方案建议书32643.docx(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、江苏省环保保厅1831项项目云平平台技术方案建建议书、目录1系统总体体概述331.1系统统基本功功能31.2系统统建设的的主要设设计思想想和设计计目标、设设计原则则41.3系统统的主要要技术特特点41.4系统统总体构构架51.5cSStorr云存储储系统简简介61.6cPProcc云处理理平台简简介91.7系统统设计性性能1111.7.11数据流流量处理理能力1111.7.22数据存存储读取取能力1111.8系统统功能1132系统设计计实施与与关键技技术方法法142.1cSStorr云存储储系统1142.1.11技术架架构1442.1.22工作原原理1662.1.33管理机机制1772.1.4
2、4关键技技术1882.2cPProcc云处理理平台2202.2.11数据立立方(DattaCuube)202.2.22任务监监控器(JobKeeper)222.2.33cPrroc数数据处理理252.2.44Zoookeeeperr可靠性性272.3八大大环境监监控子系系统2992.3.11饮用水水水源地地监控系系统2992.3.22流域水水环境监监控系统统312.3.33空气环环境监控控系统3322.3.44辐射环环境监控控系统3332.3.55重点污污染源监监控系统统342.3.66机动车车监控系系统3552.3.77危险废废物监控控系统3362.3.88风险源源监控系系统3772.4平台
3、台安全4412.4.11云处理理平台信信任保护护412.4.22基于多多级信任任保护的的访问控控制4552.4.33云处理理平台安安全审计计482.4.44云处理理平台安安全网关关513项目管理理和实施施543.1项目目开发周周期5443.2项目目实施5543.3客户户受益5551 系统总体概概述1.1 系统基本功功能“18311”生态态环境监监控系统统建设工工程,是是建设一一个全省省联网资资源共享享的生态态环境自自动监控控平台,实现对对全省生生态环境境的现代代化监管管,系统统于生态态省建设设,为管管理和决决策提供供参考和和依据。系系统集饮饮用水水水源地监监控、流流域水环环境监控控、空气气环境
4、监监控、辐辐射环境境监控、重重点污染染源监控控、机动动车监控控、危险险废物监监控、风风险源监监控八大大子系统于一一体,在在省、市市、县组组建三级级环境监监控中心心,通过过一套环环境监控控管理办办法,达达到自动动监控、科科学管理理、合理理决策的的生态建建设目标标。系统的各子子系统基基本功能能和组成成如下:饮用水水源源地监控控系统能够对省内内1111个集中式式饮水水水源地水水质进能能监测、汇汇报等。流域水环境境监控系系统能够对全省省2522个河流流水质进进行实时时监测,预预警和保保护。空气环境监监控系统统能够实时检检测分析析全省环境境空气质质量,确确定空气气污染程程度。辐射环境监监控系统统能够对全
5、省省5299个放射射源辐射射环境进进行实时时监控、实实时查询询分析。重点污染源源监控系系统能够实时监监测全省省集中式式污水处处理厂和和污水处处理情况况和燃煤煤电厂的的鼓风机机电量。机动车监控控系统能够实时监监控全省省分析机机动车尾尾气的污污染情况况。危险废物监监控系统统能够监控危危险废物物的情况况,以及及对废物物管理部部门采集集的数据据进行实实时分析析。风险源监控控系统能够监控全全省环境境风险源源,并对对风险源源进行分分析。1.2 系统建设的的主要设设计思想想和设计计目标、设设计原则则设计思想:自动监监测设备备将采集集到的实实时监测测数据上上报到省省环保厅厅云存储储系统存存储。八八大监控控子系
6、统统操作平平台向省省环保厅厅云处理理平台发发出查询询请求,云云处理平平台通过过并行计计算高效效快速的的从云存存储系统统查询数数据并分分析汇总总,向各各监控子系系统提供供查询的的数据。设计目标:采用云计计算、物物联网和和信息网网格技术术,对在在用的业业务系统统进行分分析,确确定那些些信息需需要从原原系统中中抽取出出来进行行集成,然然后建立立一个基基于云存存储的、可扩展展,具有统统一规范范数据格格式的中中心数据据库,将将各业务务系统核核心数据据抽取到到中心数数据库进进行数据据集成;利用云云计算平平台的强强大处理理能力进进行数据据的处理理和挖掘掘;最后后,在中中心数据据库上开开发建立立包括企企业信息
7、息全寿命命管理(即即从企业业登记开开始到企企业注销销的全程程信息管管理)、数数据精确确分析、处处置决策策、趋势势分析等等在内的的应用,并并为其它它系统预预留数据据调用接接口,最最终建成成一个涵涵盖在用用系统数数据,支支持全局局信息管管理分析析与应用用的监控控系统。设计原则:(1)技术术领先,性性能优异异系统将采用用国际先先进的云云存储和和云计算算技术,并并在此基基础上提提供高效效的查询询和分析析处理。(2)数据据安全可可靠系统将采用用多种容容错技术术保证存存储的数数据安全全和故障障的自动动恢复。1.3 系统的主要要技术特特点实时性:平平台在高高效率并并行分布布式软件件的支撑撑下,可可以实时时完
8、成数数据入库库、分析析和管理理工作。海海量数据据入库不不会出现现数据堆堆积现象象,各类类分析和和查询工工作基本本都在秒秒级完成成,具有有前所未未有的高高效性。高可靠性:基于对对云计算算可靠性性深厚的的研究积积累,彻彻底解决决了当前前分布式式计算平平台易出出现的单单点故障障问题。任任何一个个节点出出现故障障,系统统将自动动屏蔽,而而且不会会出现丢丢失数据据的现象象。可伸缩性:在不停停机的情情况下,增增加节点点,平台台的处理理能力自自动增加加;减少少节点,平平台的处处理能力力自动缩缩减。这这样,可可以做到到与云计计算平台台的无缝缝对接,根根据计算算和存储储任务动动态地申申请或释释放资源源,最大大限
9、度地地提高资资源利用用率。高性价比:采用XX86架架构廉价价计算机机构建云云计算平平台,用用软件容容错替代代硬件容容错,大大大节省省成本。在在目标性性能和可可靠性条条件下,可可比传统统的小型型机加商商用数据据库方案案节省110倍左左右的成成本。全业务支持持:采用用分布式式数据库库模式,绝绝大部分分海量数数据存放放于分布布式平台台并进行行分布式式处理,少少量实时时性要求求很高的的数据存存放于关关系数据据库中,可支支撑各种种类型的的业务。不不仅支撑撑查询、统统计、分分析业务务,还可可支撑深深度数据据挖掘和和商业智智能分析析业务。1.4 系统总体构构架江苏省环保保厅18831项项目主要要包括八八大环
10、境境监控子子系统:饮用水水水源地地监控系系统、流流域水环环境监控控系统、空空气环境境监控系系统、辐辐射环境境监控系系统、重重点污染染源监控控系统、机机动车监监控系统统、危险险废物监监控系统统、风险源源监控系系统。这这八大环环境子系系统共同同组成一一个完整整的环境境监控系系统,它它们都是是充分利利用现有有监测设设备,与与省环保保厅联网网后,数数据信息息汇聚存存储至省省环保厅厅云存储储系统中中,然后后再由省省环保厅厅云处理理平台负负责对数数据进行行索引、分分析等处处理,并并向八大大系统的的应用层层提供AAPI调调用,快快速反馈馈分析的的结果。图表1 系系统示意意图以数据为中中心,数数据从最最底层的
11、的数据采采集层中中采集到到,将这这些数据据传输到到数据中中心,同同时进行行数据索索引、分分类、分分割、清清理等操操作,将将遵循一一定规范范的数据据和索引引数据同同时实时时存储到到云存储储系统中中,在云云处理平平台上提提供数据据接口,并并与最上上层的前前台应用用层交互互数据。1.5 cStorr云存储储系统简简介cStorr云存储储系统是是南京云云创存储储科技有有限公司司自主研研发的、具具有自主主知识产产权的高高科技产产品,是是国内最最早实现现并保持持领先的的云存储储系统,整整套系统统包括软软件与硬硬件,是是一个海海量的云云存储平平台。图2 C110000系列云云存储产产品存储储机柜与传统的大大
12、规模存存储系统统相比,ccStoor针对对绝大多多数数据据密集型型应用的的特点从从多个方方面进行行了优化化,从而而在一定定规模下下达到成成本、可可靠性和和性能的的最佳平平衡。ccStoor凭着着超低的的价格、优优异的性性能、高高度可靠靠、绿色色节能、无无限容量量、在线线自动伸伸缩、易易用通用用等诸多多压倒性性优势,获获得了广广电、安安防、刑刑侦、政政务、交交通、动动漫等各各行业用用户青睐睐,产品品代理和和销售商商已发展展到数十十家。目前,cSStorr云存储储系统已已成熟应应用于安安防视频频监控、刑刑侦、广广电、交交通、电电信、医医疗、政政务等诸诸多领域域,性能能卓越,表表现出色色,从未未出现
13、故故障,得得到用户户一致称称赞。图3部署在在南京政政务云数数据中心心云创机机器下图4为一一简单的的cSttor云云存储系系统部署署示意图图。图4 cSStorr云存储储系统部部署示意意图cStorr云存储储系统采采用了分分布式的的存储架架构,元元数据服服务器采采用主备备双机容容错的方方式管理理各个存存储节点点,文件件分散存存储在各各存储节节点上。客客户端与与元数据据服务器器间只有有控制流流,数据据流直接接在各存存储节点点间交互互。因此,系统统的整体体吞吐率率随着存存储的规规模的增增大是线线性增加加,直到到达到带带宽的饱饱和利用用。1.6 cProcc云处理理平台简简介云存储层包包括公司司自主研
14、研发的云云储存系系统cSStorr和appachhe开源源云储存存系统HHDFSS;而在在数据管管理层中中,包含含数据立立方、HHbasse;数数据处理理层包含含JobbKeeeperr和MaapReeducce;最最后的监监控协调调层则包包括zoookeeepeer和CChukkwa来来实现对对整个系系统的实实时监控控和数据据管理。下图为ccProoc云处处理平台台架构:通过数据立立方,可可以对元元数据进进行数据据分析、清清理、分分割。对结构化化数据任任意关键键字索引引,形成成一个多多维数据据模型,数数据立方方的命名名也由此此而来。数据立方是独立于cProc云处理平台的技术架构,用户可以选择
15、性采用数据立方,也可以单独采用Hbase、Hive等技术框架,通过数据立方或Hbase,可以将结构化数据看成一张无限大的表,操作这张表跟操作传统关系型数据库一样,上层应用无需修改,完全符合用户原来操作习惯。对于非结结构化数数据,ccProoc云处处理平台台采用公公司自主主研发的的超安存存算法,对对这些数数据块进进行分割割,散乱乱存储到到云储存存系统上上,然后后采用分分布式并并行处理理,对数数据进行行实时处处理,ccProoc云处处理平台台的处理理性能随随着节点点的增多多而成倍倍数增长长。cProoc云处处理平台台拥有以以下特点点:1.对任意意多关键键字实时时索引2.支持持类SQQL复杂杂并行组
16、组合查询询3.分分布式万万兆实时时数据流流秒级处处理4.高可可靠性,系系统无单单点,确确保意外外情况下下,系统统的正常常运行以上特点点由云创创公司自自主研发发的下面面几大功功能来提提供保证证,分别别是数据据立方,分分布式数数据处理理,调度度均衡器器、数据据传输接接口等。数据立方对对数据建建立高效效的索引引结构。数数据立方方是云创创公司研研发的高高效数据据结构,该该结构成成功解决决了海量量数据的的快速索索引和查查询问题题,使得得百亿条条记录级级的数据据能够秒秒级处理理。分布式数据据处理是是云创公公司研发发的处理理海量数数据的处处理框架架,用于于对大规规模数据据集的并并行处理理。处理理能力可可以通
17、过过增加或或减少机机器达到到动态调调整。采采用先进进的容错错技术,确确保处理理任务的的可靠性性,即使使在异常常情况下下,如机机器宕机机、断网网的情况况下,确确保处理理任务的的实时性性和准确确性。调度均衡器器是云创创公司研研发的解解决单点点故障的的一项技技术,用用于解决决系统内内的单点点问题,确确保某机机器的应应用程序序状态在在宕机或或断网时时,可将将状态从从异常机机器转移移到其他他机器上上,中间间无数据据丢失。数据传输接接口是云云创公司司经过多多年积累累,专门门针对地地面数据据传输研研究出高高性能可可靠文件件传输协协议,采采用并行行流水线线方式、将将传输与与存储作作联合优优化,并并支持多多点中
18、继继高效传传输。经经过多项项实地远远程传输输试验,结结果表明明该技术术的传输输效率在在1Gbb/s光光纤线路路上达到到了带宽宽的800%左右右,处于于国际最最高水平平。几大功能相相辅相成成,高效效且可靠靠地处理理海量数数据,确确保响应应迅速,传传输速度度快,处处理结果果准确。1.7 系统设计性性能1.7.1 数据流量处处理能力力以下是各部部分处理理能力统统计: l 数据存储查查询系统统器配置: 88核CPPU22,主频频2GHHz以上上,内存存32G,硬硬盘82TT SAATA处理能力:折合数数据入库库流量 80MMb/ssl 应用分析系系统器配置: 88核CPPU22,主频频2GHHz以上上
19、,内存存32G,硬硬盘82TT SAATA处理能力:折合处处理并发发访问量量10000次/ss1.7.2 数据存储读读取能力力原始数据存存储采用用云存储储平台,分分布式文文件系统统存储系系统。性能指标:l 存储量指标标单系统应支支持PBB级存储储容量。l 吞吐量指标标Infinnibaand网网络上文文件读、写写性能:(1)写写文件性能能1个客户端端写2550G文文件,文文件平均均写性能能为9332MBB/s,峰峰值为11.9GGB/秒秒。(2)读读文件性性能1个客户端端读2550G文文件,文文件平均均读性能能为8552MBB/s,读读文件峰峰值为11.2GGB/ss上述性能测测试数据据是1个
20、个客户端端、8个个存储节节点的测测试结果果,由于于本次测测试受测测试资源源影响,没没能完全全测出IInfiinibbandd最优性性能。但但在8个个存储节节点上,文文件写性性能达到到9322MB/s,写写峰值为为1.99GB/s,读读性能达达到8552MBB/s,读读峰值为为1.22GB/s。吞吐量是指指在没有有帧丢失失的情况况下,设设备能够够接受的的最大速速率。吞吞吐量根根据应用用系统读读写方式式和应用用系统读读取存储储内容大大小分成成四个指指标。分分布式文文件存储储系统按按照322个节点点并发5500个用户户计算,单单节点88块2T大小小的硬盘盘情况下下,每个个节点指指标具体体内容如如下表
21、所所示:表8分布式式文件存存储系统统吞吐量量指标编号读写方式存储内容大大小总吞吐量指指标(MMBpss)平均吞吐量量指标(MBpps)1100%读读250GBB240000482100%写写250GBB200000403100%读读100KBB230000464100%写写100KBB19000038图表分布式式文件存存储系统统吞吐量量指标l 系统响应时时间指标标千兆网络环环境下,局局域网客客户端从从分布式式文件存存储系统统中读取取40996字节节存储内内容的响响应时间间应不高高于200ms。1.8 系统功能数据存储:通过云云存储平平台存储储海量数数据。实时查询:通过业业务层AAPI支支持应用
22、用层的实实时查询询,根据据应用层层的要求求查询相相关数据据返回给给应用层层。定期汇总:根据用用户定制制要求定定期汇总总相关数数据到数数据库中中,以备备历史数数据的查查询和报报表的统统计。状态监控:可以实实时监控控自动监监测设备备和中心心系统器的的运行状状态,提提供设备备运行数数据并存存储到数数据库,以以备历史史数据的的查询和和设备运运行的分分析。历史查询:对存储储在云存存储中心心的历史史数据进进行查询询2 系统设计实实施与关关键技术术方法2.1 cStorr云存储储系统C10000系列产产品采用用cSttor分分布式云云存储文文件系统统对数据据进行集集中式海海量存储储和统一一管理,其其技术架架
23、构和关关键技术术在下面面的章节节中分别别详细介介绍。2.1.1 技术架构cStorr云存储储文件系系统采用用分布式式的存储储机制,将将数据分分散存储储在多台台独立的的存储服服务器上上。它采采用包括括元数据据管理服服务器(MMastter Serrverr)和数数据存储储节点服服务器(CChunnk SServver)以以及客户户端节点点的结构构构成一一个虚拟拟的海量量存储卷卷,如下下图所示示。图2-1 cSttor云云存储系系统架构构其中,Maasteer SServver保保存系统统的元数数据,负负责对整整个文件件系统的的管理,MMastter Serrverr在逻辑辑上只有有一个,但但采用
24、主主备双机机镜像的的方式,保保证系统统的不间间断服务务;Chhunkk Seerveer负责责具体的的数据存存储工作作,数据据以文件件的形式式存储在在Chuunk Serrverr上,CChunnk SServver的的个数可可以有多多个,它它的数目目直接决决定了ccStoor云存存储系统统的规模模;客户户端即为为服务器器对外提提供数据据存储和和访问服服务的窗窗口,通通常情况况下,客客户端都都部署在在Chuunk Serrverr上,每每一个块块数据服服务器,及及时存储储服务器器也是客客户端服服务器。对对每一个个节点,ccStoor云存存储系统统提供的的管理监监控中心心都可以以对其进进行管理理
25、,包括括设备运运行状态态、磁盘盘运行状状态、服服务在线线情况以以及异常常告警等等功能;另外,网网管监控控中心还还提供有有如FTTP账户户添加等等客户端端管理和和配置工工具。这种分布式式系统最最大的好好处是有有利于存存储系统统的扩展展和实现现,在小小规模的的数据扩扩展时,只只需要添添加具体体的Chhunkk Seerveer即可可,而不不需要添添加整套套设备。下图2-22为cSStorr云存储储系统部部署示意意图。图2-2 cSttor云云存储系系统部署署示意图图cStorr云存储储系统所所有的节节点均通通过网络络的方式式连接起起来,其其中存储储节点采采用廉价价的计算算机节点点,运用用自适应应副
26、本管管理技术术进行容容错。所所有存储储节点同同时担任任对外服服务功能能,客户户端分别别挂载到到不同存存储节点点访问云云存储系系统。通通过增加加或者减减少存储储节点的的方式,即即可以对对存储系系统进行行在线伸伸缩,由由于采用用了自适适应副本本管理技技术进行行容错,系系统在线线伸缩的的过程中中,不影影响系统统对外提提供服务务。下面简单的的介绍下下cSttor系系统的工工作原理理和管理理机制。2.1.2 工作原理对于cSttor云云存储的的用户来来说,通通过cSStorr客户端端可以将将海量云云存储系系统映射射成一个个本地海海量磁盘盘(Wiindoows客客户端)或或者映射射到一个个目录(LLinu
27、ux客户户端),对对于此磁磁盘或者者目录的的读写操操作,即即可实现现云存储储系统数数据的读读写。同同时,由由于cSStorr文件系系统支持持POSSIX接接口规范范,对于于目前一一般的应应用不需需要做二二次开发发即可使使用。下面详细的的介绍一一下cSStorr云存储储系统的的实际读读写过程程。下图2-33是cSStorr客户端端向系统统中写数数据的流流程图。图2-3 cSttor客客户端写写数据流流程其详细过程程是:1) cStorr客户端端向元数数据服务务器发起起数据写写请求;2) 元数据服务务器根据据其管理理的存储储节点的的工作和和使用情情况,根根据负载载均衡的的原理,在在相关存存储节点点
28、上创建建一些新新的数据据块;3) 相关存储节节点服务务器创建建成功,将将结果返返回给元元数据服服务器;4) 元数据服务务器一方方面备份份和同步步此元数数据信息息,另一一方面将将相关存存储节点点信息返返回给客客户端;5) 客户端根据据得到的的存储节节点信息息,向对对应存储储节点发发出数据据写请求求,并向向存储节节点发送送数据;6) 存储节点接接收数据据并存储储到相应应块,同同时也向向其他存存储节点点发起备备份;7) 当本地写以以及备份份均成功功后,存存储节点点将成功功信息返返回给客客户端;8) 客户端收到到成功信信号后,即即完成数数据的存存储。下图为cSStorr客户端端读数据据流程图图如下所所
29、示:图2-4 cSttor客客户端读读数据流流程总的来说,ccStoor云存存储系统统的控制制流和数数据流是是分离的的,一方方面降低低了元数数据服务务的负担担,使得得其处理理能力更更强,另另一方面面将数据据读写的的负担分分担到各各存储节节点,使使得系统统的整体体性能得得到了提提高,与与节点数数目成正正相关。2.1.3 管理机制cStorr云存储储系统采采用的是是一种基基于网络络的管理理工具,称称之为ccStoor网管管监控中中心,主主要用来来对cSStorr云存储储系统进进行远程程监控和和管理,其其具体功功能包括括:1) 提供存储机机架的虚虚拟化管管理;2) 可以监测到到每个节节点服务务器的运
30、运行状态态(包括括主备元元数据服服务器和和存储节节点服务务器的内内存、CCPU、系系统盘的的利用情情况等);3) 磁盘的运行行状态和和使用情情况监控控;4) cStorr服务的的启动和和关闭;5) 所有服务器器的重启启、关闭闭;6) 卷管理服务务器的设设置和账账户管理理;7) FTP账户户的批量量添加和和删除等等。2.1.4 关键技术2.1.4.1 负载自动均均衡技术术cStorr采用中中心服务务器模式式来管理理整个云云存储文文件系统统,所有有元数据据均保存存在Maasteer SServver上上,文件件则划分分为多个个chuunk存存储在不不同的CChunnk SServver上上。Mas
31、teer SServver维维护了一一个统一一的命名名空间,同同时掌握握整个系系统内CChunnk SServver的的使用情情况,当当客户端端向元数数据服务务器发送送数据读读写的请请求时,元元数据服服务器根根据Chhunkk Seerveer的磁磁盘使用用情况、网网络负担担等情况况,选择择负担最最轻的CChunnk SServver对对外提供供服务,自自动均衡衡负载负负担。另外,当某某有一个个Chuunk Serrverr因为机机器故障障或者其其他原因因造成离离线时,MMastter Serrverr会将此此机器自自动屏蔽蔽掉,不不再将此此Chuunk Serrverr提供给给客户端端使用,
32、同同时存储储在此CChunnk SServver上上的数据据也会自自动的备备份到其其他可用用的Chhunkk Seerveer上,自自动屏蔽蔽Chuunk Serrverr故障对对系统的的影响。2.1.4.2 高速并发访访问技术术客户端在访访问cSStorr时,首首先访问问Massterr Seerveer节点点,获取取将要与与之进行行交互的的Chuunk Serrverr信息,然然后直接接访问这这些Chhunkk Seerveer完成成数据存存取。ccStoor的这这种设计计方法实实现了控控制流和和数据流流的分离离。Cliennt与MMastter Serrverr之间只只有控制制流,而而无
33、数据据流,这这样就极极大地降降低了MMastter Serrverr的负载载,使之之不成为为系统性性能的一一个瓶颈颈。Clliennt与CChunnk SServver之之间直接接传输数数据流,同同时由于于文件被被分成多多个chhunkk进行分分布式存存储,CClieent可可以同时时访问多多个Chhunkk Seerveer,从从而使得得整个系系统的II/O高高度并行行,系统统整体性性能得到到提高。通常情况下下,系统统的整体体吞吐率率与Chhunkk Seerveer的数数量呈正正比。2.1.4.3 高可靠性保保证技术术对于元数据据,cSStorr通过操操作日志志来提供供容错功功能,当当Ma
34、ssterr Seerveer发生生故障时时,在磁磁盘数据据保存完完好的情情况下,可可以迅速速恢复以以上元数数据。为为了防止止Massterr Seerveer彻底底死机的的情况,ccStoor还提提供了MMastter Serrverr远程的的实时备备份,这这样在当当前的MMastter Serrverr出现故故障无法法工作的的时候,另另外一台台备Maasteer SServver可可以迅速速接替其其工作。对于Chuunk Serrverr,cSStorr采用副副本的方方式实现现容错。每每一个cchunnk有多多个存储储副本(默默认为两两个),分分布存储储在不同同的Chhunkk Seerv
35、eer上。副副本的分分布策略略考虑了了多种因因素,如如网络的的拓扑、机机架的分分布、磁磁盘的利利用率等等。对于于每一个个Chuunk Serrverr,必须须将所有有的副本本全部写写入成功功,才视视为成功功写入。在在其后的的过程中中,如果果相关的的副本出出现丢失失或不可可恢复等等状况,MMastter Serrverr会自动动将该副副本复制制到其他他Chuunk Serrverr,从而而确保副副本保持持一定的的个数。在在有多个个Chuunk Serrverr的情况况下,任任意损失失一个节节点,数数据都不不会丢失失,而且且随着CChunnk SServver数数目的增增多,整整个系统统的可靠靠性
36、越大大。2.1.4.4 高可用技术术系统中的所所有服务务节点均均是通过过网络连连接在一一起,由由于采用用了高可可靠的容容错机制制,系统统增减节节点不必必停止服服务,可可在线增增减存储储节点,存存储节点点和元数数据节点点间通过过注册管管理机制制自适应应管理,实实现自动动伸缩。元数据服务务器采用用主备双双机热备备技术,主主机故障障,备机机自动接接替其工工作,对对外服务务不停止止;存储储节点采采用冗余余备份机机制,多多个存储储节点情情况下,任任意损失失一个节节点,数数据不丢丢失,服服务不停停止。2.2 cProcc云处理理平台数据处理是是对数据据的采集集、存储储、检索索、加工工、变换换和传输输。数据
37、据是对事事实、概概念或指指令的一一种表达达形式,可可由人工工或自动动化装置置进行处处理。数数据的形形式可以以是数字字、文字字、图形形或声音音等。数数据经过过解释并并赋予一一定的意意义之后后,便成成为信息息。数据据处理的的基本目目的是从从大量的的、可能能是杂乱乱无章的的、难以以理解的的数据中中抽取并并推导出出对于某某些特定定的人们们来说是是有价值值、有意意义的数数据。数数据处理理是系统统工程和和自动控控制的基基本环节节。数据据处理贯贯穿于社社会生产产和社会会生活的的各个领领域。数数据处理理技术的的发展及及其应用用的广度度和深度度,极大大地影响响着人类类社会发发展的进进程。2.2.1 数据立方(D
38、attaCuube)我们以B+树的结结构建立立了字段段的索引引,每个个B+树树结构的的字段索索引相当当于一个个数据平平面,这这样一个个全局数数据表与与其多个个重要字字段的索索引就组组成了一一个类似似于立方方体的数数据组织织结构,我我们称之之为“数数据立方方(DaataCCubee)”。如如下图所所示:数据立方(DattaCuube)是一种种用于数数据分析析与索引引的技术术架构。它它是针对对大数据据(biig ddataa)的处处理利器器,可以以对元数数据进行行任意多多关键字字实时索索引。通通过数据据立方对对元数据据进行分分析之后后,可以以大大加加快数据据的查询询和检索索效率。数据立方的的原理:
39、由一个个或多个个管理节节点,一一个或多多个处理理及存储储节点(数数据节点点)组成成,系统统在数据据建立与与查询时时,分布布式建立立与应用用数据立立方索引引结构,在在数据建建立及存存储时,对对规范化化的数据据设定11个或多多个关键键字字段段,将不不同的关关键字字字段分别别建立索索引,每每张不同同的索引引生成一一张独立立的B+树结构构,多个个B+树树结构垛垛叠在一一起,与与全局数数据表形形成一个个完整的的数据立立方结构构。利用用数据立立方存储储索引结结构,可可方便快快捷的在在海量数数据云处处理系统统中准确确检索定定位数据据。B+树的插插入仅在在叶结点点上进行行。 每每插入一一个(关关键码-指针)索
40、引项项后都要要判断结结点中的的子树棵棵数是否否超出范范围。当当插入后后结点中中的子树树棵数大大于 mm 时, 需要要将叶结结点分裂裂为两个个结点。它它们的双双亲结点点中应同同时包含含这两个个结点的的最大关关键码和和结点地地址。此此后, 问题归归于在非非叶结点点中的插插入了。在在非叶结结点中关关键码的的插入与与叶结点点的插入入类似, 非叶叶结点中中的子树树棵数的的上限为为m, 超出这这个范围围也要进进行结点点分裂。在在做根结结点分裂裂时, 因为没没有双亲亲结点, 就必必须创建建新的双双亲结点点, 作作为树的的新根。这这样树的的高度就就增加一一层了。当有新的记记录到来来时,我我们要将将新的数数据记
41、录录对应的的一条索索引记录录插入到到所有的的字段索索引中,这这时要采采取一定定的写入入策略。当当新的记记录积累累到n11条或经经过一定定时间tt1时,对对于存储储在MeemCaachee中的字字段索引引,可以以将这些些数据记记录对应应的索引引记录一一次性批批量写入入;当新新的记录录积累到到n2条条或经过过一定时时间t22时,可可以将这这些数据据记录对对应的索索引记录录一次性性批量写写入HDDFS(固固态磁盘盘)上的的索引文文件。对B+树的的查找类类似于二二分查找找,对于于m阶,叶叶子节点点中记录录个数为为n的BB+树来来说,其其查找的的时间复复杂度为为O(llog m+(n+11)/22)。因
42、因此对于于值匹配配和范围围查找来来说,有有很快的的速度。此此外,由由于对值值按照大大小顺序序进行了了指针链链接,因因此m阶阶B+树树还可以以进行对对值进行行顺序查查找。 我们对重重要字段段建立索索引,存存储在HHDFSS(固态态磁盘)上上。将最最近常用用的字段段索引加加载到MMemCCachhe中,同同时删除除最不常常用的字字段索引引以节省省空间。详详细来说说,对于于每次查查询,系系统统计计每个字字段索引引被调用用的次数数,对于于被调用用次数最最多的那那些字段段索引就就被加载载到MeemCaachee中,而而在MeemCaachee中被调调用次数数最少的的某些字字段将被被删除。数据立方方是凌驾
43、驾于数据据存储层层和数据据库系统统之上的的,通过过数据立立方解析析后,可可以大大大增加数数据查询询和检索索等业务务,可以以让系统统平台具具备数据据实时入入库、实实时查询询、查询询结果实实时传输输等优势势。2.2.2 任务监控器器(JoobKeeepeer)JobKeeepeer调度度平台是是建立于于虚拟化化资源层层之上,统统一调度度,统一一配置的的管理平平台,用用于对集集群中任任务实时时的处理理调度,实实时结果果集的反反馈,集集群的负负载均衡衡,失败败调度,集集中管理理,集中中配置的的平台。用用来保证证整个集集群的超超低人员员干预。同同时,提提供完善善的集群群伸缩机机制为整整个服务务提供更更高
44、的可可靠性。JobKeeepeer云调调度技术术架构图图 应用层是是一组用用于管理理和结果果反馈的的显示组组件。用用于显示示任务的的处理情情况以及及集群中中机器的的活动情情况,同同时其也也是一个个上层应应用和底底层服务务的对接接平台。是是整个系系统面向向用户和和开发人人员的基基础承载载。 业业务层是是对于应应用层的的相关功功能的业业务化,数数字化处处理,用用于将应应用层的的需求任任务进行行规则化化划分,形形成统一一的处理理化模式式。 数数据处理理层是独独立的数数据处理理程序,是是对不同同需求数数据的统统一处理理方案,他他的运行行与监控控的工作作将由JJobKKeepper调调度平台台进行统统一
45、的配配置管理理。 存存储层是是用来存存储数据据存储层层的处理理结果集集或者其其他中间间结果集集的单元元。 虚虚拟化资资源层是是将实体体的机器器进行虚虚拟化,形形成更大大范围的的服务集集群。 JJobKKeepper调调度平台台是由一一组管理理节点(MMastter Nodde)和和一组处处理节点点(Taask Nodde)组组成,管管理节点点组是一一组基于于Webbserrverr的RPPC(RRPC采采用客户户机/服服务器模模式。请请求程序序就是一一个客户户机,而而服务提提供程序序就是一一个服务务器。首首先,客客户机调调用进程程发送一一个有进进程参数数的调用用信息到到服务进进程,然然后等待待
46、应答信信息。在在服务器器端,进进程保持持睡眠状状态直到到调用信信息的到到达为止止。当一一个调用用信息到到达,服服务器获获得进程程参数,计计算结果果,发送送答复信信息,然然后等待待下一个个调用信信息,最最后,客客户端调调用进程程接收答答复信息息,获得得进程结结果,然然后调用用执行继继续进行行。)服服务器,负负责对处处理节点点的系统统信息以以及任务务处理信信息进行行实时的的跟踪和和保存,对应的信息镜像存储在基于cStor或者NFS服务的存储系统上,保证每个管理节点中的镜像信息的实时同步。同时架设在管理节点上的ZooKeeper服务(ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务
47、,包含一个简单的原语集。分布式应用可以使用它来实现诸如:统一命名服务、配置管理、分布式锁服务、集群管理等功能。)用于对整个管理节点组进行统一的配置化管理。处理节点组通过RPC的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。(注:这里的程序,可以是任何语言任何形式的独立程序,但是必须提供执行脚本,和运行参数选项)处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。如果在若干个心跳间隔后管理节点组仍然没有获取到处理节点心跳报告,那么该处理节点将会被踢出处理节点组,同时该节点处理的所有处理任务也会被重新调度。随着集群处理数据量的不断增大,处理节点组提供了简单高效的自动化部署方案,当新机器加入处理集群后,会主动的与管理节点组同步心跳信息,从同一配置服务器ZooKeeper上获取相关配置信息,通过WebServer服务获取任务列表,开始执行数据处理工作。JobKeeepeer调度度平台提提供了一一套基于于Webb的管理理化界面面,可以以实时的的观察各各个处理理节点的的任务运运行状态态,以及及任务列列表的分分配情况况,机器器的负载载情