《智慧监控云平台整合云存储和报价的方案建议书.doc》由会员分享,可在线阅读,更多相关《智慧监控云平台整合云存储和报价的方案建议书.doc(104页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、目 录睢宁智慧监控云平台技术方案建议书目 录1.智慧安全监控云平台系统总体设计11.1云计算系统设计方案概述11.1.1系统基本功能11.1.2主要设计思想和设计目标、设计原则21.1.3智慧监控云平台的云计算解决方案31.1.4系统的主要技术特点31.2系统总体构架41.2.1系统基本组成与构架41.2.2系统功能模块描述51.2.3系统总体功能71.3系统基本功能与处理方案101.3.1监控数据入库功能与处理方案101.3.2数据存储功能与处理方案121.3.3查询分析功能与处理方案131.4系统互联与管理141.4.1组网方案141.4.2网络管理161.4.3系统安全171.5系统可靠
2、性与扩展性181.5.1系统可靠性181.5.2系统扩展性201.6系统设计性能211.6.1监控数据流量处理能力211.6.2数据存储能力211.6.3查询分析计算性能221.7定制开发方案232云处理子系统设计实施与关键技术方法262.1系统软硬件平台262.2数据处理流程262.3数据存储子系统282.3.1海量数据分布式数据存储构架282.3.2适应应用需求的混合存储策略302.3.3HDFS数据存储302.3.4HBase数据存储332.3.5Database数据存储352.3.6数据存储的可靠性372.3.7数据压缩382.4数据查询与统计分析子系统402.4.1数据查询与统计分析
3、系统基本构架402.4.2监控数据查询功能与用户界面402.4.3实时报警功能与用户界面412.4.4某市监控轨迹回放功能与用户界面实例422.5基于云方案的监控数据查询索引与查询优化技术422.5.1基于分布式数据库的监控数据查询索引处理方案432.6监控数据处理集群的可靠性与负载均衡设计442.6.1负载均衡处理机的单点失效容错处理442.6.2查询处理机的单点失效容错处理472.7计算与存储集群的可靠性与负载均衡设计482.7.1计算与存储集群Master单点失效容错处理482.7.2计算与存储集群的负载均衡处理572.7.3HDFS的可靠性设计592.7.4HBase可靠性设计612.
4、7.5MapReduce计算可靠性设计632.8查询统计计算可靠性与负载均衡设计652.8.1基于Zookeeper的单点失效和负载均衡设计652.9系统安全性设计672.9.1安全保障体系框架672.9.2云计算平台的多级信任保护692.9.3基于多级信任保护的访问控制732.9.4云平台安全审计762.9.5云计算综合安全网关793云存储子系统介绍823.1云存储系统架构823.1.1系统基本组成823.1.2系统功能描述843.2云存储工作机制903.2.1数据写入机制903.2.2数据读出机制913.3云存储关键技术913.3.1负载自动均衡技术913.3.2高速并发访问技术923.3
5、.3高可靠性保证技术923.3.4高可用技术933.4云存储接口描述933.4.1POSIX通用文件系统接口访问933.4.2应用程序API接口调用933.5云存储本地容错与诊断技术933.5.13.5.1cStor高可靠性933.5.2cStor数据完整性943.5.3cStor快照技术943.6云存储异地容灾与恢复技术953.6.1cStor数据备份与恢复系统功能953.6.2cStor异地文件恢复953.7云存储部署方案963.8云存储性能指标964.客户案例985.产品报价98图表 1 智慧监控云平台云计算解决方案3图表 2 智慧监控云平台的基本组成与构架4图表 3 智慧监控云平台总体
6、构架与功能模块图8图表 4 智慧监控云平台架构10图表 5 数据存储处理架构12图表 6 监控数据接入13图表 7组网方案14图表 8 分布式文件存储系统吞吐量指标21图表 9 系统软硬件结构25图表 10 数据汇总上报处理流程26图表 11 实时数据入库流程26图表 12 分布式计算流程27图表 13 Hadoop结构28图表 14 Hdfs结构31图表 15 HDFS Namenode、DataNode和客户端们之间的交互32图表 16 HDFS数据压缩与组织38图表 17 数据查询子系统构架39图表 18 用户界面图40图表 19 实时报警功能40图表 20 监控轨迹回放41图表 21
7、负载均衡机分布图43图表 22 负载均衡机宕机预案44图表 23 Master节点宕机预案45图表 24 查询处理单点失效容错处理46图表 25 Master单点失效容错处理47图表 26 AvatarNode0以Pimary启动过程49图表 27 AvatarNode1以Standby启动过程50图表 28 DataNode启动过程50图表 29 AvatarNode0宕机后的状态51图表 30 AvatarNode1切换为Primary过程51图表 31 AvatarNode0重启过程52图表 32 AvatarNode启动切换流程图53图表 33 Avatar体系架构图56图表 34 H
8、Base系统架构58图表 35 作业提交61图表 36 JobTracker0宕机61图表 37 作业注销62图表 38 Zookeeper基本工作结构图62图表 39 基于Zookeeper的查询分析计算单点失效和64图表 40 基于深度防护战略的IATF模型64图表 41 云部署模型的实现65图表 42 多级信任保护66图表 43 基于可信第三方的平台认证67图表 44 主要因素平台证书67图表 45 云存储安全子系统接口关系图70图表 46 基于多级信任保护的多级访问控制流程71图表 47 数据安全交换平台71图表 48 云存储安全审计体系结构73图表 49 安全日志审计系统结构图74图
9、表 50 Cloud-USG三种部署模式77系统总体设计1. 智慧安全监控云平台系统总体设计1.1 云计算系统设计方案概述1.1.1 系统基本功能依靠系统现有各类监控终端,监控卡口数据采集系统,将各类视频、照片以及经过提取处理的卡口数据信息,通过专网,cTrans高效网络传输系统,实时将各类数据传输至信息中心。在信息中心中,数据首先经过cVideo云视频监控系统达到实时监控,然后同时存入cStor云存储系统,其中需要进一步处理的视频照片数据cProc云处理平台分析处理后也一同存入。本系统中,cProc云处理平台是搭建在cStor云存储系统上的云计算中心,该平台通过数据立方结构,实现了大规模数据
10、的高速查询调用功能,结合数据接收、数据索引、数据检索、数据整理、数据发送等功能,在智能应用层中实现了城市监控视频信息查询、人和监控多视频源连续跟踪、实时预警、路网监控流量态势实时生成、人车异常行为自动检测等多个大规模智能应用。本系统方案通过上述过程,将系统与社会各类视频监控数据、照片数据及监控卡口数据,统一实时存储进入海量云存储系统中,通过信息中心云计算平台,对海量数据进行高效处理。依靠云计算的海量存储与强大的只能处理能力,不断积累、统计、挖掘、融合数据,既可以实现大规模实施监控数据的存储、智能分析,又可以通过长时间积累对数据进行长期的智慧挖掘与分析。为系统处理案件提供有效的帮助与证据保障。系
11、统的基本功能和性能如下:海量历史监控数据汇总能够对千亿级的海量历史监控数据进行汇总处理。海量原始监控数据上报能够对千亿级的海量上报监控数据进行上报处理。海量原始数据实时入库、生成索引能够对流量超过10000条/m的全量原始监控数据流进行实时处理。海量数据存储、计算能够存储千亿级别的数据, 并完成各种复杂业务应用计算。千亿级数据秒级查询能力高效索引算法,智能化调度任务系统,满足秒级查询速度。秒级实时业务响应高效实时数据通道,对于像实时监控、告警等实时业务,提供秒级响应时间。1.1.2 主要设计思想和设计目标、设计原则设计思想:将海量数据分解到由大量X86架构计算机构成的低成本云计算平台上进行实时
12、处理,依靠分布式云计算软件进行容错,从而提升智慧监控云平台海量数据分析的实时性和性价比。设计目标:利用大量性价比高的计算机,建立云计算平台,能够对流量超过10000条/s的原始监控数据流进行实时处理,提供实时监控、报警监控、监控轨迹与回放、电子地图、报警管理、布控管理、设备管理、事件检测报警、流量统计和分析等多种业务支持。系统具有可动态可伸缩性、高度容错性和响应实时性,达到较之传统方案有一个数据量级的性能价格比提升。设计原则:(1)前瞻性技术与实际应用环境相结合本项目是既是先进技术应用示范项目,又是工程实施型项目。把握技术正确性和先进性是前提,但是前瞻性技术实施必须在云计算平台的实际应用环境和
13、实际监控流量的基础上进行,必须结合云计算平台的实际情况进行研究和开发,只有与实际应用环境相结合才有实际应用价值。(2)学习借鉴国外先进技术与自主创新相结合在云计算平台用于超大规模数据处理方面,国内外几乎是在一个起跑线上;但在关键技术研究及既往的技术积累方面,国外一些大公司有着明显的优势。同时,智慧监控云平台所将要面对的监控数据流高达5000条/s,是一个世界级的云计算应用。我们将积极学习借鉴国外先进的云计算技术,同时与自主创新相结合,形成功能强大、性能卓越的能够满足实际应用环境需求的云计算数据处理和分析平台。1.1.3 智慧监控云平台的云计算解决方案在睢宁网内部,构建若干X86架构计算/存储节
14、点,虚拟出海量存储空间、处理能力和数据管理能力。同时研制面向应用的分布式数据处理软件,满足数据汇总、数据上报、数据入库、数据查询、数据计算和数据管理等应用需求。图表 1 智慧监控云平台云计算解决方案1.1.4 系统的主要技术特点实时性:平台在高效率并行分布式软件的支撑下,可以实时完成监控数据入库、分析和管理工作,如数据汇总、数据上报、数据入库、数据查询、数据计算和数据管理等。海量数据入库不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。高可靠性:基于对云计算可靠性深厚的研究积累,彻底解决了当前分布式计算平台易出现的单点故障问题。任何一个节点出现故障,系统将自动屏蔽
15、,而且不会出现丢失数据的现象。包括查询任务分配节点、计算任务分配节点、HDFS元数据节点、HDFS数据存储节点、MapReduceJob Tracker节点、MapReduce Worker节点、HBase管理节点、HBase Region节点等。可伸缩性:在不停机的情况下,增加节点,平台的处理能力自动增加;减少节点,平台的处理能力自动缩减。这样,可以做到与云计算平台的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率。高性价比:采用X86架构廉价计算机构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省1
16、0倍左右的成本。全业务支持:采用分布式数据库模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库中,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务。1.2 系统总体构架1.2.1 系统基本组成与构架智慧监控云平台是一个处于监控数据采集与监控数据监测应用之间的系统。从系统基本组成与构架上来看,该共享平台由7个主要部分组成:历史数据汇总处理系统,上报数据上报系统,实时数据入库系统,监控数据存储系统,监控数据查询分析应用系统,数据管理系统以及系统管理。在基础设施构架上,构建睢宁云计算平台,利用睢宁所提供的计算资源
17、、存储资源和网络资源,作为智慧监控云平台的基础设施和支撑平台。图表 2 智慧监控云平台的基本组成与构架1.2.2 系统功能模块描述1.2.2.1 前端设备前端设备在中心服务器的调度下进行信息采集,以RTSP的形式传输给存储/处理服务器集群,或者以SDK的形式传输给接入服务器。(前端设备包括:模拟摄像机、网络摄像机、卡口设备、第三方平台等)1.2.2.2 接入服务器整合各种前端设备,将不同厂家不同平台的前端设备通过RTSP或者SDK的方式接入本系统,以实现多种前端摄像机、已有平台的统一接入,供本平台内其他模块统一调用,并以轮询的方式监听前端设备,如有异常测产生报警信号。1.2.2.3 中心服务器
18、平台的核心控制部分,实现了与客户端的信令交互、通过JobKeeper云调度系统来调度云集群节点处理各项任务、并实现对整个平台的统一管理和监控。a)用户管理功能:根据用户信息表,管理用户登录、用户的权限,可以管理用户信息、增删用户等。b)前端信息采集设备管理功能:根据摄像机和用户的权限,管理当前用户所能涉及的前端设备状态、节点运行状态,并进行实时的更新。c)与用户和前端设备的信息交互功能:更新前端信息,并根据客户需求进行对前端设备调度,以及对JobKeeper的任务分发。同时,进行信息数据的处理,以完成整个平台的调度工作。d)对服务器集群进行统一的调度管理,获取每台机器的运行状态。根据机器的运行
19、状态进行自动调度和部署,负载均衡,提高机器的使用率,进而提高服务器的梳理效率。e)解决服务器集群信息处理的冗余状态,查错排错,保证系统的无人值守、自动生长的高效性。1.2.2.4 存储服务器集群使用cStor云存储系统,提供统一的存储资源池,用以存储关键数据,提供历史视频的回看以及相关数据的下载服务。同时,支持网络挂载盘符的模式,以满足整个平台中其他模块的存储需求。1.2.2.5 处理服务器集群大致可以分为接入分析、数据处理和结果分发三个子模块,主要负责对完成对接入视频的各项处理任务,诸如:内容识别、实时转码、录像存储等,再将处理好的结果发送至流媒体服务器和存储服务器。1.2.2.6 流媒体服
20、务器以流媒体服务器的形式对外提供标准的RTSP流媒体服务,用户根据相应的流媒体RTSP地址,即可实时地获取系统处理完后的实时视频数据,以供监控和远程访问。采用虚拟IP技术,备份冗余机制,针对公网和内网不同的访问需求提供不同的码流推送。1.2.2.7 客户端支持Windows、Linux、iOS、Android等主流操作系统,提供B/S和C/S架构客户端,控制视频解码上墙等,实现与用户的直接交互。1.2.3系统总体功能智慧监控云平台需要提供的7大主要功能描述如下。(1)历史数据汇总处理系统历史数据汇总处理主要负责把睢宁县规划的分散的数据中心的历史数据,进行读取解析处理,并将处理后的历史数据汇入一
21、个统一的数据中心。在内部处理模块上,历史数据汇总系统主要包括三个模块:读取模块、解析模块和汇总模块。读取模块主要负责各个数据中心历史数据的读取处理,解析模块主要负责把读取到的历史数据解析成合理的数据格式,而汇总模块主要负责把解析好的历史数据上传到统一的数据中心。在系统构架上,为了满足规划的多个分散的数据中心处理需要,需要在每一个数据中心处安装一个数据汇总程序。(2)上报数据上报处理信系统上报数据上报处理负责把县数据中心的数据,按照一定的需求(按时间段或一定的数据量),上报给省市厅数据中心。在内部处理模块上,上报数据上报系统主要包括三个模块:读取模块、解析模块和上报模块。读取模块主要负责县数据中
22、心需要上报数据的读取处理,解析模块主要负责把读取到的数据解析成合理的数据格式,而上报模块主要负责把解析好的数据上传到的省市厅数据中心。在系统构架上,为了满足县数据中心处理需要,需要在县数据中心处安装一个数据上报程序。而省市厅数据中心需要提供数据上报的接口。(3)实时数据入库系统实时数据入库系统主要负责全县每个卡口产生的数据实时入库。在内部处理模块上,实时数据入库系统主要包括三个模块:接受模块、解析模块和数据入库模块。接受模块主要负责接收每个卡口产生的数据流,解析模块主要负责把接受到的数据流解析成合理的数据格式,而数据入库模块负责把解析好的数据加入到县数据中心。在系统架构上,为了使每个卡口的数据
23、能实时入库县数据中心,需要在每一个负责接受卡口数据的工控机上安装一个实时数据入库系统。(4)监控数据存储系统原始监控数据,将全部存储在智慧监控云平台的云存储资源中。资源池提供两种存储资源:一种是结构化数据存储资源,用于存储少量的接口中间数据;另一种是分布式文件系统,用于存储海量的非结构化数据。为了满足和适应数据量、数据特征和查询处理的不同需求,将采用一种混搭式的数据存储方案。对容量巨大、常规数据库难以处理的数据,如监控数据,将主要存储在基于HDFS的分布式文件系统中;这些数据将通过HDFS接口进行访问和计算处理。而对于部分数据量不大、且查询响应性能要求很高的数据,如用于报警比对的中间数据,将被
24、存放在关系数据库中。关系数据库将采用Sybase ASE版本。这些数据将通过结构化数据存储访问接口(如JDBC)进行访问。在存储构架上,若以存储2年的原始监控数据、报警信息数据和针对快速查询建立的索引数据,在5000条/s的监控数据流量下,将大约需要512TB的存储容量,按照每个存储节点16TB的存储容量,加上少量的冗余节点,将需要32个存储节点。(5)监控数据查询分析应用系统监控数据查询分析应用主要提供包括实时监控、报警监控、监控轨迹与回放、电子地图、报警管理、布控管理、设备管理、事件检测报警、流量统计和分析等功能。监控轨迹查询处理时,由于监控数据量巨大,难以存储在常规的关系数据库中,而如果
25、直接存储在HDFS或HBase中又难以保证查询效率。为此,需要考虑对监控数据进行索引处理,并将索引数据存储在HDFS或Hbase中。为了建立监控数据索引,需要在监控数据传送到云存储系统中时,进行实时的索引处理。但由于监控数据流量巨大,需要调度使用多台服务器节点进行并行处理。此外,用户从客户端发起以上各种数据查询分析任务时,也会产生大量并发的查询任务。以上各种查询分析计算任务的处理将需要考虑在计算集群上进行并行化任务调度和负载均衡处理。这些并行计算任务及负载均衡处理将使用Zookeeper基于计算集群完成统一的控制和实现。在系统构架上,以上查询分析计算任务将需要使用一个大规模数据并行计算集群。在
26、编程实现上,存储在数据库中的数据将使用常规的数据库查询语言实现;对存储在分布式文件系统中的监控数据,针对不同的处理要求,在数据量极大而处理实时性要求不是特别高的情况下,为了方便对海量数据的并行处理,将采用MapReduce编程方式实现;而对于那些实时性要求很高的查询分析计算,由于MapReduce启动作业需要较长的时间开销,将不适合采用MapReduce编程实现,而需要用非MapReduce编程方式实现。(6)数据管理系统在实际使用中,可能用户会对某一时间段或者类型的数据特别关心,就可以通过数据管理系统查询并导出这部分数据以供使用。包括数据查询和数据导出两大部分。数据查询让用户以自定义的条件查
27、询出数据,而数据导出就是将这些数据以合理的格式导出到数据中心以外。(7)系统管理系统管理主要包括智慧监控云平台的配置管理、系统安全管理、系统用户管理,以及数据备份、系统故障监测复等管理维护功能。配置管理是其中最主要的部分,是系统各个模块正常运行的基础。系统应能够对网络地址、设备地址等进行配置;能够对用户做权限管理,以防止数据外泄;并能及时有效的对数据进行备份和故障检测等工作,防止数据的意外丢失。系统应支持树图、数据表格、网络拓扑图形式展示配置数据。1.3 系统基本功能与处理方案1.3.1 监控数据入库功能与处理方案监控数据入库系统总架构如图:图表 3 智慧监控云平台入库架构智慧监控云平台通过实
28、时数据入库系统接入采集层的监控数据,数据分配进入负载均衡机,负载均衡机根据集群各节点负载情况,动态分配监控数据到各存储处理机, 进行报警检测、建立索引等处理, 同时将监控数据存入分步式存储系统。负载均衡机功能监控所集群机器负载情况,动态分配监控数据。监控所有集群机器,如果发现问题,那么就把分配给这台机器的监控数据重新分配到其他机器,去除单点故障,提高系统可靠性。负载均衡机采用Paxos 算法解决一致性问题,集群在某一时刻只有一个Master负责均衡能力,当Master宕机后,其他节点重新选举Master。保证负载均衡机不会存在单点问题,集群机器一致性。实时业务对于实时性要求高的业务应用,如:实
29、时监控、实时报警,走实时专道。1.3.2 数据存储功能与处理方案数据存储处理总架如图:图表 4 数据存储处理架构数据存储系统提供如下功能:监控数据处理:接收来自数据汇总和数据入库系统的监控数据, 索引模块实时生成索引,以提高查询速度。生成的索引存储到HDFS中,以供查询监控数据使用。专题业务分析,通过MapReduce并行计算,同期提取业务数据,将结果分存两路,一路存入Hbase或日志详单存储, 一路存入关系型数据库。报警数据处理智慧监控云平台对接收到的实时监控数据进行计算,以判断这辆车有没有符合报警条件。如果符合,会对报警信息入库,并同时通过对外实时报警的接口,将报警信息迅速展示到用户界面上
30、。1.3.3 查询分析功能与处理方案监控数据查询构架如图:图表 5 监控数据接入云平台当客户发起请求后, 客户端把请求发向查询接口服务器,查询接口服务器解析查询请求,后向Master任务调度机发送查询任务执行命令;Master回应执行命令节点信息,查询服务器根据节点信息将查询命令发向查询计算模块,进行具体查询操作,将查询结果返回给客户端,呈现给用户。1.4 系统互联与管理1.4.1 组网方案组网方案如图:图表 6组网方案1.4.2 网络管理服务器间网络安全检查系统自管理通过启用网络安全检查进程(netinspect),定期检查整个系统的网络状况,并上报各服务模块网络流量信息,在终端形成网络拓扑
31、图,实时在界面呈现各节点网络状态,管理员也能及时了解,各服务模块的网络流量机承载的负荷。若出现网络故障,netinspect进程实时上报故障情况,在网络拓扑图上以报警方式提示,或以短信的方式提示,便于管理员及时发现问题,并恢复网络故障,确保系统在安全的网络环境下运行。服务模块进程监控管理系统自管理通过启用服务模块运行状态检查进程(proinspect),定期检查整个系统的服务模块进程运行状况,并上报各服务模块进程的运行状态信息,在终端将运行的进程的状态以表格形式显示,定时更新进程的运行状态信息。通过它管理员也能及时了解,各服务模块的进程运行负荷。若在固定的时间内没有更新,视为进程运行故障,启动
32、主机代理自动恢复故障进程,保障各服务模块进程持续稳定的运行的状态。系统性能监控管理系统自管理通过启用服务模块性能检查进程(serverinspect),定期检查整个系统的各服务器性能指标,包括CPU开销、内存占用、IO峰值、网络流量、连接数等。并上报各服务性能指标,在终端形成拓扑图,实时在界面呈现各节点服务器性能状态,管理员也能及时了解,各服务节点处理性能及资源开销。若性能持续高负荷,拓扑图上以报警方式提示,或以短信的方式提示,便于管理员及时发现问题,查找问题的来源或重新评估服务器配置情况,为系统稳定运行提供一个确实可靠的标准。系统日志分析处理系统各服务模块在运行期间写日志文件,将进程的模块编
33、号、服务器的IP、出错页码等日志的状态(错误、告警、提示)等级别的信息保存磁盘文件,供工程师来分析系统运行状态。同时日志分析进程(loganalyse)分析日志文件,将重要的日志信息,进行对比、分析并汇总后,生产统一格式的日志信息,提取出来,写入的数据库表中,终端管理通过查询界面来来显示,能及时了解到系统的运行的状态。系统运行状态及报警处理系统运行报警分为以下几种:服务器运行状态报警服务器网络状态报警服务模块进程报警日志模块状态报警1.4.3 系统安全网络安全为保障整个系统稳定运行,首先要保障系统在网络方面是安全的。从硬件、软件方面做相应的安全措施。硬件:所有的网络设备都要1+1 冗余配置,涉
34、及以下网络硬件设备冗余配置以太网100M/ 1000M网卡以太网网络交换设备光纤网络接口FC/HBASAN光纤网络交换机软件:在整个系统上部署防火墙软件、及自产的安全管理管理软件模块来保障系统平稳运行。数据文件安全性见集群可靠性章节。1.5 系统可靠性与扩展性1.5.1 系统可靠性 HDFS可靠性概述:HDFS包括元数据节点(Namenode)和数据节点(Datanode),Namenode是一个中心服务器,负责管理文件系统的Namespace和客户端对文件的访问。,Datanode在集群中一般是一个节点一个,Datanode是文件系统中真正存储数据的地方。DataNode所在机器挂了怎么办?
35、 HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块(block)。 一个文件对应的所有BLOCK全部按照一定的部署策略存在于DataNode上,文件的所有block为了容错都会被复制(一般为3份),每个文件的block大小和replication因子都是可配置的。Datanode每3分钟向Namenode发送心跳,如果10分钟datanode没有向Namenode发送心跳,则Namenode认为该Datanode已经dead,Namenode将取出该Datanode上对应的block,对其进行复制。 Namenode挂了怎么办?Na
36、menode主控服务器,为了避免主节点失效而影响整个系统正常工作,我们采用基于HDFS的改进方案Avatar,同时可开启两个Namenode,主Namenode和secondNamenode,实际工作的只有主Namenode。主Namenode将所有关于文件和目录的操作记录都会写入日志,并定时序列化到本地做镜像,并且保存到本地的NFS服务器,同时secondNamenode读取主Namenode所在NFS服务器的日志并对镜像日志做CheckPoint。故障后,secondNamenode升级为Namenode,通过镜像数据和文件日志迅速恢复系统。数据服务器可通过分布式协同服务机制得知关于主控服
37、务器的更迭情况,然后向新的主控注册并继续发送心跳。 HBase可靠性概述:HBase系统由HBase集群和ZooKeeper集群组成。HBase的可靠性由其自身的ZooKeeper机制保证。HBase包括Hregion服务器群和Master主服务器构成。Master负责管理Hregion。物理上,一张表是被拆成多个块,一张完整的表格是保存在多个Hregion上面的。master挂掉怎么办?由于master只维护表和region的元数据,因此master下线短时间内对整个hbase集群没有影响,master保存的信息全是可以冗余信息(都可以从系统其它地方收集到或者计算出来),因此,启动HBase
38、时可以再启动一个备用的master,实际工作的只有主master,当主master所在节点宕机,会自动切换到备用master所在节点。Hregionserver挂掉怎么办?物理上,表格分为多个Region一张表是被拆成多个块,一张完整的表格是保存在多个Hregionserver上面的。并且分布在多台Hregionserver中,物理上所有数据存储在Hadoop的HDFS上,由一些子表服务器来提供数据服务,提供服务时,子表先查HMemcache,如果没有,再查HDFS上的HStore,由HDFS来保证数据的可靠性。如果丢失Region的数据所在节点的datanode宕机,HDFS会自动映射到其他
39、节点,从而保证Region数据的可靠性。ZooKeeper挂掉怎么办?Zookeeper分为2个部分:服务器端和客户端。启动Zookeeper服务器集群环境后,多个Zookeeper服务器在工作前会选举出一个Leader,在接下来的工作中这个被选举出来的Leader死了,而剩下的Zookeeper服务器会知道这个Leader死掉了,在活着的Zookeeper集群中会继续选出一个Leader,选举出leader的目的是为了可以在分布式的环境中保证数据的一致性。MapReduce可靠性概述:MapReduce整体上可以分为这么几条执行的线索,JobTracker与JobTracker是一个mast
40、er服务,软件启动之后JobTracker接收job,负责调度job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。TaskTracker是运行于多个节点上的slaver服务。TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的DataNode上,JobTracker0挂掉怎么办?在系统启动时同时启动备份JobTracker1节点,当JobTracker0节点宕机时,ZooKeeper会在其上启动JobT
41、racker进程替代JobTracker0节点,虚拟IP会指向此节点,TaskTracker会注册到此节点上,未完成的MapReduce作业会被ZooKeeper调度到此节点上重新执行。TaskTracker挂掉怎么办?JobTracker是一个master服务,软件启动之后JobTracker接收job,负责调度job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。并且将其负责的task分配给其他TaskTracker上。1.5.2 系统扩展性已有的Hadoop集群规模Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器
42、上跑,也可以在很小规模上运行。目前最大的Hadoop集群有四千台机器。 Hadoop扩展优势:与其它分布式系统相比,使用Hadoop的好处在于它的水平的可扩展性,在少量结点上,用Hadoop处理有限的数据时,不能展示Hadoop的性能,因为开始Hadoop程序相关的代价比较高,其它并行/分布程序方式,比如MPI (Message Passing Interface)可能在2台,4台或许10多台计算机上有更好的性能,尽管在少量机器上协同工作在这种系统上也许会取得更好的性能,但这种为性能所要付出的努力是非线性的增长。用其它分布式框架所写的程序在从十台机器的级别到成百上千台机器需要大量的重构工作,这
43、也许要程序重写几次,并且其它框的基础元素会限制应用的规模大小。但是特别设计的Hadoop有着水平的可扩展性,一个Hadoop程序写完后,在10个结点上运行,如果迁徙到更大的集群上运行,几乎不需要做什么工作, Hadoop平台会管理数据和硬件资源并提供与可用资源成比例的可靠性能。Hadoop扩展方法:HBase集群具备线性扩展功能,只需要将配置好的region server节点加入到集群中。MapReduce集群具备线性扩展功能,只需要将配置好的TaskTracker节点加入到集群中,JobTracker节点就会将Map或Reduce任务分配给此节点处理。HDFS具备线性扩展功能,只需要将配置好
44、的DataNode节点加入到集群中,并且在集群空闲时执行balancer工具以平衡集群中DataNode的数据块负载。1.6 系统设计性能1.6.1 监控数据流量处理能力监控数据集群完全采用分布式实现,支持线性扩展, 每节点采用低端X86PC Server处理500条/s流量。 对于全县总量5000条/s的实时入库数据和大量的历史数据来说,需要24台处理机。以下是各部分处理能力统计: l 监控数据存储查询服务器配置: 8核CPU2,主频2.3GHz,内存32G,硬盘82T SATA处理能力:折合监控数据入库流量 500条/s/台l 应用分析服务器配置: 8核CPU2,主频2.3GHz,内存16
45、G,硬盘2300G SAS处理能力:折合处理并发访问量500次/s/台1.6.2 数据存储能力原始监控数据存储采用云存储平台,分布式文件系统存储服务。性能指标:l 存储量指标单系统应支持PB级存储容量。l 吞吐量指标吞吐量是指在没有帧丢失的情况下,设备能够接受的最大速率。吞吐量根据应用系统读写方式和应用系统读取存储内容大小分成四个指标。分布式文件存储系统按照32个节点并发500个用户计算,单节点8块2T大小的硬盘情况下,每个节点指标具体内容如下表所示:表8分布式文件存储系统吞吐量指标编号读写方式存储内容大小平均吞吐量指标(MBps)1100%读1GB602100%写1GB303100%读100
46、KB304100%写100KB15图表 7 分布式文件存储系统吞吐量指标l 系统响应时间指标千兆网络环境下,局域网客户端从分布式文件存储系统中读取4096字节存储内容的响应时间应不高于50ms。监控数据存储采用HDFS性能指标,如下:l 数据读取性能:4080MB/s节点;l 数据规模:10PB规模;l 数据负载均衡时间:可依据流量配置而确定;l 集群重新启动时间(10PB规模):分钟级别;1.6.3 查询分析计算性能 对任何实时分析操作的反应时间小于10秒; 查询、统计操作的首次响应时延小于1秒; 并发操作终端数大于30个 ; 基于监控数据的统计,记录5000万条以内,30秒可以统计完成。1.7 定制开发方案相对于已经完成的传统方案,云计算方案还需要在以下方面进行特定开发。(1)历史数据汇入处理平台定制开发历史数据入库系统需要使用与计算存储集群分立的专用机器(可安装在各县县