用电信息采集系统数据处理性能提升方案V1.1.pdf

上传人:海阔****涯 文档编号:95378460 上传时间:2023-08-21 格式:PDF 页数:88 大小:3.19MB
返回 下载 相关 举报
用电信息采集系统数据处理性能提升方案V1.1.pdf_第1页
第1页 / 共88页
用电信息采集系统数据处理性能提升方案V1.1.pdf_第2页
第2页 / 共88页
点击查看更多>>
资源描述

《用电信息采集系统数据处理性能提升方案V1.1.pdf》由会员分享,可在线阅读,更多相关《用电信息采集系统数据处理性能提升方案V1.1.pdf(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、用电信息采集系统数据处理用电信息采集系统数据处理性能提升方案性能提升方案用电信息采集系统数据处理性能提升方案2/88目录一、引言.41.1 系统现状.41.2 面临问题及发展趋势.4二、现有业务应用和数据构成.52.1 业务应用需求.62.1.1 基本应用.62.1.2 高级应用.62.1.3 业务应用需求总结.72.2 数据构成分析.72.3 数据存储性能分析.92.4 探索研究.11三、系统提升方案.123.1 系统目标及原则.133.2 系统总体方案.143.1.1 性能提升方案.143.1.2 数据存储方案.153.1.3 数据处理方案.173.1.4 基于云存储与关系数据库的应用系统

2、架构.203.3 系统特点、性能和功能.213.3.1 系统特性.213.3.2 系统特点.213.3.3 系统性能.223.3.4 系统功能.243.4 平台方案优势.253.4.1 严格遵循国网标准化设计.253.4.2 先进的海量数据管理机制.253.4.3 尽可能少的业务系统改动.263.4.4 成熟的实施案例.263.4.5 丰富的经验、鲜明的特色.273.5 优化存储策略.273.5.1 功能描述.293.5.2 分布式文件存储系统.303.5.3 存储访问接口.313.5.4 分级动态存储方式.323.5.5 优化存储关键技术.333.5.6 云分布式调度引擎.34四、应用技术说

3、明及要求.37用电信息采集系统数据处理性能提升方案3/884.1 系统安全性.374.1.1 安全保障体系框架.374.1.2 云计算平台的多级信任保护.394.1.3 基于多级信任保护的访问控制.434.1.4 云平台安全审计.464.1.5 云计算综合安全网关.494.2 系统可靠性与扩展性.524.2.1 系统可靠性.524.2.2 系统扩展性.544.3 数据存储系统.554.3.1 海量数据分布式数据存储构架.554.3.2 适应应用需求的混合存储策略.574.3.3HDFS 数据存储.584.3.4HBase 数据存储.614.3.5Database 数据存储.634.3.6 数据

4、存储的可靠性.654.3.7 数据压缩.664.4 计算与存储集群的可靠性与负载均衡设计.684.4.1 计算与存储集群 Master 单点失效容错处理.684.4.2 计算与存储集群的负载均衡处理.744.4.3HDFS 的可靠性设计.774.4.4HBase 可靠性设计.794.4.5MapReduce 计算可靠性设计.804.4.6 基于 Zookeeper 的单点失效和负载均衡设计.83五、系统实施方案.855.1 与原系统整合方案.855.2 工作原理.865.3 实施步骤.87六、下步工作开展建议.88用电信息采集系统数据处理性能提升方案4/88一、引言一、引言1.11.1 系统现

5、状系统现状随着国家电网公司对用电信息采集系统数据要求的提升,业务系统部署的全面推进及业务应用的不断深化创新,采集系统逐渐呈现出覆盖规模庞大、采集数据项复杂、存储数据时间长、业务多样化等特点(如山东、浙江、江苏等覆盖用户数已达 1000-2000 万的级别),从而面临着海量数据存储慢、重点数据分析实效差、系统整体性能下降等难题。同时,随着深化采集系统应用工作的大力开展,对用电信息采集的数据需求更广、数据挖掘更深、在线分析时效性要求更高。为了充分发挥用电信息采集系统基础支撑作用,满足采集数据深化应用工作和对数据存储、查询、统计、分析及对价值数据深入挖掘的需求,通过领先的技术手段提升用电信息采集系统

6、数据处理性能已势在必行。1.21.2 面临问题及发展趋势面临问题及发展趋势用电信息采集系统发展趋势,以采集系统全覆盖为支撑,深入挖掘采集系统数据,深化应用采集系统功能,加强与营销、配电等相关系统集成,实现电费以采集系统全覆盖为支撑,深入挖掘采集系统数据,深化应用采集系统功能,加强与营销、配电等相关系统集成,实现电费抄核自动化电费抄核自动化、线损管理精细化线损管理精细化、互动服互动服务智能化务智能化、费控功能实用化费控功能实用化的“四化”目标,全面推进营销发展方式转变,全面提升公司供电服务水平。用电信息采集系统智能电表数量到 2015 年将达到三亿块,用户用电信息采集频率更加频繁,且数据是双向互

7、动流转,规模和频率的指数级增长,对用电信息的采集、存储、查询、分析等全生命周期的数据处理能力提出了更高的要求。系统面临的问题主要有:系统面临的问题主要有:1)采集系统数据量急剧增长、数据类型多样、业务应用深化创新,对数据存储、查询、统计、分析及价值数据挖掘提出更高要求;2)终端数量及采集频率的剧增,采集数据量由 TB 级向 PB 级发展,导致数据采用电信息采集系统数据处理性能提升方案5/88集入库、分析、存储的压力剧增;3)面临数据高性能存储和高可扩展性挑战,对系统的健壮性、灵活性、简单性、可扩展性以及安全性提出了更高的要求;4)电力业务向智能化、精细化方向发展,对数据处理复杂性、实时性提出更

8、高要求,跨业务、跨平台的数据挖掘能力需要进一步提升,迫切需要进行技术架构优化和性能提升;5)电力业务的不断深化导致计算资源趋于紧张。任务更复杂,涉及的数据量更大,现有资源无法保证在规定的时间内完成;6)现有系统架构在横向线性扩展能力不足,海量数据处理能力已显瓶颈。现有系统基于 Oracle RAC 的数据库集群方式,由于其采用共享存储,需要在节点间频繁的复制状态和共享数据块,节点的增加只能加剧数据交换,对于性能的提升则非常有限,且成本高昂。探讨和研究用电信息采集系统海量数据处理和性能提升已经迫在眉睫,云计算技术对于海量数据的处理已经在互联网领域、智能交通领域、安防视频监控领域得到验证,所以探讨

9、和研究基于云计算平台的用电信息采集海量数据存储与处理技术,解决现行用电信息采集系统现存问题,符合国家电网技术发展的方向,是建设统一坚强智能电网的重要组成部分,是智能用电服务环节的技术基础。对推动智能用电建设有重要意义。二、现有业务应用和数据构成二、现有业务应用和数据构成现行各网省公司电力用户用电信息采集系统主站均符合国家电网公司电力用户用电信息采集系统主站软件标准化设计(2012 年修订版)规范要求,综合考虑功能特点、业务需求、界面布局等因素,将主站功能划分为基本应用、高级应用、运行管理、有序用电、统计查询、系统管理六部分功能,个别省网公司根据自身业务特点及实际需求,在二级菜单或三级菜单内添加

10、个性化功能模块。用电信息采集系统是智能用电建设的数据源,是大营销体系建设的基础,是促进“三集五大”体系建设的源动力,用电信息采集系统的基本应用、高级应用和深化应用等功能,都是建立在数据采集的基础上。归根结底,采集数据是落脚用电信息采集系统数据处理性能提升方案6/88点,是用电信息采集系统建设过程转化为应用成效的关键,业务应用同时也决定了采集系统数据的构成。数据主要分为两大类:一是基础档案及业务数据,二是采集或计算数据。2.12.1 业务应用需求业务应用需求2.1.1 基本应用用电信息采集系统的基本应用,主要包括:基本应用、运行管理、统计查询等,涵盖了数据采集管理、档案管理、时钟管理、计量在线监

11、测、运行状况管理、现场管理、时钟管理、预付费管理、接口管理、日冻结等采集数据查询等功能模块,支撑了用电信息采集系统基础业务,比如采集任务设置、数据召测、客户/终端/电能资产表等基础档案管理、终端运行管理、终端设备运行状态、终端工况管理、数据异常处理、终端校时等,从而促进采集数据在预付费管理、自动化抄表业务的应用,推动着采集系统核心业务发展。2.1.2 高级应用随着采集系统的建设,基本应用已无法满足更多、更广的业务需求,高级功能的应用对数据的深度挖掘与深化应用已成必然趋势。1、现阶段高级应用主站标准化设计中高级应用、有序用电涵盖了配变监测分析、线损分析、重点用户监测、重要信息推送、数据修复、有序

12、用电指标管理、有序用电任务编制与执行、有序用电分析等功能模块,是采集系统数据高端应用的重要支撑。比如将采集的功率与功率因数数据应用于变压器负载分析、负荷预测、变压器经济运行衡量指标及功率因数越限统计,实现台区超载监控分析;将电压曲线数据应用三相电压不平衡分析、电压合格率数据分析等,实现客户侧供电质量监控与评价,为生产、配电等部门优化配网结构,提高配网供电质量提供决策依据;将采集客户的负荷数据应用于负荷预测和有序用电方案编制,制定合理的限电计划,实现区域负荷的合理调控。2、深化应用方向用电信息采集系统数据处理性能提升方案7/88根据国家电网公司关于加快用电信息采集系统深化应用的意见(国家电网营销

13、2013101 号)文件精神,2013-2015 年采集系统深化应用工作总体目标除了涵盖远程自动抄表、费控功能应用外,还包含了线损监测、反窃电监测、分布式电源监测、双向互动服务、市场及需求侧管理应用、辅助业扩报装、故障抢修业务、辅助电能质量监测与可靠性统计应用等方面,明确了公司三年内采集系统深化应用的方向和具体目标。此外,国家电网公司对采集系统深化应用的工作要求,已不仅局限于营销系统的专业业务应用,而是站在促进公司“三集五大”体系建设,加强专业数据间的高效协同的高度推动采集数据的深化应用,推进与其它系统平台的数据接口,比如与安质部国网电能质量在线监测系统、运检部供电电压自动采集、省级计量中心生

14、产调度平台、配电自动化、电能服务管理平台等系统的集成和信息共享,增强采集数据的支撑作用,必将推动采集数据挖掘向着更广、更深的业务领域拓展。2.1.3 业务应用需求总结基于用电信息采集系统的基本应用、高级应用以及进一步深化应用的工作要求,现阶段至 2015 年末,业务应用需求可概括为:需首先满足采集系统基础业务需求,如基础档案的管理、终端运行管理、采集任务设置等,支撑全面自动化抄表、预付费与费控管理工作。然后挖掘采集数据价值,扩大数据应用范围,应用于配变监测分析、线损分析、有序用电、供电质量监测、反窃电分析等高端业务,促进采集系统应用效益最大化。2.22.2 数据构成分析数据构成分析根据业务应用

15、需求分析可了解到,不论是基本应用、高级应用还是深化应用最终都需要采集数据的支撑。归根结底,采集数据是落脚点,是采集系统建设过程转为应用成效的关键,业务应用同时也决定了采集系统数据的构成。数据主要分为两大类:一是基础档案及业务数据,二是采集或计算数据。前者主要包括变电站、线路、变压器、客户、计量点、运行表、终端、采集关系等基础档案类数据以及终端调试涉及测量点参数等、费控业务涉及购电单、用电信息采集系统数据处理性能提升方案8/88购电参数、有序用电涉及方案及控制命令等。后者主要包括日冻结表码数据(正向有功总、尖、峰、平、谷、反向有功总、尖、峰、平、谷、正向无功总、反向无功总、需量表码等 13 个主

16、要数据项)、曲线表码数据、日/月电量数据、功率/电流/电压/功率因素等负荷数据、电压越限统计数据、终端剩余电量数据、终端停上电事件等。序号序号主要业务主要业务数据项数据项特点特点存储要求存储要求重要性重要性1基础档案管理变电站、线路、变压器、客户、计量点、运行表、终端、采集关系等基础档案类数据以及终端调试涉及测量点参数等、费控业务涉及购电单、购电参数、有序用电涉及方案及控制命令数据基数相对稳定,日增长量相对较小永久存储高2自动化抄表日冻结表码数据(正向有功总、尖、峰、平、谷、反向有功总、尖、峰、平、谷、正向无功总、反向无功总、需量表码等13个主要数据项)数 据 基 数 较大,日增长量较大永久存

17、储高3预付费与费控管理日冻结表码数据、终端剩余电量等用户范围逐渐扩大,日增长逐渐增大,且涉及电量数据召测、占用通信资源等高4统计查询日冻结表码数据、曲线表码数据数 据 基 数 较大,日增长量较大一般用电信息采集系统数据处理性能提升方案9/885线损监测与分析日冻结表码数据、曲线表码数据、日电量数据数 据 基 数 较大,日增长量较大,且需对原始数据进行大量计算,占用系统资源较多一般6配变监测变压器容量信息、功率、功率因数等负荷数据一般7反窃电监测电量差动越限、失压断相越限、异常告警事件等一般8供电质量监测三相电压曲线数据、电压越限统计数据、谐波数据等一般9有序用电、市场及需求侧管理应用功率等负荷

18、数据、日电量数据等一般10电能质量在线监测、供电电压采集系统等接口三相电压曲线数据、电压越限统计数据、终端停上电事件、电表故障信息等一般上表列举了 10 项典型业务,其重要性优先级是根据现阶段的基本应用和深化应用方向大体确定,其中优先级为高的代表无论采集系统性能高低,尤其是系统性能下降无法满足全部应用需要取舍时需优先保证的业务,而优先级为一般的代表在一定阶段重点应用的业务,且可能随着业务应用方向的多样化逐渐转变为高优先级。2.32.3 数据存储性能分析数据存储性能分析在现行采集系统采集压力情况下,业务应用需求及数据重要性优先级决定了主站前置机通信及数据存储与读取的周期与频度,尤其是性能较低的情

19、况下,势必影响到部分高级功能的应用,下面主要从采集覆盖规模、数据项总数、单表数据量、整体数据量等多角度分析数据存储与读取的压力。用电信息采集系统数据处理性能提升方案10/88(一)(一)采集覆盖规模扩大导致基础档案表数据量基数大,降低数据库整体采集覆盖规模扩大导致基础档案表数据量基数大,降低数据库整体性能。性能。以采集系统建设规模中等数据量的省级集中的网省公司为例,假设终端投运数为 120 万台,覆盖用户数为 1200 万户,数据采集相关的基础档案如运行电能表为 1200 万只,计量点数为 1200 万个,采集测量点关系表为 1200 万行,按照一个测量点平均对应 3 个任务计算,则采集对象任

20、务表为 3600 万行。而采集数据的存储与读取一般涉及几张表的关键字段的连接,因此,采集覆盖规模庞大的数据量基数已决定了采集系统数据存储与读取的效率,将直接导致采集系统数据库整体性能的下降。(二)(二)业务深化应用的复杂性导致采集数据项繁多,数据库日增量庞大,业务深化应用的复杂性导致采集数据项繁多,数据库日增量庞大,进而影响采集数据的存储与读取效率进而影响采集数据的存储与读取效率对于电能示值日冻结表,一个测量点一条记录,那么该表每日数据增量为1200 万条,月数据量增为 1200*30=3.6 亿条,年数据增量为 3.6*12=43.2 亿条;对于总电能示值曲线数据表,假设采集正向有功总、无功

21、总、反向有功总、无功总等四个数据项,那么每日数据增量为:1200*4=4800 万条,月数据量增为4800*30=14.4 亿条,年数据增量为 14.4*12=172.8 亿条。此外,采集任务涉及采集数据项已不仅局限于电量表码,还扩展到功率、电流、电压、功率因素等负荷数据以及终端停上电事件等。功率、电流电压曲线数据表均与总电能示值曲线数据表保持同数据量级,可测算整体年数据量级已达数百亿。采集系统功能的扩展应用及数据挖掘必然影响主站软件中部分复杂度较高、展示信息量较大的功能,前台读取数据时,将海量采集数据与基础档案表的组合连接,必定导致数据库整体执行效率降低。同时终端采集的数据通过前置机解析用电

22、信息采集系统数据处理性能提升方案11/88后,写入以海量数据为基础的数据库的效率也将大大降低,影响存储执行时间和存储的频度。因此,深化采集系统应用的过程实际是通过领先的技术手段持续提高海量数据处理性能的过程。所以,需要我们利用当前比较成熟的云计算技术解决用采集系统海量数据存储、查询、分析、统计等数据处理问题。2.42.4 探索研究探索研究随着采集终端大范围普及以及采集数据的激增、更多业务系统的接入需求及业务复杂性的增加,用电信息采集系统数据库性能日显不足。当前数据库系统所采取的物理化视图、数据表拆分、多级数据缓存、数据压缩、SQL 优化、使用临时表等技术手段和增加采集系统服务器数量的方式只能起

23、到适度缓解的作用;由于 Oracle RAC 采用的是共享(Share Disk)结构,不具有可扩展优势,存在I/O 的读写瓶颈,难以解决用电采集海量数据存储、计算统计及查询等瓶颈问题。鉴于 Oracle 在事务一致性处理方面有很强优势,针对事务密集性的任务(如档案源数据管理等),仍由 Oracle 数据库来支撑。而大量的数据存储、统计、分析、计算及查询等则由云计算平台来完成,形成一个互补兼容的体系架构。并且云计算技术具有良好的可扩展性,可以很好的满足未来几年的用采系统数据爆发式增长的应用需求。云计算技术以其分布式的存储和处理方式以及资源的按需分配机制,成为大数据领域排行榜首的有效解决方案。目

24、前全球技术的趋势都不再是通过高端硬件来保证数据安全可靠性,云计算依靠软件层面的算法冗余来保障数据安全可靠性。通过云计算技术的引入,在服务器集群上实现了需要高成本硬件才能完成的处理能力,体现了云计算作为一种超级计算模式的独特魅力。高度可靠的性能,任何一个节点出现故障,或者遭遇断电、断网等意外情况,系统将自动屏蔽并进行实时备份,重启后完全不会丢失数据,数据处理过程中,云计算平台还能根据计算和存储任务动态申请或释放资源,处理效能和存储能力也会随着申请节点的增多而呈线性增长,是云计算将计算资源按需分配的最好体现,大幅提高了资源利用率。部署云计算平台,能够在保证现有电力系统硬件基础设施基本不变的情况用电

25、信息采集系统数据处理性能提升方案12/88下,对当前用电信息采集系统的数据资源和处理器资源进行整合,从而大幅提高用采系统数据处理性能,提高数据存储、查询、统计、分析和复杂数据处理的能力,为智能电网用采系统的业务发展提供有效的支持。三、系统提升方案三、系统提升方案基于云计算一体机的系统提升方案的提出是以在互联网、智慧城市、智慧交通和智能视频监控领域已经商业化应用的云计算技术,作为对用电信息采集系统海量数据处理性能提升的主要技术手段,方案采用松耦合的数据分流的方式构建新型用采主站数据共享平台,在不对现行用采主站软件和硬件做大的改动原则下,实现对海量数据处理性能的提升,同时能为其它系统提供相应的业务

26、处理需求数据。本方案采用云计算的分布式文件存储与关系型数据库共存的模式,根据用采数据构成特点进行归类和划分。用电信息采集系统为准实时系统,其主要数据有两类:一、是基础档案及业务数据;二、是采集或计算数据。基础档案数据主要包括:变电站、线路、变压器、客户、计量点、运行表、终端、采集关系等基础档案类数据,终端参数、测量点参数等参数及调试数据;业务数据主要包括:费控业务的购电单、购电参数,有序用电业务的有序用电方案、控制轮次、功率控、电量控及厂休控等控制参数;该类数据属于典型的关系类数据,使用频率相对较高、关联度复杂,需要用关系数据库集群加磁盘阵列进行存贮,本方案对此类数据的存储和管理采用现行用采主

27、站系统的数据处理技术,不做大的改动。采集及计算数据主要包括:日冻结表码数据(正向有功总、尖、峰、平、谷、反向有功总、尖、峰、平、谷、正向无功总、反向无功总、需量表码等 13 个主要数据项)、曲线表码数据、日/月电量数据、功率/电流/电压/功率因素等负荷数据、电压越限统计数据、终端剩余电量数据、终端停上电事件等数据;此类数据大多为历史数据,数据相对使用频率不高、数据关联相对简单,适合采用云计算的分布式存储管理,即本方案中采用的云计算平台。本方案采用云计算的分布式存储技术和关系数据库并存的方式,实现了云计用电信息采集系统数据处理性能提升方案13/88算和关系数据库的优势互补,现行用采主站系统的应用

28、层和业务层都不需要做大的变动,可以直接复用,实现系统的无缝移植和平滑过渡,同时也满足公司对数据存储、共享和安全等方面的总体要求。图 3-1 性能提升方案整体架构图3.13.1 系统目标及原则系统目标及原则加速系统资源整合、降低成本:加速系统资源整合、降低成本:通过云计算平台的数据集中存储,实现绿色节能、服务器整合,降低维护成本和提高资源的利用率;具有可靠性及动态可扩展性:具有可靠性及动态可扩展性:所有的服务分布在不同的服务器上。在云计算平台体系中,可以将服务器实时加入到现有服务器群中,提高云处理能力,如果某计算节点出现故障,则通过相应策略抛弃掉该节点,并将其任务交给别的节点,而在节点故障排除后

29、可实时加入现有集群中;提升系统的入库、计算和存储能力:提升系统的入库、计算和存储能力:确保在任何时间、任意地点,采用任何设备登录到云计算平台系统后就可以进行技术服务,具有大量存储空间和非常快的处理速度;提高安全威胁及安全事件快速反应能力:提高安全威胁及安全事件快速反应能力:安全威胁的发现和响应覆盖从网络层到应用层的各个层次,云计算安全体系用电信息采集系统数据处理性能提升方案14/88提供更加及时有效的威胁识别能力、关联分析能力。实现统一主动、自主的安全防御体系和提升信息资源安全等级,建立快速的数据迁移机制,使得发生数据容灾时,能够快速把用户迁移到备份数据源上,对于数据存放机密性、完整性提供不同

30、保护,同时提高可用性。3.23.2 系统总体方案系统总体方案用电信息采集系统数据处理性能提升方案遵循国网标准化设计成果,系统的总体逻辑架构、技术架构、数据存储架构、功能架构、物理架构、信道架构等完全按照国网统一的设计要求,业务模型和编码规则完全遵循国网统一的规则和标准。由于当前地市分布式部署的用电信息采集系统无论从数据规模还是从数据复杂度上都无法与省级集中部署模式下的用电信息采集系统相比,因此本方案重点针对省级集中模式下用电信息采集系统的数据处理性能进行研究。3.1.13.1.1 性能提升方案性能提升方案 沿用当前运行的网省公司用电信息采集系统整体逻辑架构,保证系统的标准化,并与国网保持一致;

31、构建关系数据库、云存储系统混合的用电信息采集系统数据存储架构,按应用分类、重要性、存储周期、存储频度、深度等因素对数据进行分类存储;关系数据库存储档案数据、实时交易数据、告警事件等数据,云存储系统存储采集的各种电量、负荷数据、统计计算结果数据等,并与关系数据库同步档案资料;构建基于云计算的用电信息采集系统数据处理方案,实现电量、负荷叠加计算、线损计算等业务处理功能,减轻关系数据库压力;构建基于云存储与关系数据库的业务应用系统逻辑架构,采用统一的查询协调驱动,确保业务系统对数据查询的一致性和无关性,提高数据查询、统计、分析、存储性能;用电信息采集系统数据处理性能提升方案15/883.1.23.1

32、.2 数据存储方案数据存储方案1 1)海量用电信息存储问题)海量用电信息存储问题随着国家电网公司用电信息“全覆盖、全采集、全费控”建设的实施,到2014 年,各网省用电信息采集系统将实现各类用户覆盖率 100%,届时系统采集的数据将呈数量级增长,如何对这些繁杂、海量、实时的数据进行有效的存储、管理,对数据进行有效业务性转换,同时提供较强的稳定性以及可扩展的能力,是整个用电信息采集系统的关键。为此,本方案提出云存储与关系数据库相结合的用电信息采集系统数据存储架构。2 2)云存储与关系数据库相结合的混合存储架构)云存储与关系数据库相结合的混合存储架构基于云计算的海量用电信息混合存储技术架构如下图所

33、示。图 3-2 基于云计算的海量用电信息混合存储架构终端采集上来的原始数据经过规约解析,转化成基础业务数据,并按照数据类型存入文件,然后交由大数据管理引擎处理。大数据管理引擎负责对海量数据的装载、写入、查询及处理,其包括作业跟踪器、智能用电业务模型、元数据管理器、查询计划产生器、查询执行引擎、数据写入器、数据源连接器、MapReduce大数据集并行处理单元等。(1)作业跟踪器:对所有数据查询、写入、处理等操作进行调度协调,将计算任务合理的分配至各处理节点,并记录分块数据及任务与节点的对应信息。(2)数据写入器:承担着数据装载和数据写入功能,负责完成数据划分、用电信息采集系统数据处理性能提升方案

34、16/88放置以及数据复制工作,将数据片段写入到各节点的存储系统中。(3)查询计划产生器:负责将数据存储与处理请求翻译成 SQL 和 MapReduce的混合操作,交由查询执行引擎执行。(4)元数据管理器:实施对元数据的管理和访问,元数据包括关于数据模式、数据划分以及数据复制的信息等。因为元数据需要频繁读取,项目拟采取缓存策略,将元数据直接进行缓存提高访问效率,另一方面,采用相应的压缩机制降低元数据占用空间的大小,以提高缓存的利用率。(5)MapReduce 大数据集并行处理单元:负责将半结构化数据与业务建立语义关联,在用电信息采集系统中,采集终端上传的数据并没有跟业务应用系统业务结合,实质是

35、半结构化数据,并没有实际的语义,MapReduce 大数据集并行处理单元通过采用并行计算技术将业务数据转换计算任务分配至多个节点来完成,快速、可靠、稳定的完成半结构化数据与业务系统档案数据的语义关联,从而为用电信息采集业务应用系统提供完整数据视图。其将大数据集分解为成百上千的小数据集,每个(或若干个)数据集分别由集群中的一个结点进行处理并生成中间结果,然后这些中间结果又由大量的结点进行合并,形成最终结果。云存储与关系数据库相结合的混合存储架构在具体存储时,关系数据库主要存储修改操作较为频繁的业务交易数据,以及档案数据和告警事件等;云存储架构主要存储采集的电量、负荷等业务数据,在进行海量数据的处

36、理时采用分布式文件存储实现,通过构建分片集群实现强大、灵活、可扩展的数据存储,当数据存储服务器无法满足大规模智能用电信息存储时,可直接添加新的数据存储节点,通过增加节点以缓解已有智能用电信息存储服务器的压力,实现动态扩展,从而保障了海量采集数据的稳定性和可靠性,同时为其他智能用电应用系统提供良好的数据支撑。云存储与关系数据库相结合的混合存储架构可屏蔽用电信息采集系统海量感知数据的多样性与异构性,实现无差别的传输,实时有效地对数据进行分析处理,将采集终端数据与业务系统档案建立语义关联,变为业务信息,进而得到正确的分析和处理结果。其使用并行处理方式避免因繁杂的数据而产生延迟与拥塞,能够确保数据处理

37、的及时性、正确性,从而为用电信息采集业务应用系统正常运行提供数据支撑。用电信息采集系统数据处理性能提升方案17/883.1.33.1.3 数据处理方案数据处理方案改造方案由云存储共享平台、关系数据库组成。云存储共享平台与原系统前置集群结合,满足海量采集数据、档案类数据、监控信息的存储需求。关系数据库存储档案数据、费控数据和告警事件数据,提高实时业务处理能力和系统性能。原系统数据库在过渡阶段保持原业务流程,起备用和保护作用。系统成功过渡试运行结束后,关闭原系统数据库。通过 WebService、JDBC、ODBC、SQL 等技术向外围系统提供标准化、多样化数据访问方式。图 3-3 数据处理架构1

38、 1)海量用电数据海量用电数据处理问题处理问题用电信息采集系统 2014 年全覆盖目标实现后,采集数据量将呈指数级增长,海量数据的计算成为一个重要的问题,如每天批量计算的线损计算服务,为解决大集中后高并发大容量采集数据实时处理的问题,本方案将采用基于 Hadoop 的海量用电数据并行计算技术,对采集任务进行并行化处理,将计算任务分配至多个工作节点完成,实现系统性能的有效提升。用电信息采集系统数据处理性能提升方案18/882 2)基于)基于 HadoopHadoop 的数据并行处理技术的数据并行处理技术Hadoop 架构主要包含数据管理存储、任务管理、任务执行数据存储几个角色,具体介绍如下:数据

39、管理存储文件系统的元数据和编辑日志,主要负责管理文件系统的命名空间,集群配置信息,文件中各块及其副本的存储位置。任务管理决定哪个文件将被处理,并且为不同的任务分配节点。同时,它还监控所有运行的任务,一旦某个任务失败了,任务管理就会自动重新开启这个任务,在大多数情况下,这个任务会被放在不同的节点上。任务执行节点与任务管理节点分工协作负责存储数据,独立管理各自的任务,并与任务管理交互,如果任务管理节点无法准时获取任务执行节点提交的信息,任务管理节点就判定任务执行已经崩溃,并将任务分配给其他节点处理。数据存储根据需要存储并检索数据块,并定期向数据管理发送它们所存储的块的列表。此外,Hadoop 生态

40、系统中的其他组件,补充和扩展了 Hadoop 架构的处理能力。数据仓库 Hive 基于 HDFS,将存储在 HDFS 中的结构化数据文件映射为数据表,并提供类 SQL 的语言 HiveQL 对数据表进行操作。Hive 能够对 HiveQL 解析成 MapReduce 可执行计划,并按照该计划生成 MapReduce 任务后,提交到 Hadoop集群处理,极大的提高了 Hadoop 架构的处理能力。数据抽取工具 Sqoop 允许将数据从关系型数据库抽取到 HDFS 或 Hive 中,进行进一步处理。抽取过程也通过 Hadoop 架构实现并行,极大的提高了数据抽取的速度。基于 Hadoop 的海量

41、智能用电数据并行处理框架如下:用电信息采集系统数据处理性能提升方案19/88图 3-4 基于 Hadoop 的海量用电数据并行处理框架以线损计算服务为例对基于 Hadoop 的海量智能用电数据并行处理过程进行详细介绍。线损计算服务是通过计算损耗模型供入、供出计量点电量,进而汇总成损耗模型的供入、供出和损耗电量,其中每天批量计算的昨日日线损是线损计算服务的重要组成部分。基于 Hadoop 架构进行日线损计算的设计如下:线损计算有关的数据(线损考核单元表,考核单元供入供出计量点表,测量点信息表,电能表计量点关系表以及供入供出计量点日冻结电量表)均存储在关系型分析库中,通过 Sqoop 执行 Map

42、Reduce 作业将数据并行导入到 Hive 中。通过 HiveQL 实现线损计算的业务逻辑,Hive 将 HiveQL 自动转换为相应的 MapReduce 作业,并提交到 Hadoop 集群,实现并行处理。a)线损考核单元表分别与供入、供出计量点信息表关联,得到所有供入、供出计量点及其考核单元的信息;b)供入、供出计量点及其考核单元信息,与测量点信息表,电能表计量点关系表关联,得到每个考核单元,供入/供出计量点对应的所有电能表信息;c)供入供出计量点电量表分别与供入、供出计量点电能表信息连接,得到考核单元供入计量点电能表电量表和考核单元供出计量点电能表电量表;d)分别对考核单元供入计量点电

43、能表电量表、供出计量点电能表电量表内同一计量点下的电量求和,得到计量点电量。对结果按考核单元编号进行分组做差,得到每个考核单元的日线损。MapReduce 作业并行读取 HDFS 中的供入、供出计量点电量文件和损耗电量文件,计算每个考核单元损耗率,并将供入、供出计量点电量和考核单元损耗电量存入关系型分析库,完成日线损计算服务。基于 Hadoop 的海量智能用电数据并行处理技术能够实现多个节点并行任务的处理,提高海量数据的处理效率,同时支持系统对应物理设备的灵活部署与装配,满足不断增长的终端接入规模带来的海量数据实时处理需求。用电信息采集系统数据处理性能提升方案20/883.1.43.1.4 基

44、于云存储与关系数据库的应用系统架构基于云存储与关系数据库的应用系统架构依托国家电网标准化设计成果,充分吸收网省公司优秀业务成果,通过对数据采集终端、通信信道、数据存储、业务应用以及大集中模式下业务开展情况的详细分析和综合考虑,设计了包含国家电网公司营销计量201276 号文件规定的标准化应用和扩展应用的省级集中用电信息采集业务应用系统。其逻辑架构见下图所示,其主要有数据存储、业务应用构成。图 3-5 业务应用系统逻辑架构1)1)数据存储数据存储全省大集中模式下省级集中式以及市级分布式采集的所有电能数据进行统一存储,数据存储由云存储系统和关系数据库组成。其中云存储系统存放终端采集上来的海量采集数

45、据以及根据计算模型、分析模型计算的统计分析数据,关系数据库存放客户档案数据、实时交易数据以及告警数据。2)2)业务应用业务应用全省大集中模式下业务应用分为标准化应用、网省公司扩展应用、统一数据共享平台及一体化监控平台,其中标准化应用分为基本应用、高级应用、运行管理、有序用电、统计查询、系统管理;扩展应用分为电厂运行管理、反窃电分析、负荷分析、电量分析、疑似停电区域监测、有序用电智能决策及客户侧供电质量用电信息采集系统数据处理性能提升方案21/88监控等;统一数据共享平台通过接口适配的方式向外围系统提供采集及分析数据,包括数据模型管理、数据同步管理、接口适配设置、共享平台日志信息统计分析等功能;

46、一体化监控平台向系统管理人员提供综合监控可视化管理,使其对系统整体运行效率进行集中监控和管理,包括业务应用系统感知监控、前置通信平台监控、数据存储监控、设备监控、深化统计分析、智能监控管理等功能。3.33.3 系统特点、性能和功能系统特点、性能和功能3.3.13.3.1 系统特性系统特性实时性实时性:平台在高效率并行分布式软件的支撑下,可以实时完成数据计算和分析工作,如数据计算、数据查询、和统计分析等。数据计算不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性;高可靠性高可靠性:基于对云计算可靠性深厚的技术研究积累,彻底解决当前分布式计算平台易出现的单点故障问题。任

47、何一个节点出现故障,系统将自动屏蔽,而且不会出现丢失数据的现象;可伸缩性可伸缩性:在不停机的情况下,增加节点,平台的处理能力自动增加;减少节点,平台的处理能力自动缩减。这样,可以做到与资源池的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率;高性价比高性价比:采用 X86 架构廉价计算机构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省 10 倍左右的成本;全业务支持全业务支持:采用 NoSQL关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库

48、,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务。3.3.23.3.2 系统特点系统特点1)1)支持大数据实时入库,防止数据堆积支持大数据实时入库,防止数据堆积采用现有用采系统服务器集群和云计算平台一体机相结合的方式,能够提高用电信息采集系统数据处理性能提升方案22/88对海量数据的快速入库,入库速度高达千兆每秒。能够对超过 10000 条/m 的原始用采监控数据进行实时处理。避免因数据入库能力不足,造成的数据堆积。2)2)支持大数据实时索引,秒级计算和查询支持大数据实时索引,秒级计算和查询实时监控入库的新数据,并对其建立具有高效查询速度的索引算法,

49、能够完成对千亿级别的数据进行实时索引;云分布式调度引擎系统满足秒级查询速度,能够将用户的查询任务分解到平台的各台服务器上,实现分布式并行计算,并完成各种复杂业务应用的计算。从而高效的利用系统资源,快速响应查询、统计、分析请求。3)3)系统具有高度容错性和可扩展性系统具有高度容错性和可扩展性当任意一台服务器宕机,系统能够自动分配新的服务器接替宕机服务器的任务,从而实现系统的高度容错,保证了结果的正确性。平台能够通过动态的添加服务器,达到吞吐量和用户相应时间的线性增长。3.3.33.3.3 系统性能系统性能用电信息采集系统数据采集后经过云计算平台实时索引,并将元数据和索引数据存储到云存储平台上,实

50、现数据冗余。查询时,通过云计算平台进行并行分布式处理,而云计算平台在查询和检索经过云存储平台分析过后的数据方面具有极大的性能优势。云计算平台是一种处理海量数据高效分布式云处理系统,云计算平台可以从 TB 乃至 PB 级的数据中挖掘出有用的信息,并对这些海量信息进行快捷、高效的处理。云计算平台支持 100GBps 以上量级的数据流实时索引,1s内响应客户请求,秒级完成数据处理、查询和分析工作。项目项目性能指标性能指标可管理的数据可管理的数据总量总量可高效管理超过万亿条的记录,完成 PB 级数据的存储和访问。实时索引的数实时索引的数据流量据流量支持 100Gbps 以上量级的数据流实时索引,单节点

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁