《2023智能电网大数据云计算技术.docx》由会员分享,可在线阅读,更多相关《2023智能电网大数据云计算技术.docx(283页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智能电数据云计算技术录第1章 智能电数据现状及挑战1.1 智能电1.2 云计算与数据1.3 智能电数据及特点1.3.1 智能电中的数据1.3.2 智能电中数据的特点1.4 数据处理技术1.4.1 数据处理的价值和复杂性1.4.2 并数据库1.4.3 云计算技术1.4.4 云计算在智能电中的应1.5 智能电数据机遇与挑战1.5.1 数据传输及存储技术1.5.2 实时数据处理技术1.5.3 异构多数据源处理技术1.5.4 数据可视化分析技术1.5.5 流式计算技术1.6 结第2章 批处理计算模式及其应2.1 批处理技术2.2 户短期电负荷预测技术2.2.1 智能电的互动特性2.2.2 电短期负荷预
2、测2.2.3 基于MapReduce的户短期电负荷预测技术2.3 绝缘泄漏电流数据聚类划分技术2.3.1 状态监测数据特点2.3.2 基于数据驱动的状态监测技术2.3.3 状态监测数据存储技术2.3.4 基于分形维数的密度聚类划分2.3.5 数据聚类算法及仿真试验2.4 局部放电信号处理的并EEMD算法2.4.1 局部放电信号处理介绍2.4.2 经验模态分解EMD2.4.3 总体经验模态分解EEMD2.4.4 EEMD去噪2.4.5 基于MapReduce模型的并化EEMD算法2.4.6 实验研究2.5 结第3章 智能电中内存计算性能数据分析技术及应3.1 内存计算技术3.2 性能数据分析3.
3、3 状态监测实时内存计算技术3.3.1 状态监测实时批处理技术3.3.2 实时批处理的Spark技术3.3.3 Spark数据分析3.4 模糊C均值聚类算法3.4.1 FCM算法3.4.2 Spark上矩阵操作定义3.4.3 Spark-FCM算法3.4.4 实验与实验结果分析3.5 Spark环境下的性能OLAP分析查询3.5.1 相关背景及作介绍3.5.2 相关理论知识介绍3.5.3 基于Spark的BUC算法设计及改进3.5.4 实验与实验结果分析3.6 结第4章 智能电多源异构数据分析技术4.1 多源异构数据4.2 存储优化研究4.2.1 数据分布优化4.2.2 数据块尺调优4.2.3
4、 Hadoop集群络拓扑规划4.3 并数据融合算例分析4.3.1 多数据源并连接查询4.3.2 多通道数据融合特征提取4.3.3 实验与结果分析4.4 多维数据连接技术4.4.1 连接操作4.4.2 多维Bloom Filter4.4.3 基于MDBF的星型连接算法4.4.4 算法分析及性能测试4.5 结第5章 流式计算技术应对智能电速实时数据5.1 流式数据5.1.1 流式计算概述5.1.2 智能电中的流式数据5.1.3 基于分布式技术的监测数据可靠接收及其快速分发5.1.4 流式计算在电系统中的应5.2 状态监测实时流数据处理技术5.2.1 状态监测流数据5.2.2 Storm流数据处理技
5、术5.2.3 状态监测流数据处理5.3 规模电数据流实时聚类技术5.3.1 电数据流5.3.2 DBSCAN聚类算法5.3.3 流数据上DBSCAN5.3.4 Spark中的流式DBSCAN算法5.4 基于近似熵算法的电数据特征提取5.4.1 近似熵理论5.4.2 Storm框架下近似熵算法的实现5.5 结第6章 智能电数据全景实时分析平台探索6.1 全景实时分析背景6.2 全景实时分析关键技术问题6.2.1 基于数据的电安全可靠性分析技术6.2.2 基于数据的输变电设备全寿命周期管理6.2.3 全景实时能源动态平衡调度技术6.3 电数据实时分析核技术6.3.1 主要技术挑战6.3.2 多核/
6、众核并计算技术6.3.3 列存储技术6.3.4 基于优先级的电云平台的任务调配6.3.5 规模流数据可靠接收技术6.4 电数据分析平台6.4.1 平台架构6.4.2 平台特6.5 结第7章 数据撑能源互联建设7.1 能源互联7.2 能源互联中的实时数据7.3 数据撑能源互联7.3.1 数据撑能源互联整体优化和调度7.3.2 数据提能源互联安全等级第8章 总结与展望8.1 总结8.2 展望参考献第1章智能电数据现状及挑战智能电1.1智能电通俗地讲是指电的智能化或智能电,也被称为“电2.0”,它是建在集成的、速双向通信络的基础上,通过先进的传 感和测量技术、先进的设备技术、先进的控制法以及先进的决
7、策 持系统技术的应,实现电的可靠、安全、经济、效、环境友好 和使安全的标,其主要特征包括愈、激励,户抵御攻击、提 供满要求的户电能质量、持规模分布式等各种不同发电形式的接、启动电市场以及资产的优化效运等。建设智能电 将有效促进世界经济社会发展,并更好地应对全球候变化和能源危机,对促进世界经济社会可持续发展具有重要作。智能电的作主要表现在如下5个。(1) 促进清洁、可再能源的开发利,减少温室体排放,推动低碳经济社会发展。(2) 优化能源结构,实现多种能源形式的互补,确保能源供应的安全稳定,减少对化能源的依赖程度。(3) 有效提能源输送和使效率,增强电运的安全性、可靠性和灵活性,促进在更范围内的能
8、源动态平衡。(4) 推动相关领域的技术创新,促进装备制造和信息通信等业的技术升级,扩就业,促进社会经济可持续发展。(5) 实现电与户的双向互动,创新电服务的传统模式,为户提供更加优质、便捷的服务,提活质量。随着智能电的发展,电功能逐步扩展到促进能源资源优化配置、保障电系统安全稳定运、提供多元开放的电服务、推动战 略性新兴产业发展等多个。作为我国重要的能源输送和配置平台,智能电从投资建设到产运营的全过程都将为国经济发展、能源产和利、环境保护等带来巨效益,具体表现在如下个。(1) 在电系统:可以节约系统有效装机容量;降低系统总发电燃料费;提电设备利效率,减少建设投资;提升电输送效率,降低线损。(2
9、) 在电客户:可以实现双向互动,提供便捷服务;提终端能源利效率,节约电量消费;提供电可靠性,改善电能质量。(3) 在节能与环境:可以提能源利效率,带来节能减排效益;促进清洁能源开发,实现替代减排效益;提升地资源整体利率,节约地占。(4) 其他:可以带动经济发展,拉动就业;保障能源供应安全;变输煤为输电,提能源转换效率,减少交通运输压。智能电的核技术包括如下个。(1) 发电领域:主要包括规模可再能源、分布式能源、光伏发电等电源的接和协调运技术。(2) 输电领域:主要包括电规划技术、电电技术、输电线路运维护技术、输电线路状态检修技术和设备全寿命周期管理技 术等。(3) 调度领域:主要包括电安全稳定
10、分析与控制技术、经济运技术、综合预警和辅助决策技术、安全防御技术等。(4) 变电领域:主要包括变电站信息采集技术、智能传感技术、实时监测与状态诊断技术、适应保护技术、域保护技术、智能电设备技术等。(5) 配电领域:主要包括配电安全经济运与控制、电能质量控制、智能配电设备研究、规模储能、电动汽变电站等技术。(6) 电领域:主要包括级量测技术、双向互动营销技术、户储能技术、户仿真技术等。综上所述,智能电最终标是建设成为覆盖电系统整个产过程,包括发电、输电、变电、配电、电及调度等多个环节的全景实时系统。撑智能电安全、愈、绿、坚强及可靠运的基础是电全景实时数据采集、传输和存储,以及累积的海量历史多源
11、异构数据快速分析。因随着智能电建设的不断深和推进,电 运和设备检/监测产的数据量呈指数级增,逐渐构成了当今信息学界所关注的数据,因此需要相应的存储和快速处理技术作为撑。云计算与数据1.2数据可以通俗地理解为法在定时间内传统数据库软件具对其内容进抓取、管理和处理的数据集合。根据国际数据公司(International Data Corporation, IDC)的监测统计,即使在遭遇融危机的2009 年, 全球信息量也2008 年增了62% , 达到80 万PB(1PB=220 GB),到2011年全球数据总量已经达到1.8ZB(1ZB=240 GB),并且以每两年翻番的速度速增,预计到2020
12、年全球数据量总量将达到40ZB。在数据规模急剧增的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、结构化数据等多种类型, 其中采传统数据处理段难以处理的结构化数据已接近数据总量的75%。鉴于数据分析技术在经济、社会的应和潜在的巨影响,很多国家都将数据视作战略资源,并将数据应提升为国家战略。2012年3,美国奥巴政府宣布推出“数据的研究和发展计划”。2012年9,本总务省发布2013年动计划,提出以复苏本为的推进“活跃在ICT领域的本”ICT综合战,明确提出“通过数据和开放数据开创新市场”。2013年2,法国政府发布了数字化路线图, 列出了5项将会持的战略性新技术,“数据”就是其中项。
13、2013年1,中国国家能源局下发了关于数据中建设布局的指导意,国家发展和改委员会与中科院正式启动基础研究“数据服务 平台应范”项;2013年3,中国电机程学会发布了中国电数据发展书;2013年年初,贵州省发布贵州“云计算”战略规划;2013年10,中国国内领先平的规模云计算数据中、云计算研发应范基地中国电信云计算贵州信息园在贵阳正式开建设。这些实例进步说明了数据应的重要性,未来数据可能成为国家创新能和竞争的重要体现。仅2009年,歌公司通过数据业务对美国经济的贡献就为540亿美元,这只是数据所蕴含的巨经济效益的冰。淘宝公司通过对量交易数据变化分析,可以提前6个预测全球经济发展趋势。2011年5
14、,肯锡公司发布了关于数据的调研报告数据:下个前沿,竞争、创新和产,中充分阐明了数据研究的地位以及将会给社会带来的价值,数据研究已成为社会发展和技术进步的迫切需要。前,数据应已在社会经济活动展出巨的价值和潜,在电业也有成功的应范例。丹的维斯塔斯技术集团(Vestas Wind System A/S),通过在世界上最的超级计算机上部署国际商业机器公司(International Business Machines Corporation, IBM)数据解决案,得以通过分析包括PB量级象报告、潮汐相位、地 理空间、卫星图像等结构化及结构化的海量数据,从优化涡轮机布局,提电发电效率。这些以前需要数周时
15、间完成的分析作现在只需不到1时即可完成。美国的Space-Time公司2011年利数据可视化技术为美国加州独系统运营商设计了套实时监控电传输系统能源基础设施的可视化软件Space-Time Insight,该系统可实时监测25000km的输电线路状况,可根据发问题的严重性和临近地区的反应及时做出决策,保障电的安全运。中国国家电所属的国家冀北电有限公司,正在使智慧能解决案来整合可再能源并所属电,通过使IBM预测技术,张北项的第阶段标,旨在增加10%的可再能源的整合发电量。通过分析提供所需的信息,将使能源电公司得以减少能并的限制,进更有效地使已产出的能源,强化电的运。这种数据的应实践对中国电数据分
16、析展乃整个能源相关业都具有巨的参考价值。应对数据处理分析的有效技术式是云计算技术。云计算(Cloud Computing)是基于互联的计算存储服务的增加、使和交付模式,通常涉及通过互联提供动态易扩展且通常是虚拟化的资源,是应对当前数据挑战的有效式。云是对络或互联的种喻说法。过去在图中往往云表电信,后来也于表互联和底层基础设施的抽象。云计算可以让户体验每秒10万亿次的运算能,拥有这么强的计算能可以模拟核爆炸、预测 候变化和市场发展趋势。户通过计算机、笔记本、机等式接数据中,按的需求进运算。现阶段为接受的云计算定义是美国国家标准与技术研究院(National Institute of Standa
17、rds and Technology, NIST)提出的:云计算是种按使量付费的模式,这种模式提供可的、便捷的、按需的络访问,进可配置的计算资源共享池(资源包括络、服务器、 存储、应软件、服务等),这些资源能够被快速提供,只需投很 少的管理作,或与服务供应商进很少的交互。当前,被普遍接受的云计算特点如下所述。(1) 超规模“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有万台服务器。企业私有云般拥有数百上千台服务器。“云”能赋予户前所未有的计算能。(2) 虚拟化云计算持户在任意位置、使各种终端获取应服务。所请 求的资源来
18、“云”,不是固定的有形的实体。应在“云”中某处运,但实际上户须了解、也不担应运的具体位置。只需要台笔记本或者个机,就可以通过络服务实现我们需要的切,甚包括超级计算这样的任务。(3) 可靠性“云”使了数据多副本容错、计算节点同构可互换等措施保障服务的可靠性,使云计算使本地计算机可靠。(4) 通性云计算不针对特定的应,在“云”的撑下可以构造出千变万化的应,同个“云”可以同时撑不同的应运。(5) 可扩展性“云”的规模可以动态伸缩,满应和户规模增的需要。(6) 按需服务“云”是个庞的资源池,你按需购买;云可以像来、电、煤那样计费。(7) 极其廉价由于“ 云” 的特殊容错措施, 可以采极其廉价的节点构成
19、云,“云”的动化集中式管理使量企业须负担益昂的数据中管理成本,“云”的通性使资源的利率较之传统系统幅提升, 因此户可以充分享受“云”的低成本优势,经常只要花费百美元、天时间就能完成以前需要数万美元、数时间才能完成的任务。云计算可以彻底改变们未来的活,但同时也要重视环境问题,这样才能真正为类进步做贡献,不是简单的技术提升。(8) 潜在的危险性云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私机构(企业)中,他们仅能够提供商业信。对于政府机构、商业机构(特别像银这样持有敏感数据的商业机构)选择云计算服务应保持够的警惕。旦商业户规模使私机构提供的云计算服务,论其技术优势有
20、多强,都不可避免地让这些私机构以“数据(信息)”的重要性挟制整个社会。对于信息社会,“信息”是关重要的。另,云计算中的数据对于数据所有者以外的其他户云计算户是保密的,但是对于提供云计算的商业机构确实毫秘密可。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的个重要前提。在智能电运过程中,数据产于整个系统的各个环节。如在电侧,随着量智能电表及智能终端的安装部署,电公司和户之间的交互为迅猛增,电公司可以每隔段时间获取户的电信息,从收集了以往粒度更细的海量电消费数据,构成智能电中户侧数据。通过对数据分析可以更好地理解电客户的电为、合理地设计电需求响
21、应系统和进短期负荷预测等, 从有利于电的规划和运。在智能电中,随着压、特压电及配电动化建设的不断推进,智能化设备及系统应数量不断增,电设备的部署结构与产的数据益复杂庞。,设备的状态和外部环境都会影响系统的运,迫切需要对输变电设备负载能、运状态进动态评估,以降低故障发概率及相关险,减少设备运维护成本, 提设备净资产收益率;另,由于智能输变电设备数量的不断增,电中获取与传输的各类数据也在发何级数的增。这些数据不仅包括设备异常时出现的各类故障信号,运过程中设备的各类状态信息,同时还包含了量的相关数据,如地理信息、象、视频图像、设备台账、实验数据与档等。如何将这些多源异构维的 数据资源进统的收集、过滤
22、与处理,并对现有的设备状态检测案进优化成为新的挑战。此外,基于因果关系的传统设备状态评价法着眼点为单设备和少量异常数据, 难以实现对量“ 数据资产”的综合有效利以及向整个电的准确状态评估和险预测。鉴于数据在电系统中出现的场合越来越多,有必要对前的应现状和将来的挑战进总结,为数据技术在智能电建设中的应提供有益的参考。本节试图将智能电中数据的研究和应现状及挑战进综述,并给出了智能电数据存储与分析系统的种可选的框架。智能电数据及特点1.3智能电中的数据1.3.1电业务数据致分为三类:是电运和设备检测或监测数据;是电企业营销数据,如交易电价、售电量、电客户等的数据;三是电企业管理数据。根据数据的内在结
23、构,这些数据可以进步细分为结构化数据和结构化数据。结构化数据主要包括存储在关系数据库中的数据,前电系统中的部分数据是这种形式,随着信息技术发展,这部分数据增很快。但由于数据库存储容量的限制,数据会定期更新,般只存储最新的数据。相对于结构化数据,不便数据库维逻辑表表现的数据即称为结构化数据,主要是包括视频监控、图形图像处理等产的数据等。这部分数据增常迅速,据IDC的项调 查报告中指出,企业中80%的数据都是结构化数据,这些数据每年都按指数增60%。在电系统中,结构化数据占智能电数据很重,这部分数据增速度也很快,对电数据中的存储压很。结构化数据根据处理时限要求可以划分为实时数据和准实时数据,如电调
24、度、控制需要的数据是实时数据,需要快速准确地处理;量的状态监测数据对实时性要求相对较低,可以作为准实时数据处理。数据依据时限要求不同可以采取不同的处理式,如实时数据采流式内存计算式,准实时数据可以采批处理式。智能电与传统电存在很的不同,具有更的智能化平,实现智能化的前提是量的实时状态数据及时获取和快速分析处理,前智能电中的数据主要是因为以下个。(1) 为了准确实时获取设备的运状态信息,采集点越来越多, 常规的调度动化系统含数万个采集点,配电、数据中将达到百万甚千万级。需要监测的设备数量巨,每个设备都装有若传感器,监测装置通过适当的通信通道把这些传感器连接在起,由变电站的数据收集服务器按照统的通
25、信标准上传到数据中,这实际上构成了个物联。物联的后端采云计算平台已被认为是未来的发展趋势。智能电设备物联同云计算平台的基础设施层互联,进数据交换。(2) 为了捕获各种状态信息,满上层应系统的需求,设备的采样频率越来越。如在输变电设备状态监测系统中,为了能对绝缘放电等状态进诊断,信号的采样频率必须在200kHz以上,特频检测需要吉赫兹的采样率。这样,对于个智能电设备监测平台来说,需存储的监测或检测的数据量分庞。(3) 为了真实完整地记录产运的每个细节,完整地反映产运过程,要求达到“实时变化采样”,实现对设备的全命周期管理和实时状态评估。同时,在智能电中,数据产于电系统的各个环节。(1) 发电侧:
26、随着型发电数字化建设的发展,海量的过程数据被保存。这些数据中蕴藏丰富的信息,对于分析产运状态、提供控制和优化策略、故障诊断以及知识发现和数据挖掘具有重要意义。基于数据驱动的故障诊断法被提出,利海量的过程数据,解决以前基于分析的模型法和基于定性经验知识的监控法所不能解决的产过程和设备的故障诊断、优化配置和评价的问题。另外,为及时准确掌握分布式电源的设备及运状态,需要对分布泛和量的分布式能源进实时监测和控制。为持机选址优化,所采集的于建模的天数据每天以80%的速度增。(2) 输变电侧:在2006年美国能源部和联邦能源委员会建议安装同步相量监测系统(Synchrophasor-based Trans
27、mission Monitoring Systems)。前, 美国的100个相位测量装置(Phasor Measurement Unit, PMU)天收集62亿个数据点,数据量约为60GB,如果监测装置增加到1000套,每天采集的数据点为415亿个,数据量达到402GB。相量监测只是智能电监控的部分,电中还包括其他量需要采样监测的设备。(3) 电侧:为了准确获取户的电数据,电公司部署了量的具有双向通信能的智能电表,这些电表可以每隔五分钟的频率向电发送实时电信息。美国太平洋天然电公司( Pacific Gas&Electric)每个从900万个智能电表中收集超过3TB的数据。国家 电公司也建成了
28、包含上亿户的动化采集系统。电动汽的序充放电为会对电运带来烦,如果能合理地安排电动汽的充放电时间,则会对电带来好处,变害为利,前提是对基数很的电动汽电池的充放电状态进监测,并合理制定调度规则,这也会产数据,需要数据处理技术的撑。智能电中数据的特点1.3.2与互联中的数据相似,智能电中的数据也具备“4V”特征,即规模(Volume)、类型多(Variety)、价值密度低(Value) 和变化快(Velocity)。1. 规模从TB级别,跃升到PB级别。常规SCADA系统10000个遥测点,按 采样间隔34s计算,每年产1.03TB的数据(1.03TB=12字节/帧0.3 帧/s10000遥测点86
29、400秒/天365天);域向量测量系统(Wide Area Measurement System, WAMS)10000个遥测点,采样率可以达到100次/s,按上述公式计算,则每年产495TB的数据。前正在发展 的直升机和机巡线技术所产的红外、紫外视频信息,每年作业 采集的数据量达40TB。某省级电公司已有数字化变电站178座,每天 产的数据量约为700TB。随着监测系统规模的扩,以及数据采样频 率的提,数据量还将成倍增加。若同时考虑环境、象、地理信息等,则数据量更为庞。2. 类型多电数据域分布、种类众多,包括实时数据、历史数据、本数据、多媒体数据、时间序列数据等各类结构化、半结构化数据以及结
30、构化数据,各类数据查询与处理的频度和性能要求也不尽相同。如,电设备状态监测数据中的油谱数据半个时采样次,绝缘放电数据的采样速率达百千赫兹,甚吉赫兹。随着状态监测技术的发展和智能化设备类型与数量的增加,视频等结构化数据在数据中的占进步加。此外,数据应过程中还存在对电系统运环境相关数据(象、地理、环境等)的量关联分析需求,这些都直接导致数据类型的增加以及状态评估应领域数据的复杂度。3. 价值密度低以视频为例,连续不间断监控过程中,可能有的数据仅仅有两秒。在输变电设备状态监测中也存在同样问题,所采集的绝部分数据都是正常数据,只有极少量的是异常数据,异常数据是状态检修的最重要的依据。以视频数据和压设备
31、放电波形为例,连续不间断监测过程中,基于经验和的传统输变电设备状态监测评估法可能只对段时间(如12s)的数据和少量异常数据予以关注、处理和分析,丢弃量所谓的“正常数据”,对这些正常数据的深度挖掘也可能为故障分析提供重要的线索和依据。4. 变化快在分之秒内对量数据进分析,以持决策制定。这种在线的流数据分析与挖掘同传统的数据挖掘技术有着本质的不同。输变电设备状态评估和险预测要求对量数据进及时分析并做出判断,以持产调度决策的制定,对在线状态数据的处理性能要求远于离线数据。尤其对输变电设备状态监测系统,在极端(天、故障发展阶段等)情况下,规模报警数据会在短时间内以“井喷式”的式产与传输,并要求实时处理
32、,将对信息处理系统的吞吐技术提出挑战。SCADA采集了量的电压、电流、开关状态等电稳态数 据。常规SCADA系统10000个遥测点,按采样间隔34s计算,每年产1.03TB数据( 1.03TB=12 字节/ 帧0.3 帧/s10000 遥测点86400s/ 天365天),前三华的数据量每65.3万条,7.58GB;WAMS 10000个遥测点,采样率100次/s,按上述公式计算,每年产495TB的数据。另外,智能电中的数据处理,对数据质量有定的要求,可以考虑为各类智能电数据引个新的属性:数据的真实性。数据的真实性是指与特定类型数据相关的可靠性级别。质量数据对于数据分析结果的正确性有重要影响。然
33、即使最好的数据清洗法也法去除某些数据固有的不可预测性。承认不确定性需求,并将数据的真实性作为智能电数据的个维度是可的。智能电中汹涌来的数据为智能电建设带来了新的挑战和机遇。国信通公司成了数据团队应对智能电建设中的数据挑战问题。IBM收集并建模数据,服务于智能电表分析、基于决策 的运维、基于天数据的机选址、分配负荷预测与调度等各类能源业与公事业。中国电机程学会电信息化专委会在此基础上,总结智能电中数据特征还包括“3E”,分别是数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy)。1. 数据即能量(Energy)电数据具有磨损、消耗、污染、易传输的特性,并可在使
34、过程中不断精炼增值,可以在保障电户利益的前提下, 在电系统各个环节的低耗能、可持续发展发挥独特巨的作。通过节约能量来提供能量,具有与俱来的绿性。电数据应的过程即是电数据能量释放的过程,从某种意义上讲,通过电数据分析达到节能的的,就是对能源基础设施的最投资。2. 数据即交互(Exchange)电数据以其与国经济社会泛紧密的联系,具有与伦的正外部性。其价值不只局限在电业内部,更能体现在整个国经济运、社会进步以及各各业创新发展等,其发挥更价值的前提和关键是电数据同业外数据的交互融合,以及在此基础上全位的挖掘、分析和展现。这也能够有效地改善当前电业“重发轻供不管”的业短板,真正体现出“反馈经济”所带来
35、的价值增。3. 数据即共情(Empathy)企业的根本的在于创造客户,创造需求。电数据天然联系千家万户、矿企业,推动中国电业由“以电产为中”向“以客户为中”转变,这其中的本质就是对电户的终极关怀,通过对电户需求的充分挖掘和满,建情感联系,为电户提供更加优质、安全、可靠的电服务。在电业价值最化的贡献 过程中,中国的电业也找到了常变常新的动源泉,共情能共赢。数据处理技术1.4数据处理的价值和复杂性1.4.1近年来,数据已经成为科技界和产业界共同关注的热点。2012 年3,美国奥巴政府宣布投资2亿美元启动“数据研究和发展计划”。美国政府认为数据是“未来的新油”,将“数据研究”上升为国家意志,对未来的
36、科技与经济发展必将带来深远影响。个国家拥有数据的规模和运数据的能将成为综合国的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。前全球数据的存储和处理能已远落后于数据的增幅度。例如,淘宝每新增的交易数据达10TB;eBay分析平台处理数据量达100PB,超过了美国纳斯达克交易所全天的数据处理量;沃尔玛是最早利数据分析并因此受益的企业之, 曾创造了“ 啤酒与尿布”的经典商业案例。现在沃尔玛每时处理100万件交易,将有约2.5PB的数据存数据库,此数据量是美国国会图书馆的167倍;微软花了20年,耗费数百万美元完成的Office拼写检查功能,歌公司则利数据统计分析直接实现。与数据
37、在商业及互联领域的泛研究和应相,数据在智能电建设的研究中还有待进步加强。由于云计算平台具有存储量、廉价、可靠性、可扩展性强等优势,但在实时性难以保 证,故它不适合于作为电调度动化系统的主系统,但可于调度动化系统的后台,也可于智能电数据中(营销、管理和设备状态监测)。云平台环境下的通数据处理和展现具正在不断涌现,为减少软件开发作带来了好处。然,数据挖掘通常是与具体应对象相关的,数据挖掘是个不的挑战。如故障录波数据初次筛选等些基于聚类法的应,在对海量数据时,传统聚类算法在普通计算系统上法完成。此外,在数据处理临规模化挑战的同时,数据处理需求的多样化逐渐显现。相撑单业务类型的数据处理业务,公共数据处
38、理平台需要处理的数据涉及在线/离线、线性/线性,流数据和图数据等多种复杂混合计算式。下对前主流的数据处理技术进综述,并指出在应对智能电数据时这些技术的局限性,探讨了可能的解决案。并数据库1.4.2关系型数据库系统在电系统中获得了泛的应,如Oracle 等。关系数据库主要存储结构化数据,提供便捷的数据查询分析能、按照严格规则快速处理事务(Transaction)的能、多户并发访 问能以及数据安全性的保证。其通过SQL语查询语及强的数据分析能以及较的程序与数据独性等优点获得泛应。然随着智能电建设的加速,数据已远远超出关系型数据库的管理范畴,地理信息系统以及图、视频等各种结构化数据逐渐成为需要存储和
39、处理的海量数据的重要组成部分。向结构化数据存储的关系型数据库已经不能满智能电数据快速访问、规模数据分析的需求,主要表现在如下个。1. 数据存储容量有限关系数据库可以有效处理TB级的数据,当数据量达到PB级时,前主流数据库很难处理。为了回避此问题,前电企业采先从“数据”中提取“熟数据”的存储式,这样虽然可以减少络传输和数据库存储的数据量,但不可避免损失“数据”中隐藏的重要特征量信息,如绝缘的放电频谱。2. 关系模型束缚对海量数据的快速访问能关系模型是种按内容访问的模型,即在传统的关系型数据库中,根据列的值来定位相应的。这种访问模型会在数据访问过程中引耗时的输输出,从影响快速访问的能。虽然传统的数
40、据库系统可以通过分区的技术(平分区和垂直分区),来减少查询过程中数据输输出的次数以缩减响应时间,提数据处理能,但是在海量数据的规模下,这种分区所带来的性能改善并不显著。3. 缺乏对结构化数据的处理能传统的关系型数据库对数据的处理只局限于某些数据类型,如数字、字符、字符串等,对结构化数据(图、频等)的持较差。然随着户应需求的提、硬件技术的发展和互联上多媒 体交流式的推,户对多媒体处理的要求从简单的存储上升为识别、检索和深加,对益增的处理庞的声、图像、视频、E-mail等复杂数据类型的需求,传统数据库已显得不从。4. 扩展性差在海量规模下, 传统数据库个致命弱点, 就是其可扩展性(Scalabil
41、ity)差。通常解决数据库扩展性问题有两种式:向上扩展(Scale Up)和向外扩展(Scale Out)。对海量数据处理,通过提升服务器性能进Scale Up的式在成本及处理能均不能满要求,唯可的法就是进Scale Out。关系数据库管理系统Scale Out 的法是通过对数据库的垂直和平切割将整个数据库部署到个集群上,这种法的优点在于可以采关系数据库管理系统(Relational Database Management System, RDBMS)这种成熟技术,但缺点在于它是针对特定应的,应不同切割法不样。前业监测系统中常采实时数据库(也属于内存数据库)和内存数据库。然,内存数据库难以胜任
42、智能电中对规模设备的监控,其原因主要包括以下个。(1) ) 内存数据库对事务致性具有很的要求, 根据 CAP(Consistency, Availability, Partition Tolerance)理论,致性的要求必然会制约其可扩展性。(2) 由于扩展能差,使得可内存容量有限,当数据超出内存可以管理的范围后,性能会急剧下降。(3) 内存数据库主要处理结构化数据,智能电系统中,既包括结构化数据,还包含量的半结构化和结构化数据。1.4.3 云计算技术数据技术的需求是伴随着云计算平台的出现出现的,故有必要介绍下云计算技术。实际上前云计算技术是数据存储与处理技术的重要组成部分。由于数据的数据量和
43、分布式的特点,使得传统的数据管理技术难以胜任这种海量数据。云计算的核是海量数据存储和数据并处理技术。其核思想包括分布式件系统(Distributed File System, DFS)和MapReduce技术,主要思路由Google公司提出。DFS有着容错性(Fault-tolerant)的特点,并且是为部署在价格低廉的硬件上设计的,且它为应程序提供吞吐量的数据访问,适合有着超数据集(Jarge Data Set)的程序。Hadoop提供了DFS 的种开源实现(Hadoop Distributed File System, HDFS),该分布式件系统放宽了可移植操作系统接( Portable Operating System Interface, POSIX ) 的要求, 可以实现流的形式访问( Streaming Access)件系统中的数据,并具有可靠性、可扩