《基于数据挖掘的电网数据智能分析的研究与实现.pdf》由会员分享,可在线阅读,更多相关《基于数据挖掘的电网数据智能分析的研究与实现.pdf(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、西北大学硕士学位论文基于数据挖掘的电网数据智能分析的研究与实现姓名:刘芳申请学位级别:硕士专业:计算机软件与理论指导教师:刘晓霞20080608摘要数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是从大量的含有噪声的数据中挖掘出隐含其中的知识和信息,是当前数据分析的先进手段之一。数据挖掘的模式主要包括分类模式、聚类模式、时间序列模式、关联模式、序列模式等。电网数据智能分析系统借助数据挖掘领域中的各种算法模型对电网的电力设备故障、日报数据、运行数据进行智能分析,通过对大量初始记录数据的清理,根据电网安全运行特点提炼出与分析因素有联系的记录数据,装载到数据仓库,然后对其进行相应挖掘算法
2、的处理,得到需要的知识,为保障电网的安全运行提供理论支持。电网数据智能分析系统主要包括数据E T L、知识挖掘、数据动态更新和可视化显示四个子系统。数据E T L 实现数据的清洗、整理和装载,在保证不减少数据所包含信息的前提下改善数据质量,提高数据挖掘算法的性能;知识挖掘部分是系统的核心,运用合适的挖掘算法模型对数据仓库中的数据进行挖掘,得到需要的知识;数据动态更新指随电网数据的变化实现动态知识挖掘;可视化显示实现挖掘结果的图形显示。本文首先概述数据挖掘的基本概念和数据挖掘模型,阐明了电网数据智能分析系统的设计思想和体系结构,其次详细论述系统中采用的数据E T L、数据挖掘的关联规则算法、时序
3、预测算法、数据的动态更新等关键技术及其软件实现,然后分析了系统测试结果,最后给出结论和展望。本项目课题已通过西北电网公司的验收,并在西北电网智能数据分析中得以使用,取得良好的效果。关键词:数据挖掘;E T L;时序预测算法;关联规则;频繁项集A BS T R A C TI ng e n e r a l,d a t am i n i n gi sa na d v a n c e dt e c h n o l o g yf o rd a t aa n a l y s i s,a n di tf o c u s e so na n a l y z i n ga n du n d e r s t a
4、n d i n gd a t aa n dr e v e a l i n gt h ee s s e n c ek n o w l e d g ea n di n f o r m a t i o nh i d d e ni ns o m el a r g ed a t as e t s I no t h e rw o r d s,d a t am i n i n gt r e n d st of i n dt h eu s e f u lk n o w l e d g ea n di n f o r m a t i o nf r o ms o m el a r g ed a t as e t
5、sw i t ht h en o i s ei n f o r m a t i o n T h ep a t t e r n so fd a t am i n i n gi n c l u d e:c l a s s i f i c a t i o n,c l u s t e r i n g,t i m es e r i e s,a s s o c i a t i o n,s e q u e n c e,e t c T h ei n t e l l i g e n ta n a l y s i so fp o w e rg r i dd a t ai st oe m p l o yd i f
6、f e r e n ta l g o r i t h m sf r o mt h ed a t am i n i n gf i e l dt oa n a l y z ei n t e l l i g e n t l yt h ef a u l t sa b o u tt h ee l e c t r i cp o w e re q u i p m e n t s,t h ed a i l y-r e p o r td a t a,a n dt h ei m p l e m e n t a r yd a t a M o r ed e t a i l e d l y,t h ei n t e l
7、 l i g e n ta n a l y s i sf o re l e c t r i c 鲥dd a t ai sb a s e do nt w os t e p s:f i r s t,a c c o r d i n gt ot h ef e a t u r e sf r o mt h ee l e c t r i cg r i di m p l e m e n t a t i o na n dt h ea n a l y z e df a c t o r s,i te x t r a c t sa n da n a l y z e ss o m er e l a t e dd a t
8、 af r o mt h ei n i t i a ld a t a,a n dt h e ns t o r e st h er e l a t e dd a t ai n t od a t as t o r e h o u s e;s e c o n d,b ya p p l y i n gs o m ed a t am i n i n ga l g o r i t h m s,w ec a no b t a i ns o m eu s e f u lk n o w l e d g e,w h i c hp l a y sat h e o r e t i c a lf o u n d a t
9、 i o nf o rt h es e c u r i t ya b o u tt h ee l e c t r i c 鲥di m p l e m e n t a t i o n T h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i cg r i dd a t ai n c l u d e sf o u rp a r t s,s u c ha s:d a t aE T L,k n o w l e d g em i n i n g,d a t ad y n a m i cu p d a t e,a n dd a t av i s
10、 u a l i z a t i o n I ng e n e r a l,d a t aE T Li m p l e m e n t st h ec l e a n o u t,o r g a n i z a t i o n,a n dl o a d i n gf o rd a t a,a n di tc a ne f f e c t i v e l yi m p r o v ed a t aq u a l i t y,l e a d i n gt of u r t h e rb o o s tt h ep e r f o r m a n c eo fd a t am i n i n ga
11、l g o r i t h m s T h ek n o w l e d g em i n i n gp l a y sas i g n i f i c a n tr o l ei nt h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i c 鲥dd a t a,a n di tc a no b t a i nt h eu s e f u lk n o w l e d g eb ya p p l y i n gt h ed a t am i n i n ga l g o r i t h m st ot h ed a t as e
12、t sf r o mt h ed a t as t o r e h o u s e T h ed a t ad y n a m i cu p d a t ef o c u s e so ni m p l e m e n t i n gt h ed y n a m i ck n o w l e d g em i n i n go nt h eb a s i so ft h ev a r i e t ya b o u te l e c t r i cg r i dd a t a T h ed a t av i s u a l i z a t i o nt r e n d st ov i s u a
13、 l i z et h ef i I l i a lr e s u l t s I nt h i st h e s i s,f i r s t l y,Ig i v eab r i e fr e v i e wa b o u tt h eb a c k g r o u n do fd a t am i n i n g(s u c ha ss o m eb a s i cc o n c e p t s,m o d e l s,e t c),a n df u r t h e rp r e s e n tt h ed e s i g ni d e aa n ds y s t e mc o n f i
14、 g u r a t i o na b o u tt h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i c 鲥dd a t a S e c o n d l y,Id e t a i l e d l ya d d r e s st h es y s t e mb a s e do nt h es i g n i f i c a n td a t am i n i n gt e c h n o l o g i e ss u c ha sd a t aE T L,c o n j u n c t i o nr u l e,t i m e
15、s e r i e s,d a t ad y n a m i cu p d a t e,a n df u r t h e rIa l s op r e s e n ts o m ea p p e a l i n gr e s u l t so nt h eb a s i so fi m p l e m e n t i n gt h ed a t am i n i n ga l g o r i t h m sv i as o f t w a r e F i n a l l y,s o m ec o n c l u s i o n sa r em a d e,a n ds o m er e s e
16、 a r c hd i r e c t i o n sa r ea l s oa d d r e s s e d K E YW O R D S:D a t am i n i n g;E T L;T i m es e r i e sp r e d i c t i o na l g o r i t h m;A s s o c i a t i o nr u l e;F r e q u e n ti t e m西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将
17、本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到中国学位论文全文数据库或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名:翻垫指导教师签名:萨印男年彳月8 日埘引月少曰西北大学学位论文独创性声明本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文
18、中作了明确的说明并表示谢意。学位沦文作者签名:西侈a 一缪年月彦日西北大学硕士学位论文一I引言1 1 研究背景I 引言随着电网信息化技术的不断发展,电网系统中积累的待处理数据量急剧增加,现已呈现爆炸性增长态势。同时,出现了一种数据越多信息越匮乏的现象,继续采用传统的事务分析处理很难从海量的数据中获得满意的结果。如何充分和有效的利用这些宝贵的历史数据,采用合适的数据分析技术,对其进行针对性的分析和挖掘,从中获得有价值的知识,为电网的安全运行提供决策支持,成为现今亟待解决的问题。数据挖掘技术是从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程【,即根据预定义的目标,对大量的数据进行探索和
19、分析,揭示其中隐含的规律,并进一步将其模型化的先进有效的技术过程。数据挖掘是一门交叉学科,它集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习、模式识别、人工智能、神经网络等【2】。随着挖掘技术的不断发展,其在各个领域得到广泛的应用,将数据挖掘技术应用到电网数据的智能分析中即为其重要的应用领域之一。本项目课题借助数据挖掘领域中适宜的算法模型对电网电力设备故障、日报数据、运行数据进行分析,通过对大量初始记录数据的清理,根据电网安全运行特点提炼出与分析因素(系统设备故障:如时间、地点、天气环境、电厂名称、故障设备、故障原因。日报数据:发电量、用电量、受电量、最大负荷、最小负荷等。运
20、行数据:有功数据、无功数据)有联系的记录字段数据,组成新的电网业务记录表装载到数据仓库中,对其进行相应挖掘算法的处理,得到需要的知识,为保障电网的安全运行提供理论支持。数据挖掘技术具有计算规模大、算法先进、功能强大等特点,已在数据挖掘领域经受了大量实际工程项目的考验,应用到电网数据挖掘分析中具有较高的实用性、可靠性。1 2 国内外研究现状目前数据挖掘作为一种技术和一门学科,已经被国内外研究领域广泛认可,并且具有自己的机构、刊物和会议,已出版了大量的书籍。世界各国知名大学的研究机构和各大公司的研究部门都投入了大量精力对其进行研究,并取得了诸多成果。我国近年来也1 西北大学硕士学位论文一基于数据挖
21、掘的电网数据智能分析的研究与实现紧跟国际潮流开展了相关的研究与开发工作,国家的研究基金资助了相应的研究课题。研究重点正由发现方法转向系统应用,并且注重多种发现策略和技术的集成以及多学科间的相互渗透,但基本以学术研究为主,实际应用仍处于起步阶段。数据挖掘在电力系统上的应用还处于探索阶段,主要集中于以下几方面:电力系统安全稳定性分析、负荷预测模型的构建、电力系统故障诊断、电力系统仿真模型的性能评估、电力市场环境下的电力用户行为分析、电力系统异常值监测。数据挖掘模式主要包括分类模式、聚类模式、时间序列模式、关联模式、序列模式等。本文主要从关联性分析和预测两个方面进行电网数据的知识挖掘。1 2 1 电
22、网数据关联性分析的研究近年来,专门针对电力系统安全稳定运行的数据挖掘得到了较快的发展。其中,L W e h e n k e l 等学者在这方面做出了较为突出的贡献,其研发的A T D I D T(目前改名为P E P I T O)电力系统安全稳定挖掘软件现已投入商业发行,但该软件仍存在很多不足之处,比如对系统变化过于敏感、影响电力系统稳定的因素考虑不全面、算法比较少、没有考虑利用实测数据对现有的安全稳定因素进行修正等。提到数据挖掘的使用技术,就不能不提到关联规则。关联规则的发展是数据挖掘中最成功和最重要的任务之一,也是当今数据挖掘中一个非常活跃的研究领域。由于关联规则挖掘可以发现用传统的方法无
23、法发现的项与项或属性与属性间的关系规律,因而具有重要的研究价值【3 1。电力系统暂态稳定评估中的关联规则主要体现在从海量数据中发现分类属性与决策属性间的频繁模式、相关性或因果关系,以便从宏观上把握电力系统所有组成元素间的关联特性。例如:在考虑所有可运行方式下,数据属性参数的变化与系统安全稳定程度之间的关联规则。1 2 2 电网数据预测的研究电网数据的预测主要集中在负荷预测,国外由于其负荷发展变化规律趋于稳定的缘故,关于中长期预测的研究远远少于短期预测。国内则基本上两者并重。对现有国内比较发达地区的电网调度系统的分析发现,各地区都在努力发展电力信息管理系统中的数据分析和负荷预测。国内各大电网把负
24、荷预测作为数据分析和预测的重点。这是因为负荷预测是企业制订基建计划、发供电计划、燃料计划、财务收支计划等各项重要经营计划的基础,也是计划、规划工作的重要组成部分。负荷的预测使用了西北大学硕士学位论文一一l引言各种预测模型进行短期、中期、长期预测,对与其相关的各种因素(包括天气、节假日、国民经济、历史数据等)进行了关联性分析,从而得出预测结果。例如华东电网使用长期负荷预测数据库和负荷预测软件包 4 1,软件包采用A c c e s s 作为数据库平台来保存负荷预测中用到的各类历史数据、预测年数据及参数等。一些简单的查询采用A c c e s s 中的视图进行,复杂的查询和计算则采用V i s u
25、 a lC+语言实现,查询和计算结果在界面上以多种形式显示。华中电网在分析气象因子和负荷变化以及节假日负荷变化规律的基础上,利用气象因子作为预报量,使用动态的综合线性回归和自回归相结合的混合线性回归以及非线性的人工神经网络方法来进行电网日负荷和日最大负荷和最小负荷的预测5 1。华北电网负荷分析与预测软件采用的基本算法是回归分析法,在其它因素比较稳定的情况下,精度是比较高的【6 1。回归分析法是研究变量和变量之间依存关系的一种数学方法。由给定的多组自变量和因变量的资料,研究各自变量和因变量之间的关系,形成回归方程。回归方程分为线性回归方程和非线性回归方程。回归方程求得后,如果给定各自变量数值,可
26、求出因变量的值。在负荷分析和预测中,回归方程的因变量一般是电力系统的负荷,自变量是影响电力系统负荷的各种因素,如历史负荷、气象等。东北电网使用E M S 应用软件【7】:包括的内容较多,主要有负荷预报和发电计划等,该软件充分利用了C C 2 0 0 0 支撑平台提供的软件资源和各种服务,采用一体化、系统化设计,实现了管理统一、数据统一、界面统一。1 3 主要研究内容1 3 1 研究思路1)电网数据智能分析系统的设计方案利用J S P 技术、结合S Q LS e r v e r2 0 0 5 的智能分析功能,开发基于B S 体系结构的电网数据智能分析系统。该系统的W e b 解决方案实现表示层和
27、逻辑层的良好分离,使系统具有很好的扩展性和维护性,同时给网络智能分析系统的开发提供一个完整的思路和方法。2)实现的功能电网数据智能分析系统主要包括四个子系统:数据E T L、知识挖掘、数据动态更新西北大学硕士学位论文基于数据挖掘的电网数据智能分析的研究与实现和可视化显示。(1)数据E T L:作为现实数据往往存在着严重的质量问题,例如数据不完整、数据冗余、数据不一致、噪声数据等,会降低挖掘算法的性能。数据预处理旨在消除或减少数据噪声、处理缺失值以及数据的变换等。在保证不减少数据所包含信息的前提下,合理有效的数据预处理可以压缩数据、改善数据质量、提高数据挖掘算法的性能。(2)知识挖掘:知识挖掘主
28、要包括两部分:电网数据的关联性分析和时序预测。a)关联性分析:借助数据挖掘领域中的关联规则技术对电网的数据记录进行分析,通过清理大量初始记录数据,根据电网安全运行特点提炼出与分析因素(系统设备故障:如时间、地点、环境、故障。系统运行数据:电压、电流、有功功率、无功功率、功角、负荷、用电量、发电量等)有联系的记录字段数据,组成新的电网业务记录表;从表中找出诱因记录字段值和结果字段值组成的频繁字段组合;最后通过预先给定的“支持度和“置信度 来衡量该频繁字段组合是否能推导出该因素的关联规则,以充分展示各客观因素对分析因素产生的影响程度,是当前数据分析的先进手段。由于关联规则挖掘可以发现用传统的方法无
29、法发现的项与项或属性与属性间的关系规律,因此具有重要的研究价值。西北电网中的多维关联规则主要体现在从海量数据中发现分类属性与决策属性间的频繁模式、相关性或因果关系,以便从宏观上把握电网组成元素间的关联特性。b)时序预测:对电网统计数据(发电厂单机容量及总容量,日发电量,变电站日用电量,全网及分省日用电量,火电发电机的煤耗及存煤量,水轮发电机的库容,日均入库与出库流量,发电厂日最大出力与最小出力,全网及分省日最大负荷及最小负荷)进行分析,采用综合时序预测模型进行预测,为相应计划的制定提供决策支持。(3)数据动态更新:实现随电网数据的变化实现动态知识挖掘。(4)可视化显示:数据挖掘和分析给出关联性
30、分析结果,结果以文字结论以及图形化显示给出。1 3 2 技术路线电网数据智能分析系统主要采用J S P 网络编程技术和数据库S Q LS e r v e r2 0 0 5 来实现。1)采用J S P 程序开发模型,基于M V C 三层模式的W e b 应用设计样式,实现显示层和逻辑层的良好分离。西北大学硕士学位论文l引言2)数据库系统采用S Q LS e r v e r2 0 0 5,使用其强大的智能分析功能,数据库的连接采用数据库连接池技术,提高系统性能,保证数据库连接的高效性和安全性。3)操作系统采用W i n d o w s2 0 0 3S e r v e r,实现强大的网络管理功能。1
31、 4 技术的选择1 4 1J S P 技术的选择目前开发包含有动态内容的W e b 页面技术主要有两类:将H T M L 直接嵌入到编程语言代码中,以此来生成W e b 页面和将逻辑包含在常规的W e b 页面中,以生成动态部分。1)将H T M L 直接嵌入到编程语言代码开发W e b 页面的技术主要包含:C G I、F a s t C G I、A p a c h e 的m o d _ _ p e r l、N e t s c a p e 的N S A P I、M i c r o s o f t 的I S A P I 以及S u nM i c r o s y s t e m s 的J a v
32、aS e r v l e t 等。2)将逻辑包含在常规的W e b 页面中,以生成动态部分的技术主要有J S P、A S P、P H P 等。J S P 页面的内置脚本语言是基于J a v a 编程语言的,而且所有的J S P 页面都被编译成为J a v aS e r v l e t,由J a v a 虚拟机执行,这种编译操作仅在对J S P 页面的第一次请求时发生,从而完成高效的服务器处理,实现较快的响应速度,如图1-1 所示。J S P 页面具有J a v a 技术的所有好处,包括健壮的存储管理和安全性,作为J a v a 平台的一部分,J S P 还拥有J a v a 编程语言“一次编写
33、,各处运行 的特点。图1 1J S P 请求处理(1)J S P 页面可以与处理业务逻辑的S e r v l e t 结合使用,开发M V C 模式的W e b西北大学硕士学位论文一基于数据挖掘的电网数据智能分析的研究与实现应用,构建扩充性和维护性良好的应用程序框架。(2)J S P 是一个规范而不是一个产品,便于完成不同的实现,得到更好的性能和质量。由于多个公司花费大量的资金去研究和开发,保证了新版本能向后兼容,这是专项技术无法做到的。(3)J S P 是J 2 E E 的一个集成部分,而J 2 E E 是面向企业类应用的一个平台,因此无论是简单的还是复杂的W e b 应用都可以用J S P
34、 来实现。电网数据智能分析系统采用J S P 技术,以M V C 为开发模式,具有较好的可扩充性、可维护性、可靠性和较强的容错能力,并且能进行很好的安全性处理。1 4 2S Q LS e r v e r2 0 0 5 数据库的选择S Q LS e r v e r2 0 0 5 是一个全面的、集成的、端到端的数据解决方案,它为企业中的用户提供了一个安全、可靠和高效的平台用于企业数据管理和商业智能应用9 1。S Q LS e r v e r2 0 0 5 为I T 专家和信息工作者带来了强大的、熟悉的工具,同时减少了在从移动设备到企业数据系统的多平台上创建、部署、管理及使用企业数据和分析应用程序的
35、复杂度。通过全面的功能集、和现有系统的集成性、以及对日常任务的自动化管理能力,S Q LS e r v e r2 0 0 5 为不同规模的企业提供了一个完整的数据解决方案。S Q LS e r v e r2 0 0 5 数据平台包括以下工具:1)关系型数据库:安全、可靠、可伸缩、高可用的关系型数据库引擎,提升了性能且支持结构化和非结构化(L)数据。2)复制服务:数据复制可用于数据分发、处理移动数据应用、系统高可用、企业报表解决方案的后备数据可伸缩存储、与异构系统的集成等,包括已有的O r a c l e 数据库在守o3)通知服务:用于开发、部署可伸缩应用程序的先进的通知服务能够向不同的连接和移
36、动设备发布个性化、及时的信息更新。4)集成服务:可以支持数据仓库和企业范围内数据集成的抽取、转换和装载能力。5)分析服务:联机分析处理(O L 心)功能可用于多维存储的大量、复杂的数据集的快速高级分析。6)报表服务:全面的报表解决方案,可创建、管理和发布传统的、可打印的报表和交互的、基于W 曲的报表。西北大学硕士学位论文一1引言7)管理工具:S Q LS e r v e r 包含的集成管理工具可用于高级数据库管理和调谐,它也和其他微软工具,如M O M 和S M S 紧密集成在一起。标准数据访问协议大大减少了S Q LS e r v e r 和现有系统间数据集成所花的时间。此外,构建于S Q
37、LS e r v e r 内的内嵌W e bs e r v i c e 支持确保了和其它应用及平台的互操作能力。8)开发工具:S Q LS e r v e r 为数据库引擎、数据抽取、转换和装载(E T L)、数据挖掘、O L A P 和报表提供了和M i c r o s o f tV i s u a lS t u d i o 相集成的开发工具,以实现端到端的应用程序开发能力。S Q LS e r v e r 中每个主要的子系统都有自己的对象模型和A P I,能够以任何方式将数据系统扩展到不同的商业环境中。1 5 论文组织第1 章绪论。介绍了课题的背景与研究意义以及国内外研究现状,简单介绍电网
38、数据智能分析系统研究的主要内容、使用的技术和论文的结构内容。第2 章电网数据智能分析系统的体系结构。从数据挖掘的概念、挖掘模式、挖掘使用的相关技术等方面对数据挖掘技术进行了综述。提出了电网数据智能分析系统的体系结构,介绍业务数据库和数据仓库的表结构。第3 章电网智能分析系统中的E T L。详细分析了E T L 的数据抽取、清洗整理以及加载的功能和技术,介绍了S S I S 的体系结构以及用S S I S 实现数据E T L 和形成S S I S 包。第4 章电网数据智能分析系统的算法模型。详细分析了电网数据智能分析的数据挖掘模型:关联性分析和时序预测。重点介绍了关联分析的概念、典型的频繁项集挖
39、掘算法,在此基础上提出适合电网数据智能分析系统的基于类集的频繁项集挖掘算法,分析了预测的方法和技术,提出了适合智能分析系统的综合时序预测模型。第5 章电网数据智能分析系统的动态更新与测试结果。介绍了数据仓库数据增量更新和S S I S 包的自动定时运行,对智能分析系统中的关联性分析和时序预测进行了结果测试。第6 章结论与展望。主要对已有工作进行总结,分析现有工作中还存在的不足,并提出下一步的工作。1 6 本章小结本章主要介绍电网数据智能分析系统的研究背景,以及国内外在电网数据挖掘方面7 西北大学硕士学位论文基于数据挖掘的电网数据智能分析的研究与实现的研究现状,提出了电网数据智能分析系统体系结构
40、和实现的主要功能,并对该系统采用的J S P 和S Q LS e r v e r2 0 0 5 技术进行了概述,最后介绍了本文的组织结构。8-西北大学硕士学位论文一2电网数据智能分析系统的体系结构2 电网数据智能分析系统的体系结构2 1 数据挖掘技术2 1 1 数据挖掘的概念数据挖掘从本质上说是一种新的信息处理技术。数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上【l o】。它通过对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级决策活动。从狭义的观点上,可
41、以定义数据挖掘是从特定形式的数据集中提炼知识的过程1 1】。从广义的观点看,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程【l l】。2 1 2 典型数据挖掘系统结构基于数据挖掘功能的广义观点,典型数据挖掘系统结构如图2 1 所示:7 一、一数据库或数数据挖掘引源信息数据清洗、据仓库服务用户存储库整理和加载擎器图2 1典型数据挖掘系统结构源信息存储库:存储业务信息,是一个或一组数据库、数据仓库、电子数据表或其它类型的信息库。数据清洗、整理和加载:对源信息存储库中的数据进行清洗、整理并将符合要求的数据加
42、载到数据库或数据仓库。数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关的数据。数据挖掘引擎:是数据挖掘部分的核心,由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析等任务。用户界面:在用户和数据挖掘系统之间通信,实现用户与系统的交互。西北大学硕士学位论文一基于数据挖掘的电网数据智能分析的研究与实现实际上数据挖掘是知识发现过程的一个基本步骤,知识发现首先从数据源中抽取感兴趣的数据并把它组织成适合挖掘的数据组织形式,然后调用相应的算法生成所需的知识,最后对生成的知识模式进行评估并把有价值的知识集成到智能系统中。知识发现主要由以下几个步骤实现【1
43、0】:1)数据清理:消除噪声和不一致数据2)数据集成:将多种数据源整合在一起3)数据选择:从数据库中提取与分析任务有关的数据4)数据变换:通过各种操作,将数据变换或统一成适合挖掘的形式5)数据挖掘:核心步骤,采用各种挖掘模型挖掘知识6)模式评估:根据某种兴趣度度量,识别表示知识真正有趣的模式7)知识表示:采用可视化技术向用户提供挖掘知识步骤卜4 是数据的预处理部分,在保证不减少数据所包含信息的前提下改善数据质量,提高数据挖掘算法的性能。数据挖掘步骤可能与用户或知识库交互,有趣的模式提供给用户或作为新的知识存放在知识库中。2 1 3 数据挖掘模式数据挖掘的目的是发现知识,知识要通过一定的模式给出
44、。可用于数据挖掘系统的知识表示模式是丰富的,通过对数据挖掘中知识表示模式及其所采用方法的分析,可以更清楚地了解数据挖掘系统的特点。一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,并加以预测。通常分为以下几个类型:概念描述一一特征化和区分(C h a r a c t e r i z a t i o na n dD i s c r i m i n a t i o n)、关联分析(A s s o c i a t i o nA n a l y s i s)、分类和预测(C l a s s i f i c a t i o na n dP r e
45、 d i c t)、聚类分析(C l u s t e r i n gA n a l y s i s)、孤立点分析(O u t l i e rA n a l y s i s)、演变分析(E v o l u t i o nA n a l y s i s)。下面分别对以上几种模式类型进行描述【1 2】:1)概念描述:概念描述本质上就是对某类对象的内涵特征进行概括。概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征,后者描述不同类对象之间的区别。概念描述是广义知识挖掘的重要方法,目前已经得到广泛研究。归纳起来有代表性的方法主要包括观念归纳方法、多维数据分析和面向数据库的概化方法。2)关联分
46、析:关联知识反映一个事件和其它事件之间的依赖或关联,关联知识挖西北大学硕士学位论文一2电网数据智能分析系统的体系结构掘的目的就是找出数据库中隐藏的关联信息。关联可分为简单关联、时序关联、因果关联、数量关联等。这些关联并不总是事先已知的,而是通过数据库中数据的关联分析获得的,因而对决策具有新价值。3)分类和预测:分类是数据挖掘中的一个重要的目标和任务,目前的研究和在商业上应用最多。分类的目的是构造一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。要构造分类器,需要有一个训练样本数据集作为输入。由于数据挖掘是从源数据集中挖掘知识的过程,这种类知识也必须来自于源数据,应该是对源
47、数据的过滤、抽取(抽样)、压缩以及概念提取等。预测是指由历史的和当前的数据产生的并能推测未来数据趋势的知识。这类知识可以被认为是以时间为关键属性的关联知识,因此上面介绍的关联知识挖掘方法可以应用到以时间为关键属性的源数据挖掘中。从预测的主要功能上看,主要是对未来数据的概念分类和趋势输出。4)聚类分析:聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。数据挖掘的目标之一是进行聚类分析。通过聚类技术可以对源数据库中的记录划分为一系列有意义的子集,进而实现对数据的分析。5)孤立点分析:孤立点是指不符合数据的一般模型的数
48、据。在挖掘正常类知识时,通常总是把它们作为噪音来处理。当人们发现这些数据可以为某类应用(如信用欺诈、入侵检测等)提供有用信息时,就为数据挖掘提供了一个新的研究课题,即孤立点分析。发现和检测孤立点的方法已被广泛讨论,主要有基于概率统计、基于距离和基于偏差等检测技术的三类方法。6)演变分析:描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征化、区分、关联和相关性分析、分类、预测或聚类。这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性的数据分析。2 1 4 数据挖掘常用的基本技术【1 2】1)统计学:统计学虽然是一门“古老的”学科,但它依然是最基
49、本的数据挖掘技术,特别是多元统计分析,如判别分析、主成分分析、因子分析、相关分析、多元回归分析世守02)聚类分析和模式识别:聚类分析主要是根据事物的特征对其进行聚类或分类,西北大学硕士学位论文一基于数据挖掘的电网数据智能分析的研究与实现即所谓物以类聚,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外,近些年来模糊聚类和神经网络聚类方法也有了长足的发展。3)决策树分类技术:决策树分类是根据不同的重要特征,以树型结构表示分类或决策集合,从而产生规则和发现规律。4)人工神经网络和遗传基因算法:人工神经网络是一个迅速发展的前沿研究领域,对计算机科学
50、人工智能、认知科学以及信息技术等产生了重要而深远的影响,而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实际上是得到了客观规律的定量描述,有这个基础,预测的难题就会迎刃而解。目前在数据挖掘中,最常使用的两种神经网络是B P 网络和R B F 网络。5)规则归纳:规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律。6)可视化技术:可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图像、动画等手段形象地指导操