《电力系统及其自动化dddg.docx》由会员分享,可在线阅读,更多相关《电力系统及其自动化dddg.docx(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第1章 绪论1.1 本课题的目的和意义在电力系统中,电能的集中和分配、电压和电流的变换都是在变电站中实现的。作为电力输配电系统中极其关键的环节,变电站通过变压器将各级电压的电网联系起来。变电站故障诊断就是将故障征兆信息从变电站的某些检测量中提取出来,然后通过对这些信息的分析与处理,判断出故障的位置和根源。其中,包括保护开关动作、断路器跳闸等的故障征兆信息,由变电站监控系统和故障录波器的检测量提供,而判断出的故障根源一般是输电线路、变压器、母线和无功补偿设备等。改革开放以来,电网的规模随着电力系统的发展越来越大,不同区域电网之间的联系也越来越紧密。各类电压等级的变电站数量历年递增,导致电网结构愈
2、加复杂。这也就使得变电所的故障对电力系统的影响范围及严重程度大大增加。同时,各地电力公司正逐步建立和完善集控站系统,越来越多的变电站实现了无人值守,且用户对电能质量的要求越来越高。如何令运行人员快速准确地找到故障位置,辨识、隔离真正的故障元件,使非故障区域迅速恢复至故障前状态,增强供电的可靠性和连续性,是目前的急需解决的问题。与此同时,变电站不断提高其综合自动化的水平,继电保护与自动装置在变电站中得到了越来越多的应用。这些二次设备会当变电站发生故障时产生大量诸如断路器跳闸、保护装置告警、保护动作、故障录波器动作等等的报警信息。变电站发生故障的瞬间,这些报警信息会不加选择地出现在监控系统的异常窗
3、口内。如果出现复杂的多重故障、断路器或保护出现动作不正常(拒动、误动)、告警信号受干扰丢失等情况时,故障诊断的复杂性问题更会严重凸显。这种情况下,调度运行人员在很短的时间内要阅读这么多未经任何加工处理的报警信息,理解其中的含义并抓住报警信息的实质是相当困难的。这将使现场人员极易产生误判断和误处理,以致扩大事故范围,拖延故障恢复时间,甚至发展成更为严重的停电事故。因此研究变电站智能化故障诊断方法,为调度及运行人员提供辅助判据具有重要的理论意义与实践指导作用。1.2 国内外研究成果故障诊断问题的研究,可以追溯到上个世纪的60年代,当时的研究者们试图使用传统数学建模的方法来解决这个问题,但是由于故障
4、诊断的过程和计算技术非常复杂,无法用传统的数学模型和计算方法来描述,以致对变电站故障诊断问题的研究进展极其缓慢。进入七八十年代的中后期,随着人工智能技术的迅猛发展,研究者们也从中找到了一条研究电网故障诊断问题的新路,即:将人工智能技术与电网故障诊断相结合。由于人工智能技术可以模仿人类的思维方式和处理问题的过程,并具有类似人类的学习能力和经验积累,使得这一技术在故障诊断领域里脱颖而出。目前,将国内外在变电站故障诊断领域应用的人工智能方法进行归纳,可以分为以下几类:基于专家系统(Expert System)的方法、基于人工神经网络(Artificial Neural Network)的方法、基于模
5、糊理论(Fuzzy Theory)的方法、基于Petri网的方法、基于粗糙集(Rough sets)的方法、基于Agent技术、小波分析(Wavelet Analysis)的方法等。1. 专家系统(Expert System)最早开发的人工智能技术就是专家系统(Expert System)。它也是众多人工智能技术中发展相对成熟的一种。作为专家系统的创始人之一,费根鲍姆(EAFeigenbaum)认为该系统不是一个普通的应用软件,而是一种智能化的计算机程序,可以像专家一样,运用丰富的储备知识和严密的推理步骤解决复杂的问题。专家系统不仅能合理利用各种资料中的理论知识来处理各种定性的问题,而且还可像
6、专家一样进行总结并运用实际经验来求解非定性问题。另外,专家系统在可以快速处理数学解析法不能解决的问题的同时,还能大幅缩小需求解问题的知识搜索范围、减少推理路径,加快解决问题的速度、提高推理效率。尽管专家系统可以在模拟故障诊断专家的基础上有效地完成故障诊断过程,但是在实际应用过程中仍然不可避免有一定的不足:(1) 由于知识的获取以及对其完备性的验证是一个很困难的过程,因此怎样获取完备的知识库成为故障诊断专家系统的瓶颈问题就在所难免了。(2) 专家系统毕竟不能像人类一样具有对新事物的学习能力,所以一旦发生储备知识库里无法搜索到的新故障情况,将导致专家系统的错误诊断或不诊断。(3) 专家系统没有较好
7、的容错能力。当故障后,尤其保护装置和断路器错误动作或者丢失动作信息的时候,专家系统不能有效识别,易产生错误诊断。(4) 由于电力网络的结构和自动化装置的配置不断变化,作为故障诊断的专家系统,其储备的知识库随之也会进行相应的修改、校核。由此可见,及时更新专家系统的知识库是一项费时费力的工程。因此,最近几年专家系统呈现一些新的发展趋势:将ANN与专家系统结合,使之具备自学习与联想的功能;将模糊理论与专家系统结合,使之可以实现不确定性推理;将粗糙集与专家系统结合,使其知识库具有容错能力。2. 人工神经网络(Artificial Neural Network)人工神经网络(Artificial Neu
8、ral Network)是一种采用模仿人类神经系统工作的原理来进行信息传输、处理的人工智能方法。相较于专家系统,通过神经元及神经元间的有向权重连接来隐含处理那些系统的知识是其最大的优点。除此之外,人工神经网络还具有以下优势:(1) 在学习的能力方面,人工神经网络的学习过程首先是确定其基本结构,紧接着用算法进行样本的训练,最终完成自身对知识的理解和组织。整个学习过程结束后,人工神经网络还具备了一定程度的泛化能力;(2) 在容错能力方面,即使输入信号带有一些噪声干扰,人工神经网络也可以输出正确的结果,容错的能力相对还是比较强的。(3) 在执行速度方面,神经元之间相对独立,都是各自进行计算,这样有利
9、于系统内事件的并行处理,所以执行速度相对还是比较快的。当然,在故障诊断领域的应用中,ANN也存在以下的几点问题:(a) ANN不能够对电网拓扑结构进行描述和表示,所以通常只能在一些规模较小的并且采用固定接线的电网中应用;(b) 在应用ANN分析处理问题前,需要学习足够多典型的样本,另外学习过程所采用的算法往往收敛的速度不快;(c) ANN不善于分析那些带有启发性的知识。由于它缺少对诊断结果进行解释的功能,运行人员在理解结论时存在一定障碍。3. 模糊理论(Fuzzy Theory)模糊理论(Fuzzy Theory)是通过对传统的论模糊化,同时引入语言以及近似推理的逻辑来解决任何不确定性问题的一
10、种智能化技术。该理论更加符合人类的表达习惯,其知识库利用语言变量来使用专家掌握的经验。故障诊断中不可避免的存在不确定因素,而专家系统要求匹配一致,否则极易产生错误结果。将模糊理论引入到专家系统方法中,推理就由精确向近似转变,专家系统的容错能力也就得到了极大的提高。模糊理论也不可避免地存在一定的不足。在运用模糊理论进行分析时,经常需要类似于基本概率指派函数、模糊隶属函数和有关统计概率分布等的数据附加信息或先验知识,而要获得这些信息是有一定的难度的。4. Petri网(Petri net)Petri网(Petri net)是在年间由德国数学家提出的一种通用的数学模型。它采用可视化描述离散事件系统的
11、静态结构及动态行为,易于理解。同时因为Petri网能够描述离散事件系统的结构,所以它可以抓住系统中事件的先后和异同步等特征。电力系统的继电保护的基本要求之一就是选择性。当电网发生故障时,各类保护会有选择地切除故障。这个过程用Petri网络描述特别适宜,因为它就是系统同时发生或次序发生的活动。在利用Petri网理论对大型电网建模时,设备增多与网络扩大会导致状态的组合爆炸。同时,对于时间特征要求高的行为,基本Petri网不具备描述能力。因此采用高级Petri网进行大型复杂系统的建模势在必行。5. 粗糙集理论(Rough Sets Theory)上世纪末,ZPawlak教授等人提出了一种处理不确定问
12、题和不精确数据的方法,粗糙集理论(Rough Sets Theory)。该方法研究的对象是不完整数据,可以处理不精确的知识,并对知识进行学习和归纳。它与概率统计和模糊集理论处理问题的方法都不相同,最大特点是只需要求解问题时要求处理的数据集合,其他的任何先验信息都不没必要提供,因此可以相对客观的表达和处理不确定的问题。变电站的故障诊断可以归结为模式分类问题,粗糙集决策表方法对于解决这类问题是相当适宜的。另外,变电站中存在因为断路器及保护装置误动或拒动、通信装置故障等原因造成的信号不完备问题。粗糙集理论在容错力方面的优势在解决该问题上可以充分发挥。1.3 粗糙集结合Petri网方法的可行性分析变电
13、站的故障诊断就是依据断路器和保护的动作情况判断故障元件、误动作的断路器和保护等,其中最为关键的是对故障元件的识别。因为一旦识别出了故障元件,就可以利用保护动作的原理结合逻辑推理对误动作的断路器和保护进行识别。用于故障诊断的信息主要由继电保护动作信号、断路器动作情况、自动重合闸动作情况、故障录波器信息等构成。这些信息之间有很强的因果关系,一些信息通常是由另一些信息的出现而产生,也就是说这些信息之间的冗余度很高,这也为粗糙集的应用提供了必要条件。运用粗糙集可以通过属性和属性值的约简排除冗余的条件属性和属性值,获得最简的诊断规则。其诊断效率大大提高。然而,利用粗糙集规则进行推理决策过程中,当数据量较
14、大时,对规则进行查表匹配的计算量将挺大。Petri网理论在有向图和矩阵运算的基础上,对系统的静态结构和动态过程进行描述和推理的一种方法。Petri网方法的知识库系统具有结构规范、形式简单的特点,所以空间搜索和推理的效率高。Petri网可以利用简单的矩阵运算演绎推理的动态过程,求解速度快,可用于变电站的实时故障诊断。然而,Petri网方法不具备对知识加以处理的能力,只能进行知识的表达与推理。换句话说它的建立就是依靠先验知识。如果先验知识存在冗余信息,Petri网模型的规模就会过大,直接影响推理的效率。在使用规则知识进行决策和推理的这个问题上,粗糙集理论和Petri网理论可以很好的进行互补。首先,
15、粗糙集理论不仅可以进行知识的约简,还可以进行不确定信息的处理,最终可以实现知识的属性优选,可以获得最佳的决策规则。其次,将这些决策规则用Petri网理论进行描述建立模型。这样就可以利用Petri网理论在推理过程中的优点,最终实现高效的诊断。将粗糙集理论和Petri网理论进行结合,不仅仅可以克服粗糙集的查表搜索过程计算量大的问题,还可以解决Petri网络的先验知识存在冗余性问题。这样它们各自的优点也就可以得到充分的发挥。1.4 本课题研究的主要工作通过阅读大量文献,本文分析了变电站故障诊断的特点以及故障诊断信息的来源,系统全面地对国内外变电站故障诊断的方法进行了归纳和总结,在此基础上对变电站故障
16、诊断问题进行了探索和研究。目前变电站故障诊断课题面临的主要问题是故障信息的不确定性和不完备性。这类问题很适合用粗糙集(RS)理论来解决。但利用粗糙集规则进行推理决策过程中,当数据量较大时,对规则进行查表匹配的计算量将特别大。因此本文将Petri网和粗糙集理论相结合,利用Petri网对粗糙集理论提取出的诊断规则进行描述,再利用Petri网并行推理的能力,实现了高效的变电站故障诊断。同时考虑到变电站的扩建通常一次只针对某一个电压等级,故将变电站按电压等级划分为多个相对独立的区域,针对每个区域进行了诊断模型的建立,从而提高了诊断的灵活性和适用性。主要的研究内容如下: (1) 针对粗糙集理论及Petr
17、i网模型的特点,对粗糙集理论结合Petri网方法在变电站故障诊断应用中的可行性和优势进行分析,确立了基于粗糙集理论和Petri网模型的变电站故障诊断方法。 (2) 变电站的故障诊断以故障后所表现的征兆信息为分析和研究的基础, 本文系统地分析了变电站故障数据的来源,并对变电站常见的故障进行了整理。 (3) 以实际的110kV变电站为例,将其按电压等级划分为多个相对独立的区域。根据其开关和保护的动作情况,考虑单重故障和开关拒动的情况,对于各个区域分别建立建立变电站故障诊断系统的基础原始决策表。 (4) 利用粗糙集理论对各个区域的原始决策表进行属性约简及属性值约简,提取出诊断规则,然后用Petri网
18、对诊断规则进行描述,建立了各个区域诊断模型。 (5) 对所建立的故障模型进行样本测试和方法的分析比较。结果表明:该方法确是一种快速准确、容错性强、适应性好的变电站故障诊断方法,对高效地进行变电站在线故障诊断具有重要的意义。-65- 第2章 变电站故障诊断的信息来源及常见故障变电站故障诊断系统是运行和调度人员分析和处理事故的辅助工具,能够帮助缩短事故的处理时间,防止事故的进一步扩大,对提高变电站自动化水平具有重要意义。SCADA()与变电站的运行监测系统为运行人员提供了对变电站进行监视和控制的平台。然而在变电站发生故障的瞬间,现有的电力自动化系统会毫无选择的把采集来的大量的报警信息提供给监控和运
19、行人员,以致运行人员往往来不及处理和判断。而且SCADA系统采集的信息还不能完全满足现场运行的需要。在这种情况下,变电站故障诊断应运而生。准确的故障诊断主要由以下两个方面来决定:(1)故障诊断是否采用了准确、完整的信息;(2)故障诊断是否采用了可靠的诊断方法。当变电站遇到故障时,借助SCADA系统能采集到很多的故障信息,其中故障诊断所能利用的信息包括:电网的遥信量信息,如断路器、隔离开关等设备实时状态信息;电网的遥测量信息,如电压、电流和有功、武功功率的测量值;保护时间信息,如不同规约的保护动作和时间顺序记录()信息等。由于故障来源和故障信息传输、处理的速度不同,各个信息对于故障诊断的作用也不
20、一样,通常情况下,继电保护和断路器的动作信号反应最快,用于快速故障诊断和隔离,故障录波器信息最为全面,一般用于事故追忆。2.1 SCADA系统的基本知识2.1.1 SCADA系统的基本结构及数据流程SCADA系统是电力综合自动化系统中最基本的功能模块之一。它以计算机为基础,监视和控制现场的运行设备,从而实现了数据采集、参数调节、设备控制、测量以及各类信号报警等多种功能,也就是人们熟知的四遥。其基本组成包括:FTU(馈线终端单元)、RTU(远程终端单元)。在现今的变电站综合自动化建设中,SCADA系统以微机保护装置和RTU为信息源,运用计算机系统监视和操控变电所的控制、信号、测量等回路,并以此取
21、代传统的监控屏,成功的减少了变电所的设备投资以及占地面积,提升了二次设备的可靠性。变电站的SCADA系统的硬件系统由RTU、信道和主站计算机构成,其基本结构示意图如图2-1。 图2-1 SCADA系统结构示意图目前,变电站使用的现场远方量测终端(RTU)装置有两种,分别为布线式数字远动装置和微机远动装置,主要实现的功能如下:(1)收集变电站现场的量测量以及状态量等数据,即遥测遥信数据。通过主站发出指令控制现场的设备。(2)对采集的数据进行一些基本处理,包括:量测量的死区比较、状态量的变位比较以及越限的告警等。(3)与主站之间进行通信,具体是指进行通信规约的处理,将数据传送至主站,同时接收主站下
22、达的命令和数据。SCADA系统是现场设备和人之间联系交流的一个重要平台。在变电站中,首先将电压互感器和电流互感器采集电气量送到电流、电压以及功率的变送器中,将其转换成很小的直流电压信号。其次,在远方终端(RTU)中通过多路采样、模数转换和抗干扰编码三个环节将直流电压信号处理成了数字信号,继而采用调幅、调频和调相等调制方式将其调制在信息载体上。然后,信号传输到主站计算机中进行解调,之后经智能接口的串并转换以及译码处理到达前置机,信息在经过前置机的刻度转换和初检测后,由主机确认是否可用,可用就送入到数据库。最后,运行人员可以通过模拟盘和显示器监控到现场量测量和状态量,从而实现对现场一次设备的监视和
23、控制。其详细的数据流程示意图如图2-2,图的左侧为一次系统,右侧为二次系统。 图2-2 SCADA系统数据传输流程示意图2.1.2 变电站SCADA系统的功能随着综合自动化水平的提高,SCADA系统在变电站得到了普遍的应用。变电站SCADA系统的基本功能有以下三点:(l) 各种设备状态数据的采集以及控制指令的发送。监控系统对变电站的许多运行信息进行了采集、分析和处理。这些运行信息包括一次设备的电压、电流和功率大小等。同时监控系统还为运行人员提供了观测这些数据的窗口。另外,运行人员利用监控系统可以向测控设备下达控制命令(例如开关的分闸、合闸等),实现对现场的一次设备的有效控制。(2) 各种设备参
24、数状态表达以及报警信号处理监控系统可以明确的表示变电站设备的状态量。这些状态量包括断路器状态、刀闸状态的变化、继电保护装置的动作情况等。变电站的设备在运行的过程中难免会出现短路、过电压、过负荷等异常情况。监控系统提供了事件与报警功能,使得一次设备运行的各种异常状态以及各种变化都能迅速得到响应。另外,监控系统还具有对远程设备进行参数调节、修改以及向上级电力调度系统发送数据等作用。(3) 事故追忆和趋势分析监控的目的除了监视和控制设备外,还有可以对设备的运转情况进行分析评价,对事故发生可能性进行预测。从这个意义考虑,监控系统具有对实时历史数据的保留和系统操作情况记录功能。2.2 变电站常见的故障变
25、电站故障诊断需要判断的故障源通常有电力线路、母线、变压器、无功补偿设备等。下面将对变电站中上述设备的常见故障依次进行详细的介绍。2.2.1 电力线路故障电力线路是电力系统的重要组成部分,电能通过它进行分配和传输。通常把从电源向负荷中心传输电能的线路定义为输电线路,其电压等级为:35kV、110kV、220kV、330kV、500kV等;把担任分配任务的线路称为配电线路,其电压等级为:380/220V、6kV、10kV等。变电所之间通过输电线路进行联接,通过配电线路将电能送到用户。电力线路按照其结构可以分为两类:架空输电线路和地下电缆线路。它们是电力系统的动脉,其运行情况决定电网的安全性、可靠性
26、和效益。电力线路常见的故障类型及故障原因见表2-1。表2-1 电力线路的故障类型及故障原因故障类型故障原因断路故障 导线在外力作用下被碰断; 导线的连接金具锈蚀,连接头松脱; 铜铝接头严重腐蚀、氧化造成断开; 导线连接部位发热熔断。短路故障 导线绝缘层、支持绝缘等受外力作用损坏; 雷击、大风等恶劣天气导线间绝缘被破坏; 导线绝缘子表面污秽,造成闪络; 由于检修失误或操作错误造成人为的短路。2.2.2 母线故障母线是变电站中重要的一类元件。变电所中同一电压等级配电装置的连接,以及变压器等电气设备和相应电压等级配电装置的连接都是通过母线实现的。母线有软硬之分,多是矩形或圆形截面的裸导线。通过母线,
27、电能才可以集中、分配与传送。一旦母线发生故障,与母线相连接的所有元件都将停电,甚至造成变电站全站失压和供电区域内的大面积停电,后果非常严重。母线本身故障主要是短路故障,并且大多数情况下为单相接地短路故障。母线失电是指母线本身无故障而失去电源,一般是由于系统故障、继电保护、开关误动或该母线上的出线、变压器等故障、开关或保护拒动,而使该母线上的电源开关越级跳闸所致;判断母线失电的依据是同时出现下列现象:(1)该母线的电压显示消失;(2)该母线的各出线及变压器负荷消失;(3)该母线所供的站用变失电。母线故障通常是由母线差动保护动作来切除的。引起母线差动保护动作的主要原因有:(1)母线绝缘子因污秽或者
28、大雾天气等引起的闪络;(2)母线电压互感器发生故障;(3)连接在母线上的电流互感器发生故障;(4)断路器和装设在母线侧的隔离开关的支持绝缘子损坏;(5)由于工作人员的误操作而产生的母线故障。2.2.3 变压器故障变压器作为变电站的核心设备,在变电站中的地位非常重要。它的作用是通过变换电压达到传输功率的目的。变压器主要有升压变压器和降压变压器两种类型。升压变压器进行升压后,线路损耗得以减少,送电成本就更加经济,可以实现电能的远距离传输;降压变压器进行降压后,高电压变为满足用户需要的各级使用电压。由于变电站的变压器大多安装在户外,受外界的自然环境的影响比较大,同时变压器的运行还受到负荷的影响,加上
29、短路故障的威胁,极有可能出现异常和故障。变压器常见的故障类型和原因如表2-2。表2-2 变压器的故障类型及故障原因故障类型故障原因内部短路 各相绕组之间相间短路; 一相绕组线匝间短路; 某相绕组与铁芯间接地短路; 某相引出线与外壳间接地短路。外部短路 外部引线之间发生相间短路; 绝缘套管破损或闪络等引起的引出线经外壳单相接地短路。2.2.3 无功补偿设备故障变电站用于无功补偿的设备主要是并联电容器。并联电容器的主要功能是用于补偿电力系统的无功功率,使得功率因数提高,从而改善电压质量和降低线路损耗,提高电力系统中电气设备出力。电力系统中的负荷如变压器、电动机等,大部分都是感性负荷,它们在运行过程
30、中需要消耗大量的无功功率。在变电站中安装并联电容器等无功补偿设备,就可以向这些设备提供无功功率,就能够减少了无功功率在电力系统中的流动,降低变压器、线路等因输送无功功率而造成的电能损耗。变电站的并联电容器通常是油浸式的,这类电容器用金属箔(作为极板)与绝缘纸一起卷绕,由若干元件、绝缘件和紧固件经过压装而构成电容心子并浸渍到绝缘油中,电容极板的引线经串、并联后引至出线瓷套管下端的出线连接片。现在有的电力电容器还装设放电线圈和熔丝。电容器常见的故障类型和可能的故障原因见表2-3。表2-3 电容器的故障类型及故障原因故障类型故障原因渗油 外壳焊接处锈蚀 瓷质套管和外壳交界的地方有裂纹; 旋紧套管接头
31、螺栓过程中用力过大造成套管破裂; 设备外壳质量不好,有渗漏点。异响 外部套管、引线接头发生放点; 内部电容有局部放电; 内部引接线松动接触不良造成放电。发热 导线连接处螺丝松动; 反复投切,多次受励磁涌流作用; 过电压运行; 环境温度过高。电容击穿 小动物(如老鼠等)钻入引线接头间造成短路; 瓷瓶表面积攒大量灰尘,受潮等外部影响下发生相间短路 长期在过电压情况下运行,绝缘介质过早的老化变形、爆破 绝缘油渗漏,内部进入空气,导致介质膨胀; 电容器与外壳间的绝缘遭到破坏 通风条件差,油温升高、运行电压变化较大 电容设备质量差,内部元件击穿2.3 本章小结本章首先介绍了变电站故障诊断的信息来源,即S
32、CADA系统的基本知识。SCADA系统是电力综合自动化系统中最基本的功能模块,具有信息量大、实时更新、能帮助快速诊断出系统故障状态等优势,已成为电力调度必不可少的工具之一。该系统以计算机为基础,对现场的运行设备进行监视和控制。另外,对变电站常见故障类型进行了介绍,变电站故障诊断的主要任务就是对故障源的识别过程,变电站常见的故障源有电力线路、母线、变压器、无功补偿设备等。本文在简要介绍了常见故障源的基本功能和在系统中所处地位的基础上,又详细分析了不同故障源的故障类型、原因和现象,为故障诊断提供可靠依据。第3章 粗糙集的基本理论粗糙集(Rough Set,RS)理论是由波兰科学家ZPawlka在1
33、982年提出的一种数学方法,该数学方法是用来处理不确定信息的方法。由于该方法能够定量的分析处理不严密、不确定或不完全的信息与知识,因此受到了社会科学及自然科学和工程等各领域学者的广泛关注。于此之前的数学方法有概率统计理论、证据理论、模糊集理论,它们都是用来处理不精确不确定性的数学工具。传统的这些对不确定信息处理的方法在处理问题时需将先获得所要处理问题的大量信息,比如说数据的附加信息等,这些在实际问题中是很难获得到的,所以在处理信息量较大的问题方面就显得能力不足,而RS理论作为一种独立的理论也可与上述方法相结合,克服传统方法的不足来增强处理不确定性、不精确问题的能力。RS理论作为一种新的理论,在
34、最近的十几年里有着飞速的发展,受到了学者们的广泛的关注。目前,该理论的有效性已成功应用在多种领域。它具有以下几种特点:(1) 不考虑先验知识。利用粗糙集分析不确定问题的时候只需提供数据本身所有的信息,不用额外附加任何先验信息。而对于其他传统方法,比如概率论和模糊理论等方法一般来说需要额外提供数据信息,如概率分布和模糊隶属函数等,而现实应用中往往不容易得到或者得不到此类信息。(2) 强大的数据分析工具。RS理论具有强大的处理不确定性、不完备或错误的信息的能力。它能够对所要分析处理的数据进行简约并能得到其最简形式,又不失关键信息。在工程领域尤为适用。(3) 具有知识与分类的能力。在粗糙集理论中,“
35、知识”是对论域的划分,利用知识对所要分析的数据进行划分,而所有这种方法的集合就构成了知识库。(4) 新型成员。粗糙集理论避免了主观人为等因素的影响,它可以根据已存在的分类知识得出粗糙集的隶属度。这一点与传统方法不同。(5) 知识表达较为科学。粗糙集利用决策表对知识进行表示与简约,在实际工程中,通过对数据进行操控来处理知识。本章将系统地介绍粗糙集(Rough Set,RS)理论的相关概念与方法。3.1 等价关系掌握等价关系的概念,是准确理解粗糙集理论的基础。定义3.1.1 假设两个集合和,则称为一个序偶。在序偶中不可以交换和的位置,若交换,则变成另一个序偶。若与来自同一集合,则序偶中的两个元素和
36、也都来自同一个集合。定义3.1.2 对于两个集合和,则所有构成的集合为和的笛卡尔乘积,记为。即。定义3.1.3 两个集合和的乘积的集合中,一个子集称为到的一个关系。记为。例3.1 一组关于水果的集合苹果,香蕉,梨,桔子,哈密瓜,西瓜,柚子,黄桃,葡萄,石榴,水果数量的集合2,4,6,7,则(苹果,7),(香蕉,7),(梨,7),(桔子,7),(哈密瓜,4),(西瓜,4),(柚子,4),(黄桃,2),(葡萄,2),(石榴,6),就是水果的集合到其对应数量集合的一个关系。定义3.1.4 定义3.1.4 如果集合上的关系集合满足下列条件,则是集合上的等价关系。设集合是集合上的关系,满足:(1)如果,
37、则称满足自返性集合或者称是自返的。(2)如果,若由必然推出,则称满足对称性或称是对称的。(3)如果,若由并且必然推出,则称满足传递性或称是可传递的。定义3.1.5 如果集合上的关系满足以下几个性质,即,它是可传递的、对称的、自返的,则称为等价关系,若,则称和等价或者称和是不可分辨的。定义3.1.6 若是上的等价关系,对于任意,定义所有与等价的元素所构成的集合为,即,则称是由元素所生成的等价类。对于例3.1中的关于水果的集合,具有“相同数量”的等价类如下所示:“数量为7的水果” (苹果,7),(香蕉,7),(梨,7),(桔子,7)“数量为6的水果”(石榴,6)“数量为4的水果”(哈密瓜,4),(
38、西瓜,4),(柚子,4)“数量为2的水果”(黄桃,2),(葡萄,2)对于集合上的等价关系若满足以下关系:(l)对于所有,或,或;(2)从(1)可以得出,若,则说明生成的等价类与生成的等价类必相等。所以对于,无需指明是哪种元素。从(2)可以得出,元素所生成的等价类的并集为集合。定义给定集合,设非空集合满足:(1);(2),如果,则;(3);则称集合是对集合的划分。由上述定义可知,上的一个等价关系可以推出集合的一个划分,相反,这个结论反过来说也是成立的,即由的一个划分也可以推出上的等价关系。设为的一个划分,则的定义为:设与是中的元素,若与都属于,则。通过验证得到关系是上的一个等价关系。由此验证得出
39、,划分与等价关系是相对应的。3.2 知识的定义与分类知识是人工中一个非常的概念。解决复杂性问题需要的知识以及这些知识的机构。知识在不同的范畴中有不同的含义。但任何知识都是对事物变化及规律的一种概括性描述。在粗糙集理论中,知识被看作是关于论域的划分,是一种对对象进行分类的能力。归根结底知识就有对事物的特征将进行分门别类。在该理论中,可以通过对象属性值的不同而将其分为不同的类别。基于等价关机较为易处理,所以就可以把分类用等价关系来替代。定义3.2.1 设为论域,且,为中的一簇等价关系,则二元组称为一个知识库。定义3.2.2 若,且,则(P中全部等价关系的交集)也是一种等价关系,记为,称为P上的不可
40、分辨关系。其中,为所有与不可分辨的对象所在的集合,即,中的每个对象都与有同样的属性。在分类知识中,基本等价类为其最小模块。设基本等价类为,由U中得到,它是将U中的不可辩分关系(P)分成相互之间不可相交的子集,即。由于描述中对象的属性都是相同的,所以之间是不可分割的。令和为两个知识库,若,也就是说时,则说明是等价的,即。它的涵义是:将化分的基本等价类的一样的,描述的对象的概念也是一样的。换而言之,知识等价类就是用不同的描述方式来描述同一的相同事实。比如说,首先令要被分类的对象的集合为,再令已经分类后的结果放在属性集中,若分类的结果无误的话,则可以说和的等价类是一致的,即用划分的等价类与用描述的分
41、类结果。3.3 信息系统四元组被称为粗糙集理论中的一个知识系统,或者也可以称为属性值系统。它是对客观事物的一种描述。U为论域,且,用来表示,A是表示属性的集合,且,可来表示,V为属性值域集,是的值域,V,是一个信息函数,它为每个对象的每个属性赋予一个信息值,即。设为一个知识表达系统,且,称为条件属性集,为决策属性集且和都可用以下两个集合来表示:,故决策系统也可用信息系统来表示,即用来表示。例如,设F的论域;其属性为其中是条件属性集,为决策属性集。各属性值域均为:,F的信息表可用下图表示,信息表中所有对象的全部信息都可以直接通过该表来查看,每一行就代表一个对象的全部信息,其中:行为对象,列为属性
42、。表3-1 信息表的一个示例Uabcd0120120110102101110000103.4 可辨识矩阵和可辨识函数3.4.1 可辨识矩阵 令为信息系统,其中,论域为(),条件属性集合为,决策属性为,将在属性上的值记录到中,为矩阵中第行与第列所对应的元素。则用下面集合来表示可辨识矩阵: (3-1)其中,。该矩阵可解释为,第一行所描述的意思是其对应的元素值不是同一个属性值的集合;第二行当所对应的元素值是0的时候代表其决策值是相同的;第三行所对应的元素值是,即其属性值是一样的,而决策值不是一样的,此种情况说明该记录为冲突的。3.4.2 可辨识函数可辨识函数是由可辨识矩阵得来的。先起的每个属性,再起
43、所有的()。通过吸收率把可辨识函数简化为标准式,此时,所有质蕴含式中的属性涵盖了信息系统内所有约简的集合。对于把上述方法,其命名为属性约简的基本方法,通过运用该方法可以将所有的属性约简求出来,不过这种方法有一点不足之处,它往往只能将较小的数据集进行无误的约简,较大的则不可以。3.5 知识的化简在粗糙集理论里,在一个论域中,如果存在很多的知识是多余的,是不起决定性作用的,运算时可以将这些多余的知识从论域中删除,这样做非但不能影响到最后的结果,而且还简化了结果。令为一簇等价关系,如果存在关系,称是能忽略的,相反则是不能忽略的。同样的,分类的关系与其近似,给定一个属性集合,若在集合中有一些属性特征有
44、无均可,删除它们对了解认识这个属性集合没有收到影响,其等价关系依然不变。这就产生了独立的知识,它说明该集合里任一属性都是有用的。定义:若存在,如果是独立的,满足,则表示为,并把称为的一个约简。定义:一簇等价关系的约简可能不止一个,将所有进行约简后的集合相交定义为的核,用来表示:。在知识库中,是一个非常重要的必不可少的属性集,中所有约简后的且是共同的等价关系都包含其中。知识的依赖性问题,即一类知识可不可以推出另一类相关知识,具体将其定义为如下:令为一个知识基,满足 (1) 往往当,知识依赖于,记为; (2) 当且,知识和等价,记为; (3) 当与都不存在时,和为独立的。其中表示的基本等价类可以用
45、的基本等价类的组合来表示。3.6 决策表对于前面提到的知识,可以用决策表来描述其表示方法,它对于描述知识是非常重要的。表中首先给了条件属性,结果为决策属性,一些问题都可用它来表达。对于一个知识表达系统,在中所有对象构成的集合称为,为描述对象的属性集合,、分别被称为条件和决策属性集,既有条件属性又有决策属性的知识表达系统可用决策表进行描述,记为,简写为决策表。不可分辨关系称为条件类, 称为决策类。另外,该表处理都是离散型数据。若数据为连续型,需先将其变为离散型。3.7 决策表的约简3.7.1 属性约简属性的最佳约简的求取是约简的最终目标。其定义的标准:在保证原有信息数量的基础上,通过约简使属性为
46、最少,或者决策规则最优,或者总的数据约简量为最大。在信息系统中,每一个对象就是系统中条件属性的属性值。然而,中的某些属性可能是冗余的,因为他们不能给中的对象提供任何附加信息。首先将设为条件属性的非空子集,若有子集,存在关系,那就称为属性的依赖集,若不是,则为独立集。如果是独立集,且存在关系,则称是的约简,从上述得知,的约简是条件属性的最大独立集。将的全部约简簇设为。对于属性,如果满足关系,则称a为中不可省略的,相反,称a为中可省略的。中所有不可省略属性集的集合称为的核,换而言之,的所有约简簇包含了的核,且存在关系:。3.7.2 属性约简方法1. Pwalawk约简方法首先介绍一下Pwalawk
47、的约简方法,对于该方法,可以对其进行如下约简,在决策表中,任意一个条件属性,称之为,将对其约简,至条件属性集合不能再约简:对于一个决策属性,若要被删除后使得不影响其结果,这就说明该属性是可以被删除的。相反,若删除后会影响结果,则说明其是不能被删除的决策属性。相对决策属性是必要的。2. 基于可辨识矩阵的启发式算法利用可辨识矩阵能够对属性进行约简。基于此,通过可辨识矩阵演绎出不少启发式约简算法。该类方法首先需要获得可辨识矩阵,然后通过其求出属性核,利用某种启发式规则将属性加入属性核,满足条件后最终结束。现今国内国外有很多优秀的启发式算法,利用核的概念作为起始点来进行约简,将其落实为最小的约简。该方法的启发规则是利用属性的重要性,它的过程是这样的,将其按重要性划分,按其大小顺序进行排列,依次加入属性,直到结束,下一步要依次观察各个属性,若删除后对其约简结果是否产生影响,不影响,则删除。3. 遗传算法适值函数和表示方法是用来区分利用各种遗传算法来计算简约的两个方面。现介绍的这个遗传算法,它是众多方法中较为有代表性的方法:每个位串代表可辨识矩阵的一项,若该属性存在,则某位是1,否则不存在。也就是说每一个位串是一个约简的候选。该适值函数为如下定义: (3-2)说明如下:表示属