《基于粗糙集理论的网络评教研究大学毕业论文.doc》由会员分享,可在线阅读,更多相关《基于粗糙集理论的网络评教研究大学毕业论文.doc(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于粗糙集理论的网络评教研究摘 要数据的约简包括属性约简和属性值约简1,现在数据约简的方法很多,粗糙集理论是数据约简和数据挖掘的重要工具,数据约简和数据挖掘相互联系,它们没有必然的划分界限,通过粗糙集工具和决策树工具以及用粗糙集理论建立决策树的理论可以将数据约简的理论方法加以开发推广,本文通过对数据约简理论的发散研究,结合现在比较前沿的观点和实例阐明数学工具和方法理论之间的联系。首先介绍数据约简工具Rough Sets理论应用范围和前景,粗糙集理论历史,特点以及与粗糙集理论相关的基本概念和基本的约简算法(包括A.Skowron提出的分辨矩阵约简算法和基于可辨识矩阵的启发式约简算法),粗糙集在数
2、据挖掘中的应用,包括数据挖掘的基本概念,数据挖掘的基本任务(重点介绍了现在流行的基于决策树的数据分类算法),并且给出了粗糙集在数据挖掘中的应用举例。用粗糙集理论可以建立决策树,包括决策树的核心技术,粗糙集理论构造决策树的方法和决策树的应用介绍,现又新提出的双论域下粗糙集数据约简方法。然后分析国内外网络的教学评估系统的研究成果,并且结合课堂教学质量评价表,将数据约简理论成功运用于网络评教中。关键字:数据约简,Rough Sets理论,数据挖掘,网络的教学评价,离算化。Abstract Reduction of data, including attribute reduction and att
3、ribute value reduction 1, data reduction is now a lot of methods, rough set theory is the data reduction and an important tool for data mining, data reduction and data mining interrelated, they are not the delineation of boundaries is bound through the rough set tools and decision tree tools, as wel
4、l as the establishment of rough set theory with the theory of decision tree could be the theory of data reduction methods to promote the development of this paper the data reduction of the divergence theory, in combination with cutting-edge Now views and examples of mathematical tools and methods to
5、 clarify the link between theory. First data reduction tool introduced Rough Sets Theory and prospects of applications, rough set theory of history, characteristics of the rough set theory and basic concepts and basic reduction algorithm (including A. Skowron proposed reduction algorithm to distingu
6、ish Matrices and Heuristic attribute reduction based on discernibulity matrix and its application), rough Set in the application of data mining, including the basic concepts of data mining, data mining of the basic tasks (focusing on the now popular data-based decision tree classification algorithm)
7、, and rough sets are given in the application of data mining, for example. Rough set theory with the theory of decision tree, including the core technology decision tree, decision tree structure of rough set theory methods and the application of decision tree that is also the new dual-domain of roug
8、h set theory data reduction methods. Analysis of the network at home and abroad and then teaching evaluation system of research results, and combined with the quality of classroom teaching evaluation form, data reduction will be successfully applied to the theory of teaching evaluation.Key words: Th
9、e data reduction, Rough Sets theory, the data mining, the network teaching appraisal, to calculates.31目 录摘 要IIAbstractIII目 录引 言1引 言2第一章粗糙集的基本理论31.1粗糙集历史31.2粗糙集特点41.3粗糙集理论的基本概念4第二章基于粗糙集在数据挖掘算法研究122.1数据挖掘的概念122.2数据挖掘的基本任务122.3应用实例13第三章.基于粗糙集建立决策树的算法16第四章双论域下粗糙集数据约简方法174.1变精度粗糙集模型:174.2双论域下的粗糙集模型17第五章关
10、于网络的教学评价185.1教学评价的定义和网络教学评价的理论指导思想及定义185.2国外网络教学评价研究成果195.3 国内网络教学评价研究分析215.4网络教育教学评价过程中应该注意的问题23第六章数据约简理论在网络评教中的应用246.1.数据的预处理246.2对决策表进行属性约简276.3决策规则的生成27第七章 总结与展望29参考文献30致 谢32引 言 Rough Sets理论是1982年由波兰数学家Z. Pawlak 提出的对不确定知识进行表示的理论。近年来,粗糙集作为一种新生的处理不确定性知识的数学工具,由于其独特的计算优势,及其在数据挖掘、机器学习、数据库知识发现、决策分析、专家
11、系统和决策支持系统等方面的成功应用,粗糙集数据分析(RSDA)逐渐被公认为人工智能领域最具潜力的五大新兴技术(粗糙集理论、神经网络、演化计算、模糊系统及混沌系统)之一。同时,该理论还在农学、医学、化学2 、材料学、地理学、管理科学和金融等其他学科得到成功应用。现在决策表又在决策表属性简化、决策规则的简化是粗糙集理论与实际应用的主要研究方向之一。约简是粗集理论的重要内容,通过删除知识库中多余的属性集(值),来保留知识库中的重要知识,以提高知识的质量,方便用户决策.近年来,许多学者通过不同的方法从不同的角度对决策规则获取(值约简)做了深入的研究。约简包括属性约简和属性值约简,在进行属性值约简之前我
12、们必须先进行属性约简。目前,静态的属性约简算法主要有两类,一类是基于信息熵的算法。另一类是基于可辨识矩阵和可辨识函数构造的属性约简算法,下面据此理论进行发散研究,并将其成功运用于学校师生教学评价管理之中,提升教学管理水平。第一章粗糙集的基本理论1.1粗糙集历史现实生活中有许多含糊现象并不能简单地用真、假值来表示,如何表示和处理这些现象就成为一个研究领域。早在1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词,他把它归结到边界线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类。 1965年,Zadeh提出了模糊集,不少理论计算机科学家和逻辑
13、学家试图通过这一理论解决G.Frege的含糊概念,模糊集在实际中仍有比较广泛的应用,模糊集理论采用隶属度函数来处理模糊性,以先验知识为基础,正因为建立在可靠的已知知识基础上,对不确定问题的处理往往会得到很好的结果。(比如基于模糊技术的题库管理系统,基于模糊推理的高校专业课程体系评价专家系统,基于模糊信息处理的高校选课系统构建3)。 20世纪80年代初,波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集(Rough Sets),他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。由于它有确定的数学公式描述,完全由数据决定,所以更有客观性 。自
14、提出以来,许多计算机科学家和数学家对粗糙集理论及其应用进行了坚持不懈的研究,使之在理论上日趋完善,特别是由于20世纪80年代末和90年代初在知识发现等领域得到了成功的应用而越来越受到国际上的广泛关注。1991年波兰数学家Pawlak教授的第一本关于粗糙集的专著Rough Sets: Theoretical Aspects of Reasoning about Data 和1992年R.Slowinski主编的关于粗糙集应用及其与相关方法比较研究的论文集的出版,推动了国际上对粗糙集理论与应用的深入研究。1992年在波兰Kiekrz召开了第1届国际粗糙集讨论会。从此每年召开一次与粗糙集理论为主题的
15、国际研讨会。2001年5月在重庆召开了“第1届中国Rough集与软计算学术研讨会”,邀请了创始人Z. Pawlak教授做大会报告;2002年10月在苏州第2届中国粗糙集与软计算学术研讨会;2003年5月在重庆第3届中国粗糙集与软计算学术研讨会;2004年10月中下旬在浙江舟山召开第4届中国粗糙集与软计算学术研讨会;2005年8月1日至5日在鞍山科技大学召开第五届中国Rough集与软计算学术研讨会(CRSSC2005);2006第六届中国粗糙集与软计算学术研讨会在 ,浙江师范大学;2007年粗糙集与软计算、Web智能、粒计算联合学术会议, 山西大学;2008年第8届中国粗糙集与软计算学术会议、第
16、2届中国Web智能学术研讨会、第2届中国粒计算学术研讨会联合学术会议(CRSSC-CWI-CGrC2008), 河南师范大学4. 1.2粗糙集特点粗糙集是一种软计算方法。软计算的概念是由模糊集创始人Zadeh提出的. 软计算中的主要工具包括粗糙集(RS),模糊逻辑(Fuzzy Logic ),神经网络(NN ),概率推理(Probability Reasoning ),信度网络(Belief Networks),遗传算法(GA ) 与其它进化优化算法,混沌(Chaos) 理论等.传统的计算方法即所谓的硬计算(hard computing) , 使用精确,固定和不变的算法来表达和解决问题. 而软
17、计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案, 以便更好地与现实系统相协调。1.3粗糙集理论的基本概念人的的分类能力是对人类以及其他物种,事物的认识能力,是一种知识。从认知科学的观点来理解知识,知识是基于对对象的分类能力,知识直接与真实或抽象世界有关的分类模式联系在一起,称为论域U。设定有一个论域U,对于任何子集XU可成为一个U中的概念或范畴,U的任何概念族称为U的抽象知识,简称知识。关于U的一个划分定义为:= 其中XiU,Xi,XiXj=,ij,i,j=1,2,n, =U.U上的一族划分称为关于U的一个知识库(knowledge ba
18、se)。 设R是U上的一个等价关系,U/R表示R的所有等价类,或U上的划分构成的集合,XR表示包含元素XU的R等价类。 一个知识库就是一个关系系统K=(U,R),其中U为非空有限集,是论域,R是U上的一族等价关系。 若PR且P,P(P中所有等价关系的交集)也是一个等价关系,称为P上不可区分关系(indiscernibility),记为IND(P),IND(P)=P,且有 XIND(P)=XHHP. U/IND(P)表示等价关系族(P)的相关知识,称为K中关于U的P基本知识(P为基本集)5。 1.3.1信息系统的定义有序对S=(U,A),其中U为非空有限集合,称为全域。A=CD,CD,C表示条件
19、属性集,D表示决策属性集。全域U的元素被称为对象或者实例。下面用表1所示的经典天气决策信息系统为例6 ,表1中,a1 ,a2 ,a3 ,a4 是条件属性,分别代表天气、温度、湿度、风。d是决策属性,论域U = x1,x2, x 147。 1.3.2不可区分关系 R的非空子集P上的不可区分关系为ind(P).称U/ind(P)为K=(U,R)关于论域U的P基本知识。称xind(P)为P的基本概念。Ind(k)=ind(P)| PR。例如:空间物体集合U具有“颜色”、“形状”这两种属,“颜色”的属性值取为红、黄、绿,“形状”的属性值取为方、圆、三角形。从离散数学的观点看,“颜色”、“形状”构成了U
20、上的一族等效关系。U中的物体,按照“颜色”这一等效关系,可以划分为“红色的物体”、“黄色的物体”、“绿色的物体”等集合;按照“形状”这一等效关系,可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合;按照“颜色+形状”这一合成等效关系,又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”等集合。如果两个物体同属于“红色的圆物体”这一集合,它们之间是不可分辨关系,因为描述它们的属性都是“红”和“圆”。不可分辨关系的概念是RS理论的基石,它揭示出论域知识的颗粒状结构。1.3.3上近似,下近似 给定知识库K=(U,R),对X且XU,一个等价关系,RInd(K).称RX=YU/
21、R|YX为X关于R的下近似。称 X= YU/R|YX为X关于R的上近似。1.3.4粗糙集若RXX则X为R粗糙集。否则称X为R精确集。1.3.5重要性设R是一族等价关系,RR,如果 ind(R)=ind(R-R),则称R为R不必要的;否则称R为R必要的。 如果每一个RR都为R必要的,则称R为独立的;否则称R为依赖的。1.3.6 属性约简 对于A的任意子集B, 我们把B叫做A的约简,如 果IND(B)=IND(A) ,且IND(B a) IND(A)8属性约简是粗糙集理论的核心问题之一。1.3.7决策表RS理论中应用决策表来描述论域中对象。它是一张二维表格,每一行描述一个对象,每一列描述对象的一种
22、属性。属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类。对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果。约简定义为不含多余属性并保证分类正确的最小条件属性集。一个决策表可能同时存在几个约简,这些约简的交集定义为决策表的核,核中的属性是影响分类的重要属性。从另一个角度看,决策表中每一个对象都蕴着一条分类规则,决策表实际上也是一组逻辑规则的集合。1.3.8决策表定义决策表可以定义如下:S=(U, A)为一信息系统,且C, DA是两个属性子集,分别称为条件属性和决策属性,且CD=A,CD=,则该信息系统称为决策
23、表,记作T=(U, A, C, D)或简称CD决策表。关系IND(C)和关系IND(D)的等价类分别称为条件类和决策类。1.3.9决策表的分类:当且仅当 CD,决策表T=(U, A, C, D)是一致的。由命题1,很容易通过计算条件属性和决策属性间的依赖程度来检查一致性。当依赖程度等于1时,我们说决策表是一致的,否则不一致9。1.3.10决策表的属性约简方法一致决策表的约简步骤如下:对决策表进行条件属性的约简,即从决策表中消去某一列;(主要研究点)消去重复的行;消去每一决策规则中属性的冗余值。非一致决策表的约简:对于一致的决策表比较容易处理,在进行约简时,只要判断去掉某个属性或某个属性值时是否
24、会导致不一致规则的产生。 而对不一致表进行约简时就不能再使用这种方法了,一般采用下面的方法:一种是考虑正域的变化,另外一种是将不一致表分成完全一致表和完全不一致表两个子表 。非一致决策表的约简步骤与一致决策表的约简步骤类似。1.3.11Skowron的约简方法 决策表属性约简的过程就是从决策表信息系统的条件属性中去掉不必要的条件属性,已获得表示更简单,对决策更有效的决策规则。属性约简的方法有很多,其中A.Skowron提出一种用分辨矩阵表示知识的约简方法非常著名,另外还有数据分析约简方法,归纳属性约简算法,基于互信息的属性约简算法,基于特征选择的属性约简算法,基于搜索策略的属性约简算法,等等。
25、约简算法如下:令s=(U,R,V,f)是一个信息系统,U为论域且U=x1,x2,xn,R=CD是属性集合子集C和D别是条件属性集和决策属性集,V=是属性值的集合,表示属性值rR的属性值范围,即属性r的值域,f:URV是一个信息函数,它指定U中每一个对象r的属性值。r(x)是对象x在属性r上的值,D(x)是记录x在D上的值,则可辨识矩阵记为:(Cij)m=rC:r(xi) r(xj) D(xi) D(xj) =0 D(xi)=D(xj) =-1 r, r(xi)=(xj) D(xi) D(xj) i,j=1,2,n以上公式指出:当决策属性不同且条件属性也不完全相同时,元素值为互不相同的属性组合;
26、当决策属性相同时,元素值为0;当决策属性不同而条件属性完全相同时,元素值为-1,该情况表明数据有误或提供条件属性不足。一个数据集的所有约简可以通过构造分辨矩阵并且化简由分辨矩阵导出的区分函数而得到,在使用吸收律化简区分函数成标准式后,所有的蕴含式包含的属性就是信息系统的所有约简集合。根据分明函数与约简的对应关系,A.Skowron提出了计算信息系统S的约简RED(S)的方法:(1)计算信息系统S的分明矩阵M(S)(2)计算与分明矩阵M(S)对应的分明函数fM(S)(3) 计算分明函数fM(S)的最小析取范式,其中每个析取分量对应一个约简, 将所有的析取表达式进行合并,得到一个合取范式。(4)将
27、合取范式改为析取范式。(5) 输出属性约简结果。析取范式中的每个合取项就对应一个属性约简的结为每个合取项中所包含的属性组成约简后的条件属性集合10,11。为了对决策表进行约简,可以采用分明矩阵的方法对条件属性进行约简,对决策属性相同的个体不予比较。考虑下面的决策表,条件属性为a,b,c,d,决策属性为e 。表 2U/Aabcdeu110210u200121u320210u400222u511210由下面的分明矩阵很容易得到核为c,分明函数fM(S)为c(ad),即(ac)(cd),得到两个约简a, c和c, d 表3 表2对应的分明矩阵uu1u2u3u4u5u1u2a,c,du3a,c,du4
28、a,dca,du5a,b,ca,b,d根据得到的两个约简,表5可以简化为下列决策表:表 4UAaceu1120u2011u3220u4022u5120 表 5UAcdeu1210u2121u3210u4222u5210 所有约简的计算是NP-hard问题(NP 是 Non-deterministic Polynomial的缩写,NP问题就是指其解的正确性可以在多项式时间内被检查的一类问题。比如说数组求和,得到一个解,这个解对不对呢,显然是可以在多项式时间内验证的。再比如说SAT,如果得到一个解,也是能在多项式时间内验证正确性的。所以SAT和求和等等都是NP问题。然后呢,有一部分NP问题的解已经
29、可以在多项式时间内找到,比如数组求和,这部分问题就是NP中比较简单的一部分,被命名为P类问题。那么P以外的NP问题,就是目前还不能够在多项式时间内求解的问题了。如果所有NP问题都可以多项式归约到问题A,那么问题A就是 NP-Hard)因此运用启发信息来简化计算以找出最优或次优约简是必要的。 现在在求最优或次优约简的算法一般都使用核作为计算约简的出发点,计算一个最好的或者用户指定的最小约简。算法将属性的重要性作为启发规则,按照属性的重要度从大到小逐个加入属性,直到该集合是一个约简为止。行的约简:对决策表中的重复的行要删除,因为它们的条件属性和决策属性都相同,都表示同一条决策规则。另外,决策规则的
30、列表顺序不是本质性的,所以表4、表5都可进行约简,如表6可简化为下表: 表 6UAaceu1120u1011u3220u4022对于决策表而言,属性值的约简就是决策规则的约简。决策规则的约简是利用决策逻辑消去每个决策规则的不必要条件 ,它不是整体上约简属性,而是针对每个决策规则,去掉表达该规则时的冗余属性值,即要计算每条决策规则的核与约简。1.3.12基于可辨识矩阵的启发式约简算法输入:决策表(U,Ad),其中A=i=1.n。输出:约简:reduct。步骤:1)令约简后得到的属性集台等干条件属性集台,即reduct=R;(2)计算可辨识矩阵M,并找出所有不包含核属性的属性组合S;(3)将所有不
31、包含核属性的属性组合表示析取范式的形式即P= ai,k:i=1,s,k=1,m;(4)将P转化为析取范式的形式并按照公式(2)计算属性的重要性。(5)选择其中重要性最小的属性a,使得reduct,reduct,a;(6)判断约简操作是否成立,若成立删除因条件属性约简而引入的冗余样本和不相容样本,i=i+1,转(5);否则恢复约简该属性前的样本数据,结束约简。第(6)步中的判断条件为P1/Po a式中P0为执行本次约简操作前知识表中样本的数量,p1为执行约简后引入的不相容样本数。a为阈值,根据实际需要确定,通常取a=512。1.3.13“约简”和“核”概念的重要性“约简”和“核”这两个概念很重要
32、,是RS 方法的精华。RS理论提供了搜索约简和核的方法。计算约简的复杂性随着决策表的增大呈指数增长,是一个典型的NP完全问题,当然实际中没有必要求出所有的约简。引人启发式的搜索方法有助于找到较优的约简,即所含条件属性最少的约简13。第二章基于粗糙集在数据挖掘算法研究2.1数据挖掘的概念数据挖掘(Data Mining)意在从大量的不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等14。2.2数据挖掘的基本任务数据挖掘的
33、主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。1)关联分析(association analysis)关联规则挖掘由Rakesh Apwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的,可被发现的知识。关联分为简单关联,时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度,相关性等参数,使得所挖掘的规则更符合需求。2)聚类分析(clustering)聚类是把数据按照相性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏
34、观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。3)分类(classification)分类就是找出一个类别的概念描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定得算法而求得分类规则。分类可被用于规则描述和预测。分类可描述如下:输入数据,或称训练集(training set)是一条条记录组成的。每一条记录包含若干条属性(attribute),组成一个特征向量。训练集的每条记录还有一个特定的类标签(类标签)与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:(v1,v2,vn:c)。在这里vi表示字段值,
35、c表示类别。分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不能肯定。我们也可以由此对数据中的每一个类有更好的理解。也就是说:我们获得了对这个类的知识。分类技术有很多,如决策树、贝叶斯网络、神经网络、遗传算法、关联规则等。基于决策树的数据分类算法主要有ID3和C4.5算法。Quinlan提出的著名的ID3学习算法是较早的经典算法。它通过选择窗口来形成决策树,是利用信息论中的互信息寻
36、找训练集具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。C4.5算法和ID3算法相似,它是对ID3算法的一种改进,它是根据信息增益(Information Gain)值选择作为分裂结点的属性及标准,按照此标准将训练集分成若干个子集。这两中种方法的优点是描述简单,分类速度快,分类较准确特别适合大规模的数据处理。但这两种算法是借用信息论中的互信息或信息增益作为单一属性能力的度量,试图减少树的平均深度,忽略了叶子数目的研究,其启发式函数并不是最优的,存在的主要问题还有:(1)抗噪性差,训练例子中正例和反例较难控制
37、。(2)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。(3)这两种算法只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。4)预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。5)时序模式(time-series pattern)。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,他也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。6)偏差分析(deviation)在偏差中包括很多有用的知识
38、,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检测的基本方法就是寻找观察与参照之间的差别。数据挖掘的基本技术包括统计学,聚类分析和模式识别,决策树分类技术,人工神经网络和遗传基因算法,规则归纳,可视化技术。2.3应用实例粗糙集理论运用病例得出规则,帮助医生做出诊断:信息系统如下: 表7 一知识信息系统条件属性决策属性患者头疼肌肉疼体温感冒e1是是正常否e2是是高是e3是是很高是e4否是正常否e5否否高否e6否是很高是e7否否高是e8否是很高否上系统描述了8个患者的症状,U=e1,e2,e3,e4,e5,e6,e7,e8,C=头疼,肌肉疼,体温,D= 感冒。根
39、据定义计算知c的d约简为体温,感冒,核也为体温,感冒。 U/C=x1,x2,x3,x4,x5,x6,其中x1=e1,x2=e2,x3=e3,x4=e4,x5=e5,e7,x6=e6,e8. U/D=Y1,Y2.其中,y1=e2,e3,e6,e7,Y2=e1,e4,e5,e8. 确定性规则有如下几种。 R12:IF(头疼,是)且(体温,正常)THEN(感冒,否)。 R21:IF(头疼,是)且(体温,高)THEN(感冒,是)。R31:IF(头疼,是)且(体温,很高)THEN(感冒,是)。R42:IF(头疼,否)且(体温,正常)THEN(感冒,否)。不确定规则有:R51:IF(头疼,否)且(体温,高
40、)THEN(感冒,是)。规则的确定性因子为0.5。R52:IF(头疼,否)且(体温,高)THEN(感冒,否)。规则的确定性因子为0.5。R61:IF(头疼,否)且(体温,很高)THEN(感冒,否)。规则的确定性因子为0.5。R51:IF(头疼,否)且(体温,很高)THEN(感冒,是)。规则的确定性因子为0.5。患者5和患者7,患者6和患者8,症状相同,但有个是感冒另一个却不是,这种情况称为不一致(inconsistent)另外在文献10中提出了一种粗糙集属性约简的启发式算法本算法的存储空间主要是用于排序,空间复杂度是O(|C|),而传统的算法用分辨矩阵计算约减属性的核,空间复杂度是O(|C|2
41、),空间复杂度降低了许多 ,最后得到的决策规则为:规则1 ( a1 ,晴) ( a3 ,高) ( d , N) . 规则2 ( a1 ,多云) ( d , P) . 规则3 ( a1 ,雨) ( a4 ,否) ( d , P) . 规则4 ( a1 ,雨) ( a4 ,真) ( d , N) . 规则5 ( a1 ,晴) ( a3 ,正常) ( d , P)高效约简算法,大数据集,并行计算以及混合计算等问题是粗糙集在数据挖掘中需进一步研究的问题。第三章.基于粗糙集建立决策树的算法建立决策树的目标是通过训练样本集,建立目标变量关于各输人变量的分类预测模型,全面实现输入变量和目标变量不同取值下的数
42、据分组,进而用于对新数据对象的分类和预测。当利用所建决策树对一个新数据对象进行分析时,决策树能够依据该数据输入变量的取值,推断出相应目标变量的分类或取值。决策树技术中有各种各样的算法,这些算法都存在各自的优势和不足。目前,从事机器学习的专家学者们仍在潜心对现有算法的改进,或研究更有效的新算法。总结起来,决策树算法主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集,完成决策树的建立过程。第二,决策树的剪枝问题,即利用检验样本集,对形成的决策树进行优化处理15。在数据挖掘中,分类是一个很重要的问题,有很多流行的分类器可以创建决策树来产生类模型。文献16提出了一种基于粗糙集理论构造单
43、变量决策树的优化算法,文献17介绍了通过信息增益或熵的比较来构造一棵决策树的数据挖掘算法思想,给出了用粗糙集理论构造决策树的一种方法,并用曲面造型方面的实例说明了决策树的生成过程。通过与ID3 方法的比较,该种方法可以降低决策树的复杂性,优化决策树的结构,能挖掘较好的规则信息。 决策树方法是一种逼近离散之间函数的方法,对噪声数据具有很好的健壮性。决策树方法具有速度快、精度高、生成的模式简单等优点,在数据挖掘中受到许多研究者的关注。决策树的算法很多,1986 年J. Ross Quinlan 提出了著名的决策树归纳算法ID3 版本,引起了很大的反响。在此基础上,他又对ID3 算法进行了补充和改进
44、,于1993 年提出了非常流行的C4.5 算法,以后又出现了C4.5 的商业改进版C5.0 算法。此外还有一些可伸缩算法如SLIQ、SPRINT和雨林算法等也有相当广泛的应用。在数据挖掘的决策树算法中,主要技术难点在于如何选择一个好的分支取值,用信息熵的增益率作为属性选择标准,可以加快决策树的生长速度。 决策树技术的应用很广泛,目前,尤其在金融、贸易、电信等方面应用的研究很热点,体育教学质量评价的公平、合理、高效离不开决策树技术的支持。从目前查阅大量资料来看,决策树技术应用于体育教学质量评价的研究,已引起体育教育管理部门部分专家的关注,目前虽然没有成功的应用系统,当然,这将成为体育学术界不容忽视的研究方向,但理论的研究已趋成熟,并不断得到完善。文献18中指出决策树在教学评估中运用正确的实例,我们看到:数据挖掘技术在教育层面上应用早已开始。第四章双论域下粗糙集数据约简方法4.1变精度粗糙集模型:Ziarko等人提出的变精度粗糙集(Variable Precision Rough Set简称VPRS)模型是对Pawlak的粗糙集(Rough Set简称RS)模型的一种扩展。VPRS通过设置阈值参数,放松了RS理论对近似边界的严格定义,0.51。当=1时,VPRS模型就变成了RS模型,因此RS模型是VPRS模型的一个特例。随着增加,