《数据挖掘概述2(精品).ppt》由会员分享,可在线阅读,更多相关《数据挖掘概述2(精品).ppt(119页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、讲授:吴雄华讲授:吴雄华第一章第一章 数据挖掘概述数据挖掘概述电话:电话:13752460206Email:一、引例网站这种推荐并非漫无边际,而是有一定技术依据的,这种技术就是数据挖掘技术(DM)。网站怎么知道读者可能会对这些物品干兴趣?这是因为网站采用了新的技术来了解顾客的潜在需求,比如:网站从顾客的购买清单中发现你买的书与张三买过的书有几本是相同的,但是还有些书张三已经买了,而你却还没买,网站会据此认为你们的阅读偏好相近,从而你会对那些书也干兴趣。例1。如果你在当当的购书网站并购买过书籍或音像制品,以后再浏览该网站时经常看到类似的提示:“欢迎你,下面是我们给您推荐的新书和VCD。”然后就可
2、以在网页的某个位置看到几本新书或VCD的名字及其相关链接。从这个销售数据中可以得出什么结论?某超市Post机上记录如下的销售数据:例2。啤酒与尿布的故事顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒从数据挖掘的角度就是得到了如下的很强的关联规则:简单分析发现,有6个顾客买了啤酒,而其中5个人买了尿布,或说,5个买了尿布的顾客都买了啤酒。规则1:“买啤酒”“买尿布”。置信度为5/6规则2:“买
3、尿布”“买啤酒”。置信度为5/5结论:“买尿布的顾客很可能会买啤酒”。原因?对决策者的启示:商品的摆放设计和销售策略。二、数据挖掘的定义三、数据挖掘技术产生的动力 数据挖掘的定义有多种不同的定义方式,现在为大家广泛采用的是如下定义:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用的信息。1.数据爆炸问题。例3、美国未来学家阿尔温托夫勒在1980年的著作在第三次浪潮中认为,未来的信息量将以指数级的速度增长。现在已成事实。例5.John Roth在联合国世界电信论坛上又提出了一个关于网络科技的一个观点:互联网
4、宽带每9个月会增加一倍的容量,但成本降低一半,比芯片的变革速度还快。-“光纤定律”。例4.1965年,Intel公司联合创始人Gordon Morore在准备一个演讲时发现了一个具有历史意义的现象:芯片的容量每1824个月增加一倍。他据此推断,按此趋势发展下去,在较短时间内计算能力将呈指数增长。-“摩尔定律”。还有很多案例都可以印证,现在的社会是一个信息爆炸的社会。是在信息的潮流中随波逐流还是“到中流击水,浪遏飞舟”?数据挖掘技术的另一个产生动力2.数据过量而知识贫乏现代人了解古代的主要方式主要是通过前人留下的记录,但是这些记录往往是零碎的、不完全的。例如?想象一下,如果后人希望了解现在人们的
5、生活状况,他们面临的已不再是信息缺失,而是需要从浩如烟海的资料中有选择性的收集他们认为有用的信息,若没有一定技术支持,其难度恐怕可以用“浪里淘金”或“大海捞针”来形容。四、数据挖掘的支撑技术数据挖掘融合了统计、人工智能及数据库等多种学科的理论、方法和技术如统计学:除了实验设计与数据挖掘的关系不大,其他几乎所有方法都可以用于数据挖掘,如估计、假设检验、回归分析、主成分分析、时间序列分析、马尔科夫链等。五、数据挖掘的主要任务1、预测:分类和回归2、关联分析:如研究顾客的行为模式3、聚类分析:例如 对于新闻可以根据他们的主题分组。4、异常检测:识别其特征显著不同于其他数据的观测值(异常点)。主要应用
6、包括检测欺诈、网络攻击、疾病的不寻常模式等。例 6。信用卡欺诈检测信用卡公司记录每个持卡人所做的交易,同时也记录信用限度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行为的数目相对较少,因此异常检测技术可以用来构造合法交易的轮廓。当一个新的交易到达时就与之比较。如果该交易的特性与所构造的轮廓很不相同,就把交易标记为可能是欺诈。第二章第二章 数据数据一、理解数据例 1。有人给你如下数据,每行包含一个病人的信息,用前4个字段预测后一个字段。01223233.5010.702012116.52210.7027165240427.6你做了相关的工作后再与数据提供者交流,字段1只是一个标号不代表
7、任何实际意义,而字段4中0表示缺失值,在录入数据时偏偏所有的10都变成了0.?!二、数据属性及其类型属性(Attitude)是对象的性质或特性。属性类型描述例子分类的(定性的)标称 属性值只是不同的名字,只提供足够的信息区分对象(=,!=)邮编、ID号、颜色、性别序数 属性值只是确定对象的序()矿石硬度等级、成绩(A、B、C)数值的(定量的)区间 属性值之间的差是有意义的(+或-)日期、温度比率 属性值之间的差或比都有意义。绝对温度、年龄、销售量等三、数据集的类型1、记录数据。如TidRufundMaritalStatusTaxableIncomeDefaulted Borrower1YesS
8、ingle125KNo2NoMarried100KNo3Yesdevorce189KYes三、数据集的类型2、事务数据(购物篮数据),如顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒三、数据集的类型3、矩阵数据。如距离矩阵,协方差矩阵,相关系数矩阵等。4、文档词数据。如teamcoachplayballscoregamewinlostfauldoc1305601804Doc207893015
9、6doc30100010405、时间序列数据6、其他四、数据对象之间的相异度和相似度1、简单属性的相似度和相异度假设数据对象只有一个属性,则通常其相似度和相异度可按如下定义。1.1 标称属性的相异度和相似度d=0,如果 x=y1,如果 x y相异度相似度:s=1-d例如,如果只考虑顾客的性别属性,如果都是“男”,则他们的相似度为1,相异度为0.1、简单属性的相似度和相异度1.2 序数属性的相异度和相似度d=|x-y|/(n-1),相异度相似度:s=1-d例如,考虑学生的成绩,共分为A、B、C、D四个等级,则n=4,相异度为2/3.其中n为属性取值的总个数。1、简单属性的相似度和相异度1.3 区
10、间或比率属性的相异度和相似度d=|x-y|相异度较常用的相似度有:s=1/(1+d),例如,考虑如下的身高数据S=1-(d-min_d)/(max_d-min_d)学生S1S2S3S4S5S6S7身高156178166170185168180可以计算学生身高的相异度矩阵如下:学生S1S2S3S4S5S6S7身高156 178166170185168180S1S2S3S4S5S6S7S10221014291224S201287102S30419214S4015210S50175S6012S70二元属性:属性的值只接受两个值:如真/假,男/女、是/否等,通常用0/1表示。则S2与S6之间的相异度为
11、10,而相似度为1/11,有min_d=2,max_d=29,因此,也可以定义相似度为1-(10-2)/(29-2)=19/27。2.数据对象之间的相似度相似性度量的例子2.1。二元数据的相似性度量两个仅包含二元属性的对象之间的相似性度量也称为相似系数。设x和y是两个对象,都由n个二元属性组成。定义如下四个量f00=x取0且y取0的属性个数f01=x取0且y取1的属性个数f10=x取1且y取0的属性个数f11=x取1且y取1的属性个数2.1.1一种常用的相似系数是简单匹配系数(Simple Matching Coeffient,SMC),定义如下SMC=f00+f11f00+f11+f10+f
12、01对于类似顾客是否购买某商品这样的非对称二元数据,这个相似系数则难以体现顾客相同的购买行为。Why?2.1.2 Jaccard 相似系数。Jaccard(Jaccard Coeffient,JC)相似系数定义如下J=f11f11+f10+f01例1.设二元数据对象x和y如下,计算其SMC和J。x=(1 0 0 0 1 0 1 0 0 1)y=(1 0 1 0 1 1 0 0 1 1)解:f00=3f01=3 f10=1 f11=3因此,SMC=6/10,J=3/7例2.设两个顾客x和y购买的商品如下,计算 它们的相似系数SMC和J。商品面包啤酒牛奶茶 糖 鸡蛋盐 大米洋葱大蒜派x101000
13、10010y10100010010商品纯净水可乐水饺口香糖牙膏毛巾洗面奶洗发水面粉味精派瓜子x10010100000y010100000002.1.3 余弦相似度通常类似于文档词这样的数据,度量其相似性不能依赖共享0的个数,如果统计0-0匹配,则大多数文档都非常相似,因此同样要忽略0-0匹配。这类数据最常用的相似度之一就是余弦相似度,定义如下Cos(x,y)=xy/(|x|y|)2.1.4 广义Jaccard系数广义Jaccard系数也可以用于文档数据,并在二元属性情况下归约为Jaccard系数,其定义如下:例3.两个文档向量x和y如下,分别计算其余弦相似度cos(x,y)和EJx=(3 2
14、0 5 0 0 0 2 0 0)EJ=xy/(|x|2+|y|2-xy)y=(1 0 0 3 1 0 6 0 0 1)2.1.4 相关性两个具有二元变量或连续的数据之间对象之间的相关性是对象之间线性联系的度量,一般可以用Pearson相关系数(Pearson,s correlation)来描述。其定义如下:其中第三章第三章 数据挖掘中的数据挖掘中的统计方法统计方法一、数据探索1.1 汇总统计1.1.1频率与众数给定一个在v1,v2,.,vk取值的分类属性x和m个对象的集合,值vi的频率定义为f(vi)=具有属性值vi的对象数/m众数:具有最高频率的分类属性例1.某所大学中各年级的学生人数如下表
15、:则年级属性的众数为“一年级”。对于连续属性,按照目前的定义,众数通常没有用(为什么?),但在某些情况下,众数可能提供关于值的性质或关于出现遗漏值的重要信息。年级人数频率一年级2000.33二年级1600.27三年级1300.22四年级1100.18例如,以毫米为单位,20个人的身高通常不会重复,但如果以分米为单位,则某些人很可能具有相同的身高。此外,如果使用一个唯一的值表示遗漏值,该值通常用众数。1.1.2 百分位数百分位数的定义:设有容量为n的样本观察值想x1,x2,x3,.,xn,样本的p分位数(0p1)是指满足如下性质的xp:A:至少有np个观察值小于或等于xp。B:至多有n(1-p)
16、个观察值大于或等于xp。样本的p分位数xp 可以按如下方法求得:将观察值按自小到大的顺序排列成:x(1)x(2).x(n);即:xp=1。:若np不是整数,则只有一个数据满足定义的两点要求,这一数据位于大于np的最小整数处,即np+1处;2。:若np是整数,则位于np和np+1位置的数据均符合要求,此时取这两个数的平均值作为xp;x(np+1)当np不是整数(x(np)+x(np+1))/2当np是整数与分位数有关常用术语一、极差:x(n)-x(1);median(x)=二、中位数:p=0.5,此时xp称为中位数,记为median(x)其计算如下:x(n/2+1)当n为奇数(x(n/2)+x(
17、n/2+1))/2当n整为偶数三、第一四分位数Q1:p=0.25;第三四分位数Q3:p=0.75;四分位数极差IQR=Q3-Q1;例1.下表是中国各省(市)国有单位的人均报酬,单位:元/年。分别计算p=0.25,0.5,0.75时的分位数及样本均值。地 区 上海 浙 江 浙江 北京 西 藏 人均年收入5031147587475874582344813地 区 广东 天津 江苏 青海 福建 人均年收入3605334509327382868127423地 区山 东 山东 宁夏 重庆 辽宁 人均年收入2698626986261572506024281地 区 四川 湖南 湖 南 内蒙古 广西 人均年收入
18、2404522956229562271122614地 区 云南 山西 河南 甘肃 安徽 人均年收入2227522107220442196821960地 区 贵州 湖北 吉林 陕西 新疆 人均年收入2160821591215022134521213地 区 河北 江西 海南 黑龙江 人均年收入20754192981872018392解:n=34,n*0.75=8.5,Q3=32738(江苏),同理,median=22956(湖北或湖南),Q1=21608(贵州),Q3-Q1=11130,样本均值为27501.59箱线图如下:Q318392黑龙江Q1MinMax21608贵州32738江苏50311
19、上海M箱线图的说明:若中位数位于箱子中间,则数据分布较为对称;若Min离M的距离较Max离M的距离大,在表示数据分布向左倾斜;反之向右。二、估计2.1 点估计2.1.1 矩估计与极大似然估计另外一种常用的估计方法为折叠刀估计,它通过从一组观测值中忽略一个值来实现对参数的估计。假设一个具有n个值的集合x=x1,x2,.,xn,对均值的单次估计为:2.1.2 折叠刀估计(i)=(x1+.+xi-1+xi+1+.xn)/(n-1)对这些单次估计求平均值=(1)+.(n)/n作为总统的均值估计。例:设总体的分布率如下:现有样本的10个观察值:3,3,2,2,1,2,1,2,3,3,分别用矩估计发、极大
20、似然估计法和折叠刀估计法估计。解:矩估计法X123Pk22(1-)(1-)2E(X)=3-2,又样本均值为2.2,因此得矩估计值为0.4极大似然估计:L()=。,的极大似然估计值也是0.4数据:3,3,2,2,1,2,1,2,3,3折叠刀估计法计算(1)=(3+2+2+1+2+1+2+3+3)/9=(2)=(9)=(10)=19/9;因此对总体均值的估计为:((19/9+20/9)*4+21/9*2)/10=19.8/9;(3)=(3+3+2+1+2+1+2+3+3)/9=(4)=(6)=(8)=20/9;(5)=(3+3+2+2+2+1+2+3+3)/9=(7)=(6)=21/9;又E(X)
21、=3-2,令3-2=19.8/9;解得=0.4估计的一个指导思想是奥卡姆剃刀原则(Ockhams Razor):越简单的模型能产生越好的结果。三、主成分分析3.1 主成分分析概述在处理多元样本数据时,经常遇到观察数据多,维数很高的问题。如果有每个观察对象有p个属性,选取n个对象进行观察,则达到np个数据。如何从这些数据中提取主要规律,从而分析样本或总体的主要性质?例如,要分析若干个地区的经济发展状况,对每个地区都要统计很多指标,但如果只根据这些统计数据对不同地区进行评价、比较或排序,则因指标太多、主次不明显很难做到公正客观。另外,这些指标有点是主要的,有点是有的是次要的,甚至某些指标间还有一定
22、的相关性。能否用较少的几项指标来代替原来较多的指标,使得这较少的几项指标仍能反映原来较多的指标反映的信息?主成分分析就是把一种原来多个指标变量转化为少数几个相互独立指标变量的统计方法,它不是去分析比较各指标的重要性,将那些不重要的指标简单去掉,而是通过全面分析各项指标所携带的信息,从中提取一下潜在的综合性指标(称为主成分)。三、主成分分析3.2 主成分分析的数学模型及其求解步骤设每个数据对象的有p个属性(指标)观察了n次,得到观察数据矩阵为用数据矩阵X的p个指标作线性组合(即综合变量)为:系数aij的确定方法:对数据集X进行标准化,标准化后的数据仍记为X,然后求出X的样本协方差阵S和相关系数阵
23、R,进而求出R的特征值与及其对应的特征向量。特征值按从大到小顺序排列对应的标准化特征向量为则第i个综合变量的组合系数(a1i,a2i,api)即为第i个特征值对应的标准化特征向量。即第一个综合变量为:第i个综合变量为:可以Zi与Zj是正交的,因此主成分分析去除了指标之间的线性相关性。主成分分析的目的之一就是为了简化数据结构,因而在实际应用中一般绝不用p个主成分,而选用m个主成分(mGain(Humidity)Gain(Windy)Gain(Temperature)因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast第二层结点的选择与首结点类
24、似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY作为新样本集计算T的信息量为:对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101显然对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPla
25、y=nototalF(T1)123T(T2)011因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes若取Temperature,则重新确定记录集如下:OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFYTempSunnyHighMPlay=NoPlay=No可以看出其三个分支H,
26、C和M下的所有记录也属于相同的类,此分支算法结束。其分支结构如右:CPlay=Yes同理,对于Rain分支,统计数据如下:WindyRainFalseTruePlay=YesPlay=NoOutlook=RTempHumiWindyPlayMHFYCNFYCNTNMNFYMHTN因此选Windy其分支结构如右:同理,对于Overcast分支,统计数据如下:Play=Yes该分支下所有记录均为同一类,因此该分支算法结束,其结构如下右。Outlook=Overcast TempHumiWindy PlayHHFYCNTYMNTYMHTYHNFYOvercast综合以上结果,最后得到决策树如下:Ou
27、tlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast决策树构造好后,给出新的对象便可判别其类别,例如,新的天气对象为:1)“Overcast,cool,high,False”2)“Rain,Mild,Normal,True”,其类别分别为:五、基于数据分布的特征选择策略除了基于信息增益的特征选择策略外,还可以根据结点的数据类别的分布来选择最优分裂结点,称之为Gini Index方法。定义:假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例
28、为pi,则T的Gini Index定义为:假设属性把集合划分为个子集T1,T2,.,Tv,其中Ti所包含的样本数为ni,那么这个划分的Gini Index为:Gini Index的特征选择方法就是逐一计算按每个属性分裂后的Gini Index值,选择gini Index值最小的属性作为分裂属性。下面以前面给出的数据集为例,利用Gini Index选择策略构造决策树的过程。对总样本进行统计如下:样本集TPlay=yesPlay=no样本数95样本集T的gini Index值为对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:OutlookPlay=yesPl
29、ay=nototalSunny(T1)134Overcast(T2)505Rain(T3)325每个子集的Gini Index值如下:因此属性Outlook的Gini Index值为:同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)314因此属性Temperature的Gini Index值为:对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)3
30、47high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其Gini Index值分别为0.3674和0.4357.第三步:比较四个属性的Gini Index值如下:因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast属性OutLTempHumiWindyGini Index值 0.27850.3750.3674 0.4357第二层结点的选择与首结点类似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数
31、据集T。Outlook=STempHumi Windy PlayTHHFNHHTNMHFNCNFY对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则
32、其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes剩下的计算类似,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast六、信息增益和Gini Index值的另一个应用考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下:顾客Id有房婚姻状况年收入拖欠贷款1
33、是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分?可以用信息增益或Gini Index值方法。步骤如下:把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点:类NNNYYYNNNN值607075 859095100120125220候选划分点65 72 8087 9297110 1
34、22 172然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用Gini Index值方法如下:类NNNYYYNNNN值607075 859095100120125220候选划分点65 72 8087 9297110 122 172对于候选点65,划分后类别统计如下类=N类=Y=65(T2)63类NNNYYYNNNN值607075 859095100120125220候选划分点65 72 8087 9297110 122 172对于候选点72,划分后类别统计如下类=N类=Y=70(T2)53类NNNYYYNNNN值607075 859095100120125220候选划分点6
35、5 72 8087 9297110 122 172对于候选点80,对于候选点87,对于候选点92,对于候选点97,对于候选点110,对于候选点122,对于候选点172,最佳候选点根据上面的分析,可把“年收入”属性划分成两个区间(0,97)和97,10000)分别设为属性A1和A2,则原数据集变为:顾客Id有房婚姻状况年收入拖欠贷款1是单身125K(A2)否2否已婚100K(A2)否3否单身70K(A1)否4是已婚120K(A2)否5否离异95K(A1)是6否已婚60K(A1)否7是离异220K(A2)否8否单身85K(A1)是9否已婚75K(A1)否10否单身90K(A1)是再按前面的方法构造
36、决策树,便可对类似的顾客:“否,单身,100K”进行分类判别。七、朴素贝叶斯分类法1.朴素贝叶斯分类方法描述 设样本集T有n个属性:A1,A2,An,可能的类别有m个:C1,C2,Cm,待分类的样本为x=X1,X2,Xn,分别计算条件概率:则条件概率P(Ci|X)最大所对应的类Ci即为X所在的类。在公式(1)中,计算等式左边的每个条件概率时,右边的分母相同,因此只需要计算分子,然后比较大小即可。各概率的计算如下:另外,用朴素贝叶斯分类时还需假设各属性之间相互独立,此时有:2.条件概率 P(xj|Ci)的估计条件概率 P(xj|Ci)的估计值分两种情况情形1.第j个属性Aj为离散型 的情况此时,
37、条件概率 P(xj|Ci)可按如下公式计算:例1:给定训练样本集如下,请用贝叶斯方法判别对象:“rain,hot,high,true”的类别。OutlookTempHumiWindy PlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN解:分类属性Play有两个类,Play=yes(C1)和其Play=no(C2),样本数统计如下:于是P(C1)=9/14,P(C2)=5/14对于Outlook属性,数据汇总如下表:样本集TPlay=yes(C1)Play=no(C2)样本数95于是各条件概率为:O
38、utlookC1(Y)C2(N)Sunny13Overcast50Rain32Total95,同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nohot22mild42cool31total95于是各条件概率为:,对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=noNormal34high61total95WindyPlay=yesPlay=noTrue33False62total95试计算其“条件概率”。对于待分类样本:分别计算以下两个概率:=0
39、.333*0.22*0.33*0.3*0.643=0.0053=0.4*0.4*0.8*0.6*0.357=0.0274,因此 为第二类,即不适合比赛。情形2.第j个属性Aj为连续型 的情况tid有房婚姻状况年收入拖欠贷款1是单身125否2否已婚100否3否但是70否4是已婚120否5否离婚95是6否已婚60否7是离婚220否8否单身85是9否已婚75否10否单身90是考虑如下的训练样本集,如何判别样本的类别?属性“年收入”为连续型数据类型,此时如果再用公式 来估计条件概率已不合适,例如,若新样本的“年收入”为110K,则类似的新样本将无法判别。有两种策略可以用了估计连续型属性的条件概率:1.
40、把连续属性离散化;2.用概率分布来估计条件概率1.把连续属性离散化如前面构造决策树的Gini Index或信息增益方法,把连续属性划分成几个区间,即连续属性离散化。按前面所述,如果把“年收入”划分成两个区间,则最佳的候选划分点为97K,对应区间为(0,97)和97,10000)。通过计算类 Ci中属性“年收入”落入对应区间的比例来估计条件概率 即把训练数据集修改为下表 tid 有房 婚姻状况 年收入97K拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是用Bayes方法估计每个条件概率后,对新给出的任何样本都可以判
41、别。2.用概率分布来估计条件概率假设连续型属性服从某种概率分布(通常假设服从正态分布),然后用训练数据估计出分布的参数,进而计算相应的条件概率。如上例中,假设“年收入”属性为随机变量 对于每个类 Ci,属性值xj属于类Ci的概率为 和分别为类Ci 中随机变量xj的期望和方差可分别用 Ci中xj的观察值的样本均值和标准差估计。如上表数据中“年收入”数据,分别属于两类,设类别C1=“否”,C2=“是”,对应的观察值如下:类别 C1=“否”的两个参数估计如下:年收入125100701209560220857590拖欠贷款否否否否是否否是否是类别 C1=“否”的两个参数估计为:同理,类别 C2=“是”
42、的两个参数估计为:对于新样本 可以估计“年收入”属性相应的条件概率为:下面用上述方法来判别新样本 数据汇总如下:样本集所属的类别。类别C1(No)C2(Yes)total73属性“有房”C1(No)C2(Yes)是30否43Total73 属性“婚姻状况”C1(No)C2(Yes)离异11单身22已婚40Total73对于属性“年输入”,已估计相应的条件概率为:由以上概率计算样本 相应的条件概率为:因此新样本属于第二类,即“是”拖欠贷款。问题1:有一个属性的类条件概率为0,则整个类的后验概率就等于0,如果样本 的类条件概率X应该如何判别?问题2:对于连续型属性Xj,估计条件概率时把它视为连续型随机变量,估计的条件概率为那么,这样估计是否合理?内的类条件概率为问题2的解释:但我们知道,对于连续型随机变量,有假设Xj落在区间对于连续型属性Xj的每个取值xj,都使用同一个小正数在比较时,果,因此公式(5)仍可以用了估计相应的条件概率。成为一个常数乘法因此,不影响比较结 对于问题1,通常使用m值法来估计条件概率以解决这种情况。m值估计法:条件概率的估计值用下式进行估计其中,n为训练样本的总实例数,nc为Ci类中总实例数,m和p是用户事先给定的参数。一般m为正整数,p是位于0与1之间的小数。例.设m=10,p=1/4,试对前面所给的数据重新估计离散型属性的各条件概率。