《统计学数据到结论幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学数据到结论幻灯片.ppt(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学数据到结论第1页,共70页,编辑于2022年,星期二第十二章 判别分析判别分析 第2页,共70页,编辑于2022年,星期二12.1 12.1 判别分析判别分析(discriminant analysis)某些昆虫的性别只有通过解剖才能够判别某些昆虫的性别只有通过解剖才能够判别但雄性和雌性昆虫在若干体表度量上有些综但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知得到一个标准,并以此标准来判别其他未知性别的昆虫
2、。性别的昆虫。这样虽非这样虽非100%100%准确的判别至少大部分是对的,准确的判别至少大部分是对的,而且用不着杀生。而且用不着杀生。此即判别分析此即判别分析第3页,共70页,编辑于2022年,星期二判别分析判别分析(discriminant analysis)判别分析和聚类分析有何不同?判别分析和聚类分析有何不同?在在聚聚类类分分析析中中,人人们们一一般般事事先先并并不不知知道道应应该分成几类及哪几类,全根据数据确定。该分成几类及哪几类,全根据数据确定。在在判判别别分分析析中中,至至少少有有一一个个已已经经明明确确知知道道类类别别的的“训训练练样样本本”,并并利利用用该该样样本本来来建建立立
3、判判别别准准则则,并并通通过过预预测测变变量量来来为为未知类别的观测值进行判别了。未知类别的观测值进行判别了。第4页,共70页,编辑于2022年,星期二判别分析例子判别分析例子数数据据disc.txt:企企图图用用一一套套打打分分体体系系来来描描绘绘企企业业的的状状况况。该该体体系系对对每每个个企企业业的的一一些些指标(变量)进行评分。指标(变量)进行评分。指指标标有有:企企业业规规模模(is)、服服务务(se)、雇雇员员工工资资比比例例(sa)、利利润润增增长长(prr)、市市场场份份额额(ms)、市市场场份份额额增增长长(msr)、流流动动资资金金比比例例(cp)、资金周转速度、资金周转速
4、度(cs)等等.另另外外,有有一一些些企企业业已已经经被被某某杂杂志志划划分分为为上升企业、稳定企业和下降企业。上升企业、稳定企业和下降企业。第5页,共70页,编辑于2022年,星期二判别分析例子判别分析例子希希望望根根据据这这些些企企业业的的上上述述变变量量的的打打分分及及其其已已知知的的类类别别(三三个个类类别别之之一一:group-1代代表表上上升升,group-2代代表表稳稳定定,group-3代代表表下下降降)找找出出一一个个分分类类标标准准,以以对对尚尚未未被被分分类的企业进行分类。类的企业进行分类。该该数数据据有有90个个企企业业(90个个观观测测值值),其其中中30个个属属于于
5、上上升升型型,30个个属属于于稳稳定定型型,30个个属属于于下下降降型型。这这个个数数据据就就是是一一个个“训训练样本练样本”。第6页,共70页,编辑于2022年,星期二Disc.savDisc.sav数据数据 第7页,共70页,编辑于2022年,星期二1.根据距离判别的思想根据距离判别的思想Disc.txt数数据据有有8个个用用来来建建立立判判别别标标准准(或或判判别别函数函数)的的(预测预测)变量变量,另一个另一个(group)是类别是类别每每一一个个企企业业的的打打分分在在这这8个个变变量量所所构构成成的的8维维空空间间中中是是一一个个点点。这这个个数数据据在在8维维空空间间有有90个个
6、点,点,由由于于已已知知所所有有点点的的类类别别,可可以以求求得得每每个个类类型型的的中中心心。这这样样只只要要定定义义了了距距离离,就就可可以以得得到到任任何何给给定定的的点点(企企业业)到到这这三三个个中中心心的的三三个个距离。距离。第8页,共70页,编辑于2022年,星期二1.根据距离判别的思想根据距离判别的思想最最简简单单的的办办法法就就是是:某某点点离离哪哪个个中中心心距离最近,就属于哪一类。距离最近,就属于哪一类。一个常用距离是一个常用距离是Mahalanobis距离。距离。用用来来比比较较到到各各个个中中心心距距离离的的数数学学函函数称为判别函数数称为判别函数(discrimin
7、ant function).这这种种根根据据远远近近判判别别的的思思想想,原原理理简简单单,直观易懂。为判别分析的基础直观易懂。为判别分析的基础第9页,共70页,编辑于2022年,星期二2.Fisher2.Fisher判别法判别法(先进行投影先进行投影)Fisher判别法就是一种先投影的方法。判别法就是一种先投影的方法。考虑只有两个考虑只有两个(预测预测)变量的判别问题。变量的判别问题。假假定定只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二维空间的一个点。见图。二维空间的一个点。见图。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。一一类类有有38个个点点(用用“o
8、”表表示示),另另一一类类有有44个个点点(用用“*”表表示示)。按按原原来来变变量量(横横坐坐标标和和纵坐标纵坐标),很难将这两种点分开。,很难将这两种点分开。第10页,共70页,编辑于2022年,星期二第11页,共70页,编辑于2022年,星期二2.Fisher2.Fisher判别法判别法(先进行投影先进行投影)于于是是就就寻寻找找一一个个方方向向,即即图图上上的的虚虚线线方方向向,沿沿该该方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别别效效果果不不会会
9、比这个好。比这个好。有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法得得到到判判别别准准则则。这这种种先先投投影影的的判别方法就是判别方法就是Fisher判别法。判别法。第12页,共70页,编辑于2022年,星期二Fisher判别法的数学第13页,共70页,编辑于2022年,星期二3.逐步判别法逐步判别法(仅仅是在前面的方法中加入变量选择的功能仅仅是在前面的方法中加入变量选择的功能)有有时时,一一些些变变量量对对于于判判别别并并没没有有什什么么作作用用,为为了了得得到到对对判判别别最最合合适适的的变变量量,可可以以使使用用逐逐步步判判别别。即,一边判别,一边选
10、择判别能力最强的变量,即,一边判别,一边选择判别能力最强的变量,这这个个过过程程可可以以有有进进有有出出。一一个个变变量量的的判判别别能能力力的的判判断断方方法法有有很很多多种种,主主要要利利用用各各种种检检验验,例例如如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或或The Sum of Unexplained Variations等等检检验验。其其细细节节这这里里就就不不赘赘述述了了;这这些些不不同同方方法法可可由由统统计计软软件件的的各各种种选选项项来来实实现现。逐逐步步判别的其他方面和前面的无
11、异。判别的其他方面和前面的无异。第14页,共70页,编辑于2022年,星期二Disc.txt例子例子利利用用SPSS软软件件的的逐逐步步判判别别法法淘淘汰汰了了不不显显著著的的流流动动资资金金比比例例(cp),还还剩剩下下七七个个变变量量。用用x1,x2,x3,x4,x5,x6,x7分分别别表表示示标标准准化化后后的的变变量量is,se,sa,prr,ms,msr,cs,得得到到两两个个典典则则判判别别函数(函数(Canonical Discriminant Function Coefficients):):这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个
12、个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是是下下面面的的SPSS输输出出得得到到的:的:第15页,共70页,编辑于2022年,星期二Disc.txt例子例子根根据据这这两两个个函函数数,从从任任何何一一个个观观测测值值(每每个个观观测测值值都都有有7个个变变量量值值)都都可可以以算算出出两两个个数数。把把这这两两个个数数目目当当成成该该观观测测值值的的坐坐标标,这这样样数数据据中中的的150个个观观测测值值就就是是二二维维平平面面上上的的150个个点点。它它们们的的点点图图在在下下面面图中。图中。第16页,共70页,编辑于2022年,星期二第17页,共70页,编
13、辑于2022年,星期二Disc.txt例子例子从从上上图图可可以以看看出出,第第一一个个投投影影(相相应应于于来来自自于于第第一一个个典典则则判判别别函函数数横横坐坐标标值值)已已经经能能够够很很好好地地分分辨辨出出三三个个企企业业类类型型了了。这这两两个个典典则则判判别别函函数数并并不不是是平平等等的的。其其实实一一个个函函数数就就已已经经能能够够把把这这三三类类分分清清楚楚了了。SPSS的的一一个个输输出出就就给给出出了了这这些些判判别别函数(投影)的重要程度:函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第
14、第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点点的的位位置置远远近近算算出出具具体体的判别公式(的判别公式(SPSS输出):输出):第18页,共70页,编辑于2022年,星期二Disc.txt例子例子具体的判别公式(具体的判别公式(SPSS输出),由一张分类函数表给出:输出),由一张分类函数表给出:该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值
15、值,哪哪个个值值最最大大,该该点点就就属属于于相相应应的的那那一一类类。当当然然,用用不不着着自自己己去去算算,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属,但但即即使使是是这这些些训训练练样样本本的的观观测测值值(企企业业)按按照照这这里里推推导导出出的分类函数来分类,也不一定全都能够正确划分。的分类函数来分类,也不一定全都能够正确划分。第19页,共70页,编辑于2022年,星期二Disc.tx
16、t例子例子下面就是对我们的训练样本的分类结果(下面就是对我们的训练样本的分类结果(SPSS):):第20页,共70页,编辑于2022年,星期二误判和正确判别率误判和正确判别率从该表看,我们的分类能够从该表看,我们的分类能够100%地把训练数据地把训练数据的每一个观测值分到其本来的类。的每一个观测值分到其本来的类。该表分成两部分;上面一半(该表分成两部分;上面一半(Original)是)是用从全部数据得到的判别函数来判断每一个用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。后三行为相应的百分比)。下面一半(
17、下面一半(Cross validated)是对每一个观测)是对每一个观测值,都用缺少该观测的全部数据得到的判别值,都用缺少该观测的全部数据得到的判别函数来判断的结果。函数来判断的结果。这里结果是这里结果是100%正确,但一般并不一定。正确,但一般并不一定。第21页,共70页,编辑于2022年,星期二Disc.txt例子例子如如果果就就用用这这个个数数据据,但但不不用用所所有有的的变变量量,而而只只用用4个个变变量量进进行行判判别别:企企业业规规模模(is)、服服务务(se)、雇雇员员工工资资比比例例(sa)、资资金金周周转转速速度度(cs)。结结果果的的图图形形和和判判别别的的正正确确与与否否
18、就就不不一一样样了了。下下图图为为两两个个典典则则判判别别函函数数导导出出的的150个企业的二维点图。它不如前面的图那么容易分清楚了个企业的二维点图。它不如前面的图那么容易分清楚了 原先的图原先的图第22页,共70页,编辑于2022年,星期二Disc.txt例子例子下面是基于下面是基于4个变量时分类结果表:个变量时分类结果表:这这个个表表的的结结果果是是有有87个个点点(96.7%)得得到到正正确确划划分分,有有3个个点点被被错错误误判判别别;其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类,有有一一个个被被误判为第三类。误判为第三类。第23页,共70页,编辑于2022年,星期二1
19、2.2判别分析要注意什么判别分析要注意什么?训练样本中必须包含所有要判别的类型,训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这是要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不最重要的。当然,在应用中,选择余地不见得有多大。见得有多大。要注意数据是否有不寻常的点或者模式要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。)和相关分析来验证。第24页,共70页,
20、编辑于2022年,星期二判别分析要注意什么判别分析要注意什么?判别分析是为了正确地分类,但同时也要注判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结使用较少的变量意味着节省资源和易于对结果作解释。果作解释。在计算中需要看关于各个类的有关变量的均值是在计算中需要看关于各个类的有关变量的均值是否显著不同的否显著不同的检验结果检验结果(在在SPSS选项中选择选项中选择Wilks Lambda、Raos V、The Squared Mahalanobis Distance或或The Sum of
21、 Unexplained Variations等检验的计算机输出等检验的计算机输出),以确以确定是否分类结果仅由于随机因素。定是否分类结果仅由于随机因素。第25页,共70页,编辑于2022年,星期二判别分析要注意什么判别分析要注意什么?此外成员的权数(此外成员的权数(SPSS用用prior probability,即即“先验概率先验概率”,和贝叶斯统计的先验概率,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比各类观测值的多少,观测值少的就要按照比例多加权。例多加权。对于多个判别函数,要弄清各自的重要性。对
22、于多个判别函数,要弄清各自的重要性。注意训练样本的正确和错误分类率。研究被误分注意训练样本的正确和错误分类率。研究被误分类的观测值,看是否能找出原因。类的观测值,看是否能找出原因。第26页,共70页,编辑于2022年,星期二SPSS选项选项打开打开disc.sav数据。然后点击数据。然后点击AnalyzeClassifyDiscriminant,把把group放入放入Grouping Variable,再定义范围,即在,再定义范围,即在Define Range输入输入13的范围。然后在的范围。然后在Independents输入所有想用的变量;输入所有想用的变量;但如果要用逐步判别,则不选但如果
23、要用逐步判别,则不选Enter independents together,而选择,而选择Use stepwise method,在方法(在方法(Method)中选挑选变量的准则(检验方法;默认值)中选挑选变量的准则(检验方法;默认值为为Wilks Lambda)。)。为了输出为了输出Fisher分类函数的结果可以在分类函数的结果可以在Statistics中的中的Function Coefficient选选 Fisher和和Unstandardized,在,在Matrices中选择输出中选择输出所需要的相关阵;所需要的相关阵;还可以在还可以在Classify中的中的Display选选summa
24、ry table,Leave-one-out classification;注意在;注意在Classify选项中默认的选项中默认的Prior Probability为为All groups equal表示所有的类都平等对待,而另一个选项为表示所有的类都平等对待,而另一个选项为Compute from group sizes,即按照类的大小加权。,即按照类的大小加权。在在Plots可选可选 Combined-groups,Territorial map等。等。第27页,共70页,编辑于2022年,星期二附录附录第28页,共70页,编辑于2022年,星期二费歇费歇(Fisher)判别法判别法并未要
25、求总体分布类型并未要求总体分布类型工作原理就是对原数据系统进行工作原理就是对原数据系统进行坐标变换坐标变换,寻求能够将总体尽可能寻求能够将总体尽可能分开的方向分开的方向.点点x在以在以a为法方向的投影为为法方向的投影为ax各组数据的投影为各组数据的投影为第29页,共70页,编辑于2022年,星期二将将Gm组中数据投影的均值记为组中数据投影的均值记为 有有记记k组数据投影的总均值为组数据投影的总均值为 有有第30页,共70页,编辑于2022年,星期二组间离差平方和为组间离差平方和为:这里这里组内离差平方和为组内离差平方和为:这里这里第31页,共70页,编辑于2022年,星期二注注:L=|E|/|
26、B+E|为有为有Wilks分布的检验零假设分布的检验零假设H0:m m(1)=m m(k)的似然比统计量的似然比统计量.Wilks分布常用分布常用c c2分布近似分布近似(Bartlett)第32页,共70页,编辑于2022年,星期二希望寻找希望寻找a使得使得SSG尽可能大而尽可能大而SSE尽可能小尽可能小,即即记方程记方程|B-l lE|=0的全部特征根为的全部特征根为l l1 l lr0,相应的相应的特征向量为特征向量为v1,vr.D D(a)的大小可以估计判别函数的大小可以估计判别函数yi(x)=vix(=ax)的效果的效果.记记pi为判别能力为判别能力(效率效率),有有最大的值为方程最
27、大的值为方程|B-l lE|=0的最大特征根的最大特征根l l1.使使第33页,共70页,编辑于2022年,星期二m个判别函数的判别能力定义为个判别函数的判别能力定义为据此来确定选择多少判别函数。据此来确定选择多少判别函数。再看逐步判再看逐步判别法。别法。第34页,共70页,编辑于2022年,星期二判别分析判别分析(Discriminant Analysis)第35页,共70页,编辑于2022年,星期二和聚类分析的关系和聚类分析的关系判别分析和聚类分析都是分类判别分析和聚类分析都是分类.但判别分析是在已知对象有若干但判别分析是在已知对象有若干类型和一批已知样品的观测数据类型和一批已知样品的观测
28、数据后的基础上根据某些准则建立判后的基础上根据某些准则建立判别式别式.而做聚类分析时类型并不知而做聚类分析时类型并不知道道.可以先聚类以得知类型可以先聚类以得知类型,再进行判再进行判别别.第36页,共70页,编辑于2022年,星期二距离判别法距离判别法假设有两个总体假设有两个总体G1和和G2,如果能如果能够定义点够定义点x到它们的距离到它们的距离D(x,G1)和和D(x,G2),则则如果如果D(x,G1)D(x,G2)则则 xG1如果如果D(x,G2)0即即D(x,G1)D(x,G2)则则 xG1如果如果W(x)D(x,G2)则则 xG2如果如果W(x)=0即即D(x,G1)=D(x,G2)则
29、待判则待判第39页,共70页,编辑于2022年,星期二当当m m(1),m m(2),S S 已知已知时时,令令a=S S-1(m m(1)-m m(2)(a1,ap),则则显然显然W(x)为为x1,xp的线性函数的线性函数,称为线性判别称为线性判别函数函数;a称为判别系数称为判别系数.第40页,共70页,编辑于2022年,星期二当当m m(1),m m(2),S S 未知未知时时,可通过样本来估计可通过样本来估计:判别函数为判别函数为为来自为来自Gi的样本为的样本为(i=1,2)第41页,共70页,编辑于2022年,星期二非线性判别函数非线性判别函数:当当S S(1)S S(2)时时这是这是
30、x的一个二次函数的一个二次函数,按照距离最近原则按照距离最近原则,判判别准则仍然为别准则仍然为如果如果W(x)0即即D(x,G1)D(x,G2)则则 xG1如果如果W(x)D(x,G2)则则 xG2如果如果W(x)=0即即D(x,G1)=D(x,G2)则待判则待判第42页,共70页,编辑于2022年,星期二多总体时的线性判别函数多总体时的线性判别函数:当当S S(1)=S S(k)=S S时时记记相应的准则为相应的准则为:如果对一切如果对一切ji,Wij(x)0,则则 xGi如果有某一个如果有某一个Wij(x)=0,则待判则待判第43页,共70页,编辑于2022年,星期二非线性判别函数非线性判
31、别函数:当当S S(1),S S(k)不等时不等时相应的准则为相应的准则为:如果对一切如果对一切ji,Wij(x)0,则则 xGi如果有某一个如果有某一个Wij(x)=0,则待判则待判.当当m m(i),S S(i)未知未知时时,可通过样本来估计可通过样本来估计第44页,共70页,编辑于2022年,星期二m个判别函数的判别能力定义为个判别函数的判别能力定义为下面以两总体下面以两总体(k=2)为例来发现阈值为例来发现阈值.它们的均值它们的均值 的投影分别为的投影分别为当总体方差相等时当总体方差相等时阈值为阈值为第45页,共70页,编辑于2022年,星期二总体方差不等时总体方差不等时,注意到注意到
32、 的样本方差为的样本方差为 类似地类似地,第二组数据投影的样本方差为第二组数据投影的样本方差为于是阈值于是阈值如如判别规则为判别规则为第46页,共70页,编辑于2022年,星期二用用m个线性判别函数个线性判别函数yi(x)=vix,i=1,m,时时,先将样本先将样本点在点在L(vi,vm)空间投影再按照空间投影再按照p1情况的距离判别情况的距离判别法来制定判别规则法来制定判别规则.判别能力为判别能力为于秀林书上介绍了对用一个和于秀林书上介绍了对用一个和m个判别函数的加权和个判别函数的加权和不加权方法不加权方法.记记y(x)=vx,其在其在Gi上的样本均值和方差上的样本均值和方差,以及总均值为以
33、及总均值为第47页,共70页,编辑于2022年,星期二m=1时时,不加权法不加权法:m=1时时,加权法加权法:按大小排列按大小排列Di,i+1可为相应两类的分界点可为相应两类的分界点相应的标准差为相应的标准差为 令令第48页,共70页,编辑于2022年,星期二m1时时,不加权法不加权法:记记对对x=(x1,),yl(x)=v(l)xm1时时,加权法加权法:记记则则则则第49页,共70页,编辑于2022年,星期二Bayes判别法判别法不用判别式不用判别式,而用而用比较比较新给样品属于各个总体的新给样品属于各个总体的条件概率条件概率P(l|x),l=1,k,的大小的大小(将新样品判归将新样品判归为
34、来自概率最大的总体为来自概率最大的总体).先给出对于先给出对于k个总体的先验概率个总体的先验概率q1,qk.如各总如各总体密度为体密度为fk(x),则后验概率为则后验概率为(g=1,k):P(g|x)=qgfg(x)/S Si qifi(x)当且仅当当且仅当P(h|x)=maxgP(g|x),判判x来自第来自第h总体总体.也可以用使错判的损失最小来判别也可以用使错判的损失最小来判别.如果如果c(i|j)为为来自来自j总体的个体被错判到第总体的个体被错判到第i总体的损失总体的损失.定义定义平均错判损失平均错判损失(ECM)为为ECM=S Si=1 qiS SliP(l|i)c(l|i)第50页,
35、共70页,编辑于2022年,星期二逐步判别法逐步判别法前面判别用了所有变量前面判别用了所有变量.但是各变量所起作用并不一样但是各变量所起作用并不一样.要有进有出要有进有出,引进引进“最重要的最重要的”并并剔除不显著的剔除不显著的.根据是假设检验根据是假设检验(比比如似然比检验如似然比检验).检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等.Lambda(Wilks Lambda统计量统计量)接近接近0表示组均表示组均值不同值不同,接近接近1表示组均值没有不同表示组均值没有不同.Chi-square是是lambda的卡方转换的卡方转换(Bartelett近似近似),用用于确定其显著性
36、于确定其显著性.第51页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(花瓣花瓣,花萼的长宽花萼的长宽)5个变量个变量:花瓣长花瓣长(slen),花瓣宽花瓣宽(swid),花萼长花萼长(plen),花萼宽花萼宽(pwid),分类号分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04)第52页,共70页,编辑于2022年,星期二StatisticsClassify Discriminant:Variables:independent(slen,swid,plen,pwid)Grouping(spno)Define range(min-1,ma
37、x-3)Classify:prior probability(All group equal)use covariance matrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorial map)Display(Summary table)Statistics:Descriptive(Means)Function Coefficients(Fishers,Unstandardized)Matrix(Within-groups correlation,Within-groups covariance,Separate-
38、groups covariance,Total covariance)Save:(Predicted group membership,Discriminant Scores,Probability of group membership)第53页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(数据分析过程简明表数据分析过程简明表)第54页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(原始数据的描述原始数据的描述)第55页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(合并类内相关阵和协方差阵合并类内相关阵和协方差阵)第56页,共70页,编辑于2022年,星期二
39、鸢尾花数据鸢尾花数据(总协方差阵总协方差阵)第57页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(特征值表特征值表)Eigenvalue:用于分析的前两个典则判别函数的特征值用于分析的前两个典则判别函数的特征值,是是组间平方和与组内平方和之比值组间平方和与组内平方和之比值.最大特征值与组均最大特征值与组均值最大的向量对应值最大的向量对应,第二大特征值对应着次大的组均第二大特征值对应着次大的组均值向量值向量典则相关系数典则相关系数(canonical correlation):是组间平方和是组间平方和与总平方和之比的平方根与总平方和之比的平方根.被平方的是由组间差异解被平方的是由组间
40、差异解释的变异总和的比释的变异总和的比.第58页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(Wilks Lambda统计量统计量)检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等.Lambda接近接近0表示表示组均值不同组均值不同,接近接近1表示组均值没有不同表示组均值没有不同.Chi-square是是lambda的卡方转换的卡方转换,用于确定其显著性用于确定其显著性.第59页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)标准化的典则判别标准化的典则判别函数系数函数系数(使用时必使用时必须用标准化的自变须用标准化的自变
41、量量)第60页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)典则判别函数系数典则判别函数系数第61页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)这是类均值这是类均值(重心重心)处的典则判别函数值处的典则判别函数值这是典则判别函数这是典则判别函数(前面两个函数前面两个函数)在类均在类均值值(重心重心)处的值处的值第62页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(用判别函数对观测量分类结果用判别函数对观测量分类结果)先验概率先验概率(没有给没有给)费歇判别函数系数费歇判别函数系数把
42、自变量代入三个式把自变量代入三个式子子,哪个大归谁哪个大归谁.第63页,共70页,编辑于2022年,星期二 Territorial MapCanonical DiscriminantFunction 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 23 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23 *.0 *12 23 12
43、*23 12 23 12 23 12 23 12 23 -4.0 12 23 12 23 12 23 12 23 12 23 12 23 -8.0 12 23 12 23 12 23 12 23 12 23 12 23 -12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 Canonical Discriminant Function 1Symbols used in territorial mapSymbol Group Label-1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花
44、*Indicates a group centroid鸢尾花数据鸢尾花数据Territory Map(区域图区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种三种鸢尾花鸢尾花的典则变量值把一个典的典则变量值把一个典则变量组成的坐标平面分成三个区则变量组成的坐标平面分成三个区域域.*为中心坐标为中心坐标.第64页,共70页,编辑于2022年,星期二第65页,共70页,编辑于2022年,星期二第66页,共70页,编辑于2022年,星期二第67页,共70页,编辑于2022年,星期二第68页,共70页,编辑于2022年,星期二鸢尾花数据鸢尾花数据(预测分类结果小结预测分类结果小结)可以看出分错率可以看出分错率第69页,共70页,编辑于2022年,星期二后面是相关分析后面是相关分析(Correlation Analysis)第70页,共70页,编辑于2022年,星期二