《基于判别分析的应用.doc》由会员分享,可在线阅读,更多相关《基于判别分析的应用.doc(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 基于判别分析的四个方法及应用摘 要:本文简明扼要的概述了判别分析的基本思想、假设条件、常用方法。针对每一种判别分析方法,文章给出了实证分析,良好地将这四种方法应用于具体实际案例。关键词:判别分析;Fisher判别;Bayes 判别;逐步判别;距离判别Four Examples of Application Based on Discriminant AnalysisLi YanliSchool of Mathematics and Information, StatisticsGrade 2016 Instructor: Liu XinlingAbstract: This paper bri
2、efly summarizes the basic ideas, assumptions and common methods of discriminant analysis. For each discriminant analysis method, the paper gives an empirical analysis and applies the four methods to specific cases.Key words: Discriminant analysis; Fisher discriminant; Bayes discriminant; Stepwise di
3、scriminant; Distance discriminant目 录1.绪论11.1基本思想11.2假设条件11.3常用方法12.费希尔判别法12.1实例应用22.2分析结果与解释43.贝叶斯判别法73.1实例应用73.2分析结果与解释84.逐步判别法114.1实例应用124.2分析结果与解释135.距离判别法155.1实例应用165.2分析结果与解释176.判别分析的其他应用197.结论20参考文献20致 谢21211.绪论判别分析是20世纪30年代产生的,这些年来,它在许多学科中有着广泛的应用,是一种用来判别新的样本属于哪种类型的统计分析方法。与聚类分析有所不同,在进行判别分析之前,事
4、先就把总体的几种类型全部罗列出来,并且每个样品是哪一种类型也是已知的,只是我们要做的就是将新的样品用判别分析进行归类。1.1基本思想对于判别分析,首先要做的就是清楚样本的分类情况;其次是在知道诸多用来表明每个样品特征的变量值的情况下,建立判别规则;最终利用判别规则对新样品对象的所属类型进行判断,并且能够保证判断错误的几率达到最小。1.2假设条件第一个假设条件是,对于每个解释变量来说,它不可以与其他解释变量构成线性组合。因为如果那样就会导致它不能够反映新的信息,更严重的是发生了这种情况就会导致没有办法去估计判别函数。第二个假设条件是,对于各个组的变量来说,它们要有相等的协方差矩阵。因为在判别分析
5、中,线性判别函数是我们最常用的,也是最方便的。并且在这个假设的条件下,我们可以利用一些简单的公式就可以计算出判别函数,也可以对显著性的检验进行操作。第三个假设条件是,对于各个判别变量来说,需要服从多变量正态分布,也就是各个变量对于所有其他变量的固定值有正态分布2。因为在这个假设的条件下,我们能够精确地得出显著性检验的P值,以及分组归属的概率值。如果违背了这个假设,那么所得概率的准确性就会大大降低。1.3常用方法在判别分析时,提出问题的方向有很多,因此它的判别准则也多种多样。比如Mahalanobis Distance Minimum准则、费希尔准则、ECM准则、Least Squares准则、
6、Maximum Likelihood准则、Maximum Probability准则等等,在这些准则的基础上又可以有针对性的提出各种方法。现在简明扼要的概述以下四种常用方法:费希尔判别法、贝叶斯判别法、逐步判别法和距离判别法2。2. 费希尔判别法记总体的样本为,组与组之间的离差矩阵为:,组内的离差矩阵为:,假设有m个解释变量,来构造如下的判别函数:,。当上述判别函数对各个总体的数据均作用后,其数据将变成一元的。这k个一元,其中,当判别函数对数据进行分类时,使类与类之间的差别尽可能大,类的内部差异尽量很小,即应使得的值达到最大。对此,还要使得。最终,费希尔判别分析就是将以下方程组的最优解给解出来
7、:,能够证明,以上方程组的最大值恰好是的特征多项式最大根。假设有m个的非零特征值,它们,那么就能构造出m个判别函数:,为与对应的特征向量。而第个判别函数的判别能力为。当我们实际应用时,不是每个判别函数都能用得到,往往只需选择累计贡献率达到一定水平(例如85%)的前几个判别函数就可以了。2.1实例应用为了通过研究人体舒张压(DBP)大小及血浆胆固醇(CHOL)的含量来进行冠心病的诊断,我们收集了15名冠心病患者和15名正常者的舒张压(DBP)及血浆胆固醇(CHOL)。如表2.1所示:其中编号1-15为冠心病患者(用1来表示患病),16-30为正常者(用2来表示正常)。现在根据这30组有无冠心病的
8、调查数据采用Fisher判别法来判断预测第31号样品是否患有冠心病。表2.1 15名冠心病患者和15名正常者的DBP及CHOL编号组别DBPCHOL119.865.182113.333.733114.663.89419.337.105112.805.496110.664.097110.664.458113.333.639113.335.9610113.335.7011112.006.1912114.664.0113113.334.0114112.803.6315113.335.9616210.662.0717212.534.4518213.333.061929.333.9420210.664.
9、4521210.664.922229.333.6823210.662.7724210.663.2125210.665.0226210.403.942729.334.9228210.662.6929210.662.4330211.203.4231待判9.333.63数据来源:SPSS统计分析从入门到精通数据Chapter12 2.2分析结果与解释我们通过SPSS软件对已知样本数据进行Fisher判别分析的结果如下:表2.2 单因素方差分析组平均值的同等检验威尔克LambdaF自由度 1自由度 2Sig.舒张压0.69412.3191280.002血浆胆固醇0.7399.9101280.004表2
10、.2中显著性的值小于0.05,表示舒张压和血浆胆固醇这两个变量的均值在各组间都是有差异的,因此这两个变量对类间的判别都是有作用的。下面我们再观察典型判别函数的特征函数的特征值。如表2.3所示:表2.3 典型判别函数的特征函数的特征值特征值方差的百分比累计的百分比典型相关系数函数11.169100.0100.00.734在表2.3中特征值只有1个,特征值为1.169,且典型相关系数为0.734。由此,说明函数1具有区别判断力。在分析完特征值的性质之后,我们接下来分析一下Wilks的检验结果。如表2.4所示:表2.4 Wilks检验结果函数检验Wilks Lambdachi-square自由度P值
11、10.46120.90820.000在表2.4的Wilks检验结果中,Wilks Lambda值为0.461,且显著性水平小于0.05,表示组间有差异,即组均值不等,所以本例中判别分析有意义。既然有意义,那么我们可以得到标准化的典则判别函数系数4,如表2.5所示:表2.5 标准化典则判别函数系数函数1舒张压0.882血浆胆固醇0.834根据表2.5的标准化典则判别函数系数,可以得到标准化典则判别函数:再考虑舒张压和血浆胆固醇的结构矩阵,如表2.6所示:表2.6 结构矩阵函数1舒张压0.613血浆胆固醇0.550由于表2.6可以看出,舒张压这个变量对判别函数的贡献为0.613,血浆胆固醇对判别函
12、数的贡献为0.550。说明冠心病与这两个因素均有关。最后,我们得到非标准化典则判别函数系数,如表2.7所示:表2.7 非标准化典则判别函数系数函数1舒张压0.636血浆胆固醇0.797(常量)-10.775根据表2.7的非标准化典则判别函数系数,可以得到非标准化典则判别函数:表2.8 分类结果1,2组别预测组成员信息总计冠心病人正常人原始计数冠心病人12315正常人31215%冠心病人8020100正常人2080100交叉验证个数冠心病人12315正常人41115%冠心病人8020100正常人26731001:正确地对 80.0% 个原始已分组个案进行了分类。2:正确地对 76.7% 个进行了
13、交叉验证的已分组个案进行了分类。从表2.8的分类结果中可以看出,我们正确地对 80.0%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为76.7%,表明能够较好的进行判断。由于我们在SPSS软件的操作步骤中保存了预测组成员结果,即最终的分类结果,如表2.9所示:表2.9 保存预测组成员结果编号组别DBPCHOLDis_1Dis1_1119.865.182-0.380732113.333.7310.669123114.663.8911.64186419.337.1010.812375112.805.4911.734736110.664.092-0.740877110.664.452-0
14、.454018113.333.6310.589449113.335.9612.4460810113.335.7012.2389011112.006.1911.7841012114.664.0111.7374813113.334.0110.8922414112.803.6310.2526115113.335.9612.4460816210.662.072-2.3504917212.534.4510.7344318213.333.0610.135241929.333.942-1.7056420210.664.452-0.4540121210.664.922-0.079492229.333.682-
15、1.9128223210.662.772-1.7927024210.663.212-1.4420925210.665.0210.0001926210.403.942-1.025632729.334.922-0.9247428210.662.692-1.8564529210.662.432-2.0636330211.203.422-0.9315731待判9.333.632-1.95266从表2.9的预测结果中可以看出,我们需要待判的第31号样品属于第二组。上述例子是将30组有无冠心病的调查数据,采用Fisher判别法来判断预测第31号样品是否患有冠心病,我们根据Fisher判别法建立了判别函数,
16、最终很好的预测了第31号样品属于第二组,即第31号样品为正常人。3. 贝叶斯判别法首先介绍一下贝叶斯思想,它是假定对将要研究的对象已经有了一定的认识,经常将之以先验概率分布来表示,其次选取一个样本来修正这个先验概率分布,以此找到后验概率分布,最终采用后验概率分布去做统计推断。当判别分析用到了贝叶斯思想时,就出现了贝叶斯判别。假设有k个,它们分别具有,现在知道上述k个总体的,以此来建立起一定的贝叶斯判别函数和判别规则3。用的一个分割,也就是说之间互相没有交集,并且。是取得合适的,即是说它刚好与k个总体相对应,此时我们的判别规则就可以写为:用来,这种判断错误的概率是:那么根据上述判别规则,则平均损
17、失为:3.1实例应用一所商学院的招生人员将本科生的大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩用作“指标”,帮助学院决定应将哪些申报者录取为学院研究生。为了通过研究本科生的GPA和GMAT成绩来判定一名新申报者的申报结果,我们收集了85名申报者的GPA和GMAT成绩及申报结果。数据如表3.1所示:其中GPA(用x1来表示),GMAT(用x2表示),三种录取结果(用y来表示,且1表示录取,2表示不录取,3表示待定)。表3.1 85名申报者的GPA和GMAT成绩x1x2yx1x2yx1x2y2.9659613.7664612.2938423.1447313.2446712.
18、8649433.2248212.5446622.8549633.2952712.4342523.1441933.6950512.2047423.2837134.4669312.3653122.8944733.0362612.4754223.1531333.1966312.3540623.5040233.6344712.5141222.8948533.5955812.5135922.8044433.3056312.3633923.1341633.4055312.3648223.0147133.5057212.6642022.7949033.7859112.6841422.8943133.4469
19、212.4853322.9144633.4852812.4650922.5754633.4755212.6350422.7344633.3552012.4433623.1246333.2852312.4146923.0341933.3954312.1340823.0844033.2153012.5553823.0050933.5856412.3150523.0343833.3356512.4148923.0533933.4043112.1941122.8548333.3860512.3532123.0145333.2666412.6039423.0341433.0660912.5552823.
20、0444633.3755912.7239923.21497待判3.8052112.853812数据来源:SPSS统计分析方法及应用(第4版)薛薇配套资料1现在假定一名新申请者的GPA=3.21,GMAT=497,下面采用Bayes判别法来对这名新申请者进行分类判别。3.2分析结果与解释首先,对SPSS软件中对大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩进行单因素方差分析,即对大学平均毕业成绩(GPA)和本科毕业生的管理能力测试(GMAT)成绩两组的组平均值是否同等进行检验,运行后得到结果如表3.2所示:表3.2 单因素方差分析组平均值的同等检验威尔克 LambdaF自由
21、度 1自由度 2显著性大学平均成绩0.231136.1742820.000管理才能评分0.54334.4742820.000表3.2中显著性水平的值均小于0.05,即表示大学平均成绩和管理才能评分这两个变量的均值在各组间都是有差异的,因此这两个变量对类间的判别都是有作用的。那么我们再来分析典型判别函数的特征函数的特征值,得到结果如表3.3所示:表3.3 典型判别函数的特征函数的特征值函数特征值方差百分比累计百分比典型相关性14.11095.795.70.89720.1844.3100.00.394表3.3中的特征值有两个,函数1特征值为4.110,函数2特征值为0.184,且函数1的典型相关系
22、数为0.897,函数2的典型相关系数为0.394。由此,说明函数1比函数2更具有区别判断力。在得到函数1比函数2更具有区别判断力之后,还需要看一下Wilks的检验结果,得到结果如表3.4所示:表3.4 Wilks检验函数的检验Wilks Lambda自由度chi-squareP值20.845113.7730.0001 直至 20.1654146.7100.000在表3.4的Wilks检验结果中,1直至2的Wilks Lambda值为0.165,而2的Wilks Lambda值为0.845,卡方值分别为146.710和13.773,且两者的显著性水平均小于0.05,表示组间有差异,即组均值不等,
23、所以本例中判别分析有意义。表3.5 结构矩阵函数1函数2大学平均成绩0.894-0.448管理才能评分0.4090.913由于表3.5表示的是大学平均成绩和管理才能评分与标准化的典则判别函数之间的相关矩阵,由此可以看出,大学平均成绩对判别函数的贡献为0.894,管理才能评分对判别函数的贡献为0.409。说明申报结果与者两个因素均有关,而且与大学平均成绩高度相关。最后,我们得到分类判别系数,如表3.6所示:表3.6 Bayes判别函数的系数录取结果录取不录取待定大学平均成绩70.25550.61661.215管理才能评分0.1520.1200.121(常量)-163.811-89.729-119
24、.483根据表3.6的系数,我们得到以下3个Bayes判别函数:表3.7 判别的分类结果1,2申报结果录取没有录取待定原始个数录取2704不录取0271待定0125%录取87.10.012.9不录取0.096.43.6待定0.03.896.2交叉验证个数录取2704不录取0271待定1223%录取87.10.012.9不录取0.096.43.6待定3.87.788.51:正确地对 92.9% 个原始已分组个案进行了分类。2:正确地对 90.6% 个进行了交叉验证的已分组个案进行了分类。从表3.8的分类结果中可以看出,判别分析分类与原始样品分类一致率高达92.9%,交叉验证的一致率达到了90.6
25、%。即我们正确地对92.9%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为90.6%,表明能够较好的进行判断。由于保存了预测组成员结果,即最终的分类结果,如表2.9所示:表3.9 保存结果x1x2yDis_1Dis1_1Dis2_12.96596 1 1 0.749171.589623.14473 1 3 0.60726-0.490103.22482 1 3 0.99829-0.508543.29527 1 1 1.605240.003553.69505 1 1 3.08253-1.041954.46693 1 1 7.569280.222993.03626 1 1 1.24913
26、1.888293.19663 1 1 2.166712.121753.63447 1 1 2.42371-1.757333.59558 1 1 3.05200-0.104723.30563 1 1 1.902870.497473.40553 1 1 2.240090.172063.50572 1 1 2.784160.259293.78591 1 1 4.063620.016893.44692 1 1 3.394932.076583.48528 1 1 2.38862-0.330143.47552 1 1 2.518940.029653.04446 3 3 0.00613-0.691153.2
27、1497 待判1 1.06443-0.27680从表2.9的预测结果中可以看出,我们需要待判的第31号样品,即新申报者最终申报结果为录取。上述例子是将85名申报者的GPA和GMAT成绩及申报结果,采用Bayes判别法来判断预测第86号样品是什么结果。我们根据Bayes判别法建立了判别函数,最终很好的预测了第86号样品属于第一组,即第86号样品的最终申报结果为录取。4.逐步判别法多元回归中,对回归结果产生影响的直接因素就是变量的选择。这样类似的问题也出现在了判别分析当中,假如在对某个问题进行判别时,其中最重要的指标被遗漏了,那么以此建立起来的判别函数就会出现不好的效果。但是,在要解决的很多问题当
28、中,事先不是非常清楚有哪些主要指标。这个时候,是不是把与之相关的那些指标尽可能多的放入计算?实践证明,指标如果太多,不仅计算量大,而且一些对判别几乎没有作用的因素反而会扰乱结果。因此,合理的筛选变量是非常重要且必要的。凡是具有筛选变量能力的判别方法统称为逐步判别法3。(1)从中先选一个解释变量,其使得Wilks统计量取得最小。假设挑选变量的顺序是自然顺序,也就是说第一步选中了第一个自变量,第r步则正好选中第r个自变量,则有,检查是否在接受域中,如果不在,那么表示没有选中的变量,即不可以用判别分析;如果在,则进入(2)。(2)从没有被选中的变量里,计算这些变量和已经选中的变量。再选择使有最小值的
29、当第二个变量。仿照上述做法,如果已选进了r个变量, ,就从没有被选中的变量中逐个选择与那r个变量配合,计算出,再选择使达到极小的变量当作第r+1个变量,并再检验其是否能提供其余信息,假如不能,就进入(4), 能就进入(3)。(3)从已经选进的那r个变量中,需要再考虑较早进入的变量,这些变量的重要性是否有较大的改变,即是否可以提供附加信息,若不能则剔除。剔除与引进是一样的原则。再考察剩下的变量,如果不需要剔除,就回转到(2)。(4)此时既不需要新变量的进入,又不需要将已经选入的变量剔除,可以采用选择好的那些变量来建立起判别函数。4.1实例应用为了通过研究、的含量来判断一个新样品属于哪一类,我们收
30、集了15个样品的含量数据。如表4.1所示:其中(用x1来表示)、(用x2来表示)、(用x3来表示)、(用x4来表示)、(用x5来表示)、(用x6来表示)。现采用逐步判别分析法来判断预测第16号样品属于哪一组。表4.1 样品、含量数据groupnox1x2x3x4x5x61120.924.503.1336.701.200.751231.097.022.1630.682.550.951337.503.101.3029.782.050.20146.012.261.7348.280.600.401520.213.372.5937.300.950.251618.861.831.1445.560.450.
31、40178.981.411.4147.830.200.401820.304.351.7037.580.600.50294.120.042.7048.880.150.602102.190.011.4152.940.050.5021110.991.971.8444.070.151.352120.750.001.5153.990.050.5021356.536.461.9315.500.950.802141.530.280.9753.690.100.502152.810.421.0252.640.050.50待判1616.011.832.5941.360.800.40数据来源:SPSS统计分析从入门
32、到精通升级数据Chapter11 4.2分析结果与解释表4.2 输入/除去变量的方差分析步骤输入Wilks Lambda统计量自由度1自由度2自由度3精确的F统计量自由度1自由度2P值1x50.6621113.0006.648113.0000.0232x60.5182113.0005.588212.0000.019从表4.2中可以看到显著性水平均小于0.05,表示两组之间有差异,即组均值不等,所以本例中判别分析有意义。表4.3 特征值特征值方差的百分比累计的百分比典型相关系数函数10.9311001000.694从表4.2中特征值有一个,函数1的特征值为0.931,且函数1的典型相关系数为0.
33、694,由此,说明函数1具有区别判断力,还需要看一下Wilks的检验结果,得到结果如表4.4所示:表4.4 威尔克 Lambda检验结果函数检验威尔克 Lambda卡方自由度显著性10.5187.89920.019在表4.4的Wilks检验结果中,Wilks Lambda值为0.518,卡方值为7.899,且显著性水平小于0.05,表示组间有差异,即组均值不等,所以本例中判别分析有意义。既然有意义,那么我们还需要考虑结构矩阵,如表4.4所示:表4.5 结构矩阵函数1x50.741x1a0.480x4a-0.437x6-0.387x2a0.286x3a-0.048a. 在分析中未使用此变量。由于
34、表4.5表示的是六种化学物质含量与标准化的典则判别函数之间的相关矩阵,由此可以看出,对判别函数的贡献为0.741、对判别函数的贡献为0.480、对判别函数的贡献为-0.437、对判别函数的贡献为-0.387、对判别函数的贡献为0.286。对判别函数的贡献为-0.048。我们只保留了x5和x6这两个变量。表4.6 分类函数系数第1组第2组x51.920-0.810x64.5389.064(常量)-2.817-3.682根据表4.6的系数,得到两组的判别函数:表4.7 分类结果1,2类别总计12原始个数17182077%187.5%12.5%100%20%100%100%交叉验证个数1718216
35、7%187.5%12.5%100%214.3%85.7%100%1:正确地对 93.3% 个原始已分组个案进行了分类。2:正确地对 86.7% 个进行了交叉验证的已分组个案进行了分类。从表4.7的分类结果中可以看出,判别分析分类与原始样品分类一致率高达93.3%,交叉验证的一致率达到了86.7%。即我们正确地对93.3%个原始已分组个案进行了分类,交叉验证得到的判别信息正确率为86.7%,表明能够较好的进行判断。由于我们在SPSS软件的操作步骤中保存了预测组成员结果,即最终的分类结果,如表4.8所示:表4.8 保存结果groupnox1x2x3x4x5x6Dis_1Dis1_11120.924
36、.503.1336.701.200.7510.354581231.097.022.1630.682.550.9511.898881337.503.101.3029.782.050.2013.02555146.012.261.7348.280.600.4010.324401520.213.372.5937.300.950.2511.232041618.861.831.1445.560.450.4010.09697178.981.411.4147.830.200.402-0.282091820.304.351.7037.580.600.5010.07310294.120.042.7048.880.
37、150.602-0.860512102.190.011.4152.940.050.502-0.7608321110.991.971.8444.070.151.352-2.745292120.750.001.5153.990.050.502-0.7608321356.536.461.9315.500.950.802-0.150132141.530.280.9753.690.100.502-0.685022152.810.421.0252.640.050.502-0.7608311616.011.832.5941.360.800.4010.62765从表4.8的预测结果中可以看出,我们需要待判的第
38、16号样品属于第1组上述例子是将15个样品中、的含量,采用逐步判别法来判断预测第16号样品是什么结果。我们根据逐步判别法最终很好的预测了第16号样品属于第一组。5.距离判别法样品的类别属于与总体距离最近的那一类,根据样本数据,它们的所属类别是已知的,计算出每一类总体的重心。对将要判别的样品进行分类,只用把这个样品与每类重心的距离分别计算出来,与之距离最近的那一类就是待判样品的类别。我们基本上用的是马氏距离。设两个总体,样品到的距离为,样品到的距离为,利用以下规则来进行判别:如果与的距离比与的距离小,就认为属于,若不是,则属于;若距离相等,则待判。数学模型可写为:当和是正态总体,并且它们的协方差是相等的时候,就采用马氏距离,即其中,分别是和的平均值和协方差矩阵。当=时那么判别规则即为:上述的是判别函数,因为为线性函数,所以也是线性判别函数。5.1实例应用HDI的创建是为了强调人和他们的能力应该是评估一个国家发展的最终标准,而不仅仅是经济增长。人类发展指数也可以用来质疑国家的政策选择,询问人均国民总收入水平相同的两个国家如何才能获得不同的人类发展成果。从2019年的人文发展指数表中,选取10个国家的数据,作为两组样品,另外再选取4个国家,作为待判样品,下面进行距离判别分析。数据如下表5.1,其中:第一类为“极