《最新厦门大学应用多元统计分析第04章判别分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新厦门大学应用多元统计分析第04章判别分析PPT课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、厦门大学应用多元统计分厦门大学应用多元统计分析第析第0404章判别分析章判别分析第一节第一节 引言引言n在我们的日常生活和工作实践中,常常会遇到判别分析问题,在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。例如,某医院种判别方法,判定一个新的样本归属哪一类。例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些录了每个患者若干项症状指
2、标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。又如,在天气预报状指标数据时,能够判定其患有哪种病。又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种用连续(晴阴雨、气温、气压、湿度等),现在想建立一种用连续五天的气象资料来预报第六天是什么天气的方法。这些问题五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。都可以应用判别分析方法予
3、以解决。n为此,我们引入一种由印度著名统计学家马哈拉诺比斯为此,我们引入一种由印度著名统计学家马哈拉诺比斯(Mahalanobis, 1936)提出的)提出的“马氏距离马氏距离”的概念。的概念。n 二、距离判别的思想及方法二、距离判别的思想及方法 1、两个总体的距离判别问题、两个总体的距离判别问题n 问题:设有协方差矩阵问题:设有协方差矩阵相等的两个总体相等的两个总体G1和和G2,其均值,其均值分别是分别是 1和和 2,对于一个新的样品,对于一个新的样品X,要判断它来自哪个总,要判断它来自哪个总体。体。n 一般的想法是计算新样品一般的想法是计算新样品X到两个总体的马氏距离到两个总体的马氏距离D
4、2(X,G1)和和D2(X,G2),并按照如下的判别规则进行判断,并按照如下的判别规则进行判断n这个判别规则的等价描述为:求新样品这个判别规则的等价描述为:求新样品X到到G1的距离与到的距离与到G2的距离之差,如果其值为正,的距离之差,如果其值为正,X属于属于G2;否则;否则X属于属于G1。 n我们考虑我们考虑 n n n n这里我们应该注意到:这里我们应该注意到:2、多个总体的距离判别问题、多个总体的距离判别问题n n n n 三、判别分析的实质三、判别分析的实质n我们知道,判别分析就是希望利用已经测得的变量数据,找我们知道,判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一
5、函数具有某种最优性质,能把属出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质,以便能灵活的应用判别分析方法解决实际判别分析的实质,以便能灵活的应用判别分析方法解决实际问题,我们有必要了解问题,我们有必要了解“划分划分”这样概念。这样概念。n设设R1,R2,Rk是是p维空间维空间R p的的k个子集,如果它们互不个子集,如果它们互不 相交,且它们的和集为相交,且它们的和集为R p,则称,则称R1,R2, ,Rk为为R p的一的一个划分。个划分。n n 这样我们将会发现,判别分析
6、问题实质上就是在某种意义这样我们将会发现,判别分析问题实质上就是在某种意义上,以最优的性质对上,以最优的性质对p维空间维空间R p构造一个构造一个“划分划分”,这个,这个“划分划分”就构成了一个判别规则。这一思想将在后面的各节就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。中体现的更加清楚。 第三节第三节 贝叶斯(贝叶斯(Bayes)判别法)判别法一一 Bayes判别的基本思想判别的基本思想 二二 Bayes判别的基本方法判别的基本方法 n从上节看距离判别法虽然简单,便于使用。但是该方法也有从上节看距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。它明显的不足之处。第
7、一,判别方法与总体各自出现的概率的大小无关;第一,判别方法与总体各自出现的概率的大小无关;第二,判别方法与错判之后所造成的损失无关。第二,判别方法与错判之后所造成的损失无关。Bayes判别判别法就是为了解决这些问题而提出的一种判别方法。法就是为了解决这些问题而提出的一种判别方法。一、一、Bayes判别的基本思想判别的基本思想n n n n 二、二、Bayes判别的基本方法判别的基本方法n n如果已知样品如果已知样品X来自总体来自总体Gi 的先验概率为的先验概率为qi , ,则在规则则在规则R下,由(下,由(4.12)式知,误判的总平均损失为)式知,误判的总平均损失为 ki, 2, 1n n n
8、 n 第四节第四节 费歇(费歇(Fisher)判别法)判别法一一 Fisher判别的基本思想判别的基本思想 二二 Fisher判别函数的构造判别函数的构造 三三 线性判别函数的求法线性判别函数的求法 nFisher判别法是判别法是1936年提出来的,该方法的主要思想是通过年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总体与总体将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。品进行分类判别。一、一、Fisher判别的基本思想判别的基本思想n 二
9、、二、Fisher判别函数的构造判别函数的构造1、针对两个总体的情形、针对两个总体的情形n 2、针对多个总体的情形、针对多个总体的情形n n 三、线性判别函数的求法三、线性判别函数的求法n n n n这里值得注意的是,本书有几处利用极值原理求极值时,只这里值得注意的是,本书有几处利用极值原理求极值时,只给出了不要条件的数学推导,而有关充分条件的论证省略了,给出了不要条件的数学推导,而有关充分条件的论证省略了,因为在实际问题中,往往根据问题本身的性质就能肯定有最因为在实际问题中,往往根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需大值(或最小值),如果所求的驻点
10、只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值)。为了避免定这唯一的驻点就是所求的最大值(或最小值)。为了避免用较多的数学知识或数学上的推导,这里不追求数学上的完用较多的数学知识或数学上的推导,这里不追求数学上的完整性。整性。n 第五节第五节 实例分析与计算机实现实例分析与计算机实现n这一节我们利用这一节我们利用SPSS对对Fisher判别法和判别法和Bayes判别法进行计判别法进行计算机实现。算机实现。n为研究某地区人口死亡状况,已按某种方法将为研究某地区人口死亡状况,已按某
11、种方法将15个已知地区个已知地区样品分为样品分为3类,指标含义及原始数据如下。试建立判别函数,类,指标含义及原始数据如下。试建立判别函数,并判定另外并判定另外4个待判地区属于哪类?个待判地区属于哪类? X1 : 0岁组死亡概率岁组死亡概率 X 4 : 55岁组死亡概率岁组死亡概率 X 2 :1岁组死亡概率岁组死亡概率 X5 : 80岁组死亡概率岁组死亡概率 X 3 : 10岁组死亡概率岁组死亡概率 X6 : 平均预期寿命平均预期寿命 表表4.1 各地区死亡概率表各地区死亡概率表 (一一) 操作步骤操作步骤1. 在在SPSS窗口中选择窗口中选择AnalyzeClassifyDiscriminat
12、e,调,调出判别分析主界面,将左边的变量列表中的出判别分析主界面,将左边的变量列表中的“group”变量选变量选入分组变量中,将入分组变量中,将变量选入自变量中,并选择变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判单选按钮,即使用所有自变量进行判别分析。别分析。图图4.2 判别分析主界面判别分析主界面2. 点击点击Define Range按钮,定义分组变量的取值范围。本例按钮,定义分组变量的取值范围。本例中分类变量的范围为中分类变量的范围为1到到3,所以在最小值和最大值中分别输,所以在最小值和最大值中分别输入入1和和3。单击。单击
13、Continue按钮,返回主界面。按钮,返回主界面。3. 单击单击Statistics按钮,指定输出的描述统计量和判别函数按钮,指定输出的描述统计量和判别函数系数。选中系数。选中Function Coefficients栏中的栏中的Fishers和和Unstandardized。这两个选项的含义如下:。这两个选项的含义如下:Fishers:给出:给出Bayes判别函数的系数。(注意:这个选项不是判别函数的系数。(注意:这个选项不是要给出要给出Fisher判别函数的系数。这个复选框的名字之所以为判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想,
14、是因为按判别函数值最大的一组进行归类这种思想是由是由Fisher提出来的。这里极易混淆,请读者注意辨别。)提出来的。这里极易混淆,请读者注意辨别。)Unstandardized:给出未标准化的:给出未标准化的Fisher判别函数(即典型判判别函数(即典型判别函数)的系数(别函数)的系数(SPSS默认给出标准化的默认给出标准化的Fisher判别函数系判别函数系数)。数)。n单击单击Continue按钮,返回主界面。按钮,返回主界面。图图4.3 Statistics子对话框子对话框4. 单击单击Classify按钮,定义判别分组参数和选择输出结果。按钮,定义判别分组参数和选择输出结果。选择选择Di
15、splay栏中的栏中的Casewise results,输出一个判别结果表,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选项。单击等。其余的均保留系统默认选项。单击Continue按钮。按钮。图图4.4 Classify子对话框子对话框5. 单击单击Save按钮,指定在数据文件中生成代表判别分组结果按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:和判别得分的新变量,生成的新变量的含义分别为:Predicted group membership:存放判别
16、样品所属组别的值;:存放判别样品所属组别的值; Discriminant scores:存放:存放Fisher判别得分的值,有几个典型判别得分的值,有几个典型判别函数就有几个判别得分变量;判别函数就有几个判别得分变量;Probabilities of group membership:存放样品属于各组的:存放样品属于各组的Bayes后验概率值。后验概率值。n将对话框中的三个复选框均选中,单击将对话框中的三个复选框均选中,单击Continue按钮返回。按钮返回。6. 返回判别分析主界面,单击返回判别分析主界面,单击OK按钮,运行判别分析过程。按钮,运行判别分析过程。图图4.5 Save子对话框子
17、对话框(二)(二) 主要运行结果解释主要运行结果解释1. Standardized Canonical Discriminant Function Coefficients(给出标准化的典型判别函数系数)(给出标准化的典型判别函数系数)标准化的典型判别函数是由标准化的自变量通过标准化的典型判别函数是由标准化的自变量通过Fisher判别法判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。变量必须是经过标准化的。2. Canonical Discriminant Function Coefficients(给出
18、未标(给出未标准化的典型判别函数系数)准化的典型判别函数系数)未标准化的典型判别函数系数由于可以将实测的样品观测值直未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。见表方便一些。见表4.2(a)。)。由此表可知,两个由此表可知,两个Fisher判别函数分别为:判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位样就可以通过这两个函数式计算出各样品观
19、测值的具体空间位置。置。 1123456212345674.991.8611.6560.8770.7980.0981.57929.4820.8671.1550.3560.0890.0540.69yXXXXXXyXXXXXX 表表4.2(a) 未标准化的典型判别函数系数未标准化的典型判别函数系数3. Functions at Group Centroids(给出组重心处的(给出组重心处的Fisher判判别函数值)别函数值)如表如表4.2 (b) 所示,实际上为各类别重心在空间中的坐标位置。所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算这样,只要
20、在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。出它们分别离各重心的距离,就可以得知它们的分类了。Functions at Group Centroids-2.5941.0139.194-.257-6.600-.756GROUP1.002.003.0012FunctionUnstandardized canonical discriminantfunctions evaluated at group means表表4.2(b) 组重心处的组重心处的Fisher判别函数值判别函数值 4. Classification Function Coeffic
21、ients(给出(给出Bayes判别函数判别函数系数)系数)如表如表4.3所示,所示,GROUP栏中的每一列表示样品判入相应列的栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的判别函数系数。在本例中,各类的Bayes判别函数如下:判别函数如下:第一组:第一组:第二组:第二组:第三组:第三组: 11234565317.2143.9153.190.153.011.0189.3FXXXXXX 21234566202.2164.7171.2100.062.512.1207.0FXXXXXX 31234564982.9134.9144.585.950.010.5181.7FXXX
22、XXX 将各样品的自变量值代入上述三个将各样品的自变量值代入上述三个Bayes判别函数,得到三个判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到:入函数,得到: F1=3793.77, F2=3528.32, F3=3882.48比较三个值,可以看出最大,据此得出第一个待判样品应该属比较三个值,可以看出最大,据此得出第一个待判样品应该属于第三组。于第三组。Classification Functio
23、n Coefficients-143.851-164.691-134.862153.137171.185144.462-90.088-99.976-85.94553.00962.52549.97211.00812.09410.520189.261207.003181.714-5317.234-6202.158-4982.880X 1X 2X 3X 4X 5X 6(Constant)1.002.003.00G RO U PFishers linear discriminant functions表表4.3 Bayes判别法的输出结果判别法的输出结果5. Casewise Statistics(给
24、出个案观察结果)(给出个案观察结果)在在Casewise Statistics输出表针对每个样品给出了了大部分的判输出表针对每个样品给出了了大部分的判别结果,其中包括:实际类(别结果,其中包括:实际类(Actual Group)、预测类)、预测类(Predicted Group)、)、Bayes判别法的后验概率、与组重心的判别法的后验概率、与组重心的马氏距离(马氏距离(Squared Mahalanobis Distance to Centroid)以及)以及Fisher判别法的每个典型判别函数的判别得分(判别法的每个典型判别函数的判别得分(Discriminant Scores)。出于排版要
25、求,这里给出结果表的是经过加工的,)。出于排版要求,这里给出结果表的是经过加工的,隐藏了其中的一些项目,如表隐藏了其中的一些项目,如表4.4所示。从表中可以看出四个所示。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。待判样本依次被判别为第三组、第一组、第二组和第三组。Casewise Statistics111.000.297-2.1771.364111.000.236-2.2701.375111.000.117-2.7411.32311.998.507-3.199.638111.000.418-2.582.366221.000.4699.674.231221.000.
26、8688.332-.613221.0005.98510.128-2.518221.0004.7938.3421.760221.000.1019.491-.145331.000.139-6.687-.394331.000.322-7.163-.685331.0005.365-8.655-1.82333.8793.384-4.766-.60833.995.998-5.727-.270ungrouped31.000361.567-20.714-13.498ungrouped1.998.558-3.319.831ungrouped21.00028.66814.0082.086ungrouped31.0
27、001.982-7.595-1.752CaseNumber12345678910111213141516171819ActualGroupPredictedGroupP(G=g| D=d)SquaredMahalanobisDistance toCentroidHighest GroupFunction1Function2Discriminant Scores表表4.4 个案观察结果表个案观察结果表6. 由于我们在由于我们在Save子对话框中选择了生成表示判别结果的新子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量其中,变量dis-1存放判别样品所属组别的值,变量存放判别样品所属组别的值,变量dis1-1和和dis2-1分别代表将样品各变量值代入第一个和第二个判别函分别代表将样品各变量值代入第一个和第二个判别函数所得的判别分数,变量数所得的判别分数,变量dis1-2、dis2-2和和dis3-2分别代表样分别代表样品分别属于第品分别属于第1组、第组、第2组和第组和第3组的组的Bayes后验概率值。后验概率值。本章结束本章结束63 结束语结束语