《第四章 判别分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章 判别分析精选文档.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章 判别分析本讲稿第一页,共五十五页内容和要求内容和要求l内容内容:判别分析简介、基本原理、判别分析方法判别分析简介、基本原理、判别分析方法l要求要求:l1、熟悉判别分析基本原理。、熟悉判别分析基本原理。l2、掌握常用的判别分析准则。、掌握常用的判别分析准则。3、能熟练使用软件进行判别分析,并能对判别、能熟练使用软件进行判别分析,并能对判别结果作深入讨论。结果作深入讨论。本讲稿第二页,共五十五页第一节第一节 判别分析简介判别分析简介关于判别分析基本概念和基本原理关于判别分析基本概念和基本原理本讲稿第三页,共五十五页一、什么是判别分析?一、什么是判别分析?l判别分析是在已知分类情况的条件下根
2、判别分析是在已知分类情况的条件下根据一定的指标对未知类别的数据进行归据一定的指标对未知类别的数据进行归类的方法。判别分析在生物学、医学、类的方法。判别分析在生物学、医学、地质学、石油、气象等领域得到较为广地质学、石油、气象等领域得到较为广泛的应用,在经济分析和市场研究中也泛的应用,在经济分析和市场研究中也是我们认知事物的重要方法。是我们认知事物的重要方法。l举例举例 本讲稿第四页,共五十五页例 中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售
3、额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:本讲稿第五页,共五十五页总负债率总负债率收益性指标收益性指标短期支付能力短期支付能力生产效率指标生产效率指标类别类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.03
4、1.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532本讲稿第六页,共五十五页.38.38.11.113.273.27.55.552 2.19.19.05.052.252.25.33.332 2.32.32.07.074.244.24.63.632 2.31.31.05.054.454.45.69.692 2.12.12.05.052.522.52.69.692 2-.02-.02.02.022.052.05.35.352 2.22.22.08.082.352.35.40.402 2.17
5、.17.07.071.801.80.52.522 2.15.15.05.052.172.17.55.552 2-.10-.10-1.01-1.012.502.50.58.582 2.14.14-.03-.03.46.46.26.262 2.14.14.07.072.612.61.52.522 2-.33-.33-.09-.093.013.01.47.472 2.48.48.09.091.241.24.18.182 2.56.56.11.114.294.29.45.452 2.20.20.08.081.991.99.30.302 2.47.47.14.142.922.92.45.452 2.17
6、.17.04.042.452.45.14.142 2.58.58.04.045.065.06.13.132 2.04.04.01.011.501.50.71.71待判待判-.06-.06-.06-.061.371.37.40.40待判待判本讲稿第七页,共五十五页.07.07-.01-.011.371.37.34.34待判待判-.13-.13-.14-.141.421.42.44.44待判待判.15.15.06.062.232.23.56.56待判待判.16.16.05.052.312.31.20.20待判待判.29.29.06.061.841.84.38.38待判待判.54.54.11.112
7、.332.33.48.48待判待判本讲稿第八页,共五十五页企业序号判别类型判别函数得分判别为1的概率判别为2的概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988本讲稿第九页,共五十五页 判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学
8、科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。本讲稿第十页,共五十五页二、判别分析原理二、判别分析原理l原理:原理:判判别别分分析析是是利利用用原原有有的的分分类类信信息息,得得到到体体现现这这种种分分类类的的函函数数关关系系式式(即即判判别别函函数数,一一般般是是与与分分类类相相关关的的若若干干个个指指标标的的线线性性关关系系式式),然然后后利利用用该该函函数数去去判判断断未未知知样样品品属属于于哪哪一类一类l
9、要点:要点:1、判别分析需要明确所研究样本共有几个类别、判别分析需要明确所研究样本共有几个类别 2、判判别别分分析析需需要要从从现现有有已已知知类类别别的的样样本本数数据据中中提提练练出出一一个个判判别函数别函数本讲稿第十一页,共五十五页三、三、常用判别方法常用判别方法l距离判别法距离判别法lFisher判别法判别法l贝叶斯判别法贝叶斯判别法l典型判别与逐步判别法典型判别与逐步判别法本讲稿第十二页,共五十五页第二节第二节 距离判别法距离判别法本讲稿第十三页,共五十五页一、基本思想一、基本思想l由训练样本得出每个分类的重心(中心)坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离得最
10、近的分类。最常用的距离是马氏距离。本讲稿第十四页,共五十五页(一)马氏距离马氏距离距离判别的最直观的想法是计算样品到距离判别的最直观的想法是计算样品到第第i i类总体的平均数的距离,哪个距离最类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的离函数,通过样本与某类别之间距离的大小,判别其所属类别。大小,判别其所属类别。本讲稿第十五页,共五十五页 设设 是是从从期期望望=和方差阵和方差阵=的总体的总体G抽得的两个观测值,则称抽得的两个观测值,则称
11、 为为X与与Y之间的之间的Mahalanobis距离距离 样本样本X X和和G Gi i类之间的马氏距离定义为类之间的马氏距离定义为X X与与G Gi i类重心类重心间的距离:间的距离:本讲稿第十六页,共五十五页 (二)两个总体距离判别法(二)两个总体距离判别法 先先考考虑虑两两个个总总体体的的情情况况,设设有有两两个个协协差差阵阵 相相同同的的p p维维正正态态总总体体和和,对对给给定定的的样样本本Y Y,判判别别一一个个样样本本Y Y到到底底是是来来自自哪哪一一个个总总体体,一一个个最最直直观观的的想想法法是是计计算算Y Y到到两两个个总总体体的距离。故我们用马氏距离来指定判别规则,有:的
12、距离。故我们用马氏距离来指定判别规则,有:1、方差相等、方差相等本讲稿第十七页,共五十五页本讲稿第十八页,共五十五页则前面的判别法则表示为则前面的判别法则表示为 当当 和和 已已知知时时,是是一一个个已已知知的的p维维向向量量,W(y y)是是y y的的线线性性函函数数,称称为为线线性性判判别别函函数数。称称为为判判别别系系数数。用用线线性性判判别别函函数数进进行行判判别别分分析析非非常常直直观观,使使用用起起来来最最方便,在实际中的应用也最广泛。方便,在实际中的应用也最广泛。常数项常数项本讲稿第十九页,共五十五页 例例 4.1 在企业的考核中,可以根据企业的生产经营情况把在企业的考核中,可以
13、根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标企业分为优秀企业和一般企业。考核企业经营状况的指标有:有:资金利润率资金利润率=利润总额利润总额/资金占用总额资金占用总额 劳动生产率劳动生产率=总产值总产值/职工平均人数职工平均人数 产品净值率产品净值率=净产值净产值/总产值总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为观测值分别为 (7.8,39.1,9.6)和()和(8.1,34.2,6.9),问这两个企业),问这两个企业应该属于哪一类?应该属于哪一类?本讲稿第二十页,共五十五页变量均值向量
14、协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率 40.729.840.2454.5811.67 产品净值率 10.76.221.4111.677.90本讲稿第二十一页,共五十五页本讲稿第二十二页,共五十五页线性判别函数:线性判别函数:由此可以判断第一个企业属于优秀企业,第二个企业由此可以判断第一个企业属于优秀企业,第二个企业属于一般企业属于一般企业本讲稿第二十三页,共五十五页 2、当总体的协方差已知,且不相等、当总体的协方差已知,且不相等本讲稿第二十四页,共五十五页 当总体的方差未知时,应该用样本的协方差矩阵代替。步骤当总体的方差未知时,应该用样本的协方差
15、矩阵代替。步骤如下(假如两个总体):如下(假如两个总体):(1)分别计算各组的离差矩阵)分别计算各组的离差矩阵S1和和S2;(2)计算)计算 (3)计算类的均值)计算类的均值 (4)计算)计算 (5)计算)计算从而计算从而计算 (6)生成判别函数,将检验样本代入,得分,判类。生成判别函数,将检验样本代入,得分,判类。本讲稿第二十五页,共五十五页 随随着着计计算算机机计计算算能能力力的的增增强强和和计计算算机机的的普普及及,距距离离判判别别法法的的判判别别函数也在逐步改进,一种等价的距离判别为:函数也在逐步改进,一种等价的距离判别为:设设有有个个K总总体体,分分别别有有均均值值向向量量i(i=1
16、,2,k)和和协协方方差差阵阵i=,各各总总体体出出现现的的先先验验概概率率相相等等。又又设设Y是是一一个个待待判判样样品品。则则距距离为(即判别函数)离为(即判别函数)(三三)多总体的距离判别法多总体的距离判别法 上式中的第一项上式中的第一项Y-1Y与与i无关,则舍去,得一个等价的函数无关,则舍去,得一个等价的函数本讲稿第二十六页,共五十五页 将上式中提将上式中提-2,得,得则距离判别法的判别函数为:则距离判别法的判别函数为:判别规则为判别规则为注:这与前面所提出的距离判别是等价的注:这与前面所提出的距离判别是等价的.本讲稿第二十七页,共五十五页(三三)、判别分析效果检验、判别分析效果检验l
17、良好的判别效果即是指所建立的判别函数具有相当良好的判别效果即是指所建立的判别函数具有相当的稳定性和准确性,优良的判别函数应该是:一理的稳定性和准确性,优良的判别函数应该是:一理论基础稳固,具有准确判别的能力;二回代错判率论基础稳固,具有准确判别的能力;二回代错判率低;三具有良好的外部数据应用性质。低;三具有良好的外部数据应用性质。l由于判别分析是假设两组或多组样品取自不同总体,由于判别分析是假设两组或多组样品取自不同总体,因此要求样本各类型的均值向量在统计上具有显著差因此要求样本各类型的均值向量在统计上具有显著差异,如能反映出显著差异,则判别函数显著,有能力异,如能反映出显著差异,则判别函数显
18、著,有能力将不同的类型区别开来。将不同的类型区别开来。本讲稿第二十八页,共五十五页l所以对判别效果的检验即是对多元正态总体的均值向量所以对判别效果的检验即是对多元正态总体的均值向量是否相等进行检验,利用是否相等进行检验,利用Hotelling T2统计量进行检验。统计量进行检验。l回代是指将训练样本依次代入判别函数,检查错判情回代是指将训练样本依次代入判别函数,检查错判情况,回代错判率低即是指依训练样本建立的判别函数况,回代错判率低即是指依训练样本建立的判别函数偏差小,建立方法可靠。偏差小,建立方法可靠。l良好的外部应用性质是指该判别函数具有相当程度良好的外部应用性质是指该判别函数具有相当程度
19、的稳定性,不仅适用于本训练样本,而且在大多数的稳定性,不仅适用于本训练样本,而且在大多数情况下具有普遍应用能力,这也正是我们建立判别情况下具有普遍应用能力,这也正是我们建立判别函数想要达到的目的。函数想要达到的目的。本讲稿第二十九页,共五十五页为检验外部性,可采用的方法有:为检验外部性,可采用的方法有:1.外部数据验证法:外部数据验证法:l即判别函数建立完成后,重新再收集一部分数据,用判即判别函数建立完成后,重新再收集一部分数据,用判别函数进行判别,看错判是否严重。这种验证方法从理别函数进行判别,看错判是否严重。这种验证方法从理论上说较好,但再收集样本数据不能用来建立判别函数论上说较好,但再收
20、集样本数据不能用来建立判别函数有些浪费,而且很难保证两个样本具有同质性。有些浪费,而且很难保证两个样本具有同质性。2.样本二分法:样本二分法:l是外部数据法的改进,采用随机函数将所用样本分为两是外部数据法的改进,采用随机函数将所用样本分为两部分,一般是按部分,一般是按2:1的比例拆分,多的部分用于建立判的比例拆分,多的部分用于建立判别函数,剩下的用于验证。这种做法可以保证验证样别函数,剩下的用于验证。这种做法可以保证验证样本和训练样本的同质性是最为理想的,但它要求样本本和训练样本的同质性是最为理想的,但它要求样本量较大,否则建立的判别函数不稳定,白白浪费信息。量较大,否则建立的判别函数不稳定,
21、白白浪费信息。本讲稿第三十页,共五十五页3.交互验证:交互验证:l这是近年来逐渐发展起来的一种非常重要的判这是近年来逐渐发展起来的一种非常重要的判别效果验证技术。它在样本二分法的基础上又别效果验证技术。它在样本二分法的基础上又大大前进了一步,具体来说,就是在建立判别大大前进了一步,具体来说,就是在建立判别函数时依次去掉一例,然后用建立起来的判别函数时依次去掉一例,然后用建立起来的判别函数对该例进行判别,用这种方法可以非常有函数对该例进行判别,用这种方法可以非常有效地避免强影响点的干扰。在效地避免强影响点的干扰。在SPSS中已经提供中已经提供了交互验证功能,可直接使用对话框操作。了交互验证功能,
22、可直接使用对话框操作。本讲稿第三十一页,共五十五页第三节第三节 费歇尔(费歇尔(Fisher)判别法)判别法 l该方法是该方法是Fisher,R.A等人在等人在1936年提出的最优判别年提出的最优判别准则以及判别函数的求解法。准则以及判别函数的求解法。l最佳的判别函数应该具有准确区分不同类别的能力,最佳的判别函数应该具有准确区分不同类别的能力,根据方差分析的基本原理构造判别函数,该函数的根据方差分析的基本原理构造判别函数,该函数的确定可以使组内的方差达到最小,而使组间的方差确定可以使组内的方差达到最小,而使组间的方差达到最大,由此构造出求解条件,从而确定判别函达到最大,由此构造出求解条件,从而
23、确定判别函数。根据该判别函数对待判样本计算判别值,根据数。根据该判别函数对待判样本计算判别值,根据判别值与判别临界值的相对位置进行判别判别值与判别临界值的相对位置进行判别 本讲稿第三十二页,共五十五页一、两组一、两组Fisher判别法判别法基本思想:基本思想:l从两个总体中抽取具有从两个总体中抽取具有P个指标的样品观测数据,个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数或判借助方差分析的思想构造一个线性判别函数或判别式,其中各系数的确定原则是使两组间的区别别式,其中各系数的确定原则是使两组间的区别最大,而使每个组内部的离差最小。依据该判别最大,而使每个组内部的离差最小。依据该判别
24、式,求出新样本的判别值并与临界值相比较判别式,求出新样本的判别值并与临界值相比较判别其类型。其类型。本讲稿第三十三页,共五十五页l判别函数的导出。判别函数的导出。判别函数的一般形式:判别函数的一般形式:要确定该判别函数就是要确定各个要确定该判别函数就是要确定各个系数系数ci的值。的值。l对于对于p元总体而言,线性判别函数一般是元总体而言,线性判别函数一般是l要确定该判别函数就是要确定各个系数要确定该判别函数就是要确定各个系数ci的值。的值。本讲稿第三十四页,共五十五页函数的导出:函数的导出:本讲稿第三十五页,共五十五页Fisher两组判别的步骤:两组判别的步骤:本讲稿第三十六页,共五十五页l判
25、别准则本讲稿第三十七页,共五十五页l例例4.2l利用例利用例4.1数据对上例两企业作两组数据对上例两企业作两组Fisher判别,写出判别,写出Fisher判别函数,求出判别函数,求出判别临界值对待判样品进行判别,对训判别临界值对待判样品进行判别,对训练样本进行回代判断,对判别效果进行练样本进行回代判断,对判别效果进行评价。评价。本讲稿第三十八页,共五十五页二、多个总体的二、多个总体的FisherFisher判别法判别法(一一)判别函数判别函数Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数 ,设有 个总体 ,分别有均值向量 ,,和协方差阵 ,分别各总
26、体中得到样品:本讲稿第三十九页,共五十五页第i个总体的样本均值向量 综合的样本均值向量 第i个总体样本组内离差平方和 综合的组内离差平方和本讲稿第四十页,共五十五页组间离差平方和本讲稿第四十一页,共五十五页如 果 判 别 分 析 是 有 效 的,则 所 有 的 样 品 的 线 性 组 合 满足组内离差平方和小,而组间离差平方和大。则而 所对应的特征向量即 。FisherFisher样品判别函数是 本讲稿第四十二页,共五十五页 然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。类推得到m(mk)个线性函数。
27、本讲稿第四十三页,共五十五页关于需要几个判别函数得问题,需要累计判别效率达到85以上,即有设 为B相对于E得特征根,则本讲稿第四十四页,共五十五页 以m个线性判别函数得到的函数值为新的变量,再进行距离判别。判别规则:设Yi(X)为第i个线性判别函数,则本讲稿第四十五页,共五十五页 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率好人总是做好
28、事,偶尔也会做一件坏事,一般好人做好事的概率为为0.9,坏人做好事的概率为,坏人做好事的概率为0.2,一天,小王做了一件好事,小王,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人?是好人的概率有多大,你现在把小王判为何种人?第四第四节 贝叶斯判别法贝叶斯判别法一一 、标准的、标准的Bayes判别判别本讲稿第四十六页,共五十五页本讲稿第四十七页,共五十五页 距离判别简单直观,很实用,但是距离判别的方法把距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后
29、所造成的损失的差异。概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,率,又要考虑到错判造成的损失,Bayes判别就具有这判别就具有这些优点,其判别效果更加理想,应用也更广泛。些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式贝叶斯公式是一个我们熟知的公式 本讲稿第四十八页,共五十五页 设设有有总总体体 ,具具有有概概率率密密度度函函 数数 。并并且且根根据据以以往往的的统统计计分分析析,知知道道 出出现现的的概概率率为为 。即即当当样样本本 发发
30、生生时时,求求他他属属于于某某类类的的概概率率。由由贝贝叶叶斯斯公式计算后验概率,有:公式计算后验概率,有:则则 判给判给 。在正态的假定下,。在正态的假定下,为正态分布的为正态分布的密度函数。密度函数。本讲稿第四十九页,共五十五页二、二、考虑错判损失的考虑错判损失的Bayes判别分析判别分析 设设有有总总体体 ,具具有有概概率率密密度度函函 数数 。并并且根据以往的统计分析,知道且根据以往的统计分析,知道 出现的概率为出现的概率为 。又又D1,D2,Dk是是R(p)的一个分划,判别法则为:的一个分划,判别法则为:当样品当样品X落入落入Di 时,则判 别的关键的问题是寻找关键的问题是寻找D1,
31、D2,Dk分划,分划,这个分划应该使平均错判率最小。这个分划应该使平均错判率最小。本讲稿第五十页,共五十五页【定义定义】(平均错判损失)(平均错判损失)用用P(j/i)表示将来自总体表示将来自总体Gi的样品错判到总体的样品错判到总体Gj的条件概率。的条件概率。C(j/i)表示相应错判所造成的损失。表示相应错判所造成的损失。则平均错判损失为:则平均错判损失为:使ECM最小的分划,是Bayes判别分析的解。本讲稿第五十一页,共五十五页【定理】若总体若总体G1,G2,Gk的先验概率为的先验概率为且相应的密度函数为且相应的密度函数为 ,损失为,损失为 时,时,则划分的则划分的Bayes解为解为其中其中
32、本讲稿第五十二页,共五十五页 含义是:当抽取了一个未知总体的样品值含义是:当抽取了一个未知总体的样品值x,要判别,要判别它属于那个总体,只要先计算出它属于那个总体,只要先计算出k个按先验概率加权的个按先验概率加权的误判平均损失误判平均损失然后比较其大小,选取其中最小的,则判定样然后比较其大小,选取其中最小的,则判定样品属于该总体。品属于该总体。本讲稿第五十三页,共五十五页实验练习实验练习实验练习实验练习根据相应的人文发展指标,从根据相应的人文发展指标,从根据相应的人文发展指标,从根据相应的人文发展指标,从19951995年世界各国中选择高发展水平、中等发展水年世界各国中选择高发展水平、中等发展水年世界各国中选择高发展水平、中等发展水年世界各国中选择高发展水平、中等发展水平的国家各平的国家各平的国家各平的国家各5 5个作为样品,另选个作为样品,另选个作为样品,另选个作为样品,另选4 4个国家作为待判样品个国家作为待判样品个国家作为待判样品个国家作为待判样品 要求:要求:1用用fisher判别准则进行判别分析;判别准则进行判别分析;2用贝叶斯判别准则进行判别分析用贝叶斯判别准则进行判别分析 本讲稿第五十四页,共五十五页本讲稿第五十五页,共五十五页