《4.判别分析.ppt》由会员分享,可在线阅读,更多相关《4.判别分析.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、判判 别别 分分 析析距离判别Bayes判别Fisher判断逐步判别例例 中小企业的破产模型中小企业的破产模型为了研究为了研究中小企业的破产模型,选定中小企业的破产模型,选定4 4个经济指标:个经济指标:X1X1总负债率(现金收益总负债率(现金收益/总负债)总负债)X2X2收益性指标(纯收入收益性指标(纯收入/总财产)总财产)X3X3短期支付能力(流动资产短期支付能力(流动资产/流动负债)流动负债)X4X4生产效率性指标(流动资产生产效率性指标(流动资产/纯销售额)纯销售额)对对1717个破产企业(个破产企业(1 1类)和类)和2121个正常运行企业个正常运行企业(2 2类)进行了调查,得如下
2、资料:类)进行了调查,得如下资料:1 什么是判别分析什么是判别分析总负债率总负债率收益性指标收益性指标短期支付能力短期支付能力生产效率指标生产效率指标类别类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.
3、601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.38.11.113.273.27.55.552 2.19.19.05.052.252.25.33.332 2.32.32.07.074.244.24.63.632 2.31.31.05.054.454.45.69.692 2.12.12.05.052.522.52.69.692 2-.02-.02.02.022.052.05.35.352 2.22.22.08.082.352.35.40.402 2.17.17.07.071.801.80.52.522 2.15.1
4、5.05.052.172.17.55.552 2-.10-.10-1.01-1.012.502.50.58.582 2.14.14-.03-.03.46.46.26.262 2.14.14.07.072.612.61.52.522 2-.33-.33-.09-.093.013.01.47.472 2.48.48.09.091.241.24.18.182 2.56.56.11.114.294.29.45.452 2.20.20.08.081.991.99.30.302 2.47.47.14.142.922.92.45.452 2.17.17.04.042.452.45.14.142 2.58.5
5、8.04.045.065.06.13.132 2.04.04.01.011.501.50.71.71待判待判-.06-.06-.06-.061.371.37.40.40待判待判.07.07-.01-.011.371.37.34.34待判待判-.13-.13-.14-.141.421.42.44.44待判待判.15.15.06.062.232.23.56.56待判待判.16.16.05.052.312.31.20.20待判待判.29.29.06.061.841.84.38.38待判待判.54.54.11.112.332.33.48.48待判待判企业序号判别类型判别函数得分判别为1的概率判别的为2
6、概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988 判判别别分分析析利利用用已已知知类类别别的的样样本本培培训训模模型型,为为未未知样本判类的一种统计方法。知样本判类的一种统计方法。它它产产生生于于本本世世纪纪3030年年代代。近近年年来来,在在自自然然科科学学、社社会会学学及及经经济济管管理理学学科科中中都都有
7、有广广泛泛的的应应用用。判判别别分分析析的的特特点点是是根根据据已已掌掌握握的的、历历史史上上每每个个类类别别的的若若干干样样本本的的数数据据信信息息,总总结结出出客客观观事事物物分分类类的的规规律律性性,建建立立判判别别公公式式和和判判别别准准则则。然然后后,当当遇遇到到新新的的样样本本点点时时,只只要要根根据据总总结结出出来来的的判判别别公公式式和和判判别别准准则则,就能判别该样本点所属的类别。就能判别该样本点所属的类别。2 距离判别 (一)(一)马氏距离马氏距离 距离判别的最直观的想法是计算样品到第距离判别的最直观的想法是计算样品到第i i类类总体的平均数的距离,哪个距离最小就将它判总体
8、的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。别之间距离的大小,判别其所属类别。设设 是是从从期望期望=和方差和方差阵阵=的总体的总体G抽得的两个观测值,则称抽得的两个观测值,则称 为为X与与Y之间的之间的Mahalanobis距离距离 样本样本X X和和G Gi i类之间的马氏距离定义为类之间的马氏距离定义为X X与与G Gi i类重类重心间的距离:心间的距离:(二)两个总体距离判别法(二)两个总体距离判别法
9、先先考考虑虑两两个个总总体体的的情情况况,设设有有两两个个协协差差阵阵 相相同同的的p p维维正正态态总总体体和和,对对给给定定的的样样本本Y Y,判判别别一一个个样样本本Y Y到到底底是是来来自自哪哪一一个个总总体体,一一个个最最直直观观的的想想法法是是计计算算Y Y到到两两个个总总体体的的距距离离。故故我我们们用用马马氏氏距距离离来来指指定定判判别别规则,有:规则,有:1、协方差阵已知且相等、协方差阵已知且相等则前面的则前面的判别法则判别法则表示为表示为当当 和和 已已知知时时,是是一一个个已已知知的的p维维向向量量,W(y y)是是y y的的线线性性函函数数,称称为为线线性性判判别别函函
10、数数。称称为为判判别别系系数数。用用线线性性判判别别函函数数进进行行判判别别分分析析非非常常直直观观,使用起来最方便,在实际中的应用也最广泛。使用起来最方便,在实际中的应用也最广泛。判别函数判别函数:例例 在企业的考核种,可以根据企业的生产经营情况在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的把企业分为优秀企业和一般企业。考核企业经营状况的指标有:指标有:资金利润率资金利润率=利润总额利润总额/资金占用总额资金占用总额 劳动生产率劳动生产率=总产值总产值/职工平均人数职工平均人数 产品净值率产品净值率=净产值净产值/总产值总产值 三个指标的均值向量和
11、协方差矩阵如下。现有二三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为个企业,观测值分别为 (7.87.8,39.139.1,9.69.6)和()和(8.18.1,34.234.2,6.96.9),问),问这两个企业应该属于哪一类?这两个企业应该属于哪一类?变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率 40.729.840.2454.5811.67 产品净值率 10.76.221.4111.677.90线性判别函数:2、当总体的协方差已知,且不相等、当总体的协方差已知,且不相等判别函数判别函数 y的二次函数的二次函数判别法则判别
12、法则3.当总体的方差相等但未知当总体的方差相等但未知时,应该用样本的协方差时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体):矩阵代替。步骤如下(假如两个总体):(1)分别计算各组的离差矩阵)分别计算各组的离差矩阵S1和和S2;(2)计算计算 (3)计算类的均值)计算类的均值 (4)计算)计算 (5)计算)计算 (6)生成判别函数,将检验样本代入,得分,判类。)生成判别函数,将检验样本代入,得分,判类。(三三)多总体的距离判别法多总体的距离判别法1.协方差阵已知且相等协方差阵已知且相等方法一:方法一:设有设有K个总体,分别有均值向量个总体,分别有均值向量i(i=1,2,k)和协和协方差阵
13、方差阵i=.判别函数判别函数 判别法则判别法则方法二:方法二:随随着着计计算算机机计计算算能能力力的的增增强强和和计计算算机机的的普普及及,距距离离判判别别法法的的判判别别函函数数也也在在逐逐步步改改进进,一一种种等等价价的的距距离离判别为:判别为:设设有有K个个总总体体,分分别别有有均均值值向向量量i(i=1,2,k)和和协协方方差差阵阵i=,各各总总体体出出现现的的先先验验概概率率相相等等。又又设设Y是一个待判样品。则与的距离为(即判别函数)是一个待判样品。则与的距离为(即判别函数)上式中的第一项上式中的第一项y-1y与与i无关,则舍去,得一个等价的函数无关,则舍去,得一个等价的函数将上式
14、中提-2,得则距离判别法的判别函数判别函数为:判别规则判别规则为注注:这与前面所提出的距离判别是等价的.2.协方差阵已知但不相等协方差阵已知但不相等判别函数判别函数 判别法则判别法则3.协方差阵相等但未知协方差阵相等但未知判别函数判别函数 判别法则判别法则3.协方差阵不相等且未知协方差阵不相等且未知判别函数判别函数 判别法则判别法则(四)错判概率(四)错判概率 由上面的分析可以看出,马氏距离判别法是合理的,但是由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。这并不意谓着不会发生误判。距离判别只要求知道总体的数字特征,不涉及距离判别只要求知道总体的数字特征,不涉及总体
15、的分布函数,当参数未知和协方差时,就用样总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。先验概率,没有考虑到错判的损失。贝叶斯判别法贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。正是为了解决这两个问题提出的判别分析方法。办公室新来了一个雇员小王,小王是好人还是坏人大家办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为都在猜测。按人们主
16、观意识,一个人是好人或坏人的概率均为0.50.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为事,一般好人做好事的概率为0.90.9,坏人做好事的概率为,坏人做好事的概率为0.20.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。把小王判为何种人。3 贝叶斯判别法贝叶斯判别法一一 、标准的、标准的Bayes判别判别 距距离离判判别别简简单单直直观观,很很实实用用,但但是是距距离离判判别别的的方方法法把把总总体体等等同同看看待待,没
17、没有有考考虑虑到到总总体体会会以以不不同同的的概概率率(先先验验概概率率)出出现现,也也没没有有考考虑虑误误判判之之后后所所造造成成的的损损失的差异。失的差异。一一个个好好的的判判别别方方法法,既既要要考考虑虑到到各各个个总总体体出出现现的的先先验验概概率率,又又要要考考虑虑到到错错判判造造成成的的损损失失,Bayes判判别别就就具有这些优点,其判别效果更加理想,应用也更广泛。具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式贝叶斯公式是一个我们熟知的公式 设设有有总总体体 ,具具有有概概率率密密度度函函 数数 。并并且且根根据据以以往往的的统统计计分分析析,知知道
18、道 出出现现的的概概率率为为 。即即当当样样本本 发发生生时时,求求他他属属于于某某类类的的概概率率。由由贝贝叶叶斯公式计算后验概率,有:斯公式计算后验概率,有:判别规则判别规则则则 判给判给 。在正态的假定下,。在正态的假定下,为正态分布的为正态分布的密度函数。密度函数。则判给。上式两边取对数并去掉与上式两边取对数并去掉与i无关的项,则等价无关的项,则等价的判别函数为:的判别函数为:下面讨论总体服从下面讨论总体服从正态分布正态分布的情形的情形问题转化为若问题转化为若 ,则判,则判 。当协方差阵相等当协方差阵相等 则判别函数退化为则判别函数退化为令问题转化为若问题转化为若 ,则判,则判 。完全
19、成为距离判别法完全成为距离判别法。令有有问题转化为若问题转化为若 ,则判,则判 。当先验概率相等,当先验概率相等,二、二、考虑错判损失的考虑错判损失的Bayes判别分析判别分析设设有有总总体体 ,具具有有概概率率密密度度函函 数数 。并并且且根根据据以以往往的的统统计计分分析析,知知道道 出出现的概率为现的概率为 :又又D1,D2,Dk是是R(p)的一个分划,判别法的一个分划,判别法则为:则为:当样品当样品X落入落入Di时,则判时,则判 关键的问题是寻找关键的问题是寻找D1,D2,Dk分划,这个分划分划,这个分划应该使平均错判率最小。应该使平均错判率最小。【定义定义】(平均错判损失)(平均错判
20、损失)用用P(j/i)表示将来自总体表示将来自总体Gi的样品错判到总体的样品错判到总体Gj的条件的条件概率。概率。C(j/i)表示相应错判所造成的损失。表示相应错判所造成的损失。则平均错判损失为:则平均错判损失为:使使ECM最小的分划,最小的分划,是是Bayes判别分析的解。判别分析的解。【定理】若若总体总体G1,G2,Gk的先验概率为的先验概率为且相应的密度函数为且相应的密度函数为 ,损失为,损失为 时,时,则划分的则划分的Bayes解为解为其中其中 含义是:当抽取了一个未知总体的样品值含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出要判别它属于那个总体,只要先计算
21、出k个按先验概率加权的误判平均损失个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样然后比较其大小,选取其中最小的,则判定样品属于该总体。品属于该总体。为了直观说明,作为例子,讨论为了直观说明,作为例子,讨论k=2k=2的情形。的情形。由此可见,要使由此可见,要使ECM最小,被积函数必须在最小,被积函数必须在D1是是负数,则有分划负数,则有分划 事实上事实上 ,只要考虑,只要考虑Bayes判别准则为:判别准则为:特别则判给。与标准Bayes判别等价 下表是某金融机构客户的个人资料,这些资料对一个下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解
22、至关重要,因为利金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:评价体系。所选变量为:x1:x1:月收入月收入 x2x2:月生活费支出月生活费支出 x3x3:虚拟变量,住房的所有权,自己的为虚拟变量,住房的所有权,自己的为“1”1”,租用的,租用的“0”0”x4 x4:目前工作的年限目前工作的年限 x5x5:前一个工作的年限前一个工作的年限 x6x6:目前住所的年限目前住所的年限 x7x7:前一个住所的年限前一个住所的年限X8X8:信用程度,信用程度,“5”5”的信用度最
23、高,的信用度最高,“1”1”的信用度最低。的信用度最低。4 典型判别法(典型判别法(Fisher判别法判别法)一、两个总体的费歇(一、两个总体的费歇(FisherFisher)判别法判别法 X不能使总体单位尽可能分开的方向u能使总体单位尽可能分开的方向 旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个(一)费歇判别的基本思想从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。FisherFisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,FisherFisher在1936
24、年提出。该判别方法对总体的分布不做任何要求。从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。假设我们可以得到一个线性判别函数:我们可以把两个总体的样品代入上面的判别式分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。取对数求导数称为典型函数.(三)判别准则(三)判别准则如果
25、由原始数据y求得判别函数得分为y*,对与一个样品代入判别函数中,若y*y0,则判给G1,否则判给G2。二、多个总体的二、多个总体的FisherFisher判别法判别法(一一)判别函数判别函数Fisher判别法实际上是致力于寻找一个最能反映组和组 之 间 差 异 的 投 影 方 向,即 寻 找 线 性 判 别 函 数,设有个总体,分别有均值向量,,和协方差阵,分别各总体中得到样品:第i个总体的样本均值向量综合的样本均值向量第i个总体样本组内离差平方和综合的组内离差平方和组间离差平方和如果判别分析是有效的,则所有的样品的线性组合满足组内离差平方和小,而组间离差平方和大。则而所对应的特征向量即。Fi
26、sherFisher样品判别函数是 然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数。其特征向量构成第二个判别函数的系数。类推得到m(mFModel10.874667910.8746679116.900.0002Error361.863008400.05175023CorrectedTotal372.73767632X1在类间有显著性差异。Dependent Variable:x2(对(对X2进行的检验)进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel10.083120770.08312
27、0771.950.1710Error361.533700280.04260279CorrectedTotal371.61682105X2在类间没有显著性差异。Dependent Variable:x3(对(对X3进行的检验)进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel116.4695844316.4695844321.45FModel10.001126940.001126940.030.8643Error361.369780950.03804947CorrectedTotal371.37090789X4在类间没有显著性差异。多元假设检验多
28、元假设检验StatisticValueFValueNumDFDenDFPrFWilksLambda0.545616206.874330.0004PillaisTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004RoysGreatestRoot0.832790156.874330.0004PillaisTrace 设有n样品,分别来自k个类G1,G2,Gk其中ni个来自Gi,(一)变量组间差异的显著检验(一)变量组间差异的显著检验 样品分别为:即,p个指标对G1,G2,Gk无区别能力;p个指标对G1,G2
29、,Gk有区别能力。当比值 很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为真的条件下,服从维尔克斯分布 。当 接受原假设;当p个指标对G1,G2,Gk有强的区别能力,拒绝原假设。(二)附加信息的检验(二)附加信息的检验在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。逐逐步步判判别别法法采采用用有有进进有有出出的的算算
30、法法,即即每每一一步步都都进进行行检检验验。首首先先,将将判判别别能能力力最最强强的的变变量量引引进进判判别别函函数数,而而对对较较早早进进入入判判别别函函数数的的变变量量,随随着着其其他他变变量量的的进进入入,其其显显著著性性可可能能发发生生变变化化,如如果果其其判判别别能能力力不不强强了了,则删除。则删除。向向前前选选入入 开开始始时时模模型型中中没没有有变变量量。每每一一步步,Wilks的的统统计计量量最最小小者者,进进入入模模型型。当当不不再再有有未未被被选选入入的的变变量量小小于于选选入入的的临临界界值值时时,向向前前选选入入过过程停止。程停止。向向后后剔剔除除 开开始始时时,所所有
31、有变变量量都都在在模模型型中中。每每一一步步,在在Wilks的的统统计计量量的的准准则则下下对对模模型型中中判判别别能能力力贡贡献献最最小小的的变变量量剔剔除除。当当所所有有余余下下的的变变量量都达到留在模型中的标准时,向后剔除过程停止。都达到留在模型中的标准时,向后剔除过程停止。逐逐步步选选择择 开开始始时时如如同同向向前前选选择择一一样样,模模型型中中没没有有变变量量,每每一一步步都都被被检检查查。如如果果在在Wilks的的准准则则下下统统计计量量对对模模型型的的判判别别能能力力贡贡献献最最小小的的变变量量达达不不到到留留在在模模型型中中的的标标准准,它它就就被被剔剔除除。否否则则,不不在
32、在模模型型中中对对模模型型的的判判别别能能力力贡贡献献最最大大的的变变量量被被选选入入模模型型。当当模模型型中中的的所所有有变变量量都都达达到到留留在在模模型型中中的的标标准准而而没没有有其其他他变变量量能能达达到到进进入入模模型型的的标标准准,逐逐步步选选择择过过程程停停止。止。设有n样品,分别来自k个类G1,G2,Gk其中ni个来自Gi,样品分别为:即,p个指标对G1,G2,Gk无区别能力;1、加入变量、加入变量设判别函数中已经有q个变量,要检验某个变量xj对判别效果的贡献,或者说变量对判别是否有附加的信息。H0:xj判别分析没有附加的信息H1:xj对判别分析有附加的信息将q+1个变量构成
33、的叉积将矩阵分块利用分块矩阵的行列式的性质有:它是在给定了q个指标的条件下的q+1个指标的附加信息量的度量,该统计量服从维尔克斯分布 该统计量服从F(k-1,n-p-k)分布,当F很大时,则拒绝原假设,第q+1个指标有附加信息;否则,接受原假设。2、剔除变量、剔除变量对对于于判判别别函函数数中中已已有有的的q1个个变变量量,是是否否有有对对判判别别能能力力贡贡献不显著的变量存在,则应该将其从判别函数中删除。献不显著的变量存在,则应该将其从判别函数中删除。H0:xk对判别分析贡献不显著,即应该剔除;对判别分析贡献不显著,即应该剔除;H1:xk对判别分析贡献显著,即应该保留;对判别分析贡献显著,即
34、应该保留;检验的统计量检验的统计量逐步判别步骤逐步判别步骤 第一步:通过计算单变量的统计量,逐步选择判别变量统计量最小者首先进入模型。第二步:分别计算未被选中的其它变量与选中变量x1的统计量,统计量1i得值最小者与x1搭配进入模型。第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模型中剔除。其原则与引入相同。统计量得值最小者或F最大者保留。第四步:进行判别分析。将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分。选择变量选择变量 (1)和判别分析的目的密切相关 (2)反映要判类变量的特征 (3)在不同研究对象上的值有明显的差异 确定分析样本和验证样本确定分析样本和验证样本 判别分析主要步骤 估计鉴别函数估计鉴别函数 选择某种方法建立判别规则,有距离判别、贝叶斯判别和典型判别 计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。检查判别的效果检查判别的效果用逐步判别法筛选变量用逐步判别法筛选变量 在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除