《应用统计学判别分析讲稿.ppt》由会员分享,可在线阅读,更多相关《应用统计学判别分析讲稿.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用统计学判别分析第一页,讲稿共四十二页哦例:中小企业的破产模型例:中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:第二页,讲稿共四十二页哦总负债率总负债率收益性指标收益性指标短期支付能力短期支付能力生产效率指标生产效率指标类别类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-
2、.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532第三页,讲稿共四十二页哦.38.38.11.113.273.27.55.552 2.19.19.05.052.252.25.33.332 2.32.32.07.074.2
3、44.24.63.632 2.31.31.05.054.454.45.69.692 2.12.12.05.052.522.52.69.692 2-.02-.02.02.022.052.05.35.352 2.22.22.08.082.352.35.40.402 2.17.17.07.071.801.80.52.522 2.15.15.05.052.172.17.55.552 2-.10-.10-1.01-1.012.502.50.58.582 2.14.14-.03-.03.46.46.26.262 2.14.14.07.072.612.61.52.522 2-.33-.33-.09-.093
4、.013.01.47.472 2.48.48.09.091.241.24.18.182 2.56.56.11.114.294.29.45.452 2.20.20.08.081.991.99.30.302 2.47.47.14.142.922.92.45.452 2.17.17.04.042.452.45.14.142 2.58.58.04.045.065.06.13.132 2.04.04.01.011.501.50.71.71待判待判-.06-.06-.06-.061.371.37.40.40待判待判第四页,讲稿共四十二页哦企业序号判别类型判别函数得分判别为1的概率判别的为2概率11-.56
5、509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988第五页,讲稿共四十二页哦二、判别分析的二、判别分析的基本要求:基本要求:1 1、分组类型在两组以上;、分组类型在两组以上;2 2、第一阶段每组样本(或案例)个数至少一个以上;、第一阶段每组样本(或案例)个数至少一个以上;3 3、解释变量必须是可测量的、解释变量必须是可测量的三、判
6、别分析与聚类分析的比较三、判别分析与聚类分析的比较:1 1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。类型的样本进行判别分类。2 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。类的方法。第六页,讲稿共四十二页哦 3 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用、判别分析和聚类分析往
7、往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。行判别。此外此外判别分析变量情况:判别分析变量情况:被解释变量为属性变量;被解释变量为属性变量;解释变量是定量变量。解释变量是定量变量。第七页,讲稿共四十二页哦v四、判别分析类型及方法四、判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则
8、第八页,讲稿共四十二页哦2 2 距离判别距离判别v基本思想基本思想:即:即:首先根据已知分类的数据,分别计算各类的重心即首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给各组(类)的均值,判别的准则是对任给样品,计算它到各类样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个平均数的距离,哪个距离最小就将它判归哪个类。第九页,讲稿共四十二页哦例 在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和
9、协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?第十页,讲稿共四十二页哦变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率40.729.840.2454.5811.67 产品净值率10.76.221.4111.677.90第十一页,讲稿共四十二页哦线性判别函数:第十二页,讲稿共四十二页哦距离判别法的优缺点:距离判别法的优缺点:该方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法贝叶斯判别法正是为了解决这两个问题提出的判别
10、分析方法。第十三页,讲稿共四十二页哦贝叶斯贝叶斯(Bayes)(Bayes)判别判别贝贝叶叶斯斯判判别别法法是是通通过过计计算算被被判判样样本本x x属属于于k k个个总总体体的的条条件件概概率率P(n/x),n=1,2.k.比比较较k个个概概率率的的大大小小,将将样样本本判判归归为为来来自自出出现现概概率最大的总体率最大的总体(或归属于错判概率最小的总体)的判别方法。(或归属于错判概率最小的总体)的判别方法。一、最大后验概率准则一、最大后验概率准则 设有k个总体且总体的概率密度为,样本x来自的先验概率为满足 利用贝叶斯理论,x属于的后验概率(即当样本x已知时,它属于的概率为:最大后验概率判别
11、准则:第十四页,讲稿共四十二页哦例:设有,和三个类,欲判别某样本属于哪一类已知现利用后验概率准则计算属于各组的后验概率:第十五页,讲稿共四十二页哦例例:办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。第十六页,讲稿共四十二页哦BayesBayes公式:公式:第十七页,讲稿共四十二页哦例:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,例:下表
12、是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:的信息,建立客户的信用度评价体系。所选变量为:x1:x1:月收入月收入 x2x2:月生活费支出月生活费支出 x3x3:虚拟变量,住房的所有权,自己的为虚拟变量,住房的所有权,自己的为“1 1”,租用的,租用的“0 0”x4x4:目前工作的年限目前工作的年限 x5x5:前一个工作的年限前一个工作的年限 x6x6:目前住所的年限目前住所的年限 x7x7:前一个住所的年限前一个
13、住所的年限 X8:X8:家庭赡养的人口数家庭赡养的人口数 X9 X9:信用程度,信用程度,“5 5”的信用度最高,的信用度最高,“1 1”的信用度最低。的信用度最低。第十八页,讲稿共四十二页哦第十九页,讲稿共四十二页哦第二十页,讲稿共四十二页哦费歇尔费歇尔(Fisher)Fisher)判别判别所谓所谓FisherFisher判别法,判别法,就是用投影的方法将就是用投影的方法将k k个不同总体在个不同总体在p p维空间上维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。用方的点尽可能分散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法差分析的思
14、想则可构建一个较好区分各个总体的线性判别法 例:考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。这种首先进行投影的判别方法就是Fisher判别法。第二十一页,讲稿共四十二页哦第二十二页,讲稿共四十二页哦例:企图
15、用一套打分体系来描绘企业的状况。该体系对每个企业的企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模一些指标(变量)进行评分。这些指标包括:企业规模(is)is)、服务服务(se)se)、雇员工资比例雇员工资比例(sa)sa)、利润增长利润增长(prr)prr)、市场份额市场份额(ms)ms)、市市场份额增长场份额增长(msr)msr)、流动资金比例流动资金比例(cp)cp)、资金周转速度资金周转速度(cs)cs)等等。等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。
16、下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:(三个类别之一:group-1group-1代表上升,代表上升,group-2group-2代表稳定,代表稳定,group-3group-3代表下降)找出一个分类标准,以对没有被该刊物分代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。类的企业进行分类。该数据有该数据有9090个企业(个企业(9090个观测值),其中个观测值),其中3030个属于上升型,个属于上升型,3030个属于稳定型,个属于稳定型,3030个属于下降型。这个数据就是一个个属于下降型
17、。这个数据就是一个“训练样训练样本本”。第二十三页,讲稿共四十二页哦第二十四页,讲稿共四十二页哦利用利用SPSSSPSS软件的逐步判别法淘汰了不显著的流动资金比例软件的逐步判别法淘汰了不显著的流动资金比例(cp)cp),还剩下七个变量还剩下七个变量isis,sese,sasa,prrprr,msms,msrmsr,cscs,得到两个典得到两个典则判别函数(则判别函数(Canonical Discriminant Function Canonical Discriminant Function CoefficientsCoefficients):):0.035IS+3.283SE+0.037SA
18、-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384这两个函数实际上是由这两个函数实际上是由FisherFisher判别法得到的向两个方向的投判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的影。这两个典则判别函数的系数是下面的SPSSSPSS输出得到的:输出得到的:第二十五页,讲稿共四十二页哦根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就
19、是二维平面上的150个点。它们的点图在下面图中。第二十六页,讲稿共四十二页哦第二十七页,讲稿共四十二页哦从上图可以看出,第一个投影(相应于来自于第一个典则判别函从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。清楚了。SPSSSPSS的一个输出就给出了这些判别函数(投影)的重的一个输出就给出了这些判别函数(投影)的重要程度:要程度:第二十八页,讲稿共四十二页哦
20、投影的重要性是和特征值的贡献率有关。该表说明第一个函投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是数的贡献率已经是99%99%了,而第二个只有了,而第二个只有1%1%。当然,二维图。当然,二维图要容易看一些。投影之后,再根据各点的位置远近算出具体要容易看一些。投影之后,再根据各点的位置远近算出具体的判别公式(的判别公式(SPSSSPSS输出):输出):第二十九页,讲稿共四十二页哦该表给出了三个线性分类函数的系数。把每个观测点带入该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,三个函数,就可以得到分别代表三类的三个值,哪个值最哪个
21、值最大,该点就属于相应的那一类。大,该点就属于相应的那一类。计算机软件的选项可以把这计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然,些训练数据的每一个点按照这里的分类法分到某一类。当然,我们一开始就知道这些训练数据的各个观测值的归属,但即我们一开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分类,也不一定全都能够正确划分。函数来分类,也不一定全都能够正确划分。第三十页,讲稿共四十二页哦第三十一页,讲稿共四十二页哦判别分析的SPSS操作步骤:执行菜单命令,单击
22、执行菜单命令,单击 AnalyzeAnalyze、ClassifyClassify、DiscriminantDiscriminant第三十二页,讲稿共四十二页哦第三十三页,讲稿共四十二页哦 指定分组变量及其取值范围。指定分组变量及其取值范围。将将分分组组变变量量从从源源变变量量窗窗口口通通过过选选择择箭箭头头选选到到分分组组变变量量窗窗口口“Grouping Grouping variablevariable”。并并从从“Define Define RangeRange”按按钮钮定定义义分分组组变变量量的的取取值值范范围围,给给定定最最小小值值MinimumMinimum和和最最大大值值Max
23、imumMaximum。指定判别函数中的自变量。指定判别函数中的自变量。将自变量从源变量窗口通过选择箭头选到自变量窗口。将自变量从源变量窗口通过选择箭头选到自变量窗口。选择使用自变量的方法。选择使用自变量的方法。对对于于选选定定的的自自变变量量可可以以全全部部应应用用到到判判别别函函数数中中去去,这这是是系系统统默默认认的的使使用用全全部部自自变变量量法法“Enter Enter independent independent togethertogether”。如如果果要要对对变变量量进进行行筛筛选选检检验验,将将使使用用选选项项逐逐步步进进入入法法“Use Use stepwise ste
24、pwise methodmethod”。使使用用该该方方法法后后,按按钮钮“MethodMethod”将被激活将被激活第三十四页,讲稿共四十二页哦计算各类别及总体计算各类别及总体各变量均值、标准差各变量均值、标准差统计量、矩阵和函数系数的计算统计量、矩阵和函数系数的计算 按钮按钮“StatisticsStatistics”将打开统计计算窗口。将打开统计计算窗口。输出单变量输出单变量方差分析结果方差分析结果各类协方差矩阵各类协方差矩阵相等的检验相等的检验计算判别函数系数计算判别函数系数FisherFisher判别系数判别系数非标准化非标准化判别系数判别系数组内相关矩阵组内相关矩阵合并组内协方差矩
25、阵合并组内协方差矩阵组间协方差矩阵组间协方差矩阵总协方差矩阵总协方差矩阵第三十五页,讲稿共四十二页哦第三十六页,讲稿共四十二页哦第三十七页,讲稿共四十二页哦分类方式和判别结果分类方式和判别结果 单击按钮单击按钮“ClassifyClassify”将设置分类所依据的判别先验概率和协方将设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果差矩阵,以及输出图形和显示结果先验概率的设定先验概率的设定各类取相等先验概率各类取相等先验概率根据各类样本个数根据各类样本个数计算先验概率计算先验概率输出分析结果输出分析结果输出各样本的分类结果输出各样本的分类结果如判别得分、判别类等如判别得分、判别类
26、等交叉检验结果交叉检验结果将缺失值用均值替代将缺失值用均值替代选择分类使用选择分类使用的协方差阵的协方差阵组内协方差阵组内协方差阵分组协方差阵分组协方差阵作图作图生成一张包括生成一张包括各类的散点图各类的散点图分类显示分类显示各个类的散点图各个类的散点图分界图,将坐标平面划分为分界图,将坐标平面划分为不同的区域,每个区域将代表一个类不同的区域,每个区域将代表一个类第三十八页,讲稿共四十二页哦第三十九页,讲稿共四十二页哦第四十页,讲稿共四十二页哦在在SPSS数据文件中生成新变量数据文件中生成新变量单击单击“SAVESAVE”按钮,保存预测的组别,判别得分和各组成员的事后概率按钮,保存预测的组别,判别得分和各组成员的事后概率建立一个标明每个样本建立一个标明每个样本所属的类别的变量所属的类别的变量生成一个判别得分变量生成一个判别得分变量样本属于某类的概率样本属于某类的概率第四十一页,讲稿共四十二页哦第四十二页,讲稿共四十二页哦