《《判别分析操作》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《判别分析操作》PPT课件.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、例例1:通通过过城城市市人人口口所所占占的的比比例例、有有文文化化居居民民的的比比例例、人人口口增增长长率率、人人均均GDP等等四四个个变变量量来来判判别别某某国国所所属属的的类类型型。我我们们将将国国家家分分为为三三种种类类型型,分分别别为为OECD国国家家、亚亚太太地地区区的的国国家家和和非非洲洲地地区区的的国国家家。来来自自三三个个总总体体的的训训练练样本数分别为样本数分别为16、12、16,共,共44个样本。个样本。第四章第四章 判别分析判别分析(操作部分)操作部分)选选择择AnalyzeClassifyDiscriminant进进入入判判别别分析对话框,如下:分析对话框,如下:Gro
2、uping Variable 框框 用于选择已知的类别变量用于选择已知的类别变量(离散型的)。(离散型的)。Define Range 按钮具体确定变量的取值范围。按钮具体确定变量的取值范围。Minimum栏栏 输入该分类变量的最小值。输入该分类变量的最小值。Maximum栏栏 输入该分类变量的最大值。输入该分类变量的最大值。Independents 用于指定判别分析的自变量。用于指定判别分析的自变量。即建立判别函数所需的变量。即建立判别函数所需的变量。Enter independents together 所有自变量同所有自变量同时进入判别函数,是系统默认值。当认为所有时进入判别函数,是系统默
3、认值。当认为所有自变量都能对样本观测值的特性提供丰富的信自变量都能对样本观测值的特性提供丰富的信息,且彼此独立时使用该选项。息,且彼此独立时使用该选项。Use stepwise method 使用逐步判别法,按使用逐步判别法,按照所指定的引入或删除变量方法依次引入或删照所指定的引入或删除变量方法依次引入或删除变量。除变量。Selection Variable 框框 用用于于定定义义样样本本选选择择条条件件。选选中中一一个个变变量量引引入入框框中中,然然后后使使用用右右侧侧的的Value按按钮钮定定义义一一个个取取值值,这这样样全全部部样样本本中中只只有有该该变变量等于所指定值的样本才被纳入分析
4、中。量等于所指定值的样本才被纳入分析中。Statistics对话框对话框 用于给出一些统计量。用于给出一些统计量。Descriptives Means 输输出出各各类类中中各各分分类类变变量量的的均均值值、标标准差和各分类变量总样本的均值和标准差。准差和各分类变量总样本的均值和标准差。Univariable ANOVA 输输出出各各变变量量的的方方差差分分析析结结果果,即即进进行行假假设设检检验验,原原假假设设是是该该变变量量在在各各类类的的均均值值相相等等。通通过过此此项项判判断断各各个个变变量量在在不不同同组组之之间间是是否否有有差差别别,建建立立判判别别函函数数时时选选用用该该变量是否有
5、意义。变量是否有意义。Box,M 对对各各类类的的协协方方差差矩矩阵阵相相等等的的假假设设进行检验,一般不太关心这个结果。进行检验,一般不太关心这个结果。Function coefficients 用用于于选选择择判判别别函函数数系系数数的的输输出出形式形式:Fisher,s 给出给出Bayes判别准则的判别函数。判别准则的判别函数。Unstandardized 给给出出 Fisher判判别别法法建建立立判判别别函函数数的的 未标准化系数。未标准化系数。Matrice Within-groups covariance matrix 计计算算合合并并类类内内协协方方差差矩矩阵阵,是是将将各各组组
6、协协方方差差矩矩阵阵平平均均后后计计算算的的,区别于总协方差矩阵。区别于总协方差矩阵。Within-groups correlaton matrix 是是根根据据上上述述协协方差矩阵计算的相关矩阵。方差矩阵计算的相关矩阵。separate-groups covariance matrix 对对每每个个类类输输出出一个协方差矩阵一个协方差矩阵 total covariance matrix 计计算算并并显显示示总总样样本本的的协协方方差矩阵。差矩阵。Classify 指定分类参数和判别结果。指定分类参数和判别结果。Prior Probabilities 选择先验概率,两者选择其一:选择先验概率,
7、两者选择其一:All groups equal 选项选项 各类先验概率相等。各类先验概率相等。Compute from groups sizes 选选项项 由由各各类类 的的样样本本量量决定,各类的先验概率与其样本量成正比。决定,各类的先验概率与其样本量成正比。Use Covariance Matrix 选择分类使用的协方差矩阵。选择分类使用的协方差矩阵。Within-groups 选选项项 指指定定使使用用合合并并组组内内协协方方差差矩矩阵阵进行分析。进行分析。Separate-groups 选选项项 指指定定使使用用各各组组协协方方差差矩矩阵阵进进行分析。此处一般不更改,使用默认值。行分析
8、。此处一般不更改,使用默认值。Display 选择生成到输出窗口的分类结果。选择生成到输出窗口的分类结果。Casewise results 复复选选框框 对对每每个个观观测测变变量量输输出出实实际际类类、预预测测类类(根根据据判判别别函函数数求求得得的的分分类类结结果果)和和后后验验概概率率等等。如如果果选选择择此此项项,下下边边有有一一个个“limit cases to first”按按设设置置的的记记录录数数输输出出前前n个样本的判别结果。个样本的判别结果。summary table 复复选选框框 输输出出分分类类小小结结。给给出出正确分类的样本数、错分的样本数和错分率。正确分类的样本数、
9、错分的样本数和错分率。Leave-one-out classification 即即交交互互验验证证法法(Cross-Validition)。在在建建立立判判别别函函数数时时去去掉掉该该样样本本点点,然然后后利利用用判判别别函函数数判判别别该该样样本本点点的的分类。分类。Plots 用于选择可输出的判别图用于选择可输出的判别图 Combined-groups 输输出出一一张张包包括括各各类类的的散散点点图图。该该散散点点图图是是根根据据前前两两个个判判别别函函数数生生成成的的,如果只有一个判别函数则生成直方图。如果只有一个判别函数则生成直方图。Separate-groups 根根据据前前两两个
10、个判判别别函函数数对对每每一一类类生生成成一一张张散散点点图图,共共分分成成几几类类就就生生成成几几张张散点图。如果只有一个判别函数则生成直方图。散点图。如果只有一个判别函数则生成直方图。Territorial map 画画出出领领域域图图(分分类类区区域域图图)。整整个个平平面面被被分分成成几几大大块块,每每一一块块代代表表一一个个类类别别,之之间间有有清清楚楚的的界界限限分分割割。其其中中星星号号代代表表各各个个类类的中心,用此图可以直接对未知样本进行分类。的中心,用此图可以直接对未知样本进行分类。Method Method 用用于于选选择择的的逐逐步步判判别别分分析析时时所所采采用用的方
11、法。的方法。Wilk-lambda 每每步步使使得得Wilks统统计计量量最最小小的变量进入判别方程。的变量进入判别方程。Unexplained variance:每每步步使使得得各各类类不不可可解解释释的的方方差差(随随机机误误差差)之之和和最最小小的的变变量量进进入判别方程。入判别方程。Smallest F ratio 每每步步使使得得两两类类之之间间最最小小的的F值最大的变量进入判别方程。值最大的变量进入判别方程。Rao,V统统计计量量产产生生最最大大增增量量的的变变量量进进入入判别方程。判别方程。Criteria 进进入入或或删删除除变变量量的的临临界界值值设设置置,包包含含两种方式:
12、两种方式:Use F Value 使使用用F值值,是是系系统统默默认认的的。当当加加入入一一个个变变量量或或剔剔除除一一个个变变量量后后,对对判判别别函函数数中中的的变变量量进进行行方方差差分分析析。当当F值值大大于于指指定定的的Entry值值时时,该该变变量量保保留留,默默认认的的为为3.84。当当F值值小小于于指指定定的的Removal值值时时,该该变变量量从从判判别别函函数数中中删删除除,默默认认的的Removal值值为为2.71。如如果果是是用用户户自自己己设设定定应应注注意意Entry值值 Removal值值,否否则则产产生生函函数数中中没没有有变量的错误。变量的错误。Use pro
13、bability of F 使使用用P值值。加加入入变变量量默默认认的的P值值是是0.05(5%),剔剔除除变变量量的的P值值是是0.1(10%),应注意),应注意Removal值值 Entry值。值。Display 选择要显示的统计量选择要显示的统计量Summary of steps 要要求求在在逐逐步步选选择择变变量量过过程程中的每一步之后显示每个变量的统计量。中的每一步之后显示每个变量的统计量。F for pairwise distances 要要求求显显示示两两类类之之间间的的F值矩阵。值矩阵。下表为样本缺失值报告:下表为样本缺失值报告:下表给出的是原始数据描述性统计量。这是下表给出的
14、是原始数据描述性统计量。这是Statistics中要求输出中要求输出的结果。的结果。上表为单变量方差分析的结果。检验各类中同一变量上表为单变量方差分析的结果。检验各类中同一变量均值是否相等,原假设是均值相等,由上表可以看出均值是否相等,原假设是均值相等,由上表可以看出拒绝原假设,说明各类在各个变量上的均值不相等,拒绝原假设,说明各类在各个变量上的均值不相等,因此才有分类的意义。因此才有分类的意义。下表给出的是合并类内协方差矩阵和相关矩阵,阵中下表给出的是合并类内协方差矩阵和相关矩阵,阵中各元素是各类协方差矩阵和相关矩阵中对应元素的均各元素是各类协方差矩阵和相关矩阵中对应元素的均值。值。下表给出
15、了各类的协方差矩阵和总的协方差矩阵在:下表给出了各类的协方差矩阵和总的协方差矩阵在:下表给出了逐步判别法中变量的进入和剔除情况:下表给出了逐步判别法中变量的进入和剔除情况:下表给出的是变量的剔除过程:下表给出的是变量的剔除过程:上表给出了判别函数所对应的特征值上表给出了判别函数所对应的特征值、方差贡献及方差贡献及典型典型 相关系数。特征根的个数为变量数和类别数减相关系数。特征根的个数为变量数和类别数减1中的中的较小值。较小值。上表为典型判别函数的有效性,可以看出判别函数的上表为典型判别函数的有效性,可以看出判别函数的判别能力是显著的。判别能力是显著的。给给出出了了标标准准化化以以后后典典型型判
16、判别别函函数数的的系系数数。两两个标准化的判别函数为:个标准化的判别函数为:上表给出了结构矩阵,即原始变量与标准化后的典型上表给出了结构矩阵,即原始变量与标准化后的典型判别函数值之间的相关关系。如果一些分类变量与某判别函数值之间的相关关系。如果一些分类变量与某个判别函数之间有很大的结构系数,就可以用这些区个判别函数之间有很大的结构系数,就可以用这些区别变量的名字来命名此判别函数。别变量的名字来命名此判别函数。上表给出了未标准化的典型判别函数的系数。上表给出了未标准化的典型判别函数的系数。给出了各类均值(重心)未标准化的典型判别函数给出了各类均值(重心)未标准化的典型判别函数的分值。的分值。上表
17、给出的是各个类先验概率的情况。上表给出的是各个类先验概率的情况。给给出出了了贝贝叶叶斯斯判判别别的的线线性性判判别别函函数数,有有几几个个类类就就有有几几个个函函数数,将将样样本本带带入入函函数数计计算算其其在在各各个个类类上上的的得得分,比较不同类的判别分值,哪个大就判给哪个类。分,比较不同类的判别分值,哪个大就判给哪个类。上表给出的是样本判别分类统计表。上表给出的是样本判别分类统计表。上上半半部部分分给给出出了了各各个个样样本本的的实实际际类类别别,最最大大可可能能所所属属的的预预测测类类别别和和次次最最大大可可能能所所属属的的预预测测类类别别,Discriminant scores是两个
18、典型判别方程的得分。是两个典型判别方程的得分。下半部分是交互验证建立判别方程的结果。下半部分是交互验证建立判别方程的结果。上图是第一组(上图是第一组(OECD国家)判别函数得分的散点图。国家)判别函数得分的散点图。上表给出的是判别分类结果的统计评价,从表中上表给出的是判别分类结果的统计评价,从表中可以看出三组的错判率分别为可以看出三组的错判率分别为6.2%,41.7%和和12.5%。将将菲菲律律宾宾的的数数据据带带入入两两个个判判别别函函数数得得到到两两个个值值为:为:(1.64844,-2.23792),落落入入第第二二个个区区域域,因因此判为是亚太国家。此判为是亚太国家。如如果果带带到到贝
19、贝叶叶斯斯线线性性判判别别函函数数里里边边得得到到三三个个组组的的的的分分值值分分别别为为:2.14972,4.59068,4.2374。应该判给得分最高的,所以也应判给第二组。应该判给得分最高的,所以也应判给第二组。例例2:对全国对全国30个省市自治区个省市自治区1994年影响各地区经济增长年影响各地区经济增长差异的制度变量:差异的制度变量:x1 经济增长率(经济增长率(%););x2非国有化水平(非国有化水平(%););x3开放度(开放度(%););x4市场化程度(市场化程度(%)。)。作判别分析。训练样本来自两个组,根据所给样本建立作判别分析。训练样本来自两个组,根据所给样本建立判别函数
20、,判别江苏、安徽和陕西所属的类别。判别函数,判别江苏、安徽和陕西所属的类别。标准化的典型判别函数系数:标准化的典型判别函数系数:给出了未标准化的典型判别函数的系数,典型判别给出了未标准化的典型判别函数的系数,典型判别函数为:函数为:两类重心判别函数得分值:两类重心判别函数得分值:将三个省的四个变量的数据带入线性判别函数,计算将三个省的四个变量的数据带入线性判别函数,计算得:得:江苏:江苏:安徽:安徽:陕西:陕西:因此将江苏、安徽判归第一类,陕西判归第二类。因此将江苏、安徽判归第一类,陕西判归第二类。将三个省四个变量的值带入典型判别函数:将三个省四个变量的值带入典型判别函数:计算得:计算得:江苏:江苏:u(x)1.22634安徽:安徽:u(x)0.40216陕西:陕西:u(x)-1.24201