《spss聚类分析结果解释.ppt》由会员分享,可在线阅读,更多相关《spss聚类分析结果解释.ppt(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、spss聚聚类分析分析结果解果解释14.1.1 聚类分析根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。同类中的个体差异很大。根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:n样品聚类:对观测量样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)如选拔运动员与分课外活动小组)n变量聚类:找出彼此独
2、立且有代表性的自变量,而又不丢失大部分信息。在生产活变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。码。变量聚类使批量生产成为可能。14.1.2 判别分析判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。对未知所属类别的事物进行分类的一种分析方法。在自然
3、科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。量的值,并且已知各个体的分类(训练样本)。14.1.3 聚类分析与判别分析的SPSS过程在在AnalyzeClassify下:下:1.K
4、-MeansCluster:观测量快速聚类分析过程观测量快速聚类分析过程2.HierarchicalCluster:分层聚类(进行观测量聚类和变量聚类的过程分层聚类(进行观测量聚类和变量聚类的过程3.Discriminant:进行判别分析的过程进行判别分析的过程14.2 快速样本聚类过程(Quick Cluster)使用使用k均值分类法对观测量进行聚类均值分类法对观测量进行聚类可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。果或中间数据数据存入数据文件等。快速
5、聚类实例快速聚类实例(P342,data14-01a):使用系统的默认值进行:对运动员的分类(分为使用系统的默认值进行:对运动员的分类(分为4类)类)nAnalyzeClassifyK-MeansClusterwVariables:x1,x2,x3wLabelCaseBy:nowNumberofCluster:4w比较有用的结果:聚类结果形成的最后四类中心点比较有用的结果:聚类结果形成的最后四类中心点(FinalClusterCenters)和每类的观测量数目(和每类的观测量数目(NumberofCasesineachCluster)w但不知每个运动员究竟属于哪一类?这就要用到但不知每个运动员
6、究竟属于哪一类?这就要用到Save选项选项14.2 快速样本聚类过程(Quick Cluster)中的选项使用快速聚类的选择项:使用快速聚类的选择项:w类中心数据的输入与输出:类中心数据的输入与输出:Centers选项选项w输出数据选择项:输出数据选择项:Save选项选项w聚类方法选择项:聚类方法选择项:Method选项选项w聚类何时停止选择项:聚类何时停止选择项:Iterate选项选项w输出统计量选择项:输出统计量选择项:Option选项选项14.2 指定初始类中心的聚类方法例题P343数据同上(数据同上(data14-01a):以四个四类成绩突出者的数据为初始聚类中心):以四个四类成绩突出
7、者的数据为初始聚类中心(种子种子)进行聚进行聚类。类中心数据文件类。类中心数据文件data14-01b(但缺一列(但缺一列Cluster_,不能直接使用,要修改)。对运,不能直接使用,要修改)。对运动员的分类(还是分为动员的分类(还是分为4类)类)AnalyzeClassifyK-MeansClusternVariables:x1,x2,x3nLabelCaseBy:nonNumberofCluster:4nCenter:Readinitialfrom:data14-01bnSave:Clustermembership和和DistancefromClusterCentern比较有用的结果(可将
8、结果与前面没有初始类中心比较):比较有用的结果(可将结果与前面没有初始类中心比较):w聚类结果形成的最后四类中心点聚类结果形成的最后四类中心点(FinalClusterCenters)w每类的观测量数目(每类的观测量数目(NumberofCasesineachCluster)w在数据文件中的两个新变量在数据文件中的两个新变量qc1_1(每个观测量最终被分配到哪一类)和(每个观测量最终被分配到哪一类)和qc1_2(观测量与所属(观测量与所属类中心点的距离)类中心点的距离)14.3 分层聚类(Hierarchical Cluster)分层聚类方法:分层聚类方法:n分解法分解法:先视为一大类,再分成
9、几类先视为一大类,再分成几类n凝聚法凝聚法:先视每个为一类先视每个为一类,再合并为几大类再合并为几大类可用于观测量可用于观测量(样本样本)聚类聚类(Q型型)和变量聚类和变量聚类(R型型)一般分为两步(自动一般分为两步(自动,可从可从Paste的语句知道的语句知道,P359):):nProximities:先对数据进行的预处理:先对数据进行的预处理(标准化和计算距离等标准化和计算距离等)nCluster:然后进行聚类分析:然后进行聚类分析两种统计图:树形图两种统计图:树形图(Dendrogram)和冰柱图和冰柱图(Icicle)各类型数据的标准化、距离和相似性计算各类型数据的标准化、距离和相似性
10、计算P348-354n定距变量、分类变量、二值变量定距变量、分类变量、二值变量n标准化方法标准化方法p353:ZScores、Range-1to1、Range0to1等等14.3.4 用分层聚类法进行观测量聚类实例P358对对20种啤酒进行分类种啤酒进行分类(data14-02),变量包括:,变量包括:Beername(啤酒名称啤酒名称)、calorie(热热量量)、sodium(钠含量钠含量)、alcohol(酒精含量酒精含量)、cost(价格价格)AnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cos
11、t成分和价格成分和价格nLabelCaseBy:BeernamenCluster:Case,Q聚类聚类nDisplay:选中选中Statistics,单击,单击StatisticswAgglomeration Schedule Agglomeration Schedule 凝聚状态表凝聚状态表wProximity matrixProximity matrix:距离矩阵:距离矩阵wCluster membershipCluster membership:Single solutionSingle solution:4 4 显示分为显示分为4 4类时,各观测量所属类时,各观测量所属的类的类nMet
12、hod:Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值值-最小最小值值)/极差极差)nPlots:(Dendrogram)Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical纵向作图纵向作图)nSave:ClusterMembership(Singlesolution4)n比较有用的结果:根据需要进行分类,在数据文件中的分类新变量比较有用的结
13、果:根据需要进行分类,在数据文件中的分类新变量clu4_1等等14.3.5 用分层聚类法进行变量聚类变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。有代表性的变量代替大变量集时,损失信息很少。与进行观测量聚类雷同,不同点在于:与进行观测量聚类雷同,不同点在于:w选择选择Variable而非而非CasewSave选项失效,不建立的新变量选项失效,不建立的新变量14.3.6 变量聚类实例1 P366上面啤酒分类问题上面啤酒分类问题data14-02
14、。AnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格nCluster:Variable,R聚类聚类nMethod:wClusterMethod:FurthestNeighborwMeasure-Interval:PearsonCorrelationwTransformValues:ZScore(ByVariable)nPlots:Dendrogram树型图树型图nStatistics:Proximity matrixProximity matrix:相关矩阵:相关矩阵n比较有用的
15、结果:根据相关矩阵和树型图,可知比较有用的结果:根据相关矩阵和树型图,可知calorie(热量热量)和和alcohol(酒精含酒精含量量)的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的结果。至的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定。识或测度的难易程度决定。14.3.6 变量聚类实例2 P368有有10个测试项目,分别用变量个测试项目,分别用变量X1-X10表示,表示,50名学生参加测试。想从
16、名学生参加测试。想从10个变量中选择个变量中选择几个典型指标。几个典型指标。data14-03AnalyzeClassifyHierarchicalCluster:nVariables:X1-X10nCluster:Variable,R聚类聚类nMethod:wClusterMethod:FurthestNeighborwMeasure-Interval:PearsonCorrelationnPlots:Dendrogram树型图树型图nStatistics:Proximity matrixProximity matrix相关矩阵相关矩阵n比较有用的结果:可以从树型图中看出聚类过程。具体聚为几
17、类最为合理,比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,根据根据专业知识来定。而每类中的典型指标的选择,可用专业知识来定。而每类中的典型指标的选择,可用p370的相关指数公式的计算,的相关指数公式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变量。量。14.4 判别分析P374判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。要先建立判别函数要先建立判别函数Y=a1x1+a2x2+.a
18、nxn,其中,其中:Y为判别分数为判别分数(判别值判别值),x1x2.xn为反为反映研究对象特征的变量,映研究对象特征的变量,a1a2.an为系数为系数SPSS对于分为对于分为m类的研究对象,建立类的研究对象,建立m个线性判别函数。对于每个个体进行判别时,个线性判别函数。对于每个个体进行判别时,把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类,或计把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别
19、函数。函数。具体见下面具体见下面吴喜之教授有关判别分析判别分析的讲义补充:补充:聚类分析与判别分析以下的讲义是吴喜之教授有关聚聚类类分分析析与与判判别别分分析析的讲义,我觉得比书上讲得清楚。先是聚类分析一章先是聚类分析一章再是判别分析一章再是判别分析一章聚类分析聚类分析分类分类俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。但什么是分类的根据呢?但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;比如考虑降水、土地、日照、湿度等各方面
20、;也可以考虑收入、教育水准、医疗条件、基础设施等指标;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析聚类分析对对于于一一个个数数据据,人人们们既既可可以以对对变变量量(指指标标)进进行行分分类类(相相当当于于对对数数据据中中的的列列分分类类),也也可可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。以对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,比如学生成绩数据就可以对学生按照理科或
21、文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本本章章要要介介绍绍的的分分类类的的方方法法称称为为聚聚类类分分析析(clusteranalysis)。对对变变量量的的聚聚类类称称为为R型型聚类,而对观测值聚类称为聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。型聚类。这两种聚类在数学上是对称的,没有什么不同。饮料数据(饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量 如何度量远近如何度量远近?如果想要对100个学生进行分
22、类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。两个距离概念两个距离概念按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念:一一个个是是点点和和点点之之间间的的距距离离,一一个个是是类类和和类类之之间间的的距离。距离。点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距
23、离。点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念,比比如如相相似似性性等等,两两点点越越相相似似度度越越大大,就就相相当于距离越短。当于距离越短。由由一一个个点点组组成成的的类类是是最最基基本本的的类类;如如果果每每一一类类都都由由一一个个点点组组成成,那那么么点点间间的的距距离离就就是是类类间间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类类间间距距离离是是基基于于点点间间距距离离定定义义的的:比比如如两两类类之之间间最最近近
24、点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离,也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离作作为为这这两两类类之之间间的的距距离离;当当然然也也可可以以用用各各类类的的中中心心之之间间的的距距离离来来作作为为类类间间距距离离。在在计计算算时时,各各种种点点间间距距离离和和类类间间距距离离的的选选择择是是通通过过统统计计软软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。件的选项实现的。不同的选择的结果会不同,但一般不会差太多。向量向量x=(x1,xp)与与y=(y1,yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Eucl
25、idean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1):cosinePearson correlation(相似系数相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离绝对距离):S Si|xi-yi|Minkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行标准化要先进行标准化.如如R为极差为极差,s 为为标准差标准差,则标准化的数据为每个观测值减去均值后再除以则标准化的数据为每个观测值减去均值后再除以R或或s.当观测值大于当观测值大于0时时,有人采用有人采用Lance和和Williams的距离
26、的距离类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xi Gp和和xj Gq之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离,可变平均法可变平均法,可变法等可参考各书可变法等可参考各书).在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式(假设假设Gr是从是从Gp和和Gq合并而来合并而来):Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:D2(k,r)=a apD2(k,p)+a aqD2(k,q)+b bD2(
27、p,q)+g g|D2(k,p)-D2(k,q)|前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得:方法方法a ai(i=p,q)b b g g最短距离最短距离 0-1/2最长距离最长距离 01/2重心重心 ni/nr -a apa aq 0类平均类平均 ni/nr 0 0 离差平方和离差平方和(ni+nk)/(nr+nk)-nk/(nr+nk)0 中间距离中间距离 1/2 -1/4 0 可变法可变法 (1-b b)/2 b b(1)0 可变平均可变平均 (1-b b)ni/nr b b(1)0 有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单有了上
28、面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单的方法。的方法。事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类前前面面说说过过,聚聚类类可可以以走走着着瞧瞧,不不一一定定事事先先确确定定有有多多少少类类;但但是是这这里里的的k-均均值值聚聚类类(k-meanscluster,也也叫叫快快速速聚聚类类,quickcluster)却却要要求求你你先先说说好好要要分分多多少少类类。看看起起来来有有些些主主观观,是是吧!吧!假假定定你你说说分分3类类,这这个个方方法法还还进进一一步步要要求求你你事事先先确确定定3个个点点为为“聚聚类类种种子子”(SPSS软软件件自自
29、动动为为你你选种子选种子);也就是说,把这;也就是说,把这3个点作为三类中每一类的基石。个点作为三类中每一类的基石。然然后后,根根据据和和这这三三个个点点的的距距离离远远近近,把把所所有有点点分分成成三三类类。再再把把这这三三类类的的中中心心(均均值值)作作为为新新的基石或种子(原来的的基石或种子(原来的“种子种子”就没用了),重新按照距离分类。就没用了),重新按照距离分类。如如此此叠叠代代下下去去,直直到到达达到到停停止止叠叠代代的的要要求求(比比如如,各各类类最最后后变变化化不不大大了了,或或者者叠叠代代次次数数太太多多了了)。显显然然,前前面面的的聚聚类类种种子子的的选选择择并并不不必必
30、太太认认真真,它它们们很很可可能能最最后后还还会会分分到到同同一一类类中中呢呢。下面用饮料例的数据来做下面用饮料例的数据来做k-均值聚类。均值聚类。假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS,只叠代了三次就达到目标了(计算机选的种子还可以)。只叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多少点这样就可以得到最后的三类的中心以及每类有多少点 根根据据需需要要,可可以以输输出出哪哪些些点点分分在在一一起起。结结果果是是:第第一一类类为为饮饮料料1、10;第第二二类类为为饮饮料料2、4、8、11、12、13、14
31、;第第三三类类为为剩剩下下的的饮饮料料3、5、6、7、9、15、16。SPSSSPSS实现实现(聚类分析聚类分析)K-均值聚类均值聚类以以数数据据drink.sav为为例例,在在SPSS中中选选择择AnalyzeClassifyK-MenasCluster,然然后后把把calorie(热热量量)、caffeine(咖咖啡啡因因)、sodium(钠钠)、price(价价格格)选入选入Variables,在在NumberofClusters处选择处选择3(想要分的类数),(想要分的类数),如果想要知道哪种饮料分到哪类,则选如果想要知道哪种饮料分到哪类,则选Save,再选,再选ClusterMemb
32、ership等。等。注意注意k-均值聚类只能做均值聚类只能做Q型聚类,如要做型聚类,如要做R型聚类,需要把数据阵进行转置。型聚类,需要把数据阵进行转置。事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类另另一一种种聚聚类类称称为为分分层层聚聚类类或或系系统统聚聚类类(hierarchicalcluster)。开开始始时时,有有多少点就是多少类。多少点就是多少类。它它第第一一步步先先把把最最近近的的两两类类(点点)合合并并成成一一类类,然然后后再再把把剩剩下下的的最最近近的的两两类类合合并并成一类;成一类;这这样样下下去去,每每次次都都少少一一类类,直直到到最最后后只只有有一一大大类类
33、为为止止。显显然然,越越是是后后来来合合并并的的类,距离就越远。再对饮料例子来实施分层聚类。类,距离就越远。再对饮料例子来实施分层聚类。对于我们的数据,对于我们的数据,SPSSSPSS输出的树型图为输出的树型图为聚类要注意的问题聚类要注意的问题聚聚类类结结果果主主要要受受所所选选择择的的变变量量影影响响。如如果果去去掉掉一一些些变变量量,或或者者增增加加一一些些变变量量,结结果果会会很不同。很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另另外外就就分分成成多多少少类类来来说说,也也要要有有道道
34、理理。只只要要你你高高兴兴,从从分分层层聚聚类类的的计计算算机机结结果果可可以以得得到到任任何何可可能能数数量量的的类类。但但是是,聚聚类类的的目目的的是是要要使使各各类类距距离离尽尽可可能能的的远远,而而类类中中点点的的距距离离尽尽可可能能的的近近,而而且且分分类类结结果果还还要要有有令令人人信信服服的的解解释释。这这一一点点就就不不是是数数学学可可以以解解决决的的了。了。SPSSSPSS实现实现(聚类分析聚类分析)分层聚类对drink.sav数据在SPSS中选择AnalyzeClassifyHierarchical Cluster,然后把calorie(热量)、caffeine(咖啡因)、
35、sodium(钠)、price(价格)选入Variables,在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables,为了画出树状图,选Plots,再点Dendrogram等。啤酒成分和价格数据(啤酒成分和价格数据(data14-02)啤酒名啤酒名热量热量钠含量钠含量酒精酒精价格价格Budweiser 144.00 19.00 4.70.43 Schlitz 181.00 19.00 4.90.43 Ionenbrau 157.00 15.00 4.90.48 Kronensourc 170.00 7.00 5.20.73 Heineke
36、n 152.00 11.00 5.00.77 Old-milnaukee145.00 23.00 4.60.26 Aucsberger 175.00 24.00 5.50.40 Strchs-bohemi149.00 27.00 4.70.42 Miller-lite 99.00 10.00 4.30.43 Sudeiser-lich113.00 6.00 3.70.44 Coors 140.00 16.00 4.60.44 Coorslicht 102.00 15.00 4.10.46 Michelos-lich135.00 11.00 4.20.50 Secrs 150.00 19.00
37、4.70.76 Kkirin 149.00 6.00 5.00.79 Pabst-extra-l 68.00 15.00 2.30.36 Hamms 136.00 19.00 4.40.43 Heilemans-old144.00 24.00 4.90.43 Olympia-gold-72.00 6.00 2.90.46 Schlite-light 97.00 7.00 4.20.47StatisticsClassify Hierarchical Cluster:Variables:啤酒名和成分价格等Cluster(Case,Q型聚类)Display:(Statistics)(Agglomer
38、ation Schedule凝聚状态表),(Proximity matrix),Cluster membership(Single solution,4)Method:Cluster(Furthest Neighbor),Measure-Interval(Squared Euclidean distance),Transform Value(Range 0-1/By variable(值-最小值)/极差)Plots:(Dendrogram)Icicle(Specified range of cluster,Start-1,Stop-4,by-1),Orientation(Vertical)Sa
39、ve:Cluster Membership(Single solution 4)啤酒例子啤酒例子下表下表(Proximity matrix)中行列交叉点为两种啤酒之间各变量的欧氏距离平方和中行列交叉点为两种啤酒之间各变量的欧氏距离平方和凝聚过程凝聚过程:Coefficients为不相似系数为不相似系数,由于是欧氏距离由于是欧氏距离,小的先合并小的先合并.分为四类的聚类结果分为四类的聚类结果冰柱图冰柱图(icicle)聚类树型图聚类树型图学生测验数据(学生测验数据(data14-03)50个学生,个学生,X1-X10个测验项目个测验项目要对这要对这10个变量进行变量聚类(个变量进行变量聚类(R
40、型聚类),过程和型聚类),过程和Q型聚类(观测量聚类,对型聚类(观测量聚类,对cases)一样一样StatisticsClassify Hierarchical Cluster:Variables:x1-x10Cluster(Variable,R型聚类)Display:(Statistics)(Proximity matrix),Cluster membership(Single solution,2)Method:Cluster(Furthest Neighbor),Measure-Interval(Pearson correlation,用Pearson相关系数),Plots:Icicle
41、(All Cluster)学生测验例子学生测验例子下表下表(Proximity matrix)中行列交叉点为两个变量之间变量的欧氏距离平方和中行列交叉点为两个变量之间变量的欧氏距离平方和分为两类的聚类结果分为两类的聚类结果冰柱图冰柱图(icicle)判别分析判别判别 有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。判别分
42、析判别分析(discriminantanalysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别分析例子判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(m
43、sr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。Disc.savDisc.sav数据数据 根据距离的判别(不用投影)根据距离的判别(不用投影)Disc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变
44、量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。FisherFisher判别法判别法(先进行投影先进行投影)所谓所谓Fisher判别法,就是一种先投影的方法
45、。判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点(用用“o”表表示示),另另一一类类有有44个个点(用点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于于是是就就寻寻找找一一个个方方向向,也也就就是
46、是图图上上的的虚虚线线方方向向,沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别别效效果果不不会比这个好。会比这个好。有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则则。这这种种首首先先进进行行投投影影的的判别方法就是判别方法就是Fisher判别法。判别法。逐步判别法逐步判别法(仅仅是在前面的方法中加入变量选择的功能仅仅是在前面的方法中加入变量选择的功能)有时,一些变量对于判别并没有什
47、么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。Disc.sav例子例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,
48、se,sa,prr,ms,msr,cs,得 到 两 个 典 则 判 别 函 数(Canonical Discriminant Function Coefficients):n 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数是下面的数是下面的SPSS输出得到的:输出得到的:Disc.sav例子例子根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。Disc
49、.sav例子例子从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点点的的位位置置远远近近算算出出具具体体的的判判别别公公式式(SPSS输输
50、出出):Disc.sav例子例子具体的判别公式(SPSS输出),由一张分类函数表给出:该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值,哪哪个个值值最最大大,该该点点就就属属于于相相应应的的那那一一类类。当当然然,用用不不着着自自己己去去算算,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测