SPSS统计分析第八章聚类分析与判别分析.ppt-淘文阁

资源描述

《SPSS统计分析第八章聚类分析与判别分析.ppt》由会员分享，可在线阅读，更多相关《SPSS统计分析第八章聚类分析与判别分析.ppt（58页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第8 8章章聚类分析与判别分析聚类分析与判别分析 l分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法。广泛地应用于自然科学研究、社会科学研究、工农业生产的各个领域。一、聚类分析l聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分聚类分析的原则是同一类中的个体有较大的相似析的原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。性，不同类中的个体差异很大。l根据分类对象的不同分为根据分类对象的不同分为样品聚类样品聚类(Q聚类聚类)和和变量聚类（变量聚类（R聚类）聚类）。（一）样品聚类（一）样品聚类l 样品聚类在统计学中又

2、称为Q型聚类。用SPSS的术语来说就是对事件(Cases)进行聚类，或是说对观测量进行聚类。是根据被观测的对象的各种特征，即反映被观测对象的特征的各变量值进行分类。l样品聚类是进行判别分析之前的必要工作。根据样品聚类的结果进行判别分析，得出判别函数，进而对其他研究对象属于哪一类作出判断。例如在选拔少年运动员时首先要根据少年的身体形态、身体素质、心理素质、生理功能的各种指标(变量)进行测试，得到各种指标的测试值(变量值)，据此对少年进行分类。根据分类结果再求得出选材的判别函数，作为选材的依据。（二）变量聚类（二）变量聚类l变量聚类在统计学中又称为R型聚类。反映同一事物特点的变量有很多，我们往往根

3、据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的，往往难以找出彼此独立的有代表性的变量，而影响对问题的进一步认识和研究。例如在回归分析中，由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类，找出彼此独立且有代表性的自变量，而又不丢失大部分信息。二、判别分析l判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数，根据判别函数对未知所属类别的事物进行分类的一种分析方法。l在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。l判别分析与聚类分析的不同在于判别分析要求判别分析要求已知一系列反映事物

4、特征的数值变量值及其分已知一系列反映事物特征的数值变量值及其分类变量值类变量值。分类命令的功能lTwoStep Cluster进行两步聚类过程。lK-Means Cluster进行快速聚类的过程。lHierarchical Cluster进行样本聚类和变量聚类的过程。lDiscriminate进行判别分析的过程。1、快速样本聚类过程l当要聚成的类数已知时，使用QUICK CLUSTER过程可以很快将观测量分到各类中去。其特点是处理速度快，占用内存少。适用于大样本的聚类分析。l可以完全使用系统默认值进行聚类 2、分层聚类（Hierarchical Cluster）分层聚类的概念与聚类分析过程分层

5、聚类的概念与聚类分析过程l分层聚类反映事物的特点的变量很多，往往根据所研究的问题选择部分变量对事物的某一方面进行分析。l聚类的方法有多种，除了前面介绍的快速聚类法外，最常用的是分层聚类法最常用的是分层聚类法。根据聚类过程不同又分为凝聚法和分解法。（1）分解法）分解法l聚类开始把所有个体（观测量或变量）都视为属于一大类，然后根据距离和相似性逐层分解，直到参与聚类的每个个体自成一类为止。（2）凝聚法）凝聚法l聚类开始把参与聚类的每个个体（观测量或变量）视为一类，根据两类之间的距离或相似性逐步合并，直到合并为一个大类为止。l无论哪种方法其聚类原则都是相近的聚为一类，即距离最近或最相似的聚为一类。实际

6、上以上两种方法是方向相反的两种聚类过程。在在Cluster过程中使用的术语过程中使用的术语（1）聚类方法）聚类方法l实现分层聚类的具体方法有许多种，各种方法的区别在于如何定义和计算两项（两个个体、两类、或个体与类）之间的距离或相似性。这一点体现在聚类方法（Method）的一系列选择项上。如果不熟悉对聚类方法的定义，可以使用系统默认的方法。需要确定的选择项有：l聚类法的选择：定义、计算两项间距离和相似性的方法，系统默认值：组间平均连接法。l测度方法的选择：对距离和相似性的测度方法又有多种，例如是用欧氏距离还是用欧氏距离的平方测度其相近程度，还是用相关系数测度其相似性？这一点体现在测度方法(Mea

7、sure)的选择上。如果对测度方法不熟悉，可以采用系统默认的测度方法：欧氏距离平方。（2）标准化）标准化l如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前因此在聚类过程进行之前必须对变量值进行标准化，必须对变量值进行标准化，即消除量纲的影响。如果参与聚类的变量纲相同，可以使用系统默认值None，要求SPSS对数据不要进行标准化处理。（3）树形图）树形图l树形图表明每一步中被合并的类及其系数值，把各类之间的距离转换成125之间的数值。（4）冰柱图）冰柱图l冰柱图把聚类信息综合到一张图上。如果作纵向冰柱图，则参与聚类的个体各占一列，标以个体（观测量或变量）号或在图纸允许的情

8、况下标以个体的标签；聚类过程中的每一步占一行，标以步的顺序号。如果作横向冰柱图，则参与聚类的个体（观测量或变量）各占一行，聚类的每一步各占一列。如果不加限定的选择项，则显示聚类的全过程。用聚类分析过程进行观测量聚类的实例用聚类分析过程进行观测量聚类的实例例一l一组有关12盎司啤酒中的成分和价格数据，变量包括：beername啤酒名称，calorie热量卡路里，sodium钠含量，alcohol酒精含量，cost价格。要求根据12盎司啤酒的各成分含量及12盎司啤酒价格对20种啤酒进行分类。l数据编号数据编号data14-02l应该说明的是，基本使用系统默认值进行观测量聚类是由于参与分析的变量的量

9、纲不同，因此必须对数据进行标准化：由于要看到聚类结果，输出统计量也必须指定。lVariable:引入要分析的变量；lLable Case by：指明个案的标识，如果不选用此项，默认是按记录号进行分析。lClusterlVariable:要进行变量聚类lCase:要进行观测量聚类lDisplaylStatisyics显示统计量lPlot显示树状图或冰柱图statisticslAgglomeration schedule凝聚顺序表；lProximity maxtrix输出距离矩阵lNone 不显示聚类成员lSingle solution显示出聚为一定类数的各观测量所属的类lRange of sol

10、ution显示某范围中，每一步各观测量所属的类 Plots lDendrogram：输出树状图lIcicle 输出冰状图lAll cluster所有聚类的冰状图lSpecified range of clusters 某一指定范围的冰状图lNone 不显示冰状图lOrientation冰状图的方位Method（确定聚类方法）（确定聚类方法）lBetween-group linkage：组间连接lWinthin-group linkage：组内连接法lNearest neighbor：最近连接法l Further neighter：最远连接法lCentroidclusting：重心聚类法lMed

11、ian clusting中位数法lWards method：ward最小方差法Measure（聚类测度方法选择）（聚类测度方法选择）lEuclidean distance欧几米德距离lSquared euclidean distance欧氏距离平方lCosine余弦lPearson correlation皮尔森相关系数lChebychev 切比雪夫距离lBlock 区组距离lMinkowski 闵可夫距离Measure（聚类测度方法选择（聚类测度方法选择lCounts 计数数据lChi-square measure：X2测度。用卡方值测试不相似测度；lPhi-square measure 两组

12、之间的2测度lBinary 二值变量数据lEuclidean distance二值欧氏距离lSquared euclidean distance二值欧氏距离平方等lTransform values确定标准化的方法lNone 不进行标准化lZ scores把数值标准化到Z评分lRange-1to1把数值标准化到-1到1范围内lRange 0to1把数值标准化到0到1范围内lTransform values确定标准化的方法lMaxinum magnitude of 1把数值标准化到最大值为1lMean of 1把数值标准化到一个均值的范围内lStandard deviation把数值标准化到单位标

13、准差lTransform measures选择测度的转换方法lAbsolute values 把距离值取绝对值lChange sign 把相似性值变为不相似性值或相反lRescale to 0-1 range 通过首先减去最小值然后除以范围的方法使距离标准化Save lCluster membership用新变量将聚类分析的结果保存到数据库中lNone 不建立新的数据库lSingle solution 生产一个新变量，表明每个个体聚类后所属的类lRange of solution 生产若干个新变量，表明聚为若干个类时，每个个体聚类后所属的类例二使用另一些选择项的程序与输出l应该说明的是分类是根

14、据特定的目的进行的。对于同样一些观测量，不同的分类目的，使用反应不同特征的变量，分类的结果就不相同。同一分类目的，根据不同的实际需要，也可以分成的类数不同。因此可以在使用CLUSTER过程时指定不同的参数，对不同的结果进行比较。以便得出符合实际需要的结论。l（仍然用数据编号（仍然用数据编号data14-02）用聚类分析过程进行变量聚类用聚类分析过程进行变量聚类 l变量聚类即R型聚类，是一种降维的方法，用于在变量众多时寻找有代表性的变量，以便当用少量、有代表性的变量代替大变量集时损失信息很少。这种方法在人类学、动物学、医学和工业生产中都得到应用。例如人种分类、动植物分类往往要测量许多表明形态特性

15、的变量值。某些变量之间有很强的相关性，找出一个变量可以代替一系列与其相关的变量的测量，则可大大减少工作量，节省测量时间，但不会影响分类的结果。因此，在分类学中选择变量是一步很重要的工作。变量聚类是选择变量的很实用的方法之一。另外进行回归分析时也需要首先降维以便找出互相独立变量。变量聚类实例l有10个测验项目，分别用变量x1x10表示，50名学生参加测试。l数据编号数据编号data14-03。l要求：对十个变量进行变量聚类；计算并打印各变量间的相关矩阵，用相关测度各变量间的距离。打印出聚为两类的结果即各变量属于两类中的哪一类；打印出聚类全过程的冰柱图，以便对于变量分类进行进一步的探讨。聚类分析小

16、结聚类分析小结 l聚类分析是研究“物以类聚”的一种数理统计方法。它把一些个体或研究对象分成若干个未知母体，事先并不知道它们可以分为几类及哪些个体是属于同一类。l聚类的原则是样品间距离最小，指标（变量）间相似性最大。l样品聚类的基本思想是：把每个样品当作一类，几个样品就有几类；逐次并类（先定义类间距离），并类时总是把距离最近的两类合为一类，再计算新类与合并类的距离，等等。这样每次减少一类，直至所有样品都合成一类为止。l指标（变量）聚类的基本思想是：先定义类间相似系数，把每个指标或变量当作一类，逐次并类，并类时总是把最相似的两类或多类先合为一类，再计算新类与合并类的相似性，最后并为一大类。l特别注

17、意地是对观测单位不同，观测数量级不同（如：x1为10-3,x2为103）的指标，求距离之前要先对各指标进行标准化。l与判别分析的区别是：判别分析将个体分成几类是事先已确定的，而聚类分析事先不知道它们可分成几类及哪些个体属于同一类；目的不一样，判别分析是判断样本是属于哪个母体，聚类分析主要是解释样本，其次是做预测。l聚类分析的结果主要靠经验性，使用不同的方法，得到不同的结果，重复性比较差。l聚类好坏：使case分开；各类case均匀分布；符合专业知识；重要变量不遗漏判判别别分分析析 1、判别分析的概念、判别分析的概念l判别分析是一种常用的统计分析方法。判别分析是根据观察或测量到若干变量值

18、，判断研究对象如何分类的方法。例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病；体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养。l进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数，使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。l 判别函数一般形式是：l Y1X1+2X2+3X3+nXnl 其中：Y为判别分数（判别值）；X1、X2、X3Xn为反映研究对象特征的变量，l、2、3n为各变量的系数，也称判别系数。可以看出我们这里所讲的是线性判

19、别函数。lSPSS for Windows对于分为m类的研究对象，建立m个线性判别函数。对于每个个体进行判别时，把测试的各变量值代入判别函数，得出判别分数，从而确定该个体属于哪一类。或者计算属于各类的概率，从而判断该个体属于哪一类。还建立标准化和未标准化的典则判别函数。2.Discriminant过程的功能过程的功能 lDiscriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数，并把各观测量的自变量值回代到判别函数中，根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判的分类，给出错分概率。l判别分析可以根据类间协方差矩阵，也可以根据类内协方差矩

20、阵。每一已知类的先验概率可以取其值相等即等于1/m，m为已知类数，也可以与各类样本量成正比。l判别分析可以根据要求，给出各类观测量的单变量的描述统计量；线性（费雪Fisher）判别函数系数或标准化及未标准化的典则判别函数的系数；类内相关矩阵，类内、类间协方差矩阵和总协方差矩阵；给出按判别函数判别（回代）的各观测量所属类别；带有错分率的判别分析小结；还可以根据要求生成表明各类分布的区域图和散点图。如果希望把部分聚类结果存入文件，还可以在工作数据文件中建立新变量，表明观测量按判别函数分派的类别、按判别函数计算的判别分数和分到各类去的概率。3、有关判别分析的术语、有关判别分析的术语l（1）建立判别函

21、数的方法l建立判别函数的方法一般有4种，全模型法、向前选择法、向后选择法、逐步选择法。l本程序有全模型法和逐步选择法。l（2）典则判别分析l典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。l（3）判别函数的性能l判别分析得出的判别函数性能如何，可以通过回代的方法进行验证。即将各观测量的变量值代到线性判别函数中，根据性判别函数值（判别分数）确定每个观测量分属于哪一类。然后与原始数据中的分类变量值进行比较，得到错判率。错判率越小说明判别函数的判别性能越好。l（4）判别分析对数据的要求l进行判

22、别分析要求数据遵循多元正态分布。实践工作中收集的数据，其分布往往不同于正态分布，因此使用本节介绍的参数分析方法是不合适的。从非正态总体导出的线性判别函数（或经过预处理的数据）导出的二次判别函数的误差率估计可能会有较大的偏差。l（5）利用判别函数对观测量进行分类l用Discriminant过程导出的线性判别函数的数目与类别数目相同。确定一个观测量属于哪一类，可以把该观测量的各变量值代人每个判别函数（费雪线性判别函数），哪个判别函数值大，该观测量就属于哪一类。使用系统默认值的判别分析实例l下面是统计学常用的实例，三种鸢(yuan)尾花的花瓣、花萼(e)的长、宽数据。共收集了三种鸢尾花，每种50个观

23、测量，共150个观测量的数据。l数据编号数据编号datal404。使用选择项的判别分析实例l数据编号数据编号datal404。逐步判别分析与方法和判据的选择逐步判别分析与方法和判据的选择 1关于逐步判别分析关于逐步判别分析l当研究某一事物分类时，往往对于哪些变量能够反映研究范围内事物的特性这一问题的认识还不够深刻，因此所选择的进行判别分析的变量不一定都能很好地反映类间差异。逐步判别分析假设已知的各类均属于多元正态分布，用逐步选择法选择最能反映类间差异的变量子集建立较好的判别函数。一个变量能否被选择为变量子集的成员进入模型主要取决于协方差分析的F检验的显著性水平。l逐步判别分析从模型中没有变量开

24、始。每一步都对模型进行检测。把模型外的对模型的判别力贡献最大的变量加入到模型中，同时考虑已经在模型中，但又不符合留在模型中的条件的变量从模型中剔除。直到模型中所有变量都符合留在模型中的判据；模型外的变量都不符合进入模型的判据时为止。l实际工作中应该把使用逐步判别分析选择变量的结果与在实践中对变量的认识相结合，会得到很好的判别分析模型。逐步判别分析的实例l前面中的程序都是使用全部变量建立判别函数。能否减少变量仍然得到较好的判别函数？我们采用WilksLambda方法进行逐步判别分析。使用F值作为判据统计量。当F值30时变量进入模型，当F值5时，变量从模型中移出。l仍然用数据编号仍然用数据编号datal404。考试题考试题l正确建立一个数据库l选择正确的分析方法进行分析l正确分析得到的结果l5月10日交至各班负责人手里，然后由负责人交到研究生学院

展开阅读全文

SPSS统计分析 第八章 聚类分析与判别分析.ppt

SPSS统计分析第八章聚类分析与判别分析.ppt