《2022年实验十二聚类分析 .pdf》由会员分享,可在线阅读,更多相关《2022年实验十二聚类分析 .pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、实验十二聚类分析聚类分析是研究“物以类聚”问题的多元统计分析方法。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本 (或变量)数据根据其诸多特征, 按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。基本思想:分层次聚类和 K-均值聚类;层次聚类又称系统聚类,是指其聚类过程是按照一定层次进行的;层次聚类有两种类型, Q型聚类和 R型聚类。Q型聚类是对样本( case)进行聚类, R型聚类是对变量( variable )进行聚类。K-均值聚类又称快速聚类, 需事先指定聚类数目K和 K个初始类中心, 是
2、一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。注意事项:所选择的变量应符合聚类要求。各变量的变量值不应有数量级上的差异。各变量间不应有较强的线性相关关系。一、层次聚类分析步骤选 择 : 分 析Analyze = 分 类Classify =层 次 聚 类Hierarchical Cluster; 步骤1、 选 择分 析 Analyze= 分 类 Classify=层次 聚类Hierarchical 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1
3、 页,共 5 页 - - - - - - - - - Cluster; 2、把参与层次聚类分析的变量选择到变量Variable (s)框中;3、把一个字符型变量作为标记变量选到标签Lable cases by框中,它将大大增强聚类分析结果的可读性;4、在聚类 Cluster框中选择聚类类型,其中样本Cases 表示 Q型聚类(默认类型),变量Variables表示 R型聚类;5、在 Display 框中选择输出内容。其中统计Statistics表示输出聚类分析的相关统计量,图形Plots 表示输出聚类分析的相关图形。6、 单击方法 Method按钮指定距离的计算方法, 其中聚类方法 Clust
4、er Method框中给出的是计算个体与小类、小类与小类间距离的方法;测量Measure框中给出的是不同变量类型下的个体距离的计算方式。其中Interval框中的方法适用于连续型定距变量;Counts 框中的方法适用于计数型变量;Binary 框中的方法适用于二值变量; 7 、如果参与聚类分析的变量存在数量级上的差异,应在数值变换 Transform Values 框中的标准化 Standardize选项中选择消除数量级差的方法,并指定处理是针对变量还是针对样本。By variable表示针对变量,适于Q型聚类分析;By cases 表示针对样本,适于R型聚类分析。消除数量量纲的方法包括:No
5、ne :表示不进行任何处理 ;Z scores :表示计算 Z 分数。它将各变量值减去均值后除以标准差。标准化后的变量值平均值为0,标准差为 1;Range -1 to 1:表示将各变量值除以全距,处理以后的变量值的范围在-1 1 之间,该方法适于变量值中有负值的变量;Range 0 to 1 :表示将各变量值减去最小值后除以全距,处理以后的变量值的范围在 01 之间;Maximum magnitude of 1 :表示将各变量值除以最大值。处理以后的变量值的最大值为 1;Mean of 1 :表示将各变量值除以均值。Standard deviation of 1:表示将各变量值除以标准差。名
6、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 8 、单击 Statistics按钮指定输出哪些统计量。Agglomeration schedule 表示输出聚类分析的凝聚状态表;Proximity matrix 表示输出个体间的距离矩阵;Cluster Membership框中,None 表示不输出样本所属类, Single Solution表示指定输出当分成n 类时各样本所属类,是单一解。Range of solution 表
7、示指定输出当分成 M至 n 类时各样本所属类,是多个解。 9 、单击 Plots按钮指定输出哪种聚类分析图。Dendrogram选项表示输出聚类分析树形图;在Icicle框中指定输出冰挂图, All clusters表示输出聚类分析每个阶段的冰挂图; Specified range of clusters表示只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中指定如何显示冰挂图, 其中垂直 Vertical表示纵向显示, 水平 Horizontal表示横向水平显示。 10 、单击 Save 按钮可以将聚类分析结果以变量的形式保存到数据编辑窗口中。生
8、成的变量名为 clun-m(如 clu2-1 ),其中 n 表示类数(如 2),m表示第m次分析(如 1)。由于不同的距离计算方法会产生不同的聚类分析结果,即使聚成 n 类,同一样本的类归属也会因计算方法的不同而不同,因此实际分析中应反复尝试以最终得到符合实际的合理解,并保存于SPSS 变量中。二、K均值聚类分析步骤选择:分析 Analyze = 分类 Classify =K均值聚类 K-Means Cluster; 步骤1、 选择 分析 Analyze=分类 Classify=K均值聚类K-Means Cluster; 2、选定参与 K均值聚类的变量放入变量Variable (s)框中;3、
9、把一个字符型变量作为标记变量选到标签Lable cases by框中, 它将大大增强聚类分析结果的可读性;4、在聚类数 Number of Clusters框中输入聚类数目,该数应小于样本数;5、如果用户自行指定初始类中心点,则单击中心Centers按钮,并在读取初始中心点 Read initial from 框后给出存放初始类中心的SPSS 数据文件名,该数据文件中的变量名应与当前数据编辑窗口中的变量名一致,且应设一名名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 5
10、页 - - - - - - - - - 为 Cluster- 的变量存放类编号,否则本步可略去;6、在 Method 框中指定聚类过程是否调整类中心点。其中Iterate and classify表示在聚类分析的每一步都重新确定类中心点(SPSS默认);Classify only表示聚类分析过程中类中心点始终为初始类中心点,此时仅进行一次迭代;7、单击 Iterate按钮确定终止聚类的条件,在 Maximum iterations框后输入最大迭代次数;在Convergence criterion框后输入类中心的偏移量。另外,Use running means 选项表示每当一个样本被分配到一类时
11、便立即重新计算新的类中心点,此时类中心点与样本分配的前后顺序有关;不选中该项表示只有当完成了所有样本的类分配后再计算类中心,该方式可节省运算时间,通常不选中该项;8、单击 Save 按钮可以将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中。其中 Cluster membership表示保存样本所属类的类号;Distance from cluster center表示保存样本据各自类中心点的距离,可通过该距离评价聚类的效果;9、单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式。Statistics框中, Initial cluster centers 表示输出初始类中心
12、点; ANOVA table表示以聚类分析产生的类为控制变量,以k 个变量为观测变量进行单因素方差分析,并输出各个变量的方差分析表;Cluster information for each case 表示输出样本分类信息及距所属类中心点的距离。案例 1:31 个省市自治区小康和现代化指数的聚类分析。利用 2001 年全国 31 个省市自治区各类小康和现代化指数的数据,对地区进行聚类。提示: 利用 SPSS 层次聚类 Q型聚类对 31个省市自治区进行分类分析。 其中个体距离采用平方欧氏距离, 类间距离采用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行标准化处理。仍利用上述数据,对地
13、区进行K均值聚类分析,要求分成3 类,初始类中心点由 SPSS 自行确定。并与层次聚类分析结果进行比较。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 5 页 - - - - - - - - - 案例 2:裁判打分的层次聚类分析。收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给 300 名运动员的平均打分的数据, 希望分析各国裁判员的打分标准是否具有相似性。提示: 利用 SPSS 层次聚类 R型聚类分析。其中变量个体距离采用平方欧氏距离,类间距离采
14、用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行标准化处理。案例 3:利用五商厦购物环境和服务质量的顾客评分数据,利用K均值聚类分析方法按照优秀、良好、合格的总体水平将它们分类。这里,用户自行指定3 个类中心,且不重新确定类中心。案例 4:利用课件中案例数据:根据某地区9 个农业区 7 项指标数据,对这9 个农业区进行聚类分析。案例 5:利用教材 P90习题 5.8 数据: 15 个上市公司 2001 年的一些主要财务指标,分别使用系统聚类法和K 均值法分别对这些公司进行聚类,并对结果进行比较分析。案例 6:利用教材 P91习题 5.9 数据:利用某年我国 16 个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过 SPSS 软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。并与k 均值聚类分析结果相比较。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 5 页 - - - - - - - - -