2022年实验十二聚类分析 .pdf-淘文阁

资源描述

《2022年实验十二聚类分析 .pdf》由会员分享，可在线阅读，更多相关《2022年实验十二聚类分析 .pdf（5页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、实验十二聚类分析聚类分析是研究“物以类聚”问题的多元统计分析方法。聚类分析是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。类内部的个体在特征上具有相似性，不同类间个体特征的差异性较大。基本思想：分层次聚类和 K-均值聚类；层次聚类又称系统聚类，是指其聚类过程是按照一定层次进行的；层次聚类有两种类型， Q型聚类和 R型聚类。Q型聚类是对样本（ case）进行聚类， R型聚类是对变量（ variable ）进行聚类。K-均值聚类又称快速聚类，需事先指定聚类数目K和 K个初始类中心，是

2、一个反复迭代的分类过程，在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。注意事项：所选择的变量应符合聚类要求。各变量的变量值不应有数量级上的差异。各变量间不应有较强的线性相关关系。一、层次聚类分析步骤选择：分析Analyze = 分类Classify =层次聚类Hierarchical Cluster; 步骤1、选择分析 Analyze= 分类 Classify=层次聚类Hierarchical 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1

3、页，共 5 页 - - - - - - - - - Cluster; 2、把参与层次聚类分析的变量选择到变量Variable （s）框中；3、把一个字符型变量作为标记变量选到标签Lable cases by框中，它将大大增强聚类分析结果的可读性；4、在聚类 Cluster框中选择聚类类型，其中样本Cases 表示 Q型聚类（默认类型），变量Variables表示 R型聚类；5、在 Display 框中选择输出内容。其中统计Statistics表示输出聚类分析的相关统计量，图形Plots 表示输出聚类分析的相关图形。6、单击方法 Method按钮指定距离的计算方法，其中聚类方法 Clust

4、er Method框中给出的是计算个体与小类、小类与小类间距离的方法；测量Measure框中给出的是不同变量类型下的个体距离的计算方式。其中Interval框中的方法适用于连续型定距变量；Counts 框中的方法适用于计数型变量；Binary 框中的方法适用于二值变量； 7 、如果参与聚类分析的变量存在数量级上的差异，应在数值变换 Transform Values 框中的标准化 Standardize选项中选择消除数量级差的方法，并指定处理是针对变量还是针对样本。By variable表示针对变量，适于Q型聚类分析；By cases 表示针对样本，适于R型聚类分析。消除数量量纲的方法包括：No

5、ne ：表示不进行任何处理；Z scores ：表示计算 Z 分数。它将各变量值减去均值后除以标准差。标准化后的变量值平均值为0，标准差为 1；Range -1 to 1：表示将各变量值除以全距，处理以后的变量值的范围在-1 1 之间，该方法适于变量值中有负值的变量；Range 0 to 1 ：表示将各变量值减去最小值后除以全距，处理以后的变量值的范围在 01 之间；Maximum magnitude of 1 ：表示将各变量值除以最大值。处理以后的变量值的最大值为 1；Mean of 1 ：表示将各变量值除以均值。Standard deviation of 1：表示将各变量值除以标准差。名

6、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 5 页 - - - - - - - - - 8 、单击 Statistics按钮指定输出哪些统计量。Agglomeration schedule 表示输出聚类分析的凝聚状态表；Proximity matrix 表示输出个体间的距离矩阵；Cluster Membership框中，None 表示不输出样本所属类， Single Solution表示指定输出当分成n 类时各样本所属类，是单一解。Range of solution 表

7、示指定输出当分成 M至 n 类时各样本所属类，是多个解。 9 、单击 Plots按钮指定输出哪种聚类分析图。Dendrogram选项表示输出聚类分析树形图；在Icicle框中指定输出冰挂图， All clusters表示输出聚类分析每个阶段的冰挂图； Specified range of clusters表示只输出某个阶段的冰挂图，输入从第几步开始，到第几步结束，中间间隔几步；在Orientation框中指定如何显示冰挂图，其中垂直 Vertical表示纵向显示，水平 Horizontal表示横向水平显示。 10 、单击 Save 按钮可以将聚类分析结果以变量的形式保存到数据编辑窗口中。生

8、成的变量名为 clun-m（如 clu2-1 ），其中 n 表示类数（如 2），m表示第m次分析（如 1）。由于不同的距离计算方法会产生不同的聚类分析结果，即使聚成 n 类，同一样本的类归属也会因计算方法的不同而不同，因此实际分析中应反复尝试以最终得到符合实际的合理解，并保存于SPSS 变量中。二、K均值聚类分析步骤选择：分析 Analyze = 分类 Classify =K均值聚类 K-Means Cluster; 步骤1、选择分析 Analyze=分类 Classify=K均值聚类K-Means Cluster; 2、选定参与 K均值聚类的变量放入变量Variable （s）框中；3、

9、把一个字符型变量作为标记变量选到标签Lable cases by框中，它将大大增强聚类分析结果的可读性；4、在聚类数 Number of Clusters框中输入聚类数目，该数应小于样本数；5、如果用户自行指定初始类中心点，则单击中心Centers按钮，并在读取初始中心点 Read initial from 框后给出存放初始类中心的SPSS 数据文件名，该数据文件中的变量名应与当前数据编辑窗口中的变量名一致，且应设一名名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 5

10、页 - - - - - - - - - 为 Cluster- 的变量存放类编号，否则本步可略去；6、在 Method 框中指定聚类过程是否调整类中心点。其中Iterate and classify表示在聚类分析的每一步都重新确定类中心点（SPSS默认）；Classify only表示聚类分析过程中类中心点始终为初始类中心点，此时仅进行一次迭代；7、单击 Iterate按钮确定终止聚类的条件，在 Maximum iterations框后输入最大迭代次数；在Convergence criterion框后输入类中心的偏移量。另外，Use running means 选项表示每当一个样本被分配到一类时

11、便立即重新计算新的类中心点，此时类中心点与样本分配的前后顺序有关；不选中该项表示只有当完成了所有样本的类分配后再计算类中心，该方式可节省运算时间，通常不选中该项；8、单击 Save 按钮可以将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中。其中 Cluster membership表示保存样本所属类的类号；Distance from cluster center表示保存样本据各自类中心点的距离，可通过该距离评价聚类的效果；9、单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式。Statistics框中， Initial cluster centers 表示输出初始类中心

12、点； ANOVA table表示以聚类分析产生的类为控制变量，以k 个变量为观测变量进行单因素方差分析，并输出各个变量的方差分析表；Cluster information for each case 表示输出样本分类信息及距所属类中心点的距离。案例 1：31 个省市自治区小康和现代化指数的聚类分析。利用 2001 年全国 31 个省市自治区各类小康和现代化指数的数据，对地区进行聚类。提示: 利用 SPSS 层次聚类 Q型聚类对 31个省市自治区进行分类分析。其中个体距离采用平方欧氏距离，类间距离采用平均组间链锁距离，由于数据不存在数量级上的差异，因此无需进行标准化处理。仍利用上述数据，对地

13、区进行K均值聚类分析，要求分成3 类，初始类中心点由 SPSS 自行确定。并与层次聚类分析结果进行比较。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 5 页 - - - - - - - - - 案例 2：裁判打分的层次聚类分析。收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给 300 名运动员的平均打分的数据，希望分析各国裁判员的打分标准是否具有相似性。提示: 利用 SPSS 层次聚类 R型聚类分析。其中变量个体距离采用平方欧氏距离，类间距离采

14、用平均组间链锁距离，由于数据不存在数量级上的差异，因此无需进行标准化处理。案例 3：利用五商厦购物环境和服务质量的顾客评分数据，利用K均值聚类分析方法按照优秀、良好、合格的总体水平将它们分类。这里，用户自行指定3 个类中心，且不重新确定类中心。案例 4：利用课件中案例数据：根据某地区9 个农业区 7 项指标数据，对这9 个农业区进行聚类分析。案例 5：利用教材 P90习题 5.8 数据： 15 个上市公司 2001 年的一些主要财务指标，分别使用系统聚类法和K 均值法分别对这些公司进行聚类，并对结果进行比较分析。案例 6：利用教材 P91习题 5.9 数据：利用某年我国 16 个地区农民支出情况的抽样调查数据，每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过 SPSS 软件用不同的方法进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。并与k 均值聚类分析结果相比较。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 5 页 - - - - - - - - -

展开阅读全文