《SPSS上机实验报告 聚类分析.doc》由会员分享,可在线阅读,更多相关《SPSS上机实验报告 聚类分析.doc(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、四川理工学院SPSS上机实验报告课程名称:SPSS统计分析高级教程专业班级:2012级统计2班姓 名:雷鹏程学 号:指导教师:林旭东实验日期: 2014年12月31日实验名称:聚类分析-层次聚类法一、实验案例根据中、美、法等7个国家的裁判和未经过严格训练的体育爱好者对300次体操表演给出的评分的差异将他们分为适当的若干类,并对结果加以解释现希望根据,具体的数据见文件judges.sav。二、实验预分析流程图分析研究问题,确定进行聚类的分析变量选择对样品聚类指标聚类 样品聚类是有序样品的聚类吗?层次聚类法有序样品聚类是快速聚类-K-均值法否三、实验目的3.1、掌握利用SPSS层次聚类法、K-均值
2、法。3.2、解释运行结果。3.3、得出最终的实验结论四、实验操作步骤和结果描述4.1初步分析:(1)选择“”“” “”菜单项。(2)将8个指标选人“”列表框。(3)在“聚类”选项组中选择“”。(4)在“”中选中“”,点击“”。(4)点击“ok”。得到如下表1:Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 212428.56000323532.56000432652.92010643753.
3、83020551393.033046612219.550537718233.297600表1聚类表*HIERARCHICALCLUSTERANALYSIS*DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+法官22法官44法官66法官33法官55法官77法官11法官88图1聚类树状图Vertical IcicleNumber of clustersCase扶手椅热忠者美国法国韩国俄罗斯中国罗马尼亚意大利1XXXXXXXXXXXXXX
4、X2XXXXXXXXXXXXXX3XXXXXXXXXXXXX4XXXXXXXXXXXX5XXXXXXXXXXX6XXXXXXXXXX7XXXXXXXXX图2聚类冰柱图结果解释:由表1的聚类表可得,“Cluster Combined”列给出了在某一步骤中哪些对象会参与合并,可见第一步是变量2和变量4合并,第二步是变量3和变量5进行合并。以此类推,知道所有8个变量全部合并为一类。而在“Coefficients”列中是给出每一聚类步骤的系数,也就是表示被合并的两个类别之间的距离大小。随后的“Stage Cluster First Appears”列表示参与合并的对象最早在第几步出现,“0”表示该对象
5、第一次出现在聚类过程中。由树状图可以知道“体育爱好者(法官8)”首先被单独分出来,显然职业和非职业的评分水平就是不一样。职业裁判很明显的分为了两组,“美国、法国、韩国(法官2、4、6)”为一组;而“俄罗斯、中国、罗马尼亚、意大利(法官1、3、5、7)” 为一组,而且根据冰柱图也能得到树状图一样的结论。下面需要考虑结果的合理性,由树状图可以看出“体育爱好者”与“职业裁判”之间的评分的差异很小,这不符合一般的实际常理,所以需要对聚类的结果进行改进,下面是聚类的进阶分析。4.2进阶分析:4.2.1进阶预分析:由上述的分析,考虑到本案例是进行变量的聚类,而变量之间距离的定义习惯用“Pearson”相关
6、系数,所以聚类距离采用“Pearson相关系数”聚类。操作步骤如下:(1)在“”对话框中选择“”,点击“”。(2)点击“ok”。得到下表2:Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 2124.935004237.929003335.924206426.915105512.910046613.887537718.665600表2“Pearson相关系数”距离计算法下的聚类表*HIERAR
7、CHICALCLUSTERANALYSIS*DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+法官22法官44法官66法官11法官33法官77法官55法官88图3“Pearson相关系数”距离计算法下的树状图Vertical IcicleNumber of clustersCase扶手椅热忠者中国俄罗斯罗马尼亚美国法国韩国意大利1XXXXXXXXXXXXXXX2XXXXXXXXXXXXXX3XXXXXXXXXXXXX4XXXXXXX
8、XXXXX5XXXXXXXXXXX6XXXXXXXXXX7XXXXXXXXX图4“Pearson相关系数”距离计算法下的冰柱图结果解释:由图3树状图可得,“体育爱好者”仍然为一组,职业裁判也还是分为两组,然而这次“俄罗斯、罗马尼亚、中国”裁判为一组,然而另一组则由“美国、法国、意大利、韩国”裁判构成。由树状图这次看出来职业裁判和非职业的裁判之间的差异变大了,这样就符合现实的实际的情况了。在实际生活中肯定职业裁判的的评分肯定比非职业的评分更具有一定的权威性,所以这是比较合理的聚类情况,职业裁判得到分类也是合理的。五、 实验总结本次实验通过对案例预分析后,选定了解决案例的模型,通过在实验中步步对模型的优化与检验,找到了案例的最优的结果,对案例的问题进行了回答与解释。并且在本次SPSS上机实验让我对这门软件有了较深刻的认识,SPSS是一款菜单式的软件,操作简便,易于理,利用将有助于提高工作效率。利用SPSS进行统计分析,变量和数据是必不可少的。数据输入后通常需要对数据进行进一步的处理,其中最有价值的是数据的预处理以及问题预处理。