《《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)(共12页).doc》由会员分享,可在线阅读,更多相关《《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)(共12页).doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上统计分析与SPSS的应用(第五版)(薛薇)课后练习答案第10章SPSS的聚类分析1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求:1) 根据凝聚状态表利用碎石图对聚类类数进行研究。2) 绘制聚类树形图,说明哪些省市聚在一起。3) 绘制各类的科研指标的均值对比图。4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。采用欧氏距离,组间平均链锁法利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4类。步骤:分析分类系统聚类按如下方式设置 结果:凝聚计划阶段组合的集群系数首次出现阶段集群下一个阶段
2、集群 1集群 2集群 1集群 212630328.18900222629638.295107320251053.42300544121209.922001558201505.03503668161760.170509724261831.926021087111929.89100119582302.02406221024312487.209702211272709.88708161222282897.1060019136232916.55100171410193280.7520025154213491.585402116234229.37511021176134612.4231302018918
3、5377.25300251914225622.41501224206155933.5181702321246827.276161526225247930.76591024236279475.498200262451414959.7042219282591019623.050181427262624042.6692123282791732829.46625029282548360.854262429292991313.5302827303012.5030290将系数复制下来后,在EXCEL中建立工作表。选中数据列,点击“插入”菜单拆线图 碎石图:由图可知,北京自成一类,江苏、广东、上海、湖南、湖
4、北聚成一类。其他略。接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据汇总设置确定。均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值方差分析结果:分析比较均值单因素ANOVA设置确定ANOVA平方和df均方F显著性投入人年数组之间.1963.73226.428.000组内.15927.858总计.35530投入高级职称的人年数组之间.8203.27334.553.000组内.14727.783总计.96830投入科研事业费(百元)组之间0.8843.628324.318.000组内.79427.474总计7.67730课题总数组之间.5643.85532.18
5、1.000组内.43627.720总计.00030专著数组之间.3853.12861.327.000组内.8092739154.363总计.19430论文数组之间.2193.74017.693.000组内.71727.915总计.93530获奖数组之间.049356627.3503.619.026组内.7902715645.807总计.83930不同组在各个聚类变量上的均值均存在显著差异。2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?因为数量级将对距离产生较大影响,并影响最终聚类结果。3、 试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?为什么
6、?会。如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。4、 试说明K-Mean聚类分析的基本步骤。K-Means聚类分析步骤:确定聚类数目K-确定K个初始类中心点-根据距离最近原则进行分类-重新确定K个类中心点-判断是否已经满足终止条件。是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构.sav”, 变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和
7、通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制的碎石图如下:(1)依据上图,数据聚成几类较为恰当?(2)试采用K-MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。(1)聚成3类较为恰当。注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。步骤:分析降维因子分析导入全部变量到变量框中(地区变量除外)抽取:选中碎石图继续确定。得到:(可以看出,分成3类恰当)(2)用K-MEANS聚类方法进行分类,比较分类数为2、3、4时的差别。步骤:分析分类K-平均聚类地区变量导入到标注个
8、案,其他变量全部导入到变量框中聚类数填2选项:选中初始聚类中心和ANOVA继续确定。得到:ANOVA聚类错误F显著性均方df均方df食品.9671.7792956.445.000衣着.565137555.425297.422.011居住.436131940.7642920.901.000家庭设备用品及服务.258114558.0412928.277.000医疗保健.302134400.296299.456.005交通和通信.457157486.40029178.922.000教育文化娱乐服务.465169080.9332975.656.000杂项商品和服务.93116496.5502938.2
9、22.000仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。 受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。每个聚类中的个案数量聚类14.000227.000有效31.000缺失.000将上图中的聚类数修改为3,则得到:ANOVA聚类错误F显著性均方df均方df食品.5092.7702852.178.000衣着.509241645.317282.422.107居住.147216508.6902834.274.000家庭设备用品及服务.836212833.0272818.488.000医疗保健.9962330
10、54.746286.011.007交通和通信.064290458.7482852.067.000教育文化娱乐服务.304267059.9262839.905.000杂项商品和服务.66624829.5552831.213.000仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。 受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。每个聚类中的个案数量聚类11.000225.00035.000有效31.000缺失.000将上图中的聚类数修改为4,则得到:ANOVA聚类错误F显著性均方df均方df食品.59736296
11、3.25127102.619.000衣着.013335623.106273.799.022居住.271332618.140277.288.001家庭设备用品及服务.914315077.322279.435.000医疗保健.289336553.186273.064.045交通和通信.324343056.2632783.536.000教育文化娱乐服务.568366335.5862727.329.000杂项商品和服务97486.29135342.7412718.246.000仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。 受观察的显著性级别并未因此得到更正
12、,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。每个聚类中的个案数量聚类11.00023.000315.000412.000有效31.000缺失.000从3个ANOVA表可以看出,分为2类时,P-值均小于0.05,表明有显著差异;分为3类时,出现了“衣着”的P-值为0.107,大于0.05;分为4类时,P-值均小于0.05,表明有显著差异。表明仅从ANOVA表看,分为3类,不合适。再看F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以看出,分类2类时,组间方差和组内方差均较大,而分为4类时,组间方差和组内方差相对来说,组内方差缩小得明显一些。故分为4类较为恰当。专心-专注-专业