《多元统计分析 K聚类(方法+步骤+分析 总结).doc》由会员分享,可在线阅读,更多相关《多元统计分析 K聚类(方法+步骤+分析 总结).doc(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、K聚类一、 实验过程1. 将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区放到label cases中,设定聚类数=3。2. 点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续3. 点击“保存”,选择“聚类成员”及“与聚类中心的距离”4. 点击“选项”,选择如下点击继续5. 点击确定后,得到如下实验结果:二、 实验结果分析:1. 给出初始的聚类中心初始聚类中心聚类123工业1109.912322.56191.49建筑业207.72181.8930.13交通运输仓储和邮政业263.11327.6731.05批发和零售业425.29472.9435.2
2、5住宿和餐饮业118.8694.6610.50金融业543.97379.7119.05房地产业296.04380.2721.32其他服务业1448.84943.6992.872. 给出每次迭代结束后类中心的变动迭代历史记录a迭代聚类中心内的更改1231583.084388.520349.2952326.648.00058.1253103.704.00024.5484.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 4。初始中心间的最小距离为 1329.460。从表中可以看出共经历了4次迭代,即4次迭代后,聚类中心的变化
3、为0,迭代停止。3.给出各观测量所属的类及所属类中心的距离聚类成员案例号地区聚类距离1北京 1999.7002天津 2388.5203河北 3255.9694山西 3206.5135内蒙古 3222.2866辽宁 3429.4547吉林 388.4208黑龙江 3281.1449上海 2388.52010江苏 1287.25611浙江 1205.69112安徽 3137.53513福建 3397.27414江西 3117.82715山东 1414.81516河南 3116.88517湖北 332.94818湖南 387.84619广东 1196.59020广西 3166.99521海南 324
4、1.25922重庆 365.71123四川 3133.94524贵州 3269.40825云南 3179.72426西藏 3391.78127陕西 336.52928甘肃 3179.02229青海 368.75130宁夏 358.37831新疆 371.101表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。4.给出聚类结果形成的聚类中心的各变量值。最终聚类中心聚类123工业1165.952064.94428.07建筑业143.78170.5882.50交通运输仓储和邮政业135.89272.7373.91批发和零售业263.39445.5589.18住宿和餐饮业6
5、1.3680.9626.04金融业176.16266.1928.29房地产业152.99251.8638.64其他服务业559.62717.59185.03综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。这一类聚类中心8个产业的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。第二类包括天津和上海,剩下的24个地区为第三类。5. 聚类中心间的距离最终聚类中心间的距离聚类1231950.808871.1562950.8081800.6463871.1561800.6
6、46表中给出的是三类聚类中心间的距离6. 进行单因素方差分析ANOVA聚类误差FSig.均方df均方df工业3258486.158239044.9782883.455.000建筑业13391.3362949.4772814.104.000交通运输仓储和邮政业41058.33621657.8272824.766.000批发和零售业162409.45522680.0272860.600.000住宿和餐饮业4812.3322258.6792818.603.000金融业87447.42827226.9582812.100.000房地产业62084.00922421.2872825.641.000其他服
7、务业495176.321241907.0832811.816.000F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。7. 最终分类各类中的地区数每个聚类中的案例数聚类15.00022.000324.000有效31.000缺失.000综合上述表格,按照个产业的发展水平将中国31个地区分成3类:第一类为北京,江苏,浙江,山东,广东,属于经济发达地区。该类中心的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。第二类为天津和上海,属于较发达地区。该类中心的产值分别为2064.94,170.58,272.73,445.55,80.96,266.19,251.86,717.59亿元。第三类为余下的24个地区,属于欠发达地区。该类中心的产值分别为428.07,82.50,73.91,89.18,26.04,28.29,38.64,185.03亿元。