2022年北航应用数理统计大作业-聚类分析 .pdf-淘文阁

资源描述

《2022年北航应用数理统计大作业-聚类分析 .pdf》由会员分享，可在线阅读，更多相关《2022年北航应用数理统计大作业-聚类分析 .pdf（13页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、应用数理统计聚类分析与判别分析（第二次作业）学院：姓名：学号：2013 年 12 月 16 日名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 13 页 - - - - - - - - - 我国各地区居民消费水平的聚类分析和判别分析摘要：本文基于中国统计年鉴（2012 年版）统计数据，寻找评价各省份人民消费水平的指标，包括居民消费水平、农村居民消费水平、城镇居民消费水平和居民人均消费四个指标，利用统计软件SPSS综合考虑各指标，对全国各省份进行 K-Means 聚类

2、分析，利用 Fisher 线性判别待判城市类型，进一步验证所建模型的有效性。关键字：聚类分析，判别分析， SPSS，居民消费水平1，引言人均消费水平是指一定时期内（月、年）平均每人占有和享受的物质生活资料和服务的数量。它是一个国家整个经济活动成果的最终体现，也是反映人民物质和文化生活需要的满足程度。一个国家的国民生产总值(GNP)除以该国国民人口的总数所得出的商。即指分摊到每个国民份上的国民生产总值的平均值。在经济学上，一般用来衡量或表示一个国家的经济发展程度。经过改革开放后三十多年的长足进展，尽管世界格局在走向多极化的过程中不断呈现出错综复杂、风云变幻的局面，但中国领导人高瞻远瞩，

3、始终不渝地坚持以经济建设为中心，坚持走和平发展的道路，使中国步履稳健、坚定不移地走向世界，融入经济全球化的历史进程之中。中国在为经济全球化作出贡献的同时，也从中获取了巨大的增长动力，中国人民的生活水平和消费水平也在不断提高。2014 年全国居民人均可支配收入20167元，比上年增长 10.1%，扣除价格因素，实际增长8.0%。按常住地分，城镇居民人均可支配收入28844 元，比上年增长 9.0%，扣除价格因素，实际增长6.8%；城镇居民人均可支配收入中位数为26635元，增长 10.3%。农村居民人均可支配收入10489 元，比上年增长 11.2%，扣除价格因素，实际增长9.2%；

4、农村居民人均可支配收入中位数为9497元，增长 12.7%。全年农村居民人均纯收入为9892 元。全国居民人均消费支出14491元，比上年增长 9.6%，扣除价格因素，实际增长7.5%。按常住地分，城镇居民人均消费支出 19968 元，增长 8.0%，扣除价格因素，实际增长5.8%；农村居民人均消费支出 8383 元，增长 12.0%，扣除价格因素，实际增长10.0%。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 13 页 - - - - - - - - - 但是,经济

5、和消费水平的增长比例关系却不尽如人意，经济增长大大慢于消费增长,消费需求对经济增长的贡献率不断下降并成为当前经济运行中的重要问题。为实现扩大内需、拉动经济增长的长效目的,我们要在洞察当前居民消费现状的基础上 ,深入分析居民消费增长缓慢的原因,并探索扩大居民消费需求、拉动经济增长的对策和措施。所以我希望通过对居民消费情况进行分析，得到影响居民消费水平的地域因素和其他影响因子等。2，相关统计基础理论2.1，聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法

6、。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS 、SAS 等。本文使用统计软件SPSS对所收集的数据进行快速聚类，其特点是：在确定类别数量基础上，先给定一个粗糙的初始分类，然后按照某种原则进行反复修改，直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多，本文使用的是K-Means 算法。K-Means 算法接受输入量k ；然后将 n 个数据对象划分为k 个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较

7、高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“ 中心对象 ” （引力中心）来进行计算的。K-Means 算法的工作过程说明如下：首先从n 个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言， k 个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。2.2，判别分析名师资料总结

8、- - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 13 页 - - - - - - - - - 判别分析是市场研究的重要分析技术，也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息，确定分类变量与其它多元变量之间的数量关系，建立判别函数，并利用判别函数构建Biplot 二元判别图（概念图）。同时，利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法，例如：市场细分研究中，常涉及判别个体所属类

9、型的问题，也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念，判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯（Bayes ）判别、费舍尔（ Fisher ）判别等几种常用方法。距离判别的基本原理是：首先对样本到总体G 之间的距离进行合理规定，然后依照“就近”原则判定样本的归属，常用马氏距离（Mahalanobis ）规定为：21(x, )(x)(x)dGuu式中为 p 元总体 G 的协方差阵， x 是取自 G 的样品，则该式即为样品x到总体 G 的马氏距离。贝叶斯判别既考虑了先验分布产生的影响，也考虑到误判损失产生的影响，是衡量一个判

10、别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似，当总体是高维向量时，先把其综合成一个一维变量，然后在对一维变量进行距离判别，费舍尔判别实际上是一种降维处理，降维压缩后，样品 y 到各个总体*jG的距离可以用欧式距离度量，即：2*22jiij1(y,G ) |(ax au )mjidyu由此导出 Fisher判别规则为：2*2*jj1(y,G)min(y,G)jkdd，则lxG本文及使用 Fisher判别建立线性判别函数进行距离判别。3，模型建立3.1 设置变量名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - -

11、名师精心整理 - - - - - - - 第 4 页，共 13 页 - - - - - - - - - 本文综合考虑了衡量人民消费水平因素，选取各地区居民消费水平，消费水平包括城镇居民消费水平和农村居民消费水平，综合考虑了居民人均消费作为类别分析的主要经济指标：X1：居民消费水平（元）X2：城镇居民消费水平（元）X3：农村居民消费水平（元）X4：居民人均消费（元）从区域发展角度从上面5 个经济指标将城市经济发展水平划分为三大类：G1：高消费地区G2：中等消费地区G3：低消费地区3.2 数据收集和整理本文所有数据来源于中国统计年鉴（2014），选取 2014 年度 31 个省份主要居民消

12、费水平做模型建立及分析。其中前31 个省份相关消费指标水平作为初始样本用于划分类别，建立类别总体 G；再利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1 所示。表 1：各省份居民消费水平省份居民消费水平农村居民消费城镇居民消费居民人均消费北京市33337 17663 35836 31102.89 天津市26261 14954 28779 22342.98 河北省11557 6460 17198 11931.54 山西省12078 7476 16341 10863.83 内蒙古自治区17168 8218 23590 16258.12 辽宁省20156 1041

13、7 25161 16067.98 吉林省13676 7773 18714 13025.97 黑龙江省12978 7478 17102 12768.76 上海市39223 20221 41464 33064.76 江苏省23585 14571 28753 19163.56 浙江省24771 15458 30101 22551.97 安徽省11618 6114 17779 11726.99 福建省17115 10147 21725 17644.47 江西省11910 7429 16728 11088.89 山东省16728 9224 23358 13328.9 河南省11782 6438 1883

14、3 11000.44 湖北省13912 7755 19156 12928.31 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 13 页 - - - - - - - - - 湖南省12920 7005 19508 13288.73 广东省23739 9914 30440 19205.5 广西壮族自治区11710 5795 19185 10274.31 海南省11712 7072 15877 12470.59 重庆市15270 6538 21681 13810.62 四川省

15、12485 8074 17899 12368.4 贵州省9541 5383 16581 9303.35 云南省11224 6003 19089 9869.54 西藏自治区6275 3874 14001 7316.95 陕西省13206 6620 19620 12203.59 甘肃省9616 5245 16327 9874.57 青海省12070 6954 17617 12604.8 宁夏回族自治区13537 7062 19671 12484.52 新疆维吾尔自治区11401 5942 18285 11903.71 4，数据结果及分析4.1 聚类分析4.1.1 聚类分析过程采用统计软件 SPSS

16、可以快速方便的将样本分类， “K-均值聚类”将样本分为设定好的三类，分类结果如下：（1）K-均值聚类初始聚类中心表格 2：初始聚类中心聚类1 2 3 居民消费水平39223 26261 6275 农村居民消费20221 14954 3874 城镇居民消费41464 28779 14001 居民人均消费33064.7600 22342.9800 7316.9500 （2）样本聚类表格 3：聚类成员案例号省份聚类距离1 北京市1 4379.260 2 天津市2 7635.587 3 河北省3 929.734 4 山西省3 1983.267 5 内蒙古自治区2 6352.826 6 辽宁省2 305

17、5.409 7 吉林省3 2666.896 8 黑龙江省3 2010.885 9 上海市1 4379.260 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 13 页 - - - - - - - - - 10 江苏省2 4508.228 11 浙江省2 7652.634 12 安徽省3 618.766 13 福建省2 6473.341 14 江西省3 1567.065 15 山东省2 7767.508 16 河南省3 1066.383 17 湖北省3 2922.023 1

18、8 湖南省3 2544.860 19 广东省2 5077.435 20 广西壮族自治区3 1969.712 21 海南省3 2327.806 22 重庆市3 5477.295 23 四川省3 1769.123 24 贵州省3 3773.239 25 云南省3 2242.845 26 西藏自治区3 8554.757 27 陕西省3 2186.049 28 甘肃省3 3568.409 29 青海省3 1151.200 30 宁夏回族自治区3 2560.345 31 新疆维吾尔自治区3 956.540 （3）最终聚类中心表格 4：最终聚类中心聚类1 2 3 居民消费水平36280 21190 119

19、28 农村居民消费18942 11613 6595 城镇居民消费38650 26488 17962 居民人均消费32083.8250 18320.4350 11576.5910 表格 5：最终聚类中心间的距离聚类1 2 3 1 24874.663 39925.644 2 24874.663 15138.312 3 39925.644 15138.312 表格 6：每个聚类中的案例数聚类1 2.000 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，共 13 页 - - - -

20、 - - - - - 2 8.000 3 21.000 有效31.000 缺失.000 （4）聚类方差分析表格 7：聚类方差分析聚类误差F Sig. 均方df 均方df 居民消费水平6.930E8 2 6814286.540 28 101.697 .000 农村居民消费1.854E8 2 2927580.953 28 63.319 .000 城镇居民消费5.251E8 2 5546020.183 28 94.685 .000 居民人均消费4.570E8 2 4333185.909 28 105.467 .000 F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

21、观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2 聚类结果分析从上述聚类分析过程可知，样本完全有效，32个个体被分成三大类：G1（高消费地区）：北京，上海。G2（中等消费地区）：天津市，内蒙古自治区，辽宁省，江苏省，浙江省，福建省，山东省，广东省。G3（低消费地区）：河北省，山西省，吉林省，黑龙江省，安徽省，江西省，河南省，湖北省，湖南省，广西壮族自治区，海南省，重庆市，四川省，贵州省，云南省，西藏自治区，陕西省，甘肃省，青海省。宁夏回族自治区，新疆维吾尔自治区。从地区分类结果可知，北上作为国际化城市发展代表，其消费水平远超其他沿海城市及内陆城市

22、；沿海开放城市以及内陆主要枢纽城市的消费水平高于其他城市；中部地区级西部城市发展水平受限于地理、资源和资本等因素，经济发展表现不强劲，消费水平也比较低。从最后的方差分析中可知，分类检验水平显著，分类结果值得借鉴。4.2 判别分析4.2.1 判别结果及分析一般来讲，利用判别分析首先要明确变量测量尺度及变量的类型和关系；因变量（ dependent variable)：分组变量定性数据（个体、产品 /品牌、特征，名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 13 页 -

23、- - - - - - - - 定类变量）。自变量 (independent variable) ：判别变量定量数据（属性的评价得分，数量型变量）。采用 IBM SPSS Statistics 19作为统计工具，将数据输入SPSS 。依次选择分析分类判别进入设置对话框。选择上一步聚类分析所得的结果变量作为分组变量。由于已在聚类分析中将城市经济类型分为四类，因此其取值范围为13。原始数据作为自变量以对其进行分类判别。自变量输入方式为步进法。判别方法选用最小 F 值，进入值设置为 3.84，删除值设置为 2.71。在“分类”中设置先验概率为所有组相等。点击“确认”进入统计计算。（1）判别图图

24、1 典则判别函数从图中很明显，看到三个组中心也就是人民消费水平，以及围绕着组中心的样本，说明直观上分组判别式完全可以接受的。（2）典型判别式函数摘要表格 8：特征值函数特征值方差的 % 累积 % 正则相关性1 8.393a98.0 98.0 .945 2 .169a2.0 100.0 .381 a. 分析中使用了前 2 个典型判别式函数。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 13 页 - - - - - - - - - 表格 9：Wilks 的 Lambda函

25、数检验Wilks 的Lambda 卡方df Sig. 1 到 2 .091 65.904 4 .000 2 .855 4.304 1 .038 表格 10：标准化的典型判别式函数系数函数1 2 城镇居民消费.455 1.331 居民人均消费.626 -1.260 表格 11：结构矩阵函数1 2 居民消费水平a.957*.075 居民人均消费.946*-.323 城镇居民消费.895*.445 农村居民消费a.774*-.232 判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。a. 该变量不在分析中使用。*. 每个变量和任意判别式函数间最大的绝对相关性从表中

26、我们看到，因为分组变量是三类，所以我们得到两个判别函数，其中第一判别函数解释了数据的98%，第二判别函数解释了2%；两个判别函数解释了 100%；当然，两个判别函数直接具有显著的差异和判别力。（3）分类统计量表格 12：组的先验概率案例的类别号先验用于分析的案例未加权的已加权的1 .333 2 2.000 2 .333 8 8.000 3 .333 21 21.000 合计1.000 31 31.000 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 13 页 -

27、- - - - - - - - 表格 13：分类函数系数案例的类别号1 2 3 城镇居民消费.005 .004 .003 居民人均消费.004 .001 .000 ( 常量 ) -150.594 -65.139 -30.222 Fisher 的线性判别式函数Fisher线性判别函数，我们主要用来构建判别方程，理论上说：如果我们知道某个地区的城镇居民消费水平和居民消费水平，我们就可以估计出该地区应该是属于哪种类型的。5，结论通过聚类以及判别分析可知，我国居民消费水平的的高低和地理因素有很大关联，城市的经济发展水平呈现东南沿海高，中西部内陆低的态势，而经济发展水平极大地制约着居民消费水平。同时

28、地区之间经济发展差距悬殊，事实上是制约消费水平发展的另一个重要因素。长期以往，显然不利于经济的平衡发展。此外，北京作为我国首都，毋庸置疑具有天然的发展优势，其政治中心，交通中心，文化中心的地位吸引了国内外大量资金，快节奏的都市生活和日新月异的经济发展极大的推动了北京的消费水平提高；上海作为中国的经济金融中心，加之其周边江浙地带发达的工业基础，都为上海的经济发展增加了强劲的力量，从而使它的消费水平也提高了一个档次；判别图里清晰的表明北上的发展远远超过二三类型的城市发展水平。沿海主要城市以及内陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资，或者传统的工业基础，这些因素都使得这一类的城市

29、发展迅速，势头强劲，所以消费水平较高。其余中西部城市的发展各有其优劣，但总体上西部城市受国家西部大开发政策影响，变现出新兴的发展势头，所以消费水平也不算太低。判别图分析可见二三类型经济发展水平相差不大。由此，所建立模型直观上符合我国部分主要城市经济发展水平类型，最后的四个城市判别再次说明了模型的有效性。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页，共 13 页 - - - - - - - - - 参考文献1孙海燕 , 周梦 , 李卫国 , 冯伟 . 应用数理统计M.

30、北京 :北京航空航天大学数学系, 2014. 2张建同 , 孙昌言 . 以Excel 和SPSS 为工具的管理统计M. 北京 : 清华大学出版社，2002. 3 国家统计局 .2014 年中国统计年鉴M. 中国统计出版社，2014 4 宋志刚、谢蕾蕾、何旭洪 . SPSS 16 实用教程 M. 北京 : 人民邮电出版社，2008 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页，共 13 页 - - - - - - - - - 致谢本论文是在我的数理统计任课教师孙海燕教授的悉心指导下完成的，从论文的选题到研究方向的把握，无不凝聚着老师辛勤的付出和汗水。孙老师学识渊博，才思敏捷，严谨的教学态度，无不让我等钦佩。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页，共 13 页 - - - - - - - - -

展开阅读全文