北航数理统计大作业聚类分析.pdf

上传人:修**** 文档编号:75977247 上传时间:2023-03-06 格式:PDF 页数:14 大小:638.28KB
返回 下载 相关 举报
北航数理统计大作业聚类分析.pdf_第1页
第1页 / 共14页
北航数理统计大作业聚类分析.pdf_第2页
第2页 / 共14页
点击查看更多>>
资源描述

《北航数理统计大作业聚类分析.pdf》由会员分享,可在线阅读,更多相关《北航数理统计大作业聚类分析.pdf(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、应用数理统计应用数理统计聚类分析与判别分析聚类分析与判别分析(第(第二二次作业)次作业)学院:姓名:学号:2015年12月应用数理统计作业聚类分析与判别分析目录目录我国部分城市经济发展水平的聚类分析和判别分析.-1-摘要:.-1-1.引言.-1-2.相关统计基础理论.-1-2.1 聚类分析.-1-2.2 判别分析.-2-3.模型建立.-3-3.1 设置变量.-3-3.2 数据收集和整理.-3-4.数据结果及分析.-5-4.1 聚类分析.-5-4.2 判别分析.-7-5.结论.-11-参考文献.-12-II应用数理统计作业聚类分析与判别分析我国部分城市经济发展水平的聚类分析和判别分析我国部分城市

2、经济发展水平的聚类分析和判别分析摘要:摘要:本文基于中国统计年鉴(2014年版)统计数据,统计全国各省市居民消费情况,包括各地区农村居民人均纯收入、农村居民人均现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标,利用统计软件SPSS 综合考虑各指标,对所选地区进行K-Means 聚类分析,利用Fisher线性判别待判地区类型,进一步验证所建模型的有效性。关键字:关键字:聚类分析,判别分析,SPSS,各省市居民消费1.1.引言引言改革开放以来,我国经济飞速发展,居民生活水平不断提高,随之,居民的消费也逐渐增加,对于各地区的居民收入和消费的分析,一定程度上能够体现该地区的经济状况

3、,有助于相关政策的制定。2.2.相关统计基础理论相关统计基础理论2.12.1 聚类分析聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS 等。本文使用统计软件SPSS 对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,

4、然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means 算法。K-Means 算法接受输入量 k;然后将n个数据对象划分为 k个聚类以便使-1-应用数理统计作业聚类分析与判别分析得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相

5、似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.22.2 判别分析判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。

6、判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:d2(x,G)(xu)1(xu)式中为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑

7、到误判损失产生的影响,-2-应用数理统计作业聚类分析与判别分析是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体即:d(y,G)|yuj|(aix aiuj)22*j*2i 1mGj*的距离可以用欧式距离度量,由此导出Fisher 判别规则为:d2(y,Gj*)min d2(y,Gj*)1 j k,则xGl本文及使用Fisher 判别建立线性判别函数进行距离判别。3.3.模型建立模型建立3.13.1 设置变量设置变量本文综合考虑了评

8、价各地区居民的收入支出情况,选取能够反映一个省(市)收支状况的主要因素,包括各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费,共4项因素:X1:各地区农村居民人均纯收入X2:各地区农村居民人均现金消费X3:各地区城镇居民人均可支配收入X4:各地区城镇居民人均现金消费3.23.2 数据收集和整理数据收集和整理本文所有数据来源于中国统计年鉴(2014),选取 2013年度31个省市居民收支状况数据进行模型建立及分析,初始数据见表1所示。其中浙江、广东、重庆未参与聚类分析和判别分析,而是作为了判别分析验证数据。-3-应用数理统计作业聚类分

9、析与判别分析表1各地区居民收支状况农村居民编号地区人均纯收入/元农村居民人均现金消费/元13470.210088.65969.65463.26763.36864.96827.66542.113872.99486.911541.15344.97552.54910.17184.25353.05531.15854.27881.54547.05090.75057.85406.13888.33953.02661.55420.74393.75506.65942.15519.9城镇居民人均可支配收入/元40321.032293.622580.322455.625496.725578.222274.61959

10、7.043851.432537.537850.823114.230816.421872.728264.122398.022906.423414.033090.023305.422928.925216.122367.620667.123235.520023.422858.418964.819498.521833.319873.8城镇居民人均现金消费/元26274.8921711.8613640.5813166.1919249.0618029.6515932.3114161.7128155.0020371.4823257.1916285.1720092.7213850.5117112.241482

11、1.9815749.5015887.1124133.2615417.6215593.0417813.8616343.4513702.8715156.1512231.8616679.6914020.7213539.5015321.1015206.1612345678910111213141516171819202122232425262728293031北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆18337.515841.09101.97153.58595.710522.79621.29634.119595.01

12、3597.816106.08097.911184.28781.510619.98475.38867.08372.111669.36790.98342.68332.07895.35434.06141.36578.26502.65107.86196.46931.07296.5-4-应用数理统计作业聚类分析与判别分析4.4.数据结果及分析数据结果及分析4.14.1 聚类分析聚类分析4.1.14.1.1 聚类分析过程聚类分析过程采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心表表1 1初始聚类中心初始聚类中心农村居民人均

13、纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费聚类15107.804393.7018964.8014020.72219595.0013872.9043851.4028155.00315841.0010088.6032293.6021711.86(2)样本聚类表表3 3聚类成员聚类成员案例号1234567891011121314151617地区北京上海天津内蒙古辽宁江苏福建山东河北山西吉林黑龙江安徽江西河南湖北湖南-5-聚类22311333111111111距离2106.0632106.0634094.7145520.4525465.7432044.4301948.5044

14、631.4632185.5782126.0132503.6293538.3231508.7651763.948849.6141478.0801656.694应用数理统计作业聚类分析与判别分析1819202122232425262728广西海南四川贵州云南西藏陕西甘肃青海宁夏新疆111111111111720.4751096.9071193.3693445.5362392.0554670.9722074.7934400.2213484.4031064.0722324.098(3)最终聚类中心表表4 4最终聚类中心最终聚类中心农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均

15、现金消费聚类17747.255352.4422147.4715181.18218966.2513671.5542086.2027214.95312810.738578.0530977.9019822.08表表5 5最终聚类中心间的距离最终聚类中心间的距离聚类1231227155.810311642.92615552.59127155.81011642.92615552.591(4)聚类方差分析表表6 6聚类方差分析聚类方差分析农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费聚类均方1.446E874433749.0304.525E81.554E8df2222均方

16、误差df25252525F58.81265.726135.26556.758Sig.000.000.000.0002458629.3841132487.9063345462.8832738553.275F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.24.1.2 聚类结果分析聚类结果分析在本文中把31个省市分为了3个组,从上述聚类分析过程可知,样本完全有效,这三类分别为:-6-应用数理统计作业聚类分析与判别分析G1:辽宁、广西、贵州、青海、新疆、安徽、江西、四川、甘肃

17、、河北、山西、内蒙古、吉林、黑龙江、河南、湖北、湖南、云南、陕西、宁夏G2:北京、上海G3:天津、江苏、山东、福建从分类结果可知,G2类北京、上海是经济比较发达的地方,城镇居民与农村居民收入都最高,相应的,其农村居民和城镇居民的消费也最高;接下来的G3包括天津、江苏、山东、福建,居民收入也较高,居民消费水平也较高;剩余的省市被归为了G2组。G1的北京、上海两大经济中心,经济发达远超其他地区,G2组都是沿海省份,这说明现在我国经济发展不平衡,沿海地区经济比较发达,内地经济发展落后。从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。4.24.2 判别分析判别分析4.2.14.2.1 判别

18、结果及分析判别结果及分析一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependent variable):分组变量定性数据(个体、产品/品牌、特征,定类变量)。自变量(independent variable):判别变量定量数据(属性的评价得分,数量型变量)。本文中,自变量就是各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费4项。(1)判别图-7-应用数理统计作业聚类分析与判别分析从图中明显可以看出,看到三个组分别围绕各自中心分布,说明直观上分组判别是完全可以接受的。(2)典型判别式函数摘要表表7 7特

19、征值特征值函数12特征值13.497.078aa方差的%99.4.6累积%99.4100.0正则相关性.965.269a.分析中使用了前 2 个典型判别式函数。表表8 Wilks8 Wilks 的的 Lambda LambdaWilks 的函数检验1 到 22Lambda.064.927卡方64.6081.770df83Sig.000.621表表9 9标准化的典型判别式函数系数标准化的典型判别式函数系数农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费函数1-.307.6951.317-.7452-.9631.045-.610.800表表1010结构矩阵结构矩阵城

20、镇居民人均可支配收入农村居民人均现金消费农村居民人均纯收入城镇居民人均现金消费函数1.895.623.590.579*2-.009.506-.078.489判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性表表1111组质心处的函数组质心处的函数函数案例的类别号-8-12应用数理统计作业聚类分析与判别分析123-1.63910.5403.746.059.514-.581在组均值处评估的非标准化典型判别式函数从表7到表11中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的99.4

21、%,第二判别函数解释了0.6%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。(3)分类统计量表表1212组的先验概率组的先验概率用于分析的案例案例的类别号123合计先验.333.333.3331.000未加权的222428已加权的22.0002.0004.00028.000表表1313分类函数系数分类函数系数农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费(常量)Fisher 的线性判别式函数案例的类别号1-.003.002.008-.001-77.5822-.005.010.017-.006-287.1813-.003.005.0

22、12-.004-151.747表表1414组统计量组统计量有效的 N(列表状态)案例的类别号1农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费2农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入均值7747.25005352.436422147.472715181.178618966.250013671.550042086.2000-9-标准差1438.049771026.523811770.801521624.32165889.18678284.751902496.36978未加权的22222222222已加权的22.00022.00022.0002

23、2.0002.0002.0002.000应用数理统计作业聚类分析与判别分析城镇居民人均现金消费3农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费合计农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费27214.945012810.72508578.050030977.900019822.07509271.96076407.460724833.157116703.71861329.438532397.731661426.223481962.499371939.895843603.804452561.681276051.28338374

24、8.2390624444282828282.0004.0004.0004.0004.00028.00028.00028.00028.000我们用Fisher线性判别函数用来构建判别方程,也就是说,理论上,如果我们知道某个城市在这4项居民收支状况,就可以依据该函数判断该城市属于哪一组城市类型。4.2.24.2.2 判别检验判别检验判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后四个(序号33-36)个体就可作为检验样本,也成待判样本。由上表可知Fisher判别方程:G1=0.003X1+0.002X2

25、+0.008X3 0.001X4 77.582G2=0.005X1+0.010X2+0.017X3 0.006X4 287.181G3=0.003X1+0.005X2+0.012X3 0.004X4 151.747判别规则:d2(y,Gj*)mind2(y,Gj*)1 jk,则xGl判别结果:地区浙江广东重庆农村居民农村居民城镇居民城镇居民人均纯人均现金人均可支人均现金G1G2G3收入消费配收入消费1610611541.137850.823257.19176.7314251.6205218.821311669.37881.53309024133.26143.7598151.0179153.19

26、9683325057.825216.117813.8691.4525443.5275479.88376分组G2G3G1因此浙江与北京上海同属经济发达的G2组,广东与天津、江苏、山东、福建同属经济较发达的G3组,而重庆属于经济欠发达的G3组。与31个地区共同做-10-应用数理统计作业聚类分析与判别分析分类后得到的结果一直,因此该分类是合理的。5.5.结论结论表表15 3115 31个省市个省市聚类成员聚类成员案例号地区聚类距离1北京1795.5932天津23897.9553河北32234.4104山西32227.9455内蒙古35354.9186辽宁35313.7697吉林32456.9298黑

27、龙江33660.5919上海14304.86710江苏21876.33611浙江14537.36512安徽31333.92913福建21852.41514江西31859.36915山东25293.48716河南3855.53117湖北31353.31418湖南31502.62019广东23986.80320广西31629.91821海南3946.11822重庆33917.79823四川31060.60124贵州33566.08925云南32348.37226西藏34804.39027陕西31966.91728甘肃34540.72929青海33652.15830宁夏31127.99631新疆32

28、461.978-11-应用数理统计作业聚类分析与判别分析从本文所建立的模型对我国各省市居民消费状况和收入状况进行了分析,用其中28个省市建立了模型,并用浙江、广东、重庆3个地区验证了模型的有效性。从相关结果及分析可以得到一些直观的结论。本模型把28个地区分为了3组,其中G2组有:北京、上海,并且在模型验证中浙江省也被归为G2,北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量的投资建设,一批高科技产业带动的行业发展极大的推动了北京的经济发展;上海作为中国的经济金融中心,加之其周边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量;浙江个私

29、经济比较发,浙江是全国最早发展乡镇企业的省份之一,全省的乡镇企业总体发展水平已跃居中国第一,经济发展状况在国内屈指可数。这3个地区的人均收入较高,居民消费水平也较高,也说明了其经济状况是国内一级水平。G3组包括天津、江苏、山东、福建四省,并且模型验证中广东省也被归为此类。这些省份大都是东、南地区沿海省份,交通便利,对外开放较早,经济发展状况较好。而剩余的省市被归为了G1类,这反映了在2013年,我国除却北、上、浙、津、苏、粤、鲁、闽之外的其他省(市)居民收入和支出状况都一般,反映出国内这8个省市经开发展状况较好,从而说明,我国经济发展非常不平衡,东南沿海地区经济发达,而内陆地区经济较落后。这个模型一定程度上说明了我国经济发展现状,对与相关政策的制定可提供一定的参考。参考文献参考文献1 孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京:北京航空航天大学数学系,2011.2 张建同,孙昌言.以Excel和SPSS为工具的管理统计M.北京:清华大学出版社,2002.3 国家统计局.2014年中国统计年鉴M.中国统计出版社,20144 中国城市经济学会.中国城市经济J.北京:中国社会科学院-12-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 企业管理

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁