北航应用数理统计大作业聚类分析.pdf

上传人:修**** 文档编号:75981536 上传时间:2023-03-06 格式:PDF 页数:13 大小:610.30KB
返回 下载 相关 举报
北航应用数理统计大作业聚类分析.pdf_第1页
第1页 / 共13页
北航应用数理统计大作业聚类分析.pdf_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《北航应用数理统计大作业聚类分析.pdf》由会员分享,可在线阅读,更多相关《北航应用数理统计大作业聚类分析.pdf(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、应用数理统计应用数理统计聚类分析与判别分析聚类分析与判别分析(第二次作业)(第二次作业)学院:姓名:学号:2013 年 12 月 16 日我国各地区居民消费水平的聚类分析和判我国各地区居民消费水平的聚类分析和判别分析别分析摘要:摘要:本文基于中国统计年鉴(2012 年版)统计数据,寻找评价各省份人民消费水平的指标,包括居民消费水平、农村居民消费水平、城镇居民消费水平和居民人均消费四个指标,利用统计软件SPSS 综合考虑各指标,对全国各省份进行 K-Means 聚类分析,利用 Fisher线性判别待判城市类型,进一步验证所建模型的有效性。关键字:关键字:聚类分析,判别分析,SPSS,居民消费水平

2、1 1,引言,引言人均消费水平是指一定时期内(月、年)平均每人占有和享受的物质生活资料和服务的数量。它是一个国家整个经济活动成果的最终体现,也是反映人民物质和文化生活需要的满足程度。一个国家的国民生产总值(GNP)除以该国国民人口的总数所得出的商。即指分摊到每个国民份上的国民生产总值的平均值。在经济学上,一般用来衡量或表示一个国家的经济发展程度。经过改革开放后三十多年的长足进展,尽管世界格局在走向多极化的过程中不断呈现出错综复杂、风云变幻的局面,但中国领导人高瞻远瞩,始终不渝地坚持以经济建设为中心,坚持走和平发展的道路,使中国步履稳健、坚定不移地走向世界,融入经济全球化的历史进程之中。中国在为

3、经济全球化作出贡献的同时,也从中获取了巨大的增长动力,中国人民的生活水平和消费水平也在不断提高。2014 年全国居民人均可支配收入 20167 元,比上年增长 10.1%,扣除价格因素,实际增长 8.0%。按常住地分,城镇居民人均可支配收入 28844 元,比上年增长 9.0%,扣除价格因素,实际增长 6.8%;城镇居民人均可支配收入中位数为26635 元,增长 10.3%。农村居民人均可支配收入 10489 元,比上年增长 11.2%,扣除价格因素,实际增长9.2%;农村居民人均可支配收入中位数为9497 元,增长 12.7%。全年农村居民人均纯收入为 9892 元。全国居民人均消费支出 1

4、4491元,比上年增长 9.6%,扣除价格因素,实际增长 7.5%。按常住地分,城镇居民人均消费支出 19968 元,增长 8.0%,扣除价格因素,实际增长 5.8%;农村居民人均消费支出 8383 元,增长 12.0%,扣除价格因素,实际增长 10.0%。但是,经济和消费水平的增长比例关系却不尽如人意,经济增长大大慢于消费增长,消费需求对经济增长的贡献率不断下降并成为当前经济运行中的重要问题。为实现扩大内需、拉动经济增长的长效目的,我们要在洞察当前居民消费现状的基础上,深入分析居民消费增长缓慢的原因,并探索扩大居民消费需求、拉动经济增长的对策和措施。所以我希望通过对居民消费情况进行分析,得到

5、影响居民消费水平的地域因素和其他影响因子等。2 2,相关统计基础理论,相关统计基础理论2.12.1,聚类分析,聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、SAS 等。本文使用统计软件 SPSS 对所收集的数据进行快速聚类,其特点是:在确定类别数量基础

6、上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是 K-Means 算法。K-Means 算法接受输入量 k;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means 算法的工作过程说明如下:首先从n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相

7、似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.22.2,判别分析,判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建 Biplot 二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判

8、别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体 G 之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:d2(x,G)(xu)1(xu)式中为 p 元总体 G 的协方差阵,x 是取自 G 的样品,则该式即为样品 x到总体 G 的马氏距离。贝叶斯判别既

9、考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体Gj的距离可以用欧式距离度量,即:*d(y,G)|yuj|(aixaiuj)22*j*2i1m由此导出 Fisher 判别规则为:d2(y,Gj*)min d2(y,Gj*),则xGl1 jk本文及使用 Fisher 判别建立线性判别函数进行距离判别。3 3,模型建立,模型建立3.13.1 设置变量设置变量本文综合考虑了衡量人民消

10、费水平因素,选取各地区居民消费水平,消费水平包括城镇居民消费水平和农村居民消费水平,综合考虑了居民人均消费作为类别分析的主要经济指标:X1:居民消费水平(元)X2:城镇居民消费水平(元)X3:农村居民消费水平(元)X4:居民人均消费(元)从区域发展角度从上面 5 个经济指标将城市经济发展水平划分为三大类:G1:高消费地区G2:中等消费地区G3:低消费地区3.23.2 数据收集和整理数据收集和整理本文所有数据来源于中国统计年鉴(2014),选取 2014 年度 31 个省份主要居民消费水平做模型建立及分析。其中前 31 个省份相关消费指标水平作为初始样本用于划分类别,建立类别总体 G;再利用判别

11、函数进行判别分析。所有相关数据经过量纲统一规则化处理见表 1 所示。表 1:各省份居民消费水平省份北京市天津市河北省山西省内蒙古自治区辽宁省吉林省黑龙江省上海市江苏省浙江省安徽省福建省江西省山东省河南省湖北省居民消费水平3333726261115571207817168201561367612978392232358524771116181711511910167281178213912农 村 居 民 消费176631495464607476821810417777374782022114571154586114101477429922464387755城镇居民消费35836287791719

12、81634123590251611871417102414642875330101177792172516728233581883319156居 民 人 均消费31102.8922342.9811931.5410863.8316258.1216067.9813025.9712768.7633064.7619163.5622551.9711726.9917644.4711088.8913328.911000.4412928.31湖南省广东省广西壮族自治区海南省重庆市四川省贵州省云南省西藏自治区陕西省甘肃省青海省宁夏回族自治区新疆维吾尔自治区1292023739117101171215270124

13、85954111224627513206961612070135371140170059914579570726538807453836003387466205245695470625942195083044019185158772168117899165811908914001196201632717617196711828513288.7319205.510274.3112470.5913810.6212368.49303.359869.547316.9512203.599874.5712604.812484.5211903.714 4,数据结果及分析,数据结果及分析4.14.1 聚类分析

14、聚类分析4.1.14.1.1 聚类分析过程聚类分析过程采用统计软件 SPSS 可以快速方便的将样本分类,“K 均值聚类”将样本分为设定好的三类,分类结果如下:(1)K 均值聚类初始聚类中心表格表格2 2:初始聚类中心初始聚类中心聚类139223202214146433064.7600226261149542877922342.9800362753874140017316.9500居民消费水平农村居民消费城镇居民消费居民人均消费(2)样本聚类表格表格3 3:聚类成员聚类成员案例号1234567891011121314151617181920省份北京市天津市河北省山西省内蒙古自治区辽宁省吉林省黑龙

15、江省上海市江苏省浙江省安徽省福建省江西省山东省河南省湖北省湖南省广东省广西壮族自治区21222324252627282930海南省重庆市四川省贵州省云南省西藏自治区陕西省甘肃省青海省宁夏回族自治区31新疆维吾尔自治区3956.54033333333332327.8065477.2951769.1233773.2392242.8458554.7572186.0493568.4091151.2002560.345聚类12332233122323233323距离4379.2607635.587929.7341983.2676352.8263055.4092666.8962010.8854379.26

16、04508.2287652.634618.7666473.3411567.0657767.5081066.3832922.0232544.8605077.4351969.712(3)最终聚类中心表格表格4 4:最终聚类中心最终聚类中心居民消费水平农村居民消费城镇居民消费居民人均消费聚类136280189423865032083.8250221190116132648818320.435031192865951796211576.5910表格表格5 5:最终聚类中心间的距离最终聚类中心间的距离聚类1231224874.663339925.64415138.31224874.66339925.64

17、415138.312表格表格6 6:每个聚类中的案例数每个聚类中的案例数聚类123有效缺失2.0008.00021.00031.000.000(4)聚类方差分析表格表格7 7:聚类方差分析:聚类方差分析聚类均方6.930E81.854E85.251E84.570E8df2222均方6814286.5402927580.9535546020.1834333185.909误差df28282828F101.69763.31994.685105.467Sig.000.000.000.000居民消费水平农村居民消费城镇居民消费居民人均消费F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中

18、的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.24.1.2聚类结果分析聚类结果分析从上述聚类分析过程可知,样本完全有效,32 个个体被分成三大类:G1(高消费地区):北京,上海。G2(中等消费地区):天津市,内蒙古自治区,辽宁省,江苏省,浙江省,福建省,山东省,广东省。G3(低消费地区):河北省,山西省,吉林省,黑龙江省,安徽省,江西省,河南省,湖北省,湖南省,广西壮族自治区,海南省,重庆市,四川省,贵州省,云南省,西藏自治区,陕西省,甘肃省,青海省。宁夏回族自治区,新疆维吾尔自治区。从地区分类结果可知,北上作为国际化城市发展代表

19、,其消费水平远超其他沿海城市及内陆城市;沿海开放城市以及内陆主要枢纽城市的消费水平高于其他城市;中部地区级西部城市发展水平受限于地理、资源和资本等因素,经济发展表现不强劲,消费水平也比较低。从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。4.24.2 判别分析判别分析4.2.14.2.1 判别结果及分析判别结果及分析一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependent variable):分组变量定性数据(个体、产品/品牌、特征,定类变量)。自变量(independent variable):判别变量定量数据(属性的评价得分,数量型变量)。采用

20、 IBM SPSS Statistics 19 作为统计工具,将数据输入 SPSS。依次选择分析分类判别进入设置对话框。选择上一步聚类分析所得的结果变量作为分组变量。由于已在聚类分析中将城市经济类型分为四类,因此其取值范围为 13。原始数据作为自变量以对其进行分类判别。自变量输入方式为步进法。判别方法选用最小 F 值,进入值设置为3.84,删除值设置为2.71。在“分类”中设置先验概率为所有组相等。点击“确认”进入统计计算。(1)判别图图 1 典则判别函数从图中很明显,看到三个组中心也就是人民消费水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。(2)典型判别式函数摘要表格表格

21、8 8:特征值特征值函数12特征值8.393.169aa方差的%98.02.0累积%98.0100.0正则相关性.945.381a.分析中使用了前 2 个典型判别式函数。表格表格9 9:WilksWilks 的的 Lambda LambdaWilks 的函数检验1 到 22Lambda.091.855卡方65.9044.304df41Sig.000.038表格表格1010:标准化的典型判别式函数系数标准化的典型判别式函数系数城镇居民消费居民人均消费函数1.455.62621.331-1.260表格表格1111:结构矩阵结构矩阵居民消费水平居民人均消费城镇居民消费农村居民消费aa函数1.957.

22、946.895.774*2.075-.323.445-.232判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。a.该变量不在分析中使用。*.每个变量和任意判别式函数间最大的绝对相关性从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的 98%,第二判别函数解释了 2%;两个判别函数解释了 100%;当然,两个判别函数直接具有显著的差异和判别力。(3)分类统计量表格表格1212:组的先验概率组的先验概率用于分析的案例案例的类别号123合计先验.333.333.3331.000未加权的282131已加权的2.0008.00

23、021.00031.000表格表格1313:分类函数系数分类函数系数城镇居民消费居民人均消费(常量)案例的类别号1.005.004-150.5942.004.001-65.1393.003.000-30.222Fisher 的线性判别式函数Fisher 线性判别函数,我们主要用来构建判别方程,理论上说:如果我们知道某个地区的城镇居民消费水平和居民消费水平,我们就可以估计出该地区应该是属于哪种类型的。5 5,结论,结论通过聚类以及判别分析可知,我国居民消费水平的的高低和地理因素有很大关联,城市的经济发展水平呈现东南沿海高,中西部内陆低的态势,而经济发展水平极大地制约着居民消费水平。同时地区之间经

24、济发展差距悬殊,事实上是制约消费水平发展的另一个重要因素。长期以往,显然不利于经济的平衡发展。此外,北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量资金,快节奏的都市生活和日新月异的经济发展极大的推动了北京的消费水平提高;上海作为中国的经济金融中心,加之其周边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量,从而使它的消费水平也提高了一个档次;判别图里清晰的表明北上的发展远远超过二三类型的城市发展水平。沿海主要城市以及内陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资,或者传统的工业基础,这些因素都使得这一类的城市发展迅速,

25、势头强劲,所以消费水平较高。其余中西部城市的发展各有其优劣,但总体上西部城市受国家西部大开发政策影响,变现出新兴的发展势头,所以消费水平也不算太低。判别图分析可见二三类型经济发展水平相差不大。由此,所建立模型直观上符合我国部分主要城市经济发展水平类型,最后的四个城市判别再次说明了模型的有效性。参考文献参考文献1 孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京:北京航空航天大学数学系,2014.2 张建同,孙昌言.以Excel和SPSS为工具的管理统计M.北京:清华大学出版社,2002.3 国家统计局.2014 年中国统计年鉴M.中国统计出版社,20144 宋志刚、谢蕾蕾、何旭洪.SPSS 16 实用教程M.北京:人民邮电出版社,2008

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 企业管理

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁