《北航数理统计大作业聚类分析与判别分析.pdf》由会员分享,可在线阅读,更多相关《北航数理统计大作业聚类分析与判别分析.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用数理统计应用数理统计聚类分析与判别分析聚类分析与判别分析(第二次作业)(第二次作业)学院:姓名:学号:2013 年 12 月我国部分城市经济发展水平的聚类分析我国部分城市经济发展水平的聚类分析和判别分析和判别分析摘要:摘要:本文基于中国统计年鉴(2012 年版)统计数据,寻找评价城市经济发展水平的指标,包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS 综合考虑各指标,对所选城市进行 K-Means 聚类分析,利用 Fisher 线性判别待判城市类型,进一步验证所建模型的有效性。关键字:关键字:聚类分析,判别分析,SPSS,城市经济发展水平1
2、 1,引言,引言经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。同时,中国城市化又处于周期转折点上,上一周期行将结束,下一周期将要开始。2011 年中国城市化率首次突破 50,意味着中国城镇人口首次超过农村人口,中国城市化进入关键发展阶段,这必将引起深刻的社会变革。根据 2011 年 4 月公布的第六次人口普查数据,2010 年中国居住城镇的人口接近 6.6 亿人,城镇化率达到 49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去 30 多年中,中国的城市化发展取得了很大成绩。然而,总体上中国的城市化道路是城市化滞后于工业化的非均
3、衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市发展,导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化道路。具体而言,中国城市经济发展水平受限于地理、环境、资源以及国家政策等因素的影响,我国不同区域的城市化进程尚存在很大差异。2012 年中国城市发展报告中指出,从区域角度看,目前沿海一带城市发展起步早,与国际贸易交流往来频率高,经济发展水平
4、较高,西部地区受到国家政策的大力扶持,表现出了强劲的增长势头,西部主要城市经济发展水平仅次于沿海发达地区,而中部地区城市发展的水平已经落到了最后。显然,通过研究不同城市的经济发展状况和经济类型,指出其发展差异所在,可以为政府在出台相关政策来平衡区域经济发展,缩小不同地区人民生活水平的差异提供一定的指导意见,也为我们深刻理解国家相关政策提供了扎实的基础。2 2,相关统计基础理论,相关统计基础理论2.12.1,聚类分析,聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据
5、的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、SAS 等。本文使用统计软件 SPSS 对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是 K-Means 算法。K-Means 算法接受输入量 k;然后将 n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象
6、相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means 算法的工作过程说明如下:首先从n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.22.2,判别分析,判别分析判
7、别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建 Biplot 二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等
8、几种常用方法。距离判别的基本原理是:首先对样本到总体 G 之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:d2(x,G)(xu)1(xu)式中为 p 元总体 G 的协方差阵,x 是取自 G 的样品,则该式即为样品 x到总体 G 的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品 y 到各个总体Gj*的距离可以用
9、欧式距离度量,即:d(y,G)|y uj|(aixaiuj)22*j*2i1m由此导出 Fisher 判别规则为:d2(y,Gj*)mind2(y,Gj*),则xGl1 jk本文及使用 Fisher 判别建立线性判别函数进行距离判别。3 3,模型建立,模型建立3.13.1 设置变量设置变量本文综合考虑了评价城市发展指数衡量因素,选取衡量一个城市经济发展水平的主要因素,城市化进程总是伴随着工业化发展,发达的服务业水平是衡量现代新兴城市的主要指标,此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:X1:城市第二产业产值(亿元)X2:城市第三产业产值(
10、亿元)X3:城市固定资产投资总额(亿元)X4:城市社会消费品零售总额(亿元)X5:货物进出口总额(亿元)从区域发展角度从上面 5 个经济指标将城市经济发展水平划分为三大类:G1:发达城市G2:中度发达城市G3:欠发达城市3.23.2 数据收集和整理数据收集和整理本文所有数据来源于中国统计年鉴(2012),选取2011 年度 36 个城市主要经济发展水平做模型建立及分析。其中前 32 个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体G;最后四个城市(杭州、南宁、昆明、银川)及其相关经济发展水平用作待判样品,利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表 1 所示。表
11、 1 我国部分城市相关经济发展水平(2011 年)序号12345678910111213城市第二产业第三产业固定资产投资社会消费品零售货物进出口总额(亿元)23374.98846203.4642850.1112513.6306121.4736637.2153630.58741040.9322307.054826246.1513440.63585891.20921207.719(亿元)(亿元)总额(亿元)总额(亿元)12363.25219.21635.81097.11277.82609.82550.71620.22147.811142.93220.42454.51426.25851.520174
12、83.69733026.97781024.14441031.67814577.0944580.05852356.61893011.9715064.26243757.25172385.50723376.96526900.32463395.061662.9864973.2937890.04782426.86551924.7941515.85372070.41296814.82697.09972018.86171111.1188北京3752.5天津5928.3石 家 庄2031.9太原949.2呼和浩特790.0沈阳3026.9大连3204.2长春2092.7哈 尔 滨1647.2上海7927.9南
13、京2760.8宁波3349.5合肥2002.21415161718192021222324252627282930313233343536福州1711.2厦门1297.1南昌1579.3济南1829.0青岛3150.7郑州2874.2武汉3254.0长沙3151.7广州4577.0深圳5343.3海口177.9重庆5543.0成都3143.8贵阳586.8拉萨75.21700.11217.5974.72339.53158.51974.03309.52224.37641.96155.7487.73623.83383.4733.7137.21993.9663.5332.0908.93458.510
14、76.31214.6414.42720.28271128.08722022.32971934.33893502.53823002.54255.16213510.24253412.22136.3882395.04087579.44544944.01571600.5898220.50313352.12950.5758528.0052427.62213100.02181950.86282275.5286720.56271947.8102800.2779928.34382114.28682302.37031987.11473031.78852201.611252433520.8736387.18043
15、487.8072861.2835584.3292102.59481965.9774639.7231271.2873695.02782548.35991073.15411271.7298274.47052083.48564210.0002473.0226624.1234329.1302959.73541367.3748449.36046970.2624845.982236.17561753.07162274.3798392.979678.4452754.74112.765848.9378541.79043838.308150.6252721.322472.6西安1697.2兰州656.5西宁41
16、1.3乌鲁木齐759.1杭州3323.8南宁829.6昆明1161.2银川525.24 4,数据结果及分析,数据结果及分析4.14.1 聚类分析聚类分析4.1.14.1.1 聚类分析过程聚类分析过程采用统计软件 SPSS 可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心初始聚类中心初始聚类中心1第二产业(亿元)第三产业(亿元)固定资产投资总额(亿元)社会消费品零售总额(亿元)货物进出口总额(亿元)7928111435064.2624000000016814.800026246.151000000000聚类2592852197483.
17、6973000000013395.06006203.464200000000375137220.503100000000102.594878.445200000000(2)样本聚类聚类成员聚类成员案例号12345678910111213141516城市北京天津石 家 庄太原呼和浩特沈阳大连长春哈 尔 滨上海南京宁波合肥福州厦门南昌聚类1233332331223333距离案例号城市济南青岛郑州武汉长沙广州深圳海口重庆成都贵阳拉萨西安兰州西宁乌鲁木齐聚类距离3937.772 174379.850 181259.026 191214.063 201414.697 213452.674 221842.
18、873 23837.811 241584.291 253214.673 261681.205 273455.979 281536.881 291682.563 303577.169 31617.367 323 1347.1542 1710.0433 1969.2612 2771.8343 2607.5832 5518.2351 4887.3763 2474.7502 4072.6012 1942.9103 1402.6203 2918.1903 1652.6253 1767.3343 2433.5033 1898.368(3)最终聚类中心最终聚类中心最终聚类中心1第二产业(亿元)第三产业(亿元
19、)固定资产投资总额(亿元)社会消费品零售总额(亿元)货物进出口总额(亿元)最终聚类中心间的距离最终聚类中心间的距离聚类1231221946.797326337.2725669.843567598874350.7235666666685745.332724822.373800000000聚类2387938404655.5417888888902995.78503984.4570000000003146713752009.8843600000001263.8072782.18490000000021946.79726337.2725669.843(4)聚类方差分析方差分析方差分析均方第二产业(亿元
20、)第三产业(亿元)固定资产投资总额(亿元)社会消费品零售总额(亿元)货物进出口总额(亿元)34313207.735100446019.01324862358.67330454986.050753836973.383聚类df22222均方1231856.4791811059.4072205819.376887338.5311848036.992误差df292929292927.85555.46311.27134.322407.912.000.000.000.000.000FSig.F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正
21、,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.24.1.2 聚类结果分析聚类结果分析从上述聚类分析过程可知,样本完全有效,32 个个体被分成三大类:G1(发达城市):北京,上海,深圳。G2(中度发达城市):天津,大连,南京,宁波,青岛,武汉,广州,重庆,程度。G3(欠发达城市):石家庄,太原,呼和浩特,沈阳,长春,哈尔滨,合肥,福州,厦门,南昌,济南,郑州,长沙,海口,贵阳,拉萨,西安,兰州,西宁,乌鲁木齐。从城市分类结果可知,北上深作为国际化城市发展代表,其经济发展水平远超其他沿海城市及内陆城市;沿海开放城市以及内陆主要枢纽城市的发展水平高于其他城市;中部地区级西部城市发展水平
22、受限于地理、资源和资本等因素,经济发展表现不强劲。从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。4.24.2 判别分析判别分析4.2.14.2.1 判别结果及分析判别结果及分析一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependent variable):分组变量定性数据(个体、产品/品牌、特征,定类变量)。自变量(independent variable):判别变量定量数据(属性的评价得分,数量型变量)。(1)判别图图 1 典则判别函数从图中很明显,看到三个组中心也就是经济发展水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。(2
23、)典型判别式函数摘要特征值特征值函数12特征值37.790.765aa方差的%98.02.0累积%98.0100.0正则相关性.987.658a.分析中使用了前 2 个典型判别式函数。WilksWilks 的的 Lambda Lambda函数检验Wilks 的Lambda1 到 22.015.567114.10615.336104.000.004卡方dfSig.标准化的典型判别式函数系数标准化的典型判别式函数系数1第二产业(亿元)第三产业(亿元)固定资产投资总额(亿元)社会消费品零售总额(亿元)货物进出口总额(亿元)-.974-1.198.7521.1901.409函数2.940.773.21
24、1-.675-.314结构矩阵结构矩阵1货物进出口总额(亿元)第二产业(亿元)固定资产投资总额(亿元)社会消费品零售总额(亿元)第三产业(亿元)函数2*.863.184.076.231.308.090.920.857.675.567*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的 98%,第二判别函数解释了 2%;两个判别函数解释了 100%;当然,两个判别函数直接具有显著的差异和判别力。(3)分类统计量组的先验概率组的
25、先验概率类别先验用于分析的案例未加权的123合计.333.333.3331.000392032已加权的3.0009.00020.00032.000分类函数系数分类函数系数1第二产业(亿元)第三产业(亿元)固定资产投资总额(亿元)社会消费品零售总额(亿元)货物进出口总额(亿元)(常量)Fisher 的线性判别式函数-.019-.021.011.030.022-231.519类别2-.001-.004.002.006.003-12.2693-.001-.003.001.004.001-2.727Fisher 线性判别函数,我们主要用来构建判别方程,理论上说:如果我们知道某个城市在 5 经济指标的发
26、展水平值,我们就可以估计出该城市应该是哪种类型的。4.2.24.2.2 判别检验判别检验判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后四个(序号 33-36)个体就可作为检验样本,也成待判样本。由上表可知 Fisher 判别方程:G1 0.019X10.021X20.011X30.030X40.022X5231.519G2 0.001X10.004X20.002X30.006X40.003X512.269G 0.001X 0.003X 0.001X 0.004X 0.001X 2.72712345
27、3判别规则:d2(y,Gj*)mind2(y,Gj*),则xGl1 jk判别结果:1234杭州南宁昆明银川23331583.391842.774401.5672095.787直观上,杭州作为沿海省会城市,虽然达不到北上深的经济发展地位,但其良好的地理位置以及投资开发环境,使得其经济发展水平非常迅速,归类到第二类经济发展城市是可以理解与接收的。其余三个城市虽然都是省会城市,但都属于西部城市,地理位置以及资源物产相对欠缺,得力于国家西部大开发政策影响,经济发展方面距第三类城市相近。5 5,结论,结论从本文所建立的模型对我国部分主要城市经济发展水平进行了聚类分析与判别分析,并运用模型判断最后四个城市
28、,验证模型的有效性。从相关结果及分析可以得到一些直观的结论。北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量的投资建设,一批高科技产业带动的行业发展极大的推动了北京的经济发展;上海作为中国的经济金融中心,加之其周边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量;深圳的发展是中国改革开放以来经济发展的典范,开放的力量使得这个沿海城市一举成为中国发达城市的先驱。判别图里清晰的表明北上广的发展远远超过二三类型的城市发展水平。沿海主要城市以及内陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资,或者传统的工业基础,这些因素都使得这一类的城市发展迅速,势头强劲。其余中西部城市的发展各有其优劣,但总体上西部城市受国家西部大开发政策影响,变现出新兴的发展势头。判别图分析可见二三类型经济发展水平相差不大。由此,所建立模型直观上符合我国部分主要城市经济发展水平类型,最后的四个城市判别再次说明了模型的有效性。参考文献参考文献1 孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京:北京航空航天大学数学系,2011.2 张建同,孙昌言.以Excel和SPSS为工具的管理统计M.北京:清华大学出版社,2002.3 国家统计局.2012 年中国统计年鉴M.中国统计出版社,20124 中国城市经济学会.中国城市经济J.北京:中国社会科学院