《多元统计分析案例分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析案例分析.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、对我国30个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、 消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农 村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村 居民家庭人均纯收入、耕地面积及农村就业人数。现从2 0 1 0年的调查资料中 抽取3 0个样本,指标数据如下:地区农产品 价格指 数(上 年 =100)农村住 宅投资 (亿元)农村居 民消费 水平(元)农村居 民生活 消费支 出合计 (元)农村居 民家庭 人均纯 收入(元)耕地面积 2008(万公 顷)农村私 营企业 就业人 数
2、(万 人)北京98. 2793. 04128869254. 813262231.7153.9天津103. 0348.3178144936. 710075441. 18.0河北99. 70441. 7538673844. 959586317. 380.9山西100. 43168. 7145003663. 947364055. 851. 7内蒙古99. 8333. 1744864460. 855307147.218.4辽宁102. 90162.0557394489. 569084085. 399.5吉林103. 7771.6546634147.462375534. 621.2黑龙江98. 0712
3、6. 4545364391.2621111830. 142.8上海102. 232. 121360910210.513978244.0258.4江苏99. 92284. 5581966542. 991184763. 8569.8浙江100. 25513. 7598788928. 9113031920. 9398.3安徽99. 08412.4844474013.352855730. 2105.9福建98. 04176. 3568795498. 374271330. 1113. 1江西96.81236. 5343973911.657892827. 1173.2山东101.23566. 905733
4、4807. 269907515.3273.6河南99. 07729. 4740613682. 255247926. 4137. 7湖北96. 30210. 0647584090. 858324664. 166.4湖南90.61298. 4145134310.456223789. 4104.5广东94. 95337. 4458805515.678902830. 7124.4广西89. 25248. 8035613455. 345434217. 589.0海南101.9126. 2238463446. 25275727.55.3重庆88. 9980. 1236523624. 652772235.
5、936. 7675四川96. 94456. 1047483897. 550875947. 4140.3贵州96. 11137. 2229262852. 534724485. 325.4云南96. 50158. 9736033398. 339526072. 141.3陕西95. 83151. 7936833793. 841054050. 31.7甘肃100. 2297. 3329752942. 034254658. 822.0青海94.6163. 6336843863542. 710.511.4名次地区综合评价值1上海1. 91182北京1. 49813浙江1. 45174江苏1. 13465天
6、津0. 47006山东0. 36207福建0. 28418辽宁0. 17749广东0. 167110吉林-0. 038911江西-0.125412黑龙江-0.152113安徽-0.157014内蒙古-0.170815河南-0. 174616四川-0. 178017河北-0. 184718湖北-0.212519山西-0.248620海南-0. 295121湖南-0.323822宁夏-0.473323云南-0. 501824陕西-0. 503025甘肃-0. 547526新疆-0.574727重庆-0.595628广西-0.595929贵州-0.664630青海-0. 7414(6)对结果进行分析
7、:从中可以看出,各地区的农村居民生活水平存在差异。其中,北京、上海、浙江、江苏地区 的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。主要表现在农民收入 水平和消费水平两个方面。这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先 于其他地区。其次,天津、山东、福建、辽宁、广东综合评价值相对较低。不过也处于全国 前十的地位。青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活 水平发展比较落后。原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济 发展水平不高,进而影响到农村经济的发展。农村居民收入水平和消费水平均比较低。因此, 要提高这些地区农民的生
8、活水平,政府应该加大这些地区的基础设施建设,提高这些地区农 村居民的收入水平。宁夏99. 3929.51389446751107. 143.616. 7新疆92. 8779. 3535903457. 946434124.618.7数据来源:中国统计年鉴2010. 2、将数据进行标准化变换:地区农产品 价格指 数(上年 =100)农村 住宅 投资 (亿元)农村居 民消费 水平(元)农村居 民生活 消费支 出合计 (元)农村居 民家庭 人均纯 收入(元)耕地 面积 2008(万 公顷)农村私 营企业 就业人 数(万 人)北京0. 09-0. 672.822. 532.37-1.360. 37天津1
9、.33-0.910. 920. 151.30-1.29-0. 78市I北0. 471.24-0. 56-0. 46-0. 070. 84-0.21山西0. 65-0. 25-0. 33-0. 56-0. 480. 02-0. 44内蒙古0. 50-0. 99-0. 33-0. 12-0.211. 15-0. 70辽宁1.30-0. 290. 14-0. 100. 250. 03-0. 06吉林1. 52-0. 78-0. 26-0. 290. 020. 56-0. 68黑龙江0. 04-0. 48-0.31-0. 150.012. 84-0.51上海1. 12-1. 163.093. 062.
10、60-1.361.20江苏0. 520. 381.061.040. 980. 283. 66浙江0.611.641.692. 351.71-0. 752.31安徽0. 301.08-0. 35-0. 36-0. 300. 63-0.01福建0. 04-0.210. 570. 460. 42-0. 970. 05江西-0. 280. 12-0. 36-0. 42-0. 13-0. 420. 52山东0. 861.930. 140. 080. 271.281.32河南0. 302. 82-0. 49-0. 55-0. 221.430. 24湖北-0. 42-0. 03-0. 23-0. 32-0.
11、 110. 24-0. 32湖南-1.890. 46-0. 32-0. 20-0. 18-0. 07-0. 02广东-0. 770. 670. 190. 470. 57-0. 420. 14广西-2. 240. 19-0. 68-0. 67-0. 540. 08-0. 14海南1.04-1.03-0. 57-0. 68-0. 30-1. 18-0.81重庆-2.31-0. 74-0. 64-0. 58-0. 30-0. 64-0. 56四川-0. 251.32-0. 23-0. 43-0. 360.710. 26贵州-0. 46-0. 42-0. 92-1.00-0. 900. 18-0. 6
12、5云南-0. 36-0.31-0. 66-0. 70-0. 740. 75-0. 52陕西-0. 54-0. 34-0. 63-0. 48-0. 690. 02-0. 83甘肃0. 60-0. 64-0. 90-0. 96-0. 920. 24-0. 67青海-0. 85-0. 83-0. 63-0. 45-1.88-1.44-0. 76宁夏0. 39-1.01-0. 550. 00-1.69-1.43-0. 71新疆-1.30-0. 74-0. 67-0. 67-0. 510. 05-0. 703、用K均值聚类法对样本进行分类如下:聚类成员案例号地区聚类距离1北京11069. 192天津23
13、060. 353河北3920. 654山西41506.425内蒙古3577. 126辽宁22453. 897吉林31487. 958黑龙江35006. 419上海12094.3810江苏22853.4211浙江13015. 1412安徽31204. 4913福建21612. 4614江西41880. 4015山东32088. 5516河南31282.2717湖北32230. 1518湖南42053. 3519广东21119. 9820广西41412. 1421海南42541.0522重庆41423.5123四川31138.1424贵州42025.4125云南32196.6326陕西41127.
14、9127甘肃42123.6728青海44568.6029宁夏44247. 1230新疆41360. 50分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。第二类:天津、辽宁、福建、甘肃、江苏、广东。第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四 川、云南。第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2 0 1 0年的调查数据,第一类地区的农民生活水平较高, 第二类属于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:案例数目实际组预测组P1110.
15、 9982220. 5753330. 9974440. 3615330. 8366220. 2347330. 7878330. 0979110. 52110220. 43911110. 48612330. 99213220. 73914440.41515330. 24416330. 40617330. 38718440. 42119220. 33320440. 9521440. 28522440. 45323330. 95124440. 3372534*0. 27826440. 63227440. 27828440. 22229440. 12430440. 981*.错误分类的案例从上可知,只
16、有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下:标准化的典型判别式函数系数函数123农产品价格指数0. 180. 3980. 394农村住宅投资0. 4930. 687-0. 197农村居民价格水 平0. 0870. 3620. 243生活消费支出1.0040. 094-0.817人均纯收入0. 381-0. 2820. 565耕地面积-0. 0411.019-0. 235就业人数-0. 631-0. 7420. 802组质心处的函数函数组号123110. 678-0. 369-0. 62821.747-0. 7511. 1753-0. 96
17、21.899-0. 0324-2. 595-1. 177-0. 306判另U 函数分另Ij为:Yl=0.18xl +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7Y2=0.398xl+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7Y3=0.394xl-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7将西藏的指标数据代入函数得:Yl=-1. 08671Y2=-0. 62213Y3=-0. 84188计算Y值与不同
18、类别均值之间的距离分别为:01=138.5182756D2=12.11433124D3=7.027544292D4=2.869979346经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析:分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:(1)各指标的相关系数阵:Correlation Matrix农产品价 格指数农村居 民消费消费支出庭人均 纯收入业就业人数Correlate n 农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.0
19、00.864.625庭人均纯收入.351,922.8641.000.578业就业人数.187.584.625.5781.000从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确, 能够从中提取公共因子,适合因子分子。(2)检验:KMOand Bartletts TestKaiser-Meyer-Olkin Measure of SamplingAdequacy.701Bartletts Test of Sphericity145.58510 .000Approx. Chi-Square df Sig.由上表可知:巴特利特球度检验统计量的观测值为145. 585.相应的概率p
20、接近为 0.如果显著性水平a为0. 05,由于显著性水平小于0.05,拒绝零假设,认为相关 系数矩阵与单位阵有显著差异,同时,K0M值为0.701,根据Kaiser给出的度量标 准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:Com m unalitiesInitialExtraction农产品价格指数1.000.979农村居民消费1.000.938消费支出1.000.923庭人均纯收入1.000.878业就业人数1.000.598Extraction Method: Principal Component Analysis.从中可以看出,各个指标的贡献率都在百分之五十之上比较高。T
21、otal Variance ExplainedComponenthitial Bqenva uesExtraction Sums of Squared LoadinqsRotation Sums of Squared LoadinqsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %13.44968.97368.9733.44968.97368.9733.20063.99763.9972.86717.34086.313.86717.34086.3131.11622.
22、31586.3133.52610.51796.8304.1402.79699.6265.019.374100.000Extraction Method: Prineipal Component Analysis.从上表中可以看出,第一个因子的特征根为3. 449.解释原有五个变量总方差的68%,累积方差贡献率为68. 973%。第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。(4)碎石图:Scree PlotDnIEAUU2?M(5)因子载荷阵如下:Com ponent Matri/Component12农产品价格指数.446.883农村居民消费
23、.967-.052消费支出.952-.125家庭人均纯收入.936-.039就业人数.729-.258Extraction Method: Principal Component Analysis, a. 2 components extracted.由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要; 第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于 对各因子进行命名,对因子载荷阵实施正交旋转。旋转之后的因子载荷阵:Rotated Component MatrixComponent12农产品价格指数.150.978农村居民消费.936.251消费支出.9
24、44.177家庭人均纯收入.902.253就业人数.773-.019Detraction Method: Principal Component Analysis. Rotation Method: Vari max with Kaiser Normalization.a. Rotation converged in 3 iterations.(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进 行分类。将五个指标按高载荷分成两类:高载荷指标意义农村居民消费水平1农村生活消费支出收支因子农村居民家庭人均收入2农产品价格指数价格因子四,主成分分析:(1)各指标间的相关系数矩阵如
25、下表所示:Correlation Matrix农产品价 格指数农村居 民消费消费支出庭人均 纯收入业就业人数Correlate n 农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭人均纯收入.351.922.8641.000.578业就业人数.187.584.625.5781.000可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠, 所以用主成分分析将多个指标化成几个不相关的综合指标。(2)求相关矩阵的特征值和特征向量:特征根方差贡献率累计贡献率13.44968
26、. 97368. 97320. 86717. 3486. 31330. 52610.51796. 8340. 142. 79699. 62650.0190. 374100从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:compoent12农产品价格指数0. 1351121. 018454农村居民消费水平0.280371-0.059977消费支出0. 276022-0.144175家庭人均年纯收入0.271383-0.044983就业人数0.2
27、11366-0.297578所以,前两个主成分为:第一个主成分:F1=O. 135112 X1+0. 280371X2+ 0. 276022X3+0. 271383X4+ 0.211366X5 第二个主成分:F2=1. 018454X1-0. 059977X2 -0. 144175X3-0. 044983X4-0. 297578X5 在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农 居民的收入支出状况的综合指标。在第二主成分中,第一个指标系数较大,是农产品价格水平指标。(4)因子得分:Component Score Coefficient MatrixComponen
28、t12农产品价格指数-.1931.009农村居民消费.285.031消费支出.307-.051家庭人均纯收入.272.041就业人数.293-.218Extraction Method: Principal Component Analysis.Rotation Method: Vari max with Kaiser Normalization.Component Scores.根据上表写出以下因子得分函数:Fl=-0. 193农产品价格指数+0. 285农村居民消费+0. 307消费支出+0. 272家庭 人均纯收入+0.293就业人数F2=l. 009农产品价格指数+0. 031农村居民消费-0. 051消费支出+0. 041家庭人 均纯收入-0.218就业人数(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0. 63997F1+0. 22315F2 (旋转之后的方差贡献率)Fl=0.135112 X1+0. 280371X2+ 0.276022X3+0. 271383X4+ 0.211366X5F2=L 018454X1-0. 059977X2 -0. 144175X3-0. 044983X4-0. 297578X5将各地区指标值代入上式得到各地区农村生活水平的综合值及排名: