《2022年多元统计分析案例分析 .pdf》由会员分享,可在线阅读,更多相关《2022年多元统计分析案例分析 .pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、对我国 30 个省市自治区农村居民生活水平作聚类分析1、指标选择及数据: 为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标: 农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、 耕地面积及农村就业人数。 现从年的调查资料中抽取个样本,指标数据如下:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积 2008 (万公顷)农村私营企业就业人数(万人)北京98.27 93.04 12886 92
2、54.8 13262 231.7 153.9 天津103.03 48.31 7814 4936.7 10075 441.1 8.0 河北99.70 441.75 3867 3844.9 5958 6317.3 80.9 山西100.43 168.71 4500 3663.9 4736 4055.8 51.7 内蒙古99.83 33.17 4486 4460.8 5530 7147.2 18.4 辽宁102.90 162.05 5739 4489.5 6908 4085.3 99.5 吉林103.77 71.65 4663 4147.4 6237 5534.6 21.2 黑龙江98.07 126
3、.45 4536 4391.2 6211 11830.1 42.8 上海102.23 2.12 13609 10210.5 13978 244.0 258.4 江苏99.92 284.55 8196 6542.9 9118 4763.8 569.8 浙江100.25 513.75 9878 8928.9 11303 1920.9 398.3 安徽99.08 412.48 4447 4013.3 5285 5730.2 105.9 福建98.04 176.35 6879 5498.3 7427 1330.1 113.1 江西96.81 236.53 4397 3911.6 5789 2827.1
4、 173.2 山东101.23 566.90 5733 4807.2 6990 7515.3 273.6 河南99.07 729.47 4061 3682.2 5524 7926.4 137.7 湖北96.30 210.06 4758 4090.8 5832 4664.1 66.4 湖南90.61 298.41 4513 4310.4 5622 3789.4 104.5 广东94.95 337.44 5880 5515.6 7890 2830.7 124.4 广西89.25 248.80 3561 3455.3 4543 4217.5 89.0 海南101.91 26.22 3846 3446
5、.2 5275 727.5 5.3 重庆88.99 80.12 3652 3624.6 5277 2235.9 36.7675 四川96.94 456.10 4748 3897.5 5087 5947.4 140.3 贵州96.11 137.22 2926 2852.5 3472 4485.3 25.4 云南96.50 158.97 3603 3398.3 3952 6072.1 41.3 陕西95.83 151.79 3683 3793.8 4105 4050.3 1.7 甘肃100.22 97.33 2975 2942.0 3425 4658.8 22.0 青海94.61 63.63 36
6、84 3863 542.7 10.5 11.4 宁夏99.39 29.51 3894 4675 1107.1 43.6 16.7 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 10 页 - - - - - - - - - 新疆92.87 79.35 3590 3457.9 4643 4124.6 18.7 数据来源:中国统计年鉴 2010 、将数据进行标准化变换:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农
7、村居民家庭人均纯收入(元)耕地面积2008 (万公顷)农村私营企业就业人数(万人)北京0.09 -0.67 2.82 2.53 2.37 -1.36 0.37 天津1.33 -0.91 0.92 0.15 1.30 -1.29 -0.78 河北0.47 1.24 -0.56 -0.46 -0.07 0.84 -0.21 山西0.65 -0.25 -0.33 -0.56 -0.48 0.02 -0.44 内蒙古0.50 -0.99 -0.33 -0.12 -0.21 1.15 -0.70 辽宁1.30 -0.29 0.14 -0.10 0.25 0.03 -0.06 吉林1.52 -0.78 -
8、0.26 -0.29 0.02 0.56 -0.68 黑龙江0.04 -0.48 -0.31 -0.15 0.01 2.84 -0.51 上海1.12 -1.16 3.09 3.06 2.60 -1.36 1.20 江苏0.52 0.38 1.06 1.04 0.98 0.28 3.66 浙江0.61 1.64 1.69 2.35 1.71 -0.75 2.31 安徽0.30 1.08 -0.35 -0.36 -0.30 0.63 -0.01 福建0.04 -0.21 0.57 0.46 0.42 -0.97 0.05 江西-0.28 0.12 -0.36 -0.42 -0.13 -0.42
9、0.52 山东0.86 1.93 0.14 0.08 0.27 1.28 1.32 河南0.30 2.82 -0.49 -0.55 -0.22 1.43 0.24 湖北-0.42 -0.03 -0.23 -0.32 -0.11 0.24 -0.32 湖南-1.89 0.46 -0.32 -0.20 -0.18 -0.07 -0.02 广东-0.77 0.67 0.19 0.47 0.57 -0.42 0.14 广西-2.24 0.19 -0.68 -0.67 -0.54 0.08 -0.14 海南1.04 -1.03 -0.57 -0.68 -0.30 -1.18 -0.81 重庆-2.31
10、-0.74 -0.64 -0.58 -0.30 -0.64 -0.56 四川-0.25 1.32 -0.23 -0.43 -0.36 0.71 0.26 贵州-0.46 -0.42 -0.92 -1.00 -0.90 0.18 -0.65 云南-0.36 -0.31 -0.66 -0.70 -0.74 0.75 -0.52 陕西-0.54 -0.34 -0.63 -0.48 -0.69 0.02 -0.83 甘肃0.60 -0.64 -0.90 -0.96 -0.92 0.24 -0.67 青海-0.85 -0.83 -0.63 -0.45 -1.88 -1.44 -0.76 宁夏0.39 -
11、1.01 -0.55 0.00 -1.69 -1.43 -0.71 新疆-1.30 -0.74 -0.67 -0.67 -0.51 0.05 -0.70 、用均值聚类法对样本进行分类如下:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 10 页 - - - - - - - - - 聚类成员案例号地区聚类距离1 北京1 1069.19 2 天津2 3060.35 3 河北3 920.65 4 山西4 1506.42 5 内蒙古3 577.12 6 辽宁2 2453.89 7
12、 吉林3 1487.95 8 黑龙江3 5006.41 9 上海1 2094.38 10 江苏2 2853.42 11 浙江1 3015.14 12 安徽3 1204.49 13 福建2 1612.46 14 江西4 1880.40 15 山东3 2088.55 16 河南3 1282.27 17 湖北3 2230.15 18 湖南4 2053.35 19 广东2 1119.98 20 广西4 1412.14 21 海南4 2541.05 22 重庆4 1423.51 23 四川3 1138.14 24 贵州4 2025.41 25 云南3 2196.63 26 陕西4 1127.91 27
13、甘肃4 2123.67 28 青海4 4568.60 29 宁夏4 4247.12 30 新疆4 1360.50 分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。第二类:天津、辽宁、 、福建、甘肃、江苏、广东。第三类: 浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 10 页 - - - - - - - - - 从分类结果
14、上看,根据年的调查数据, 第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下: 案例数目实际组预测组p 1 1 1 0.998 2 2 2 0.575 3 3 3 0.997 4 4 4 0.361 5 3 3 0.836 6 2 2 0.234 7 3 3 0.787 8 3 3 0.097 9 1 1 0.521 10 2 2 0.439 11 1 1 0.486 12 3 3 0.992 13 2 2 0.739 14 4 4 0.415 15 3 3 0.244 16 3 3 0
15、.406 17 3 3 0.387 18 4 4 0.421 19 2 2 0.333 20 4 4 0.95 21 4 4 0.285 22 4 4 0.453 23 3 3 0.951 24 4 4 0.337 25 3 4* 0.278 26 4 4 0.632 27 4 4 0.278 28 4 4 0.222 29 4 4 0.124 30 4 4 0.981 *. 错误分类的案例从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - -
16、- - - - - 名师精心整理 - - - - - - - 第 4 页,共 10 页 - - - - - - - - - 标准化的典型判别式函数系数函数1 2 3 农产品价格指数0.18 0.398 0.394 农村住宅投资0.493 0.687 -0.197 农村居民价格水平0.087 0.362 0.243 生活消费支出1.004 0.094 -0.817 人均纯收入0.381 -0.282 0.565 耕地面积-0.041 1.019 -0.235 就业人数-0.631 -0.742 0.802 组质心处的函数函数组号1 2 3 1 10.678 -0.369 -0.628 2 1.7
17、47 -0.751 1.175 3 -0.962 1.899 -0.032 4 -2.595 -1.177 -0.306 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.
18、62213 Y3=-0.84188 计算 Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别, D4 最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析:分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经 spss软件分析结果如下 : (1)各指标的相关系数阵:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 10 页 - - -
19、 - - - - - - Cor relation Matrix1.000.356.296.351.187.3561.000.968.922.584.296.9681.000.864.625.351.922.8641.000.578.187.584.625.5781.000农 产 品价 格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数Correlation农 产 品价格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数从中可以看出,大部分指标的相关系数都比较高, 各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。(2)检验:
20、KMO and Bartletts Tes t.701145.58510.000Kaiser-Meyer-Olkin Measure of SamplingAdequacy.Approx. Chi-SquaredfSig.Bartletts Test ofSphericity由上表可知:巴特利特球度检验统计量的观测值为145.585. 相应的概率 p接近为0. 如果显著性水平 a为0.05,由于显著性水平小于 0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM 值为0.701,根据Kaiser 给出的度量标准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:Com m
21、 unalities1.000.9791.000.9381.000.9231.000.8781.000.598农 产 品价 格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数InitialExtractionExtraction Method: Principal Component Analysis.从中可以看出,各个指标的贡献率都在百分之五十之上比较高。Total Variance Explained3.44968.97368.9733.44968.97368.9733.20063.99763.997.86717.34086.313.86717.34086.31
22、31.11622.31586.313.52610.51796.830.1402.79699.626.019.374100.000Component12345Total% ofVarianceCumulative %Total% ofVarianceCumulative %Total% ofVarianceCumulative %Initial E igenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsExtraction Method: Principal Component Analysis
23、.从上表中可以看出,第一个因子的特征根为3.449. 解释原有五个变量总方差的68% ,累积方差贡献率为 68.973%。第二个因子的特征根为 0.863,解释原有变量名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 10 页 - - - - - - - - - 总方差 17.34%,累计方差贡献率为 86.313%。(4)碎石图:54321Component Nu mber43210EigenvalueScree Plo t(5)因子载荷阵如下:Com ponent Ma
24、trixa.446.883.967-.052.952-.125.936-.039.729-.258农 产 品价 格 指 数农 村 居民 消 费消 费 支出家 庭 人均 纯 收 入就 业 人数12ComponentExtraction Method: Principal Component Analysis.2 components extracted.a. 由上表可知,各指标在第一个因子上的载荷比较高, 说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于对各因子进行命名,对因子载荷阵实施正交旋转。旋转之后的因子载荷阵:名师资料总结 - - -精品资料欢
25、迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 10 页 - - - - - - - - - Rotate d Component Matrixa.150.978.936.251.944.177.902.253.773-.019农 产 品价 格 指 数农 村 居民 消 费消 费 支出家 庭 人均 纯 收 入就 业 人数12ComponentExtraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaise
26、r Normalization.Rotation converged in 3 iterations.a. (6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。将五个指标按高载荷分成两类:意义1收支因子2价格因子高载荷指标农村居民消费水平农村生活消费支出农村居民家庭人均收入农产品价格指数四,主成分分析:(1)各指标间的相关系数矩阵如下表所示:Cor relation Matrix1.000.356.296.351.187.3561.000.968.922.584.296.9681.000.864.625.351.922.8641.000.578.187.584.625
27、.5781.000农 产 品价 格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数Correlation农 产 品价格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。(2)求相关矩阵的特征值和特征向量:特征根方差贡献率累计贡献率3.44968.97368.9730.86717.3486.3130.52610.51796.830.142.79699.6260.0190.37410012345从上表可知,前两个特征值累计贡
28、献率已达86.313%。说明前两个主成分基本包名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 10 页 - - - - - - - - - 含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为: 12农产品价格指数0.1351121.018454农村居民消费水平0.280371-0.059977消费支出0.276022-0.144175家庭人均年纯收入0.271383-0.044983就业人数0.21
29、1366-0.297578compoent所以,前两个主成分为:第一个主成分:F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。在第二主成分中,第一个指标系数较大,是农产品价格水平指标。(4)因子得分:Com ponent Score Coe fficient Matrix-.1931.009.
30、285.031.307-.051.272.041.293-.218农 产 品价 格 指 数农 村 居民 消 费消 费 支出家 庭 人均 纯 收 入就 业 人数12ComponentExtraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.根据上表写出以下因子得分函数:F1=-0.193 农产品价格指数 +0.285农村居民消费 +0.307消费支出 +0.272家庭人均纯收入 +0.293就业人数F2=1.009农产品
31、价格指数 +0.031农村居民消费 -0.051 消费支出 +0.041家庭人均纯收入 -0.218 就业人数(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:名师资料总结 - - -精品资料欢迎下载 - - - - - -
32、- - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 10 页 - - - - - - - - - 名次地区综合评价值1 上 海1.91182 北 京1.49813 浙 江1.45174 江 苏1.13465 天 津0.47006 山 东0.36207 福 建0.28418 辽 宁0.17749 广 东0.167110 吉 林-0.038911 江 西-0.125412 黑龙江-0.152113 安 徽-0.157014 内蒙古-0.170815 河 南-0.174616 四 川-0.178017 河 北-0.184718 湖 北-0.212
33、519 山 西-0.248620 海 南-0.295121 湖 南-0.323822 宁 夏-0.473323 云 南-0.501824 陕 西-0.503025 甘 肃-0.547526 新 疆-0.574727 重 庆-0.595628 广 西-0.595929 贵 州-0.664630 青 海-0.7414(6)对结果进行分析:从中可以看出,各地区的农村居民生活水平存在差异。其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。主要表现在农民收入水平和消费水平两个方面。这几个城市属于沿海地区,经济比较发达, 工农业发展遥遥领先于其他地区。其次,天津
34、、山东、福建、辽宁、广东综合评价值相对较低。不过也处于全国前十的地位。青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。原因是这些地区大多位于中国中西部,地理位置不佳,交通不便, 经济发展水平不高, 进而影响到农村经济的发展。农村居民收入水平和消费水平均比较低。因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 10 页 - - - - - - - - -