《2022年多元统计分析案例分析.pdf》由会员分享,可在线阅读,更多相关《2022年多元统计分析案例分析.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、对我国 30 个省市自治区农村居民生活水平作聚类分析1、指标选择及数据: 为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标: 农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、 耕地面积及农村就业人数。 现从年的调查资料中抽取个样本,指标数据如下:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积2008 (万公顷)农村私营企业就业人数(万人)北京12886 13262 天津7814 10
2、075 河北3867 5958 山西4500 4736 内蒙古4486 5530 辽宁5739 6908 吉林4663 6237 黑龙江4536 6211 上海13609 13978 江苏8196 9118 浙江9878 11303 安徽4447 5285 福建6879 7427 江西4397 5789 山东5733 6990 河南4061 5524 湖北4758 5832 湖南4513 5622 广东5880 7890 广西3561 4543 海南3846 5275 重庆3652 5277 四川4748 5087 贵州2926 3472 云南3603 3952 陕西3683 4105 甘肃2
3、975 3425 青海3684 3863 宁夏3894 4675 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 10 页 - - - - - - - - - - 新疆3590 4643 数据来源:中国统计年鉴 2010 、将数据进行标准化变换:地区农产品价格指数(上年=100)农村住宅投资(亿元)农村居民消费水平(元)农村居民生活消费支出合计(元)农村居民家庭人均纯收入(元)耕地面积2008 (万公顷)农村私营企业就业人数(万人)北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山
4、东河南湖北湖南广东广西海南重庆四川贵州云南陕西甘肃青海宁夏新疆、用均值聚类法对样本进行分类如下:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 10 页 - - - - - - - - - - 聚类成员案例号地区聚类距离1北京1 2天津2 3河北3 4山西4 5内蒙古3 6辽宁2 7吉林3 8黑龙江3 9上海1 10江苏2 11浙江1 12安徽3 13福建2 14江西4 15山东3 16河南3 17湖北3 18湖南4 19广东2 20广西4 21海南4 22重庆4 23四川3 24贵州4 25
5、云南3 26陕西4 27甘肃4 28青海4 29宁夏4 30新疆4 分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。第二类:天津、辽宁、 、福建、甘肃、江苏、广东。第三类: 浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 10 页 - - - - - - - - - - 从分类结果上看,根据年的调查数据, 第一类地区的农民生活水平较高,第二类属
6、于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:案例数目实际组预测组p1112223334445336227338339111022111112331322144415331633173318441922204421442244233324442534*26442744284429443044*. 错误分类的案例从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 -
7、- - - - - - - - -第 4 页,共 10 页 - - - - - - - - - - 标准化的典型判别式函数系数函数123农产品价格指数农村住宅投资农村居民价格水平生活消费支出人均纯收入耕地面积就业人数组质心处的函数函数组号1231234判别函数分别为:Y1= + + + + Y2=+ + + + Y3= + + + 将西藏的指标数据代入函数得:Y1=Y2=Y3=计算 Y值与不同类别均值之间的距离分别为:D1= D2=12. D3= D4= 经过判别, D4 最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析:分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资
8、两个指标。经 spss软件分析结果如下 : (1)各指标的相关系数阵:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 10 页 - - - - - - - - - - Cor relation Matrix1.000.356.296.351.187.3561.000.968.922.584.296.9681.000.864.625.351.922.8641.000.578.187.584.625.5781.000农 产 品价 格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就
9、 业人 数Correlation农 产 品价格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数从中可以看出,大部分指标的相关系数都比较高, 各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。(2)检验:KMO and Bartletts Tes t.701145.58510.000Kaiser-Meyer-Olkin Measure of SamplingAdequacy.Approx. Chi-SquaredfSig.Bartletts Test ofSphericity由上表可知:巴特利特球度检验统计量的观测值为.相应的概率 p接近为 0.如果显著
10、性水平 a为,由于显著性水平小于,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时, KOM值为,根据 Kaiser给出的度量标准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:Com m unalities1.000.9791.000.9381.000.9231.000.8781.000.598农 产 品价 格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数InitialExtractionExtraction Method: Principal Component Analysis.从中可以看出,各个指标的贡献率都在百分之五十之上比较高。Total
11、Variance Explained3.44968.97368.9733.44968.97368.9733.20063.99763.997.86717.34086.313.86717.34086.3131.11622.31586.313.52610.51796.830.1402.79699.626.019.374100.000Component12345Total% ofVarianceCumulative %Total% ofVarianceCumulative %Total% ofVarianceCumulative %Initial E igenvaluesExtraction Sums
12、 of Squared LoadingsRotation Sums of Squared LoadingsExtraction Method: Principal Component Analysis.从上表中可以看出, 第一个因子的特征根为 .解释原有五个变量总方差的68%,累积方差贡献率为 % 。第二个因子的特征根为,解释原有变量总方差%,累计方差精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 10 页 - - - - - - - - - - 贡献率为 % 。(4)碎石图:54321Com
13、ponent Nu mber43210EigenvalueScree Plo t(5)因子载荷阵如下:Com ponent Matrixa.446.883.967-.052.952-.125.936-.039.729-.258农 产 品价 格 指 数农 村 居民 消 费消 费 支出家 庭 人均 纯 收 入就 业 人数12ComponentExtraction Method: Principal Component Analysis.2 components extracted.a. 由上表可知,各指标在第一个因子上的载荷比较高, 说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有
14、变量的解释作用不显著。为便于对各因子进行命名,对因子载荷阵实施正交旋转。旋转之后的因子载荷阵:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 10 页 - - - - - - - - - - Rotate d Component Matrixa.150.978.936.251.944.177.902.253.773-.019农 产 品价 格 指 数农 村 居民 消 费消 费 支出家 庭 人均 纯 收 入就 业 人数12ComponentExtraction Method: Principal
15、Component Analysis. Rotation Method: Varimax with Kaiser Normalization.Rotation converged in 3 iterations.a. (6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。将五个指标按高载荷分成两类:意义1收支因子2价格因子高载荷指标农村居民消费水平农村生活消费支出农村居民家庭人均收入农产品价格指数四,主成分分析:(1)各指标间的相关系数矩阵如下表所示:Cor relation Matrix1.000.356.296.351.187.3561.000.968.922.58
16、4.296.9681.000.864.625.351.922.8641.000.578.187.584.625.5781.000农 产 品价 格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数Correlation农 产 品价格 指 数农 村 居民 消 费消 费 支出庭 人 均纯 收 入业 就 业人 数可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。(2)求相关矩阵的特征值和特征向量:特征根方差贡献率累计贡献率3.44968.97368.9730.86717.3486.3130.52610.5
17、1796.830.142.79699.6260.0190.37410012345从上表可知,前两个特征值累计贡献率已达%。说明前两个主成分基本包含了全精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 10 页 - - - - - - - - - - 部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:12农产品价格指数0.1351121.018454农村居民消费水平0.280371-0.059977消费支出0.276022-0.
18、144175家庭人均年纯收入0.271383-0.044983就业人数0.211366-0.297578compoent所以,前两个主成分为:第一个主成分:F1= X1+ +第二个主成分: F2=在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。在第二主成分中,第一个指标系数较大,是农产品价格水平指标。(4)因子得分:Com ponent Score Coe fficient Matrix-.1931.009.285.031.307-.051.272.041.293-.218农 产 品价 格 指 数农 村 居民 消 费消 费 支出家 庭 人
19、均 纯 收 入就 业 人数12ComponentExtraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.根据上表写出以下因子得分函数:F1=农产品价格指数 +农村居民消费 +消费支出 +家庭人均纯收入 +就业人数F2=农产品价格指数 +农村居民消费消费支出 +家庭人均纯收入就业人数(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=+ (旋转之后的方差贡献率)F1= X1+ +F2=将各地区指标值代入上
20、式得到各地区农村生活水平的综合值及排名:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 9 页,共 10 页 - - - - - - - - - - 名次地区综合评价值1 上 海1.91182 北 京1.49813 浙 江1.45174 江 苏1.13465 天 津0.47006 山 东0.36207 福 建0.28418 辽 宁0.17749 广 东0.167110 吉 林-0.038911 江 西-0.125412 黑龙江-0.152113 安 徽-0.157014 内蒙古-0.170815 河 南-
21、0.174616 四 川-0.178017 河 北-0.184718 湖 北-0.212519 山 西-0.248620 海 南-0.295121 湖 南-0.323822 宁 夏-0.473323 云 南-0.501824 陕 西-0.503025 甘 肃-0.547526 新 疆-0.574727 重 庆-0.595628 广 西-0.595929 贵 州-0.664630 青 海-0.7414(6)对结果进行分析:从中可以看出,各地区的农村居民生活水平存在差异。其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。主要表现在农民收入水平和消费水平两
22、个方面。这几个城市属于沿海地区,经济比较发达, 工农业发展遥遥领先于其他地区。其次,天津、山东、福建、辽宁、广东综合评价值相对较低。不过也处于全国前十的地位。青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。原因是这些地区大多位于中国中西部,地理位置不佳,交通不便, 经济发展水平不高, 进而影响到农村经济的发展。农村居民收入水平和消费水平均比较低。因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 10 页,共 10 页 - - - - - - - - - -