《数据分析课程设计.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计.docx(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据分析课程设计 目录 摘要 () 1.引言 (1) 2.因子分析法的基本思想和数学模型 (1) 2.1因子分析的基本思想 (1) 2.2因子分析的数学模型 (1) 3.指标建立 (2) 3.1人均生产总值 (2) 3.2社会消费品零售总额 (2) 3.3财政收入 (2) 3.4城镇居民可支配收入 (2) 3.5农民人均纯收入 (3) 3.6职工平均工资 (3) 4.案例分析 (3) 4.1数据收集 (3) 4.1数据处理 (4) 5.总结 (8) 6.附录 (9) 6.1平均数、标准差、偏度、峰度等统计量 (9) 6.2直方图 (10) 7.个人学习小结 (11) 8.参考文献 (12) 摘
2、要 本文主要说明主因子分析在浙江省各城市综合经济实力评价方面的应用,并运用功能强大的数据分析软件SPSS,简化计算方法,通过输入各项数据,追后得出评价图表,来分析浙江省各市经济建设方面哪些因子更重要。 本文引用浙江省32个市县的6项指标,人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入,在岗职工工资。通关SPSS来分析这些指标的数据,来评价各市的总和实力。 关键词:SPSS,因子分析法,综合经济实力,浙江省 1.引言 随着改革的开放,中国各省经济都在飞速的增长,浙江省的社会经济发展也取得了巨大的成就。2022年,浙江深入贯彻落实科学发展观,面对严峻
3、复杂的外部环境和困难挑战,全省经济在加快转型升级中实现平稳增长。本文利用SPSS ,对2022年浙江省32个市县主要经济指标数据进行主成分分析。 2.因子分析法的基本思想和数学模型 2.1因子分析的基本思想 用少数几个抽象的因子,去描述多个指标或者(因素)之间的联系。将相互直接关系比较密切的变量归为同一个类别之中没一类变量就变成一个因子。因子分析是一直降维、简化数据的技术。 作为一种比较好的研究技术,因子分析有一下特点: (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反
4、映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 当然因子分析也会有一些不便的地方,它只能做综合性的评价,同时对数据的数据量和成分也有一定要求。而且需要先进行KOM 检测数据是否适合作因子分析法。 2.2因子分析的数学模型 假设对n 例样品观测了p 个指标,即1X ,2X , p X ,得到观测数据。我们的 任务就
5、是从一组观测数据出发,通过分析各指标1X ,2X , p X 之间的相关性,找 出支配作用的潜在因子,使得这些因子可以解释各个指标之间的相关性。 则因子分析的数学模型如下: 112121111e F a F a F a X m m += 222221212e F a F a F a X m m += p m pm p p p e F a F a F a X += 2211 矩阵形式表示为: = X+ AF e F:因子变量; A:因子载荷阵; a:因子载荷; pm e:特殊因子。 3.指标建立 3.1人均生产总值 人均生产总值,也称作“人均GDP”,常作为发展经济学中衡量经济发展状况的指标,是
6、重要的宏观经济指标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。计算方法为:人均国内生产总值= 总产出(即GDP总额,社会产品和服务的产出总额)/ 总人口。 3.2社会消费品零售总额 批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的社会消费品零售总额消费品零售额。它可以反映一定时期内人民物质文化生活水平的提高情况,反映社会商品购买力的实现程度,以及零售市场的规模状况。 社会消费品零售总额由社会商品供给和有支付能力的商品需求的规模所决定,是研究居民生活水平、社会零售商品购买力、社会生产、货币流通和物价的发展变化趋势的重要资料。 3.3财政收入 财政收入,是
7、指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 3.4城镇居民可支配收入 居民可支配收入是指居民能够自由支配的收入。就是从居民家庭总收入中扣除了缴纳给国家的各项税费,扣除了缴纳的各项社会保险,比如医疗保险、养老保险、失业保险等余下的收入。可支配收入是指这一个家庭所有人员、所有人通过各个渠道得到的,比如丈夫、妻子、孩子他们通过各个渠道得到扣掉规定的税费和缴纳的社会
8、保障以后得到的的所有收入。 3.5农民人均纯收入 农民人均纯收入,指农村住户当年从各个来源得到的总收入相应地扣除所发生的费用后的收入总和。纯收入主要用于再生产投入和当年生活消费支出,也可用于储蓄和各种非义务性支出。“农民人均纯收入”按人口平均的纯收入水平,反映的是一个地区或一个农户农村居民的平均收入水平。反映的是一个国家或地区农村居民收入的平均水平。 3.6职工平均工资 职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。 4.案例分析 4.1数据收集 通过浙江统计信息网查找2022年统计年鉴就可以查
9、阅到2022年浙江省各市的国民生活经济主要指标。并通过网络上的浙江日报等报刊收集相关数据。 收集到的数据整理成表1: 表格各列依次为年末总人口(万人) ,人均生产总值(元),人均社会消费品零售总额(元),人均财政收入(元),城镇居民人均可支配收入(元),农村居民人均纯收入(元),在岗职工工资(元)。 表1 4.1数据处理 把表1数据导入SPSS中,在分析菜单的降维中选择因子分析; 软件输出以下内容: (1)该表格给出的是6个原始变量的相关矩阵 表2 相关矩阵 人均生 产 总值(元) 人均社会消费品零售 总额(元) 人均财政 收入 城镇居民 人均可支 配收入 (元) 农村居民 人均纯收 入 (元
10、) 在岗职 工 工资 (元) 相关人均生产 总值(元) 1.000 .669 .902 .724 .826 .167 人均社会消费品零售 总额(元) .669 1.000 .685 .598 .570 .267 人均财政收入.902 .685 1.000 .601 .693 .336 城镇居民 人均可支 配收入(元) .724 .598 .601 1.000 .862 .277 农村居民 人均纯收入 (元) .826 .570 .693 .862 1.000 .191 在岗职工 工资 (元) .167 .267 .336 .277 .191 1.000 (2) 表3 KMO 和 Bartlet
11、t 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.742 Bartlett 的球形度检验近似卡方150.973 df 15 Sig. .000 该部分给出了KMO检验和Bartlett球度检验结果。其中KMO值为0.742,根据统计学家Kaiser给出的标准,KMO取值大于0.7,一般适合因子分析。Bartlett球度检验给出的相伴概率为0.00,小于显著性水平0.05,因此拒绝Bartlett球度检验的零假设,认为适合因子分析。 (3) 表4 公因子方差 初始提取 人均生产 总值(元) 1.000 .902 人均社会消费品零售总额 (元) 1.000 .633 人均财政
12、收入 1.000 .796 城镇居民 人均可支 配收入(元) 1.000 .747 农村居民 人均纯收入 (元) 1.000 .835 在岗职工 工资 (元) 1.000 .985 提取方法:主成份分析。 这是因子分析初始结果,该表格的第一列列出了6个原始变量名;第二列是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到6个特征值,它们是因子分析的初始解,可利用这6个出世界和对应的特征向量计算出银子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。这时由于因子变量个数少于原始变量的个数,因此
13、每个变量的共同度必然小于1。因此,本次因子提取的总体效果较理想。 (4) 表5 由上表可知,第一个公因子的方差贡献率为66.082%,第二个公因子的方差 贡献率为15.548%,前三个因子累计贡献率达到81.63%。根据提取因子的条件即其累积贡献率不低于80%时,所以提取了两个因子。即前两个公共因子已代 表了原始数据的绝大部分信息。 (5)碎石图 图1 图表中,横坐标为因子数目,纵坐标为特征值。可以看到:第一个因子的特征值较高,对解释变量的贡献最大;第三个以后的因子特征值都较小,曲线趋于平稳,对解释原有变量的贡献很小,已经成为可被忽略的,因此提取两个因子适合的。 (6) 表6 旋转成份矩阵a
14、成份 1 2 假设人均生产总值1x ,人均社会消费品零售总额2x ,人均财政收入3x ,城镇居民人均可支配收入4x ,农村居民人均纯收入5x ,在岗职工工资6x 。 1F 在人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入所占比重较大。同理可知2F 在在岗职工工资的比重较大。 计算出因子得分1F ,2F 的结果,最后综合得分的F 为: 21bF aF F += 5.总结 浙江是中国东部沿海的一个经济大省,改革开放二十几年,社会经济发展取得了巨大的成就。浙江省下辖11个城市,其中杭州、宁波(计划单列市)为副省级城市,也有一些经济发展较快的县级市,比如
15、余姚市、慈溪市等,客观正确地评价浙江省各城市和县级市的综合经济实力,有利于认清各城市所处的地位和环境,优势和劣势,找出城市间经济发展的差异,进而为城市经济的发展指明方向,提供可靠的科学依据。 通过SPSS对浙江省各市的经济指标数据进行分析后,得出表2,这可以看出各市综合排名前三为宁波市、金华市、绍兴县,排在最后的为缙云县、丽水市。因子F1在人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入所占比重较大。因子F2则在在岗职工工资一项的比重大。 宁波市是一个港口城市,经济发展快,各项人均国民经济指标都与全国平均持平。 杭州市是浙江省的首府,在经济方面都起着代头作用,各项经济指标都比较高,杭州市人口较多,平均到每个人上时就数值就偏小了,综合得分就屈居第四。 在最后的得分排名中,一些县级市排名高于一般城市,由于一些县级市人口较少,从而导致各项人均指标高,所以在综合得分中数值大。最后得分高于一些市。