《2022年北航数理统计回归分析大作业 .pdf》由会员分享,可在线阅读,更多相关《2022年北航数理统计回归分析大作业 .pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数理统计(课程大作业1) 逐步回归分析学院: 机械工程学院专业: 材料加工工程日期: 2014 年 12 月 7 日名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 16 页 - - - - - - - - - 1 摘要: 本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际, 以我国1995-2012 年的财政收入为因变量,选取了8 个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。关键字: 多元线性回归逐步回归法财政收入SPS
2、S1 引言自然界中任何事物都是普遍联系的, 客观事物之间往往都存在着某种程度的关联关系。 为了研究变量之间的相关关系,人们常用回归分析的方法, 而回归分析是数理统计中一种常用方法。 数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面, 在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。财政收入,是指政府为履行其职能、 实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。 财政收入表现为政府部门在一定时期内(一般为一个财政年度) 所取得的货币收入。 财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定
3、于财政收入的充裕状况。本文将以回归分析为方法, 运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。2 多元线性回归2.1 多元线性回归简介在实际问题中, 某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理, 因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:如果随机变量 y 与 m)2(m个普通变量mxxx21,有关,且满足关系式:mmxxxy221102,0 DE(2.1)其中,2210,m是与mxxx21,
4、无关的未知参数,是不可观测的随机变量,),0(2NIN。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 16 页 - - - - - - - - - 2 式(2.1)为 m 元理论线性回归模型,其中m210,为回归系数,mxxx21,为 回 归 因 子 或 设 计 因 子 。),2, 1(mii实 际 上 反 映 了 因 子), 2, 1(mixi对 观 测 值y的 作 用 , 因 此 也 称),2, 1(mii为 因 子), 2, 1(mixi的效应。通过对回归系数),
5、2 , 1(mii进行最小二乘估计后,可以得到m 元经验回归方程为:mmxxxy?22110(2.2)也称式 (2.2)为 m 元线性回归方程。0?为回归常数,也称回归系数,m?,?21称为回归系数。2.2 逐步回归法在多元线性回归分析中, 由于有多个自变量, 回归自变量的选择成为建立回归模型的重要问题。 通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多; 另一方面, 考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方法是逐步回归法。1)回归效果的显著性检验y 与变量mxxx21,线性相关的密
6、切程度可以用回归平方和U 在总平方和yyL中所占的比例来衡量。称yyLUR为 y 关于mxxx21,的样本复相关系数,yyLUR2为样本决定系数。 在多元线性回归的实际应用中, 用复相关系数来表示回归方程对原有数据拟合程度的好坏。显然102R,其越接近1,回归方程拟合程度越高。2)偏 F 检验检验某个自变量对y 的影响是否显著的正规方法是偏F 检验。设原回归方程(全模型)为:mmiiiiiixxxxxxy?111122110名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共
7、16 页 - - - - - - - - - 3 去掉变量ix后的新回归方程(减模型)为:mmiiiixxxxxy?111122110全模型的复相关系数的平方为2R ,减模型的复相关系数的平方为2iR ,定义222iiRRR。若2iR 几乎为零,则说明x 对 y 没有显著影响,反之则表示x对 y 有其它变量不可替代的显著影响。检验假设:0:;0:2120iiRHRH当0H 为真时,检验统计量为)1, 1(?)1/()1 (2222mnFcSmnRRFiiiii对于给定显著性水平, 由样本计算出iF 的值,若),1, 1(1mnFFi则拒绝0H ,说明 x 对 y 有显著影响,应在减模型中引入自
8、变量x;反之则应剔除 x,使之成为减模型。偏 F 检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏F法进行检验的。3) 逐步回归法的步骤逐步回归法的基本思想是: 将变量逐个引入, 引入条件是该变量的偏F 检验是显著的。 同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。具体步骤如下:1、对 m 个自变量分别与 y 建立回归模型iiixy)0()0(0?,对它们分别计算iF ,得iF 中最大的那个值,比如1LF 。()如果进FFL1,则计算结束,即y 与所有自变量均线性无关;()如果进FFL1,则引入1xL,建立回归方程1)1(1)1(0?Lxy(2.3
9、)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 16 页 - - - - - - - - - 4 2、建立 y 与自变量子集,1iLxx(1Li)的二元回归模型iiLiixxy)0()0(1)0(0?1(2.4)以式(2.4)为全模型, 式(2.3)为减模型求iF 值,并取得iF 中最大的那个值, 比如说2LF。如果进FFL2,则计算结束,这时建立的模型为式(2.3);如果进FFL2,则引入2xL,建立回归方程21)2(2)2(1)2(0?LLxxy(2.5)3、当引入
10、2xL后,对1xL做偏 F 检验,看1xL是否需要剔除;如果出FFL1,则不剔除1xL,并继续引入下一个变量;如果出FFL1,则从式 2.4 中剔除1Lx,再继续引入下一个变量。重复上述步骤, 直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。3 财政收入回归分析实例本次作业利用 SPSS软件和逐步回归法,对原始数据进行了回归分析,并最终获得了 “ 最优” 回归方程,解决这个问题。3.1 数据收集及处理首先进行参考数据的选择, 根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值 (亿元),人口数(万人)等。本文从中选取了国内生产
11、总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8 个因素作为本次考查的重点, 并对其与财政收入的相关关系进行分析。表 1 所示为所选取的自 1995 年至 2012 年 18 年间财政收入与所选变量的数据汇总。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 16 页 - - - - - - - - - 5 年份国内生产总值(亿元)人口数(万人)能源生产总量(
12、标准煤) (万吨)农作物总播种面积(千公顷)货运量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)财政收入(亿元)1995 60793.7 121121 129034 149879 1234938 12452 11048 5793.75 6242.2 1996 71176.6 122389 133032 152381 1298421 12576 11557 8282.25 7407.99 1997 78973 123626 133460 153969 1278218 15161 11807 9126.48 8651.14 1998 84402.3 124761 129834 155
13、706 1267427 15224 11626 10061.99 9875.95 1999 89677.1 125786 131935 156373 1293008 16160 13736 11152.86 11444.08 2000 99214.6 126743 135048 156300 1358682 20634 18639 12497.6 13395.23 2001 109655.2 127627 143875 155708 1401786 22024 20159 15361.56 16386.04 2002 120332.7 128453 150656 154636 1483447
14、26948 24430 18527.18 18903.64 2003 135822.8 129227 171906 152415 1564492 36288 34196 23083.87 21715.25 2004 159878.3 129988 196648 153553 1706412 49103 46436 29021.45 26396.47 2005 184937.4 130756 216219 155488 1862066 62648 54274 34552.1 31649.29 2006 216314.4 131448 232167 152149 2037060 77597 633
15、77 41557.16 38760.2 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 16 页 - - - - - - - - - 6 2007 265810.3 132129 247279 153464 2275822 93564 73300 51043.71 51321.78 2008 314045.4 132802 260552 156266 2585937 100395 79527 62036.81 61330.35 2009 340902.8 133450 2
16、74619 158614 2825222 82030 68618 76807.74 68518.3 2010 401202 134091 296916 160675 3241807 107023 94699 96031.13 83101.51 2011 473104.0 134735 317987 162283 3696961 123240.6 113161.4 115734.19 103874.43 2012 518942.1 135404 331848 163416 4099400 129359.3 114801.0 137217.86 117253.52 3.2 建立回归模型过程为了研究
17、财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中, 影响财政收入的因素很多, 并且这些因素的影响不能简单的用某一种模型来描述, 所以要建立财政收入的数学模型往往是很难的。但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=1X1+2X2+3X3+4X4+5X5+6X6+7X7+8X8其中, Y 是因变量 , iX 是自变量 ,i是各个自变量的系数。各变量符号的定义见表 2。Y X1X2X3X4X5X6X7X8财政收入(亿元)国内生产总值(亿元)人口数(万人)能源生产总量(
18、标准煤) (万吨)农作物总播种面积(千公顷)货运量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)3.3 线性回归模型的验证通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。然而这些假设是否合理, 所建模型是否接近实际的工业生产总值,需要进一步验证。 故名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 16 页 - - - - - - - - - 7 作出数据散点图, 观察因变量与自变量之间关系是否有线性特点。散点图结果如图 1 所示。(1)(2)(3
19、)(4)(5)(6)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 16 页 - - - - - - - - - 8 (1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图;(3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图;(5)财政收入与货运量散点图;(6)财政收入与出口总额散点图;(7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图 1 财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法, 指标变量若呈
20、非线性关系则会影响模型精度。 所以首先判断因变量和自变量是否存在非线性关系。从图 1 可以看出,人口数X2与财政收入 Y 之间大致呈指数关系,而农作物总播种面积 X4与财政收入 Y 之间的线性关系很不显著,都是可以首先剔除的变量。其余变量 错误!未找到引用源。 都与财政收入Y 具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。3.4 线性回归的结果及分析利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。由表 3 可以看出货运量、 国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的F的概率不大于 0
21、.05,被剔除的判据是变量进入回归方程的F 的概率不小于 0.10。(7)(8)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 16 页 - - - - - - - - - 9 表 3 输入 /移去的变量模型输入的变量移去的变量方法1 货运量(万吨步 进 ( 准 则 : F-to-enter 的 概率= .100)。2 国 内 生 产 总 值(亿元)步 进 ( 准 则 : F-to-enter 的 概率= .100)。3 能 源 生 产 总 量(万吨)步 进 ( 准 则
22、: F-to-enter 的 概率= .100)。a. 因变量 : 财政收入表4显示三个模型的拟合情况,模型3的复相关系数 R=1.000,可决系数2R =0.999,调整可决系数为 0.999,估计值的标准差为 916.74710,可见模型 3的拟合度较高。表 4 模型汇总模型R R 2调整 R2标准估计的误差1 .999a.998 .998 1615.37929 2 1.000b.999 .999 1163.51991 3 1.000c.999 .999 916.74710 a. 预测变量 : (常量), 货运量(万吨)b. 预测变量 : (常量 ), 货运量(万吨 ), 国内生产总值(亿
23、元)c .预测变量 : (常量 ) , 货运量(万吨 ), 国内生产总值(亿元),能源生产总量(万吨)d. 因变量 : 财政收入(亿元)从表5中看出方差分析结果可以看出,三个模型的F值检验 Sig值远小于 0.01,可见,最终模型的整体线性关系是成立的。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 16 页 - - - - - - - - - 10 表 5 ANOV Ad模型平方和df 均方F Sig. 1 回归2.044E10 1 2.044E10 7832.197
24、 .000a残差41751204.003 16 2609450.250 总计2.048E10 17 2 回归2.046E10 2 1.023E10 7556.322 .000b残差20306678.791 15 1353778.586 总计2.048E10 17 3 回归2.047E10 3 6.823E9 8117.999 .000c残差11765953.531 14 840425.252 总计2.048E10 17 a. 预测变量 : (常量 ), 货运量(万吨)b. 预测变量 : (常量 ), 货运量(万吨 ), 国内生产总值(亿元)c .预测变量 : (常量 ) , 货运量(万吨 ),
25、 国内生产总值(亿元),能源生产总量(万吨)d. 因变量 : 财政收入(亿元)如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。结果模型中所有变量系数的t检验Sig值都接近或小于 0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、 国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。表 6 系数模型非标准化系数标准系数t Sig. B 标准误差试用版1 (常量 ) -39148.932 958.303 -40.852 .000 货运量(万吨).038 .000 .999 88.500 .000 2 (
26、常量 ) -26904.767 3152.897 -8.533 .000 货运量(万吨).022 .004 .568 5.233 .000 国 内 生 产 总 值(亿元).103 .026 .432 3.980 .001 3 (常量 ) -15515.418 4351.514 -3.566 .003 货运量(万吨).015 .004 .385 3.731 .002 国 内 生 产 总 值(亿元).176 .031 .737 5.744 .000 能 源 生 产 总 量(万吨)-.060 .019 -.124 -3.188 .007 名师资料总结 - - -精品资料欢迎下载 - - - - -
27、- - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 16 页 - - - - - - - - - 11 表 6 系数模型非标准化系数标准系数t Sig. B 标准误差试用版1 (常量 ) -39148.932 958.303 -40.852 .000 货运量(万吨).038 .000 .999 88.500 .000 2 (常量 ) -26904.767 3152.897 -8.533 .000 货运量(万吨).022 .004 .568 5.233 .000 国 内 生 产 总 值(亿元).103 .026 .432 3.980 .
28、001 3 (常量 ) -15515.418 4351.514 -3.566 .003 货运量(万吨).015 .004 .385 3.731 .002 国 内 生 产 总 值(亿元).176 .031 .737 5.744 .000 能 源 生 产 总 量(万吨)-.060 .019 -.124 -3.188 .007 a. 因变量 : 财政收入(亿元)如表 7 所示, 给出的是所有未进入最终模型的变量检验信息,由 t 检验的 Sig值都大于 0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。表 7 排除的变量Model Beta In t Sig. 偏相关共线性统计量容差
29、1 国 内 生 产 总 值(亿元).432a3.980 .001 .717 .006 能 源 生 产 总 量(万吨).043a.926 .369 .233 .061 出 口 总 额 ( 亿元).066a1.929 .073 .446 .092 进 口 总 额 ( 亿元).076a1.828 .088 .427 .064 建 筑 业 总 产 值(亿元)-.051a-.195 .848 -.050 .002 2 能 源 生 产 总 量(万吨)-.124b-3.188 .007 -.649 .027 出 口 总 额 ( 亿元)-.049b-1.117 .283 -.286 .034 名师资料总结 -
30、 - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 16 页 - - - - - - - - - 12 进 口 总 额 ( 亿元)-.037b-.779 .449 -.204 .030 建 筑 业 总 产 值(亿元).319b1.660 .119 .406 .002 3 出 口 总 额 ( 亿元).073c1.478 .163 .379 .016 进 口 总 额 ( 亿元).101c2.111 .055 .505 .014 建 筑 业 总 产 值(亿元).188c1.142 .274 .3
31、02 .001 a.模型中的预测变量: (常量 ) , 货运量(万吨)b.模型中的预测变量: (常量) , 货运量(万吨), 国内生产总值(亿元)c模型中的预测变量: (常量 ), 货运量(万吨) , 国内生产总值(亿元), 能源生产总量(万吨)d. 因变量 : 财政收入表 8 残差统计量极小值极大值均值标准偏差N 预测值5652.1587 116279.0000 38679.2983 34698.46056 18 残差-1919.03113 1378.36218 .00000 831.93444 18 标准预测值-.952 2.236 .000 1.000 18 标准残差-2.093 1.5
32、04 .000 .907 18 a. 因变量 : 财政收入(亿元)图2 标准化残差直方图名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 16 页 - - - - - - - - - 13 标准化残差的 P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布, 所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。图 4 散点图图 3 标准 P-P图名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - -
33、- - - - - - 名师精心整理 - - - - - - - 第 14 页,共 16 页 - - - - - - - - - 14 从图 4 的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕 2 的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。3.5 最优回归方程由以上多元回归分析可得各个分量的影响关系,从而得出“ 最优” 方程为:Y= -15515.418+0.176X1-0.060X3+0.015X5其中 R2=0.999,F=8117.999 X1代表国内生产总值, X3代表能源生产总量, X5代表
34、货运量代入 2011年数据,可得Y2011=-15515.418+0.176473104.0-0.060317987+0.015 3696961=104126.08 2008年实际财政收入为103874.43(亿元)可算得误差为 e=(104126.081-103874.43)/103874.43100%=0.24%,在可接受误差范围之内,可见拟合效果能够满足要求。4 结论在本次作业中,结合过去的经验和学习结果,我选择了影响财政收入的8个因素,通过查阅2013 中国统计年鉴,利用IBM SPSS Statistics 19.0软件对所获得的数据进行了分析, 建立了线性回归模型, 再利用逐步回归
35、法进行回归分析,最终发现所选 8个因素中有 6个因素与国民总收入之间的的散点图呈现良好的线性关系,但最终进入回归方程的只有国内生产总值、能源生产总量和货运量这三个自变量,可能是数据选取上有些问题或者可能是其他影响因素的线性关系不是很明显。综合来看,本次作业基本能分析工业生产总值和各影响因素的关系,并得出了主要、次要原因。最终的线性回归模型显示,国民总收入可以由货运量、国内生产总值和能源生产总量来进行很好的解释,三者都是影响财政收入的重要因素。然而,最终的模拟结果也显示出拟合曲线和实际点还是有一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他因素较显著的影响了财政收入,有待进一步考察
36、。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页,共 16 页 - - - - - - - - - 15 参考文献:1 孙海燕 ,周梦 ,李卫国 ,冯伟 .应用数理统计 M. 北京 :北京航天航空大学数学系,2014. 2 国家统计局 .2013年中国统计年鉴 M. 北京:中国统计出版社 ,2013. 3 蔡建琼 ,于惠芳 ,朱志洪等 .SPSS 统计分析实例精选M. 北京 :清华大学出版社,2006. 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 16 页 - - - - - - - - -