《基于逐步回归法的国家财政收入回归分析报告.doc》由会员分享,可在线阅读,更多相关《基于逐步回归法的国家财政收入回归分析报告.doc(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用数理统计论文基于逐步回归法的国家财政收入回归分析 学 院: 专 业: _ 学 号: 任课教师: 基于逐步回归法的国家财政收入回归分析摘 要财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的围和数量,在很大程度上决定于财政收入的充裕状况。对财政收入的影响因素进行分析,有助于更好的把握财政收入并做出相应的宏观调控。本文采用逐步回归法,基于SPSS统计分析软件建立了国家财政收入的回归模型,研究了一些相关因素对国家财政收入的影响,涵盖了工业、农业、建筑业、第三产业的总产值以与社会商品零售总额、人口、受灾面积、居民消费水平八个因素,同时对回归模型进行了分析、检验和预测,验
2、证了模型的正确性。关键词:SPSS 财政收入 逐步回归 回归模型 AbstractThe fiscal revenue is an important index that evaluates the financial capability of a government. The scale and amount of public facilities and services that the government offers in social and economic activities depend a lot on the condition of its fiscal r
3、evenue. The analysis on the possible factors that may influence the fiscal revenue can contribute to the proper control and arrangement of the revenue. Based on the SPSS software, the paper applies the stepwise regression method to build the regression model of the national fiscal revenue. The influ
4、ence caused by some possible factors are also analyzed, which include industry, agriculture, architecture, the gross output value of tertiary industry, total volume of retail sales, population, damage area and resident consumption level. The regression model is also verified and estimated to ensure
5、its accuracy.Key words: SPSS, fiscal revenue, stepwise regression, regression model1 引言国家财政收入对于国民经济的正常运行以与社会的蓬勃发展有着重要的影响。它是国家各项政策得以实现的物质保证,其规模大小是衡量国家经济实力的重要标志,同时也是国家对经济进行宏观调控的重要经济杠杆。因此对财政收入进行研究显得尤为重要。改革开放以来,随着经济的飞速发展,我国的财政收入也呈快速增长趋势。这其中的影响因素有很多,如国生产总值、税收、科学教育发展程度、人口状况、城乡就业人数等等,因此,如果仅采用一般的统计模型很难表述其与相
6、关因素之间的相关关系。为了建立财政收入与影响因素之间的数学模型,需要考虑克服模型变量的多重共线性问题,常用的方法主要有:排除引起共线性的变量;差分法;减小参数估计量的方差。由于后两类方法都只能减轻多重共线性对模型的影响,而第一类方法,从根本上寻找引起多重共线性的解释变量,将其排除出原模型,因而第一类方法更为有效。本文将该原理的应用-逐步回归方法引入财政收入模型的建立问题中。2 逐步回归分析法的原理与过程在建立数学模型的时候,人们一方面为获取全面信息总希望模型中包含的自变量尽可能多;另一方面,考虑到获取很多自变量的观测时的费用和实际困难,则希望模型中包尽可能少且重要的变量。因此,为使所建立的线性
7、回归模型“最优”,就应满足一下两个条件:(1)模型中要包含所有对y影响显著的自变量,消除对y影响不显著的自变量;(2)模型包含的各自变量之间不存在多重共线即各自变量之间不存在线性相关关系或近似线性相关关系。1为了解决以上两个问题,最有效的方法是采用逐步回归分析方法。2.1 逐步回归分析法的原理逐步回归的基本思想是:对全部因子按其对影响程度大小(偏回归平方的大小),从大到小地依次逐个地引入回归方程,并随时对回归方程当时所含的全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,知道回归方程中所含的所有变量对 的作用都显著是,才考虑引入新的变量。再在剩下的未选因子中,选出对 作用最大者,检验其显
8、著性,显著者,引入方程,不显著,则不引入。直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。增加或减少某个自变量的准则是用残差平方和的变化量来衡量,一般采用F检验统计量进行检验,因此逐步回归的每一步的前后都要作F检验,以保证每次在引入新的显著变量之前回归方程中只包含显著的变量,直至没有显著的变量可以引入回归方程为止。这样得出来的回归方程剔除了对因变量不重要的自变量,使回归方程更简单。2.2 逐步回归分析法的过程逐步回归分析具体步骤如下:步骤1:输入原始样本数据,计算协差阵,其中: ;步骤2:计算相关系数矩阵,其中:;步骤3:计算各个自变量的方差贡献,以步为例:步骤4:做剔除变量的
9、显著性F检验。检验时,先选定置信度,查表得到,挑选方差最小的变量,计算,若则说明该变量对y作用不显著,应予以剔除,并对相关矩阵作消去变换。步骤5:做引入变量的显著性F检验。检验时,挑选未引入模型中的变量的显著性贡献度最大的计算:,若则说明 该变量对作用显著,应引入变量,并对相关矩阵作变换。步骤6:如以上步骤,检验是否接受新变量,引入回归方程后, 检验其显著性,判断是否有变量应该剔除,直至无变量可引入和剔除为止,逐步回归结束, 将上述所有标准化的量,化成实际回归系数,再求出常数项。3国家财政收入回归模型3.1 数据采集本文从中国统计年鉴2011中采集并整理了19912010年影响我国财政收入的主
10、要因素的相关数据信息,包括工业总产值(亿元)、农业总产值(亿元)、建筑业总产值(亿元)、第三产业总产值(亿元)、社会商品零售总额(亿元)、人口数量(万人)、受灾面积(千公顷)以与居民消费水平(元)。数据如表3.1所示。其中19912009年的数据作为模型建立的依据,2010年的数据用作对模型的检验。3.2变量标识为了方便模型的描述,本文对各影响因素做了如表3.2所示的符号约定。并选择财政收入y为因变量,其余8个影响因素X1、X2、X3、X4、X5、X6、X7、X8为自变量。 表3.2 符号说明符号yX1X2X3X4X5X6X7X8变量财政收入工业总产值农业总产值建筑业总产值第三产业总产值社会商
11、品零售总额人口受灾面积居民消费水平15 / 15表3.1 样本数据年份财政收入工业总产值农业总产值建筑业总产值第三产业总产值社会商品零售总额人口受灾面积居民消费水平19913149.488087.15342.21015.17337.19415.61158235547293219923483.3710284.55866.614159357.3810993.711717151332111619934348.95141886963.82266.511915.7314270.411851748827139319945218.119480.79572.72964.716179.7618622.91198
12、5055046183319956242.224950.612135.83728.819978.4623613.812112145824235519967407.9929447.614015.44387.423326.2428360.212238946991278919978651.1432921.414441.94621.626988.1531252.912362653427300219989875.9534018.414817.64985.830580.4733378.1124761501453159199911444.0835861.5147705172.133873.4435647.91
13、2578649979.53346200013395.2340033.614944.75522.338713.9539105.7126743546883632200116386.0443580.615781.35931.744361.6143055.412762752214.63887200218903.6447431.3165376465.549898.948135.912845346946.14144200321715.2554945.517381.77490.856004.7352516.312922754505.84475200426396.476521021412.78694.3645
14、61.295950112998837106.265032200531649.2977230.82242010133.874919.2867176.613075638818.235573200638760.291310.92404011851.188554.887641013144841091.416263200751321.78107367.22809514014.1111351.958921013212948992.357255200861330.35130260.243370218743.2131339.99114830.113280239990.038349200968518.31352
15、39.953522622398.83147642.09132678.413347447213.699098201083101.5116086736941.1126714.4173087.01156998.4134091374269968(注:2010年的数据用作预测)我们可以建立如下的回归模型2: 其中,In 在本模型中为8阶单位矩阵,为了使建立的回归模型达到最佳效果,本文选用上文所描述的逐步回归分析法并利用SPSS 19软件求解此线性回归模型。3.3 逐步回归分析3.3.1 逐步回归分析操作步骤基于上文中搜集到的数据,在SPSS软件中建立数据视图,以8个影响因素为X1-X8,以财政收入为Y,
16、各列数据均为数值类型。在SPSS中进行逐步回归分析的一般步骤如下所示:1.创建数据;2.打开线性回归功能;3.将X1-X8依次选为因变量,Y选为自变量;4.设置统计量,确定置信水平,启用个案诊断;5. 设置绘图选项;6. 设置使用F的概率;7. 完成设置,开始分析;8. 得到分析结果图表,分析结果并保存。以下几个小节中,将对本次分析的分析结果进行阐述和总结。3.3.2 输入/剔除表 表3.3.为分析过程中变量的输入和剔除情况。表3.3 输入/移除的变量a模型输入的变量移去的变量方法1X4第三产业总产值.步进(准则: F-to-enter 的概率 = .100)。2X6人口.步进(准则: F-t
17、o-enter 的概率 = .100)。3X3建筑业总产值.步进(准则: F-to-enter 的概率 = .100)。4X7受灾面积.步进(准则: F-to-enter 的概率 = .100)。a. 因变量: 财政收入 SPSS系统默认当F概率小于或等于0.05时进入,F概率大于等于0.1剔除。从表中所示结果,可知系统在逐步分析时产生了4个模型,模型1是按照F检验的标准先将与y(财政收入)关系最密切的变量X4(第三产业总产值)引入模型,建立y(财政收入)与X4之间的线性回归模型,然后引入X6(人口),建立y与X4、X6之间的回归模型,然后依次引入X3(建筑业总产值)、X7(受灾面积)、建立回
18、归模型。在整个过程中,剔除的变量为X1(工业总产值)、X2(农业总产值)、X5(社会商品零售总额)、X8(居民消费水平)。3.3.3 模型汇总表 表3.4 模型汇总e模型RR2调整 R2估计的标准差1.997a.994.9941605.9722521.000b.999.999498.2127831.000c1.0001.000244.8271041.000d1.0001.000189.48385a. 预测变量: (常量), X4第三产业总产值。b. 预测变量: (常量), X4第三产业总产值, X6人口。c. 预测变量: (常量), X4第三产业总产值, X6人口, X3建筑业总产值。d. 预
19、测变量: (常量), X4第三产业总产值,X6人口, X3建筑业总产值, X7受灾面积。e. 因变量: 财政收入 模型汇总表中显示了各模型的拟合情况,从表中可以看出各模型的相关系数R都等于1或非常接近1,随着模型中自变量个数的增加。标准估计误差逐渐减小,说明模型越来越优。在下文的分析中,主要以模型4进行分析。3.3.4 方差分析表3.5 Anovae(方差分析)模型平方和df均方FSig.1回归7.220E917.220E92799.185.000a残差43845496.519172579146.854总计7.263E9182回归7.259E923.630E914623.117.000b残差3
20、971455.64216248215.978总计7.263E9183回归7.262E932.421E940387.152.000c残差899104.6271559940.308总计7.263E9184回归7.263E941.816E950571.142.000d残差502657.8251435904.130总计7.263E918a. 预测变量: (常量), X4第三产业总产值。b. 预测变量: (常量), X4第三产业总产值, X6人口。c. 预测变量: (常量), X4第三产业总产值, X6人口, X3建筑业总产值。d. 预测变量: (常量), X4第三产业总产值,X6人口, X3建筑业总产
21、值, X7受灾面积。e. 因变量: 财政收入 此表显示个模型的方差分析结果,对于以上模型,F值分别为2799.185、14623.117、40387.152、50571.142,并且每个模型的显著性概率均Sig0.001,可知回归效果都是显著的。3.3.5 回归系数分析与检验预测表3.6 系数a模型非标准化系数标准系数tSig.B标准差Beta1(常量)-3500.289598.953-5.844.000X4第三产业总产值.481.009.99752.907.0002(常量)66512.8205527.12.034.000X4第三产业总产值.550.0061.90.043.000X6人口-.5
22、85.-.160-12.674.0003(常量)74841.8292954.72625.330.000X4第三产业总产值.640.0131.32649.419.000X6人口-.652.025-.179-26.558.000X3建筑业总产值-.600.084-.172-7.159.0004(常量)77885.3162463.40931.617.000X4第三产业总产值.639.1.32563.778.000X6人口-.664.019-.182-34.340.000X3建筑业总产值-.601.065-.172-9.273.000X7受灾面积-.009-.009-3.323.005a. 因变量:
23、财政收入 在表3.6中,B为非标准化得回归系数,t为偏回归系数为0的假设检验的t值,Sig.为偏回归系数为0的假设检验的显著性水平值。在逐步回归过程中,利用偏回归系数平方和来判断一个自变量对因变量影响的显著程度。某因素的偏回归系数平方和愈大,该因素对y的作用也就愈大。由逐步回归分析原理可知,模型4为最优模型。故对于财政收入与其各影响因素的回归方程为:y = 77885.316 + 0.639 X4 - 0.664 X6 - 0.601 X3 - 0. X73.3.6 检验预测 为了验证回归方程的有效性,以2010年的数据为例对模型进行检验。X4=173087.01,X6=134091,X3=2
24、6714.4,X7=37426,代入回归方程计算得y=82235.9306。 检验结果与实际结果的绝对误差为1.0416%。由于财政收入是以亿元为计数单位,故可认为预测结果与实际数据非常吻合,从而验证了模型的有效性。3.3.7 被剔除的变量信息表3.7 已排除的变量e模型Beta IntSig.偏相关共线性统计量容差1X1工业总产值-.242a-.966.349-.235.006X2农业总产值-.281a-3.749.002-.684.036X3建筑业总产值.074a.498.625.124.017X5社会商品零售总额-.404a-1.973.-.442.007X6人口-.160a-12.67
25、4.000-.954.214X7受灾面积.009a.384.706.096.727X8居民消费水平-.535a-10.953.000-.939.0192X1工业总产值.056b.681.506.173.005X2农业总产值-.077b-2.255.039-.503.X3建筑业总产值-.172b-7.159.000-.880.014X5社会商品零售总额-.243b-6.750.000-.867.007X7受灾面积-.009b-1.263.226-.310.699X8居民消费水平-.241b-2.941.-.605.0033X1工业总产值.078c2.188.505.005X2农业总产值.017c
26、.665.517.175.014X5社会商品零售总额-.096c-.918.374-.238.001X7受灾面积-.009c-3.323.005-.664.699X8居民消费水平-.006c-.931-.0024X1工业总产值.035d.971.349.260.004X2农业总产值-.009d-.407.690-.112.012X5社会商品零售总额-.082d-1.026.323-.274.001X8居民消费水平-.036d-.666.517-.182.002a. 预测变量: (常量), X4第三产业总产值。b. 预测变量: (常量), X4第三产业总产值, X6人口。c. 预测变量: (常量
27、), X4第三产业总产值, X6人口, X3建筑业总产值。d. 预测变量: (常量), X4第三产业总产值,X6人口, X3建筑业总产值, X7受灾面积。e. 因变量: 财政收入 表3.7显示了在逐步回归过程中所建立的模型剔除的变量,以与该变量的Beta值和t统计量值,双尾显著性概率sig.值、偏相关系数与共线统计量的容差。3.3.8 残差统计量表3.8 残差统计量a极小值极大值均值标准 偏差N预测值3307.014968664.671921484.095320087.1041119残差-296.10504449.33591.00000167.1090519标准预测值-.9052.349.00
28、01.00019标准残差-1.5632.371.000.88219a. 因变量: 财政收入 表3.8显示预测值、残差、标准预测值与标准残差的最大值、最小值、均值以与标准偏差和样本容量。3.3.9 残差分布直方图和观测累计概率P-P图 本模型的残差分布直方图如图3.1所示,将回归残差的直方图和附于直方图上的正态分布曲线相比较,可以明显看出残差分布与正态分布的相合性存在一定的偏差,但由于样本容量较小,可近似认为残差服从正态分布。图3.2为本模型的观测累计概率P-P图,图中的斜线对应一个均值为0的正态分布,图中的散点基本上都散布于斜线附近,可认为残差分布基本上是正态的。图3.1 残差分布直方图直方图
29、 图3.2 观测累计概率P-P图图3.3 回归标准化预测值图4 总结根据最优回归方程可以看出,第三产业总产值对于我国财政收入的影响非常明显,其影响因子最大。同时人口数量以与建筑业产值、受灾面积也有不容忽视的作用。从这一研究结果出发,国家在进行宏观调控时,应着力于促进第三产业的发展,同时控制人口数量,加强基础设施建设,完善灾害的预防、应对机制,减少灾害发生的机率和影响围,这样才可保证国家财政收入的稳步增长,从而提高综合国力。由于本文收集数据有限,模型的可靠性还有待提高。在后续的研究中,可考虑进一步进行异方差、残差的独立性与多重共线性的检验。或将各种分析检验方法相结合,提高模型的可靠性,真正做到为提高国家财政收入服务。参考文献1 王冬梅, 颂东. 逐步回归分析法J. 工业技术经济, 1997(3):54-57.2海燕, 周梦, 卫国, 等. 应用数理统计M. 航空航天大学, 2013.3国家统计局:2000中国统计年鉴,中国统计.4 黄海,罗友丰,志英,等. SPSS10 for Windows统计分析M.人民邮电, 2001,169-17