《【数学建模】国家财政收入的影响因素的评价及预期收入的预测fux.docx》由会员分享,可在线阅读,更多相关《【数学建模】国家财政收入的影响因素的评价及预期收入的预测fux.docx(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、国家财政收入的影响因素【摘要】国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性分析。之后,我们对数据进行了回归分析,构造了预测模型,获得了模型的回归系数估计值,然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了一系列的统计检验,并对模型进行了消除序列相关性的改进,使模型通过了各个统计的检验。之后,我们代入所给数据1953年-1980年的各项经济指标,得到预测值与实际值的拟合效果较好,预测较准确。最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了
2、分析。关键词:MATLAB Eviews 财政收入 回归模型 LM检验 序列相关性一、 问题重述国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。二、 问题假设1. 财政收入只可能与问题重述中提到的6个因素有关,而与其它因素无关;2. 所给数据真实准确,无录入错误。3. 不考虑偏差大的数据,在建模中把异常点的数据剔除。三、符号说明y:财政收入;x1:国民收入;x2:工业总产值;x3:农业总产值;x4:总人口;x5:就业人口;x6:固定资产投资;0,1,2
3、,3,4,5,6:回归系数;E:随机误差。X1(-1),X3(-1),X6(-1):x1,x3,x6的一阶滞后项;YF:财政收入的预测值四、问题分析、模型的建立与求解1.问题的分析首先对数据作初步分析。分别用MATLAB作出财政收入与6个因素的散点图,从中找出异常的点,从而把异常的点所对应的数据剔除: 图1 x1-y散点图图2 x2-y散点图图3 x3-y散点图图4 x4-y散点图图5 x5-y散点图由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该异常数据去掉。去掉后的x5-y散点
4、图如下:图6 去掉异常点后的x5-y散点图图7 x6-y散点图2.模型的建立从以上的散点图可以看出财政收入Y与x1x6大致都呈现线性的关系,我们再引入一个常量回归系数0,作出了初步的模型:y=0+1x1+2x2+3x3+4x4+5x5+6x6+E (1)3.模型的求解首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点(见图6),之后利用MATLAB统计工具箱中命令regress求解,得到模型(1)的回归系数估计值及其置信区间(置信水平=0.05)、检验统计量R2,F,p的结果见表1。参数参数估计值参数置信区间0-15.5344-366.5816 335.512710.51000.2
5、301 0.78982-0.0259-0.0769 0.02513-0.5905-0.9901 -0.190840.0113-0.0028 0.02545-0.0230-0.0492 0.003260.3419-0.0387 0.7225R2=0.9840,F=225.8953,p=0.0000表1 模型(1)的计算结果表1显示,R2=0.9840指因变量y(财政收入)的98.40%可由模型(1)的自变量的变化来解释,F值远远超过F检验的临界值,p=0远小于,因而模型(1)从整体来看是可用的。表1的回归系数给出了模型(1)中0,1,2,3,4,5,6的估计值,即,。检查它们的置信区间发现,0,
6、2,4,5,6的置信区间包含零点。从估计结果来看,模型可能存在多重共线性。原因如下:在5%的显著性水平下,由置信区间可以看出除x1与x3外,所有回归系数的t检验值均小于临界值;但F统计量的值225.8953远远大于临界值,且拟合优度很高,解释变量对被解释变量有显著的解释性能力。应用Eviews软件,采用菜单操作可得各解释变量之间的相关系数表,结果见表2: 表2 从上图可以看出六个解释变量之间两两简单相关关系都在80%以上,甚至有的在98%以上,超过了拟合优度,这表明模型存在严重的多重共线性。4.模型的改进根据以上的分析,我们采用逐步回归法来确定回归模型。第一步,用每个解释变量分别对被解释变量做
7、简单回归,从而决定解释变量的重要程度,为解释变量排序。应用Eviews软件,采用菜单操作可得各解释变量与被解释变量的拟合优度:x1的拟合优度R2=0.951223 x2的拟合优度R2=0.937951、x3的拟合优度R2 =0.843960 、X4的拟合优度R2= 0.865832 、x5的拟合优度R2 = 0.860956 x6的拟合优度R2 = 0.939462根据t统计量的大小排序,可见解释变量的重要程度依次为:x1,x6,x2,x4,x5,x3 。第二步,以Y=21.82266+0.3233378X1为基础,依次引入x6,x2,x4,x5,x3 。 根据逐步回归法的原则,最终确定的模型
8、(2)为: Y=163.1010+0.406223X1-0.49127X3+0.330958X6 (2)其中其模型的分析结果为: 表3 模型(2)的计算结果由上表可以看出,模型(2)的所有变量的参数都通过了t检验,且F值为440.9664,比模型(1)的F值大很多,这说明模型的显著性是可以通过的。但模型(2)的DW值是1.505283,又对于显著性水平=0.05,n=29,k=3,查D-W分布表,得到检验的临界值dL=1.27和dU=1.56,由此可知,模型(2)的DW值位于临界值dL和 dU之间,因此不能判断模型是否存在序列相关性。下面用LM检验检验模型(2)是否存在序列相关性,首先检验模型
9、的一阶序列相关性。应用Eviews软件,采用菜单操作可得LM检验的结果,结果见表4: 表4由上图可得,存在一阶序列相关的概率P=0.3586450.05,所以认为模型存在一 阶序列相关性。下面检验模型是否存在两阶序列相关性。应用Eviews软件,采用菜单操作可得LM检验的结果,结果见表5: 表5由上图可知,存在两阶序列相关的概率P=0.036411 dU=1.56且4-dU,由此认为修正后的模型(2)不存在一阶序列相关性。所以修正后的模型为:Y-0.217615Y(-1)=163.1010(1-0.217615)+0.406223(X1-0.217615X1(-1)-0.49127(X3-0.
10、217615X3(-1)+0.330958(X6-0.217615X6(-1) (4)5.结果分析从表面上看,经过用广义差分法修正后的模型(2)已经不存在序列相关性了,这就说明模型排除了序列相关性的干扰。用广义差分法修正后的模型(2)的拟合度已经达到了R2=0.98,这表明财政收入的98%可以由解释变量x1、x3、x6解释。残差E=F-FY可以作为随机误差的估计值,画出随机误差E的走势图(图8)能够从直观上判断的自相关性。图8 修正后的模型(2)E的走势图从图8可以看出,随机误差项E的走势大概呈现标准正态分布的趋势,这表明E几乎不存在自相关性了。下面,我们将使用修正后的模型(2)对之前数据进行
11、评价:年份1953195419551956195719581959实际值216248254268286357444预测值197.0488241.8454235.6226276.3688267.6546375.1301483.6987年份1960196119621963196419651966实际值506271230266323393466预测值517.5848305.6149233.9238255.0631301.5687377.6023431.3645年份1967196819691970197119721973实际值352303447564638658691预测值376.7942349.95
12、42448.8678553.8521614.6158635.7772667.8887年份1974197519761977197819791980实际值655692657723922890826预测值662.9507718.7919672.9797723.4487829.0786878.6001893.5268表7 财政收入的预测值与实际值对比 图9 财政收入预测值与实际值的拟合图从上可以看到,预测值与实际值还是相当吻合的。之后,我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资,代入模型(2)。结果如下:年份国民收入工业总产值农业总产值总人口就业
13、人口固定资产投资199011412.9622452.27514611295463931.94517200098000.575710.6913873.612674372116.7732917.7年份财政收入(预测值)财政收入(实际值)19903766.22821.8620004405213395.23表8 1990年和2000年财政收入预测值与实际值对比数据来源自CNKI中国统计年鉴数据库从表8可以看到,1990年预测值与实际值和2000年的预测值都相差较大,原因不一定是模型建立的偏差大,还有可能是其他原因,如在查阅数据时,我们就发现了2000年的工业总产值数据注明了“1990年不变价格”,而其
14、余数据没有此说明项;且1980年后国家实行了改革开放的经济政策,经济的发展规律发生了很大的变化,用1980年以前的数据建立起来的模型去预测1980年后的一些经济数据自然会有较大的偏差。并且,在固定资产投资一栏,我们查到了非常详细的分类,固定资产投资资金来源中国家预算内资金,固定资产投资资金来源中国内贷款,固定资产投资资金来源中自筹和其他资金等备注,而题目并未给出,这给我们筛选数据带来了极大的困难。总的来说,模型对于1952-1980年的经济数据来说,依然有一定的参考价值和预测价值,但由于各种方面的原因与因素,对于1990年和2000年预测值与实际值的匹配程度是有限。五、模型的评价优点模型的决定
15、系数R2=0.98较高,且都是一次项,计算简便。消除了模型中出现的序列相关性和多重共线性,对19521980年之间的数据预测效果较好。缺点对1981年之后的数据预测值逐渐产生偏差,只适用于预测所用数据的时间段,有效的预测时间段较段。六、模型的推广与改进从前文的分析来看,我们认为1981年后,物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据,若补充上物价衡量指数,消费水平指数(CPI)等数据,模型的拟合度效果应该会更准确,而且加上这些因素后,对以后时间段的预测应该会更长,偏差也会更小。七、附件(1)导入数据的程序:a=xlsread(C:Documents and Settingssy
16、zx10桌面新建 Microsoft Excel 工作表.xls)(2)画散点图的程序: 图1 plot(a(:,2),a(:,8),*);xlabel(国民收入);title(财政收入(亿元);图2plot(a(:,3),a(:,8),*);xlabel(工业总产值);title(财政收入(亿元);图3plot(a(:,4),a(:,8),*);xlabel(农业总产值);title(财政收入(亿元);图4plot(a(:,5),a(:,8),*);xlabel(总人口);title(财政收入(亿元);图5plot(a(:,6),a(:,8),*);xlabel(就业人口);title(财政
17、收入(亿元);图6plot(a(1:29,6),a(1:29,8),*);xlabel(就业人口);title(财政收入(亿元);图7plot(a(:,7),a(:,8),*);xlabel(固定资产投资);title(财政收入(亿元);(3)模型(1)的MATLAB程序:x1=598,586,707,737,825,837,1028,1114,1079,757,677,779,943,1152,1322,1249,1187,1372,1638,1780,1833,1978,1993,2121,2052,2189,2475,2702,2791;x2=349,455,520,558,715,79
18、8,1235,1681,1870,1156,964,1046,1250,1581,1911,1647,1565,2101,2747,3156,3365,3684,3696,4254,4309,4925,5590,6065,6592;x3=461,475,491,529,556,575,598,509,444,434,461,514,584,632,687,697,680,688,767,790,789,855,891,932,955,971,1058,1150,1194;x4=57482,58796,60266,61465,62828,64653,65994,67207,66207,65859
19、,67295,69172,70499,72538,74542,76368,78534,80671,82992,85229,87177,89211,90859,92421,93717,94974,96259,97542,98705;x5=20729,21364,21832,22328,23018,23711,26600,26173,25880,25590,25110,26640,27736,28670,29805,30814,31915,33225,34432,35620,35854,36652,37369,38168,38834,39377,39856,40581,41896;x6=44,89
20、,97,98,150,139,256,338,380,138,66,85,129,175,212,156,127,207,312,355,354,374,393,462,443,454,550,564,568; Y=184,216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,564,638,658,691,655,692,657,723,922,890,826; X=ones(29,1),x1,x2,x3,x4,x5,x6; b,bint,r,rint,stats=regress(Y,X) (4)求得的各解释变
21、量与被解释变量的拟合优度的结果 (5)、根据逐步回归的方法所得到的一些分析结果: (6):用MATLAB画财政收入与财政收入预测值的拟合图的程序:YF=197.0488,241.8454,235.6226,276.3688,267.6546,375.1301,483.6987,517.5848,305.6149,233.9238,255.0631,. 301.5687,377.6023,431.3645,376.7942,349.9542,448.8678,553.8521,614.6158,635.7772,667.8887,662.9507,. 718.7919,672.9797,723.
22、4487,829.0786,878.6001,893.5268Y=216,248,254,268,286,357,444,506,271,230,266,323,393,466,352,303,447,564,638,658,691,655,692,657,723,922,890,826; x=1953:1980;plot(x,Y,*,x,YF)legend(Y,YF)【参考文献】1 姜启源,谢金星,叶俊. 数学模型M.北京:高等教育出版社,2003.82 John O. Rawlings, Sastry G. Pantula, David A. Dickey Applied Regression Analysis:A Research Tool(应用回归分析(英文版))M.New York,USA:Springer,19983 李子奈 计量经济学教程4 刘国卫 MATLAB程序设计教程5 CNKI中国统计年鉴数据库