《多元统计分析-大作业(共15页).docx》由会员分享,可在线阅读,更多相关《多元统计分析-大作业(共15页).docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上多元统计分析大作业班级: 数学15-2班 组员1: 胡汇丰 学号1: 组员2: 胡明禹 学号2: 组员3: 刘劭 学号3: 指导老师:李晓童 完成时间:2018年6月12日摘要本文针对影响财政收入的8个因素:社会从业人数、年末总人口、全社会固定资产投入、第一产业值、工业产值、国民总收入、税收、居民消费价格指数,在收集并处理大量数据信息的基础上,研究财政收入的线性回归问题。本文主要依托于SAS软件进行初步的线性回归和变量选择的线性回归。为得到关于财政收入的回归方程,我们对财政收入和8个自变量运用SAS的REG过程进行初步的线性回归,得到的回归方程为式(6.1),方程高度
2、显著,而自变量的p值均大于,这与回归方程高度显著产生矛盾,基于此我们运用逐步回归法进行变量的选择和删除,结合SAS得到,当逐步回归进行到第六步时,由回归方程显著性检验结果和回归系数显著性检验结果知该回归方程高度显著,因此最终的回归方程为:。专心-专注-专业一背景介绍与问题提出1.1背景介绍财政预测1是对财政分配过程及其发展趋势预先作出分析、判断和推测的过程。财政预测不是主观意识的先知先觉,而是在正确理论的指导下,通过对大量信息资料的占有、分析和科学测算,来揭示财政分配的变化规律及其发展趋势的。财政预测是现代财政管理的重要环节。通过预测推断未来财政分配规模、结构、形式等的变化,达到提高财政决策水
3、平,增强财政决策的科学性,减少财政分配的盲目性,优化财政分配活动的目的。经查阅资料知,影响财政收入的因素有很多,本文选以下因素作为自变量进行分析:社会从业人数、年末总人口、全社会固定资产投入、第一产业值、工业产值、国民总收入、税收、居民消费价格指数。1.2问题的提出在此背景下,我们小组按以下三个个问题建立关于财政收入的回归模型,实现对财政收入的预测。1. 查找资料搜集8个自变量和因变量的相关数据,构建财政收入与8个自变量之间的回归模型,并依据样本观测值对回归模型中的参数进行估计,给出回归方程。2. 对回归方程中的参数和方程本身进行显著性检验。3. 评价自变量对因变量的贡献(利用逐步选元法)。4
4、. 利用所求得的回归方程对因变量进行预测。二问题分析本文的目标是基于财政收入的有关数据建立线性回归方程。我们先对所有变量进行常规的回归分析,包括回归系数的最小二乘解,系数的显著性检验等,若每个系数都能通过显著性检验,说明我们建立的模型是合理的,可以用来进行预测,若不然,则使用逐步回归分析的方法对变量进行筛选,最终得到“最优”的回归方程。三模型假设1. 国家统计局有关财政收入的数据是准确可靠的;2. 假设因变量Y与各自变量是线性相关的。四符号说明表4-1 符号说明符号含义符号含义Y因变量 回归平方和X自变量 残差平方和随机误差回归均方和 回归系数( )均方误差 的参数估计 总离差平方和五线性回归
5、模型5.1多元线性回归模型的建立多元线性回归模型2为: (5.1)如果记,则方程(3.1)可表示为以下矩阵形式: (5.2)5.1.2多元回归模型的参数估计l 参数估计回归模型(3.1)式,其参数的最小二乘估计量(OLS)为: (5.3)记,则: (5.4)特别地,对于一元线性回归,其参数的估计量为: (5.5)其中:;,。则:,从而有: (5.6)l 参数估计量性质在误差项服从正态分布的假定下,估计量是线性无偏最小估计量(BLUE)。且有:,即估计量服从均值为B,协方差阵为的多元正态分布。特别地对于一元线性回归有:, (5.7)即估计量,均服从正态分布,且是线性无偏最小估计量。5.1.3多元
6、线性回归模型的检验在估计出了回归方程后,一个很自然的问题是,这个方程拟合得好吗?对于线性回归模型,因变量与自变量之间的关系是线性的吗?方程中的每个自变量都对因变量有显著影响吗?自变量之间是否存在多重共线等等这些问题正是回归诊断需要解决的。以上这些问题在回归分析中一般可通过以下假设检验进行部分解决。l 检验的定义为: (5.8)其中称为总离差平方和;称为回归平方和,它表示来自自变量对总离差的贡献; 称为残差平方和,它表示来自误差项对总离差的贡献。并且有。拟合优度表示,因变量的总离差平方和有多少部分能够通过自变量予以解释。换句话说,不能由自变量来解释的部分为:。显然越大,越接近于1表明拟合就越好。
7、由于随着自变量个数的增加而增加,所以在多元回归的情况下,通常要对进行调整。调整后的用表示,定义为:,其中当模型中不包含常数项时,当模型中包含常数项时。l 自变量与因变量之间线性关系的F检验在线性回归分析中,我们一般假定回归方程有以下形式:,即与p个自变量之间线性相关,但实际情况怎样呢,这需要通过检验来回答。为此,记,称为回归均方和,称为误差均方和,定义: (5.9)在给定的显著性水平下,若由样本观测值计算的F值大于,则自变量与因变量之间具有显著的线性关系,否则,变量之间不具有显著的线性关系。在SAS系统中,一般通过F值对应的p值来判断变量之间线性关系的显著性。若F值对应的p值小于给定的显著性水
8、平,则因变量与p个自变量存在显著的线性关系,否则线性关系不显著,需用自变量的其它曲线形式来拟合。l 回归参数的t检验在线性回归方程中,回归参数表示自变量每变动一个单位,因变量Y的平均变动幅度,即的单位变动对因变量的影响程度。因此,检验回归参数是否有显著差异至关重要,实际应用中通常作如下假设:,由于,记: (5.10)则有: ,从而统计量: , (5.11)当给定显著性水平为下,若由样本观测值计算的值的绝对值大于,则参数与0有显著性差异,否则,参数与0没有显著差异。在SAS系统中,一般通过值所对应的p值来判断回归参数与0是否有显著性差异。若值所对应的p值小于给定的显著性水平,则回归参数与0有显著
9、性差异。特别地,当自变量个数p=1时,一元线性回归系数的检验统计量为: (5.12)5.4逐步回归法逐步回归3的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单
10、回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。六问题的求解6.1初步的回归方程的建立和回归系数的显著性检验由国家统计局我们得到以下数据(部分),详细数据见附录表8-1:表6-1 财政收入相关数据(部分)年份财政收入(亿元)年末总人口(万人)就业人员(万人)国民总收入(亿元)全社会固定资产投资(亿元)19811175.79437254933.796119821212.33452955380.51230.419831366.95464366043.81430.119841642
11、.86481977314.21832.919852004.82498739123.62543.219862122.015128210375.43120.619872199.355278312166.63791.719882357.245433415174.44753.819892664.95532917188.44410.419902937.16474918923.3451719913149.486549122050.35594.519923483.376615227208.28080.119934348.956680835599.213072.319945218.16745548548.21
12、7042.119956242.26806560356.620019.319967407.996895070779.622913.5年份财政收入(亿元)工业增加值(亿元)农林牧渔业增加值(亿元)居民消费价格指数(上年=100)各项税收(亿元)19811175.792067.71559.4102.5629.8919821212.3321831777.3102700.0219831366.952399.11978.3102775.5919841642.862815.92316102.7947.3519852004.823478.32564.3109.32040.7919862122.014000.8
13、2788.6106.52090.7319872199.354621.33232.9107.32140.3619882357.245814.13865.2118.82390.4719892664.96525.74265.81182727.419902937.16904.75061.8103.12821.8619913149.488138.25341.9103.42990.1719923483.3710340.55866.2106.43296.9119934348.9514248.86963.3114.74255.319945218.119546.99572.1124.15126.88199562
14、42.225023.912135.1117.16038.04在对多元线性回归模型的建立做了细致介绍后,我们直接使用SAS软件对财政收入的数据进行回归分析。我们运用SAS的REG过程进行分析,产生的输出结果如下:图6-1 REG过程产生的主要输出结果图6-1给出了以下几方面的结果:(1) 回归方程 (6.1)(2) 回归方程显著性检验结果:由该输出中方差分析(Analysis of Variance)表可得出平方和分解式为:=+均方误差MSE=/27=,它是模型中误差方差2的估计;该表还给出检验统计量F值为47805.6,p值小于0.0001,这表示拟合的模型是高度显著的,该模型解释了这组数据总
15、变差中的主要部分(3) 回归系数显著性检验的结果:该输出中参数估计(Parameter Estimates)表不仅给出了回归方程的系数,并给出检验的结果。见该表的最右列“Prob|T|”(即显著性概率p值),若给定=0.05,则自变量的p值均大于,这与回归方程高度显著产生矛盾。这可能是由于这4个自变量间存在较强的相关性。为了得到“最优”回归方程,应从方程中删除最不重要的自变量的(如,因的p=0.8917为最大),重新建立Y与其余变量的回归方程后再检验。后面我们将使用逐步回归法(逐步筛选法)对变量进行选择和删除。(4) 有关的回归统计量:决定系数R2=0.9999,标准差的估计量(Root MS
16、E)为470.44651,回归平方和U=,残差平方和Q=。6.2基于逐步回归法的变量的选择及最终回归方程的确定我们运用SAS的REG过程结合Stepwish方法进行分析,最终产生的输出结果如下:图6-2 基于逐步回归的REG最终步的输出结果图6-2给出了以下几方面的结果:(1) 回归方程(2) 回归方程显著性检验结果:由该输出中方差分析(Analysis of Variance)表可得出平方和分解式为:=+均方误差MSE=/31=,它是模型中误差方差2的估计;该表还给出检验统计量F值为,p值小于0.0001,这表示拟合的模型是高度显著的,该模型解释了这组数据总变差中的主要部分(3) 回归系数显
17、著性检验的结果:该输出中参数估计(Parameter Estimates)表不仅给出了回归方程的系数,并给出检验的结果。见该表的最右列“Prob|T|”(即显著性概率p值),若给定=0.05,则自变量的p值均小于,这说明回归方程高度显著。(4)有关的回归统计量:决定系数R2=0.9999 由此我们确立最终的回归方程为: (6.2)七参考文献1 百度百科,财政预测,2018.6.12。2 高慧璇,应用多元统计分析,北京:北京大学出版社,2005.1,105-170。3 百度百科,逐步回归,2018.6.12。 八附录8.1 SAS代码data d411; input y x1-x8;cards;
18、 1175.79437254933.79612067.71559.4102.5629.891212.33452955380.51230.421831777.3102700.021366.95464366043.81430.12399.11978.3102775.591642.86481977314.21832.92815.92316102.7947.352004.82498739123.62543.23478.32564.3109.32040.792122.015128210375.43120.64000.82788.6106.52090.732199.355278312166.63791.7
19、4621.33232.9107.32140.362357.245433415174.44753.85814.13865.2118.82390.472664.95532917188.44410.46525.74265.81182727.42937.16474918923.345176904.75061.8103.12821.863149.486549122050.35594.58138.25341.9103.42990.173483.376615227208.28080.110340.55866.2106.43296.914348.956680835599.213072.314248.86963
20、.3114.74255.35218.16745548548.217042.119546.99572.1124.15126.886242.26806560356.620019.325023.912135.1117.16038.047407.996895070779.622913.529529.814014.7108.36909.828651.146982078802.924941.133023.514440.8102.88234.049875.957063783817.628406.234134.914816.499.29262.811444.087139489366.529854.736015
21、.414768.798.610682.5813395.237208599066.132917.740259.714943.6100.412581.5116386.0472797.237213.4943855.615780100.715301.3818903.6473280.443499.9147776.316535.799.217636.4521715.2573736.355566.6155363.817380.6101.220017.3126396.4774264.470477.4365776.821410.7103.924165.6831649.2974647.988773.6177960
22、.522416.2101.828778.5438760.274978.5.1692238.424036.4101.534804.3551321.7875321.94.928623.7104.845621.9761330.3575564.5.4.633699.1105.954223.7968518.375828.5.77.535223.399.359521.5983101.5176105.2.77.440530103.373210.79.4376420.2.13.847483105.489738.39.5276704.5.74.652368.7102.6.28.6476977.4.09.6569
23、73.6102.6.7.0377253.1.65.460165.7102.31.2377451.6.83.362911.8101.4.2.9777603.7.66.765975.7102.73 ;run;ods graphics on;proc corr data =d411 PLOT = MATRIX(HISTOGRAM nvar=all);var y x1 x2 x3 x4 x5 x6 x7 x8;run;ods graphics off;proc reg data=d411; model y=x1-x8 / selection=stepwise sle=0.10 sls=0.10; ru
24、n; proc reg data=d411; model y=x1-x8; run; quit;8.2 财政收入相关数据表表8-1财政收入相关数据年份财政收入(亿元)年末总人口(万人)就业人员(万人)国民总收入(亿元)全社会固定资产投资(亿元)19811175.79437254933.796119821212.33452955380.51230.419831366.95464366043.81430.119841642.86481977314.21832.919852004.82498739123.62543.219862122.015128210375.43120.619872199.355
25、278312166.63791.719882357.245433415174.44753.819892664.95532917188.44410.419902937.16474918923.3451719913149.486549122050.35594.519923483.376615227208.28080.119934348.956680835599.213072.319945218.16745548548.217042.119956242.26806560356.620019.319967407.996895070779.622913.519978651.146982078802.92
26、4941.119989875.957063783817.628406.2199911444.087139489366.529854.7200013395.237208599066.132917.7200116386.0472797.237213.49200218903.6473280.443499.91200321715.2573736.355566.61200426396.4774264.470477.43200531649.2974647.988773.61200638760.274978.5.16200751321.7875321.94200861330.3575564.5.420096
27、8518.375828.5.77201083101.5176105.2.772011.4376420.2.132012.5276704.5.742013.6476977.4.092014.0377253.1.652015.2377451.6.832016.9777603.7.66年份财政收入(亿元)工业增加值(亿元)农林牧渔业增加值(亿元)居民消费价格指数(上年=100)各项税收(亿元)19811175.792067.71559.4102.5629.8919821212.3321831777.3102700.0219831366.952399.11978.3102775.5919841642.
28、862815.92316102.7947.3519852004.823478.32564.3109.32040.7919862122.014000.82788.6106.52090.7319872199.354621.33232.9107.32140.3619882357.245814.13865.2118.82390.4719892664.96525.74265.81182727.419902937.16904.75061.8103.12821.8619913149.488138.25341.9103.42990.1719923483.3710340.55866.2106.43296.911
29、9934348.9514248.86963.3114.74255.319945218.119546.99572.1124.15126.8819956242.225023.912135.1117.16038.0419967407.9929529.814014.7108.36909.8219978651.1433023.514440.8102.88234.0419989875.9534134.914816.499.29262.8199911444.0836015.414768.798.610682.58200013395.2340259.714943.6100.412581.51200116386
30、.0443855.615780100.715301.38200218903.6447776.316535.799.217636.45200321715.2555363.817380.6101.220017.31200426396.4765776.821410.7103.924165.68200531649.2977960.522416.2101.828778.54200638760.292238.424036.4101.534804.35200751321.78.928623.7104.845621.97200861330.35.633699.1105.954223.79200968518.3.535223.399.359521.59201083101.51.440530103.373210.792011.43.847483105.489738.392012.52.652368.7102.6.282013.64.656973.6102.6.72014.03.460165.7102.312015.23.362911.8101.4.22016.97.765975.7102.73