《多元回归分析的步骤(共5页).docx》由会员分享,可在线阅读,更多相关《多元回归分析的步骤(共5页).docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上三、研究方法本文采取多元线性回归的方法来设定并建立模型,再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选,挑选偏回归平方和贡献最大的因子建立回归方程,在决定是否引入一个新的因素时,回归方程要用方差比进行显著性检验。如果判别该影响因子通过显著性检验,那么可选入方程中,否则就不应该进入到回归方程,回归方程中剔除一个变量的标准也是用方差比进行显著性检验 剔除偏回归平方和贡献最小的变量,无论是入选回归方程还是从回归方程中剔除 符合条件的选入项和剔除项为止,逐步回归的方法剔除了对因变量影响小的因素 减小了分析问题的难度,提高了计算效率和回归方程的稳定性有较好的预测精度。
2、运用多元线性回归预测的基本思路是在确定因变量和多个自变量以及它们之间的关系后,通过设定自变量参数的回归方程对因变量进行预测。具体如下:式中: Y 表示为粮食总产量,C和a为回归系数,C、a 是待定参数,X为所选取的影响因素.多元线性回归方法可分为强行进入法、消去法、向前选择法、向后剔除法和逐步进入法等,本文运用SPSS22.0 软件,对选择的自变量全部进入回归模型,即强行进入法进行预测。该模型的优点是方法简单、预测速度快、外推性好等。四、分析与结果本文选取6个解释变量,研究河南省粮食产量y,解释变量为:X1粮食播种面积,X2农业从业人,X3农用机械总动力,X4农田有效灌溉面积,X5化肥施用折纯
3、量,X6农村用电量。以河南省粮食产量为因变量,以如上6个解释变量为自变量做多元线性回归(数据选取2014年河南统计年鉴,见附录一)。用SPSS做变量的相关分析,从相关矩阵(表4-1)中可以看出y与自变量的相关系数大多都在0.9以上,说明所选择变量与y高度线性相关,用y与自变量做多元线性回归是合适的。表4-1 相关X1X2X3X4X5X6yX11.687 .965 .918 .927 .970 .978 X2.687 1.686 .456 .448 .731 .616 X3.965 .686 1.946 .930 .990 .985 X4.918 .456 .946 1.961 .921 .96
4、0 X5.927 .448 .930 .961 1.901 .965 X6.970 .731 .990 .921 .901 1.979 y.978 .616 .985 .960 .965 .979 1用SPSS做变量系数分析(表4-2)表4-2 系数B标准错误BetaT显著性(常数)-6733.2683146.969-2.140.041X18.3152.765.2623.007.006X2.155.296.121.524.604X3-.199.105-.607-1.901.068X42.6192.687.169.974.338X55.7702.4921.0472.315.028X61.0865
5、.174.089.210.835从(表4-2)中可以得到解释变量与因变量之间的方程为:表4-3 变异数分析平方和df平均值平方F显著性回归.1266.021165.292.000残差.6792841050.631估计.80534从(表4-3)中发现F=165.292,说明6个自变量整体对因变量y产生显著线性影响。但从表(4-2)中不难发现农业从业人员、农田有效灌溉面积、农村用电量的P值较大,说明方程某些解释变量并不显著,对没有通过检验的回归系数,在一定程度上说明他们对应的自变量在方程中可有可无,一般为了使模型简化,需要剔除不显著的自变量,重新建立回归方程。而且粮食播种面积、农业从业人员、农田有
6、效灌溉面积、化肥施用折纯量、农村用电量对国民总收入起正影响,农用机械总动力却对国民总收入起负影响,与常识相违背,可能存在多重共线性。应用SPSS进行异方差性检验。用斯皮尔曼相关系数检验异方差性也就是检验随机误差项的方差与解释变量观测值之间的相关性。若相关系数较高,则存在异方差性,则不能通过异方差性检验,此时可能会导致参数OLS估计的方差增大,t检验失效,预测精度降低。表4-4 相关X1X2X3X4X5X6Standard Error of Predicted ValueSpearman 的 rhoX11.000.441.439.377.434.439-.090X2.4411.000.993.9
7、52.991.993-.303X3.439.9931.000.951.9981.000-.277X4.377.952.9511.000.950.951-.258X5.434.991.998.9501.000.998-.294X6.439.9931.000.951.9981.000-.277Standard Error of Predicted Value-.090-.303-.277-.258-.294-.2771.000从表4-4中发现残差绝对值预与解释变量的皮尔逊相关系数最高为0.303,不能认为残差绝对值与解释变量显著相关。所以不存在异方差性。应用SPSS进行自相关检验。检验自相关性就是
8、检验针对不同的样本点与随机误差项之间是否不相关。如果存在某种相关性,则认为出现了序列相关性。若存在自相关性,参数估计量仍然是线性的、无偏的,但非有效;OLS估计量的被估方差是有偏的且会被低估,因而会使相应的t值变大;甚至模型的t和F统计检验失效;导致最小二乘估计量对抽样波动非常敏感。首先用杜宾和沃特森检验法来判断其是否存在自相关性。表4-5 模型摘要RR 平方调整后 R 平方标准偏斜度错误Durbin-Watson.986a.973.967202.609551.616由表4-5得到DW检验为1.616。查表可知在1%的上下界中k=6,n=36的dl=0.99,du=1.59,可知duDW4-d
9、u,该模型不存在一阶自相关性。从上述已知数据不存在异方差性和一阶自相关性,用SPSS进行多重共线性检验。若存在多重共线性,将会引起参数估计量不存在;近似共线性下OLS估计量非有效;参数估计量经济含义不合理;变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外;模型的预测功能失效。表4-6 系数B标准错误Beta允差VIF(常數)-6733.2683146.969-2.140.041X18.3152.765.2623.007.006.1297.731X2.155.296.121.524.604.01854.325X3-.199.105-.607-1.901.068.010103.768X
10、42.6192.687.169.974.338.03230.852X55.7702.4921.0472.315.028.005208.612X61.0865.174.089.210.835.005182.444从表4-6中可以发现X1粮食播种面积的VIF明显小于10,说明存在共线性。由于模型存在多重共线性,我们对模型进行调整,应用SPSS进行逐步回归来消除多重共线性。表4-7 系数模型B标准错误BetaT显著性(常數)-1945.9211136.720-1.712.097X14.921.223.89322.038.000X54.3601.287.1373.388.002 剔除变量x2,x3,x4,x6后的可知解释变量与因变量x1粮食播种面积,x5化肥施用折纯量之间的相关系数,两者高度相关,说明拟合程度很高。从表4-7中发现P值都小于0.5,说明通过显著性检验。最终得到最优回归方程为:通过影响粮食产量因素的多元线性回归分析,最后得到确定的模型表明河南粮食产量受粮食播种面积和化肥施用量的影响最大。在化肥施用量保持不变的情况下,粮食播种面积每增加1个单位,将带来粮食产量增加4.921个单位,在粮食播种面积保持不变的情况下,化肥施用量每增加1个单位,会使粮食产量增加4.36个单位。要想提高河南粮食的产量,可以从提高粮食播种面积和化肥施用量下手。专心-专注-专业