岭回归解决多重共线性(共10页).doc-淘文阁

资源描述

《岭回归解决多重共线性(共10页).doc》由会员分享，可在线阅读，更多相关《岭回归解决多重共线性(共10页).doc（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上一、引言回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用，但是经典的最小二乘估计，必需满足一些假设条件，多重共线性就是其中的一种。实际上，解释变量间完全不相关的情形是非常少见的，大多数变量都在某种程度上存在着一定的共线性，而存在着共线性会给模型带来许多不确定性的结果。二、认识多重共线性（一）多重共线性的定义设回归模型如果矩阵的列向量存在一组不全为零的数使得, =1,2,则称其存在完全共线性,如果, =1,2,则称其存在近似的多重共线性。（二）多重共线性的后果1.理论后果对于多元线性回归来讲，大多数学者

2、都关注其估计精度不高，但是多重共线性不可能完全消除，而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果，在理论上称作“微数缺测性”，所以当样本容量很小的时候，多重共线性才是非常严重的。多重共线性的理论后果有以下几点：（1）保持OLS估计量的BLUE性质；(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。所以多重共线性并不是简单的自变量之间存在的相关性，也包括样本容量的大小问题。（3）近似的多重共线性中，OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样的性质；如果X变量的取值固定情况下，反复对样本进行取样，并对每个

3、样本计算OLS估计量，随着样本个数的增加，估计量的样本值的均值将收敛于真实值。（4）多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系，但在具体取样时仍存在样本间的共线性。 2.现实后果（1）虽然存在多重共线性的情况下，得到的OLS估计是BLUE的，但有较大的方差和协方差，估计精度不高；（2）置信区间比原本宽，使得接受假设的概率更大；（3）统计量不显著；（4）拟合优度的平方会很大；（5）OLS估计量及其标准误对数据微小的变化也会很敏感。（三）多重共线性产生的原因1.模型参数的选用不当，在我们建立模型时如果变量之间存在着高度的相关性，我们又没有进行处理建立的模型就有可能存在着共线

4、性。2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时，反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。滞后变量的引入也会产生多重共线行，例如本期的消费水平除了受本期的收入影响之外，还有可能受前期的收入影响，建立模型时，本期的收入水平就有可能和前期的收入水平存在着共线性。(四) 多重共线性的识别 1.直观的判断方法（1）在自变量的相关系数矩阵中，有某些自变量的相关系数值比较大。（2）回归系数的符号与专业知识或一般经验相反（3）对重要的自变量的回归系数进行t检验，其结果不显著，但是F检验确得到了显著的通过（4）如果增加一个变量或删除一个变量，

5、回归系数的估计值发生了很大的变化（5）重要变量的回归系数置信区间明显过大2.方差扩大因子法()定义=其中是以为因变量时对其他自变量的复测定系数。一般认为如果最大的超过10，常常表示存在多重共线性。事实上=10这说明0.9。3.特征根判定法根据矩阵行列式的性质，矩阵行列式的值等于其特征根的连乘积。因此，当行列式|0时，至少有一个特征根为零，反过来，可以证明矩阵至少有一个特征根近似为零时，X的列向量必存在多重共线性，同样也可证明有多少个特征根近似为零矩阵,就有多少个多重共线性。根据条件数, 其中为最大的特征根,为其他的特征根，通常认为010存在着多重共线性。（五）多重共线性的处理方法1增加样本容量

6、当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本，而不存在于总体时，通过增加样本容量可以减少或是避免线性重合，但是在现实的生活中，由于受到各种条件的限制增加样本容量有时又是不现实的。2剔除法对于一些不重要的解释变量进行剔除，主要有向前法和后退法，逐步回归法。理论上这三种方法都是针对不相关的的数据而言的，在多重共线性很严重的情况下，结论的可靠性受到影响，在一些经济模型中，要求一些很重要变量必须包含在里面，这时如果贸然的删除就不符合现实的经济意义。3主成分法当自变量间有较强的线性相关性时，利用个变量的主成分，所具有的性质，如果他们是互不相关的，可由前个主成来建立回归模型。由原始变量的观测

7、数据计算前个主成分的得分值，将其作为主成分的观测值，建立与主成分的回归模型即得回归方程。这时元降为元,这样既简化了回归方程的结构，且消除了变量间相关性带来的影响4(偏最小二乘法)H.Wold在1975年提出的偏最小二乘法近年来引起广泛的关注，在解决多重共线性方面，它与主成分回归法，岭回归法一样都能很好的达到目的，但偏最小二乘又与前者又有较大的区别，偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想，但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关，因而主成分与因变量在算法上关系不密切，从而导致最后主成分

8、在实际应用中无法更好的进一步拟合因变量，偏最小二乘法则是从因变量出发，选择与因变量相关性较强而又能方便运算的自变量的线性组合。5岭回归法.岭回归分析是1962年由Heer首先提出的，1970年后他与肯纳德合作，进一步发展了该方法，在多元线性回归模型的矩阵形式,参数的普通最小二乘估计为=, 岭回归当自变量存在多重共线性|0时，给矩阵加上一个正常系数矩阵,那么=,当时就是普通最小二乘估计。三、实际的应用我们对于重庆市1987至2010年的统计数据做一个回归预测模型，选取工业总产值为因变量，固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。设模型为 (3.1)(一) 普通的最小二乘

9、法对模型进行最小二乘估计得到如下的结果：表3.1：模型总结ModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.998a.996.995161.9961198.108419.000 表3.2：方差分析表ModelSum of Squares df Mean SquareFSig.Regression1.257E843.142E71.198E3.000aResidual.2271926225.591Total1.

10、262E823表3.3：系数矩阵表ModelBStd. ErrorBetatSigToleranceVIF1-193.968311.594-.623.541.622.393.4871.582.130.002455.510.025.016.1881.570.133.01568.6941.202.743.3491.617.122.004224.271-.030.117-.023-.261.797.02737.372调整的可决系数为0.995，F=1198,在置信水平为95%，自由度4，方程通过了显著性的检验，从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过，而且

11、能源消费的系数为负，这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。根据方差扩大因子=455.510, =68.694, =224.271, =37.372.均大于10说明存在多重共线性。此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此，利用SPSS软件进行相关处理可以得到下表：表3.4：多重共线性诊断表ModelDimensionEigenvalueCondition IndexVariance Proportions(Constant)114.4121.000.00.00.00.00.002.5682.788.01.00.00.00.003.01716.2

12、64.13.00.00.05.224.00339.288.25.00.80.07.395.00171.989.611.00.20.88.39从特征值我们可以看到有两个接近于零，条件数我们可以看到最大条件数为71.989，说明存在着共线性，以上的分析说明因变量间存在着多重共线性。（二）运用岭回归解决多重共线性用SPSS软件的岭回归功能的语法实现岭回归，做出的结果如下：表3.5：岭参数K值表 K RSQ X1 X2 X3 X4 .00000 .99605 . . . -.05000 .99450 . . . .10000 .99286 . . . .15000 .99135 . . . .20

13、000 .98984 . . . .25000 .98824 . . . .30000 .98652 . . . .35000 .98466 . . . .40000 .98265 . . . .45000 .98050 . . . .50000 .97822 . . . .55000 .97581 . . . .60000 .97327 . . . .65000 .97062 . . . .70000 .96786 . . . .75000 .96501 . . . .80000 .96206 . . . .85000 .95903 . . . .90000 .95591 . . . .95

14、000 .95273 . . . .1.0000 .94948 . . . . 图3.1 岭迹图从岭迹图上看，最小二乘的稳定性很差，当稍微增大时，系数有较大的变化。对各个变量分别来看，当=0, 、和对于变量有显著性正的影响，对于变量有负的影响，从岭回归的角度来看，变量和随着的增大其系数值迅速减小最终趋于稳定，随着的增加变化不大，对于讲，当逐渐增大时，由负的影响变为正的影响。由于和的岭参数都迅速减少，两者之和比较稳定。从岭回归的角度看，和只要保留一个就可以了。和的岭回归系数相对稳定。通过分析，决定剔除，对剩下的三个变量进行岭回归。把岭参数步长改为0.02，范围缩小到0.2，在SPSS中用命令生

15、成得到如下结果：表3.6 ：步长为0.02时的岭参数值表 K RSQ X1 X2 X3 .00000 .99604 . . .02000 .99584 . . .04000 .99560 . . .06000 .99531 . . .08000 .99497 . . .10000 .99457 . . .12000 .99410 . . .14000 .99357 . . .16000 .99297 . . .18000 .99231 . . .20000 .99159 . . .由上表可以看到，剔除了后岭回归系数变化幅度减小，从岭迹图看岭参数在0.12到0.20之间时，岭参数已基本稳定，当

16、=0.16时，0.99297仍然很大，因而可以选取=0.16岭参数。然后给定，重新作岭回归，计算结果如下：表3.7： k = 0.16时的岭回归Mult R .RSquare .Adj RSqu .SE 210.:表3.8：方差分析表 df SS MS F value Sin FRegress 3.000 941.44 .Residual 20.000 .52 44362.976 表3.9：方程中的变量 B SE(B) Beta B/SE(B)X1 . . . 41.X2 . . . 22.X3 1. . . 27.Constant -451. 69. . -6.得到对对的标准化岭回归方程为

17、： (3.2) (41.601) (22.776) (27.882 )0.993 =941.44普通最小二乘法得到的回归方程为 (3.3) (1.582 ) (1.570) (1.617) ( -0.261)标准化岭回归得到的统计量都比OLS估计显著，因此岭回归得到预期的效果。（三）主成分分析法同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果：表3.10：总的解释方差表ComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total

18、% of VarianceCumulative %13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道，四个主成分的特征值的最大值为3.927，最小值为0.001；前两个因子的累积贡献率已经达到99.657%，故只需要保留前两个主成分。利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法：第一主成分 (3.4)第二主成分 (3.5)用对、做普通最小二乘法，得如下回归方程

19、为 (3.6) 因此，可以得出主成分回归方程为 (3.7)回归方程的的修正的可决系数为 0.996。由上面的分析我们看到岭回归和主成分的所得到的结果比较接近，各个系数解释也更加的合理，符合现实意义。五、结论主成分法和岭回归所估计的参数，都已经不是无偏的估计，主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性，其降维的优势是明显的，主成分回归方法对于一般的多重共线性问题还是适用的，尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法，采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的

20、可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法，每种方法都有其适用范围，我们应该比较其效果而选用而不是断然否定一种方法。参考文献1 何晓群.应用回归分析M.中国人民统计大学出版社:.2 钱晓莉. J. :.3 白雪梅, 赵松山. J. :.4 赵松山, 白雪梅. J. :. 5 高辉. J. :.6 达摩达尔.N.古扎拉蒂.计量经济学M.中国人民大学出版社：2004,（6）. 7 薛薇.SPSS统计分析方法及应用M.电子工业出版社：2009,（1）.8 秦红兵. J. 科技信息：.9 柳丽，魏庆钲.回归分析中多重共线性的诊断与处理J.中国

21、卫生统计：1994,(11).10 John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation onEstimates of ParametersJ. The Journal of Financial and Quantitative Analysis:1996,(6).11 Mark Z. Fabrycy.Multicollinearity caused by Specification ErrorsJ. Applied Statistics:1975,(4).12 Nityananda sarkar.Mean square error matrix comparision of some estmators in linear regressions with muillinearityJ.Statistics and Probability letters:1996,(10).专心-专注-专业

展开阅读全文