《多重共线性 精.ppt》由会员分享,可在线阅读,更多相关《多重共线性 精.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多重共线性 第1页,本讲稿共39页多重共线性多重共线性v多重共线性及其影响多重共线性及其影响v多重共线性的发现和检验多重共线性的发现和检验v多重共线性的克服和处理多重共线性的克服和处理第2页,本讲稿共39页引子:引子:发展农业和建筑业会减少财政收入吗?发展农业和建筑业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收为了分析各主要因素对财政收入的影响,建立财政收入模型入模型:其中其中:CS财政收入财政收入(亿元亿元);NZ农业增加值农业增加值(亿元亿元);GZ工业增加值工业增加值(亿元亿元);JZZ建筑业增加值建筑业增加值(亿元亿元);TPOP总人口总人口(万人万人);CUM最终
2、消费最终消费(亿元亿元);SZM受灾面积受灾面积(万公顷万公顷)数据样本时期数据样本时期1978年年-2003年(资料来源:年(资料来源:中国统计年鉴中国统计年鉴2004,中,中国统计出版社国统计出版社2004年版)年版)第3页,本讲稿共39页 VariableCoefficientStd.Errort-StatisticProb.农业增加增加值NZ-1.5350900.129778-11.828610.0000工工业增加增加值GZ0.8987880.2454663.6615580.0017建筑建筑业增加增加值JZZ-1.5270891.206242-1.2659890.2208总人口人口TP
3、OP0.1511600.0337594.4776460.0003最最终消消费CUM0.1015140.1053290.9637830.3473受灾面受灾面积SZM-0.0368360.018460-1.9953820.0605截距截距项-11793.343191.096-3.6957040.0015R-squared0.995015 Mean dependent var5897.824Adjusted R-squared0.993441 S.D.dependent var5945.854S.E.of regression481.5380 Akaike info criterion15.4166
4、5Sum squared resid4405699.Schwarz criterion15.75537Log likelihood-193.4165 F-statistic632.0999Durbin-Watson stat1.873809 Prob(F-statistic)0.000000财政收入模型的财政收入模型的EViewsEViews估计结果估计结果第4页,本讲稿共39页 可决系数为可决系数为0.9950.995,校正的可决系数为,校正的可决系数为0.9930.993,模型拟合,模型拟合很好。模型对财政收入的解释程度高达很好。模型对财政收入的解释程度高达99.5%99.5%。F F统计
5、量为统计量为632.10632.10,说明,说明0.050.05水平下回归方程整体上显水平下回归方程整体上显著。著。t t 检验结果表明,除了工业增加值和总人口以外,其他因检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。素对财政收入的影响均不显著。农业增加值和建筑业增加值的回归系数是负数。农业增加值和建筑业增加值的回归系数是负数。农业和建筑业的发展反而会使财政收入减少吗?农业和建筑业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?若模型设定和数据
6、真实性没问题,问题出在哪里呢?模型估计与检验结果分析模型估计与检验结果分析第5页,本讲稿共39页一、多重共线性及其分类一、多重共线性及其分类v多重共线性及其分类多重共线性及其分类v完全多重共线性完全多重共线性v近似多重共线性近似多重共线性第6页,本讲稿共39页 多重共线性的概念多重共线性的概念 对于模型对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n其基本假设之一是解释变量是互相独立的。其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相如果某两个或多个解释变量之间出现了相关性,则称为关性,则称为多重共线性多重共线性(Multicollinearity
7、)。第7页,本讲稿共39页v 如果存在如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其其中中:ci不不全全为为0,则则称称为为解解释释变变量量间间存存在在完完全全共共线线性性(perfect multicollinearity)。v 如果存在如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其其中中ci不不全全为为0,vi为为随随机机误误差差项项,则则称称为为 近近似似共共线线性性(approximate multicollinearity)或或交交 互互 相相 关关(intercorrelated)。第8页,本讲稿共39页 注意:注意:完全共线性的情
8、况并不多见,一般出现完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线的是在一定程度上的共线性,即近似共线性。性。但无论是解释变量之间严格的线性关但无论是解释变量之间严格的线性关系还是较严重的近似线性关系,都会给多系还是较严重的近似线性关系,都会给多元线性回归分析造成严重的不利影响,甚元线性回归分析造成严重的不利影响,甚至导致回归模型完全失效。至导致回归模型完全失效。第9页,本讲稿共39页(一)多重共线性的理论后果(一)多重共线性的理论后果vOLSOLS估计量仍保持估计量仍保持BLUEBLUE性质性质(高斯(高斯-马尔科夫马尔科夫定理仍然成立)定理仍然成立)v完全多重共线性
9、导致参数的完全多重共线性导致参数的OLSOLS估计量无法估计量无法求出(也可以理解为方差无穷大)求出(也可以理解为方差无穷大)。v近似多重共线性导致参数的近似多重共线性导致参数的OLSOLS估计量的方差估计量的方差大幅提高大幅提高二、二、多重共线性的后果多重共线性的后果第10页,本讲稿共39页 1.1.虽虽是线性无偏且最小方差,但其方差是一个非常大的是线性无偏且最小方差,但其方差是一个非常大的数值,故其数值,故其估计的精度下降估计的精度下降;2.回归系数的置信区间加宽,导致接受零假设的可能性回归系数的置信区间加宽,导致接受零假设的可能性增大增大,从而从而t t 检验失效检验失效 3.3.R R
10、2 2 可能很大,可能很大,F F统计值也很高;统计值也很高;4.4.最小二乘最小二乘估计量估计量及其及其标准差标准差都都对数据的微小变化非常敏感;对数据的微小变化非常敏感;5 5、模型预测、模型预测置信区间加宽,预测方差加大,以至置信区间加宽,预测方差加大,以至失去预测的意义失去预测的意义(二)多重共线性的实际后果(二)多重共线性的实际后果(理论后果的具体表现理论后果的具体表现)二、二、多重共线性的后果多重共线性的后果第11页,本讲稿共39页完全多重共线性及其危害完全多重共线性及其危害v严格多重共线性不是由于数据原因引起,通常是由于模型把有严格联系严格多重共线性不是由于数据原因引起,通常是由
11、于模型把有严格联系的变量引进同一个模型,或者由于虚拟变量设置不当(如陷入虚拟变量的变量引进同一个模型,或者由于虚拟变量设置不当(如陷入虚拟变量陷阱的情况)而引起的。陷阱的情况)而引起的。v对模型对模型 的最小二乘估计量为的最小二乘估计量为 如果存在如果存在完全共线性完全共线性,则,则 不存在,无法得到参数的估不存在,无法得到参数的估计量。计量。第12页,本讲稿共39页v以三变量回归模型为例:以三变量回归模型为例:回归方程为:回归方程为:第13页,本讲稿共39页则求参数最小二乘估计量的正规方程组为:则求参数最小二乘估计量的正规方程组为:第14页,本讲稿共39页设设 和和 两个变量之间有严格的线性
12、关系两个变量之间有严格的线性关系 则则 也成立,把该关系式代入上述正规方程组中的第二个也成立,把该关系式代入上述正规方程组中的第二个式子,可得式子,可得很显然,这个方程和原正规方程组中的第一个式子相同,这时方程很显然,这个方程和原正规方程组中的第一个式子相同,这时方程组不再只有一组解而有无穷组解,这就意味着,被解释变量究竟受组不再只有一组解而有无穷组解,这就意味着,被解释变量究竟受哪些变量的影响无法识别。完全多重共线性使多元线性回归模型的哪些变量的影响无法识别。完全多重共线性使多元线性回归模型的参数估计失败,回归分析无法进行。参数估计失败,回归分析无法进行。第15页,本讲稿共39页 完全多重共
13、线性是由于在模型设定时把完全多重共线性是由于在模型设定时把严格联严格联系的变量引进同一个模型系的变量引进同一个模型,或者是,或者是由于虚拟变量由于虚拟变量设置不当设置不当引起的。引起的。因此对完全共线性的处理比较简单,只需要针对因此对完全共线性的处理比较简单,只需要针对性的修改模型,放弃和调整引起完全共线性的部分变性的修改模型,放弃和调整引起完全共线性的部分变量即可。注意,不能放弃形成线性关系的所有解释变量即可。注意,不能放弃形成线性关系的所有解释变量,否则造成解释变量缺落,使模型失去研究意义。量,否则造成解释变量缺落,使模型失去研究意义。第16页,本讲稿共39页近似多重共线性的原因近似多重共
14、线性的原因v近似多重共线性既与变量选择有关,也与数据有关。虽然由于解释变量的选择不当,把内在相关性较强的变量引进同一个模型,是导致近似多重共线性的重要原因,但近似多重共线性更经常的原因是经济数据的共同趋势。v如:时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。第17页,本讲稿共39页近似多重共线性的影响近似多重共线性的影响v近似多重共线性不会导致参数估计失效,最小二乘参数估计能够得到唯近似多重共线性不会导致参数估计失效,最小二乘参数估计能够得到
15、唯一解。在模型存在多重共线性的情况下,参数的最小二乘估计仍然是最一解。在模型存在多重共线性的情况下,参数的最小二乘估计仍然是最小方差线性无偏估计。但小方差线性无偏估计。但参数估计量的方差的绝对水平会随着多重共线参数估计量的方差的绝对水平会随着多重共线性程度的提高急剧上升性程度的提高急剧上升。因此,强的近似多重共线性会对多元回归的有。因此,强的近似多重共线性会对多元回归的有效性产生严重的不利影响。效性产生严重的不利影响。v如果用如果用 记为变量记为变量 的离差平方和,的离差平方和,记为变量记为变量 对对其余其余K-1个解释变量的回归平方和,个解释变量的回归平方和,表示原模型第表示原模型第k个解释
16、变量个解释变量对其余对其余K1个解释变量回归的决定系数,那么个解释变量回归的决定系数,那么 的方差可以写成的方差可以写成第18页,本讲稿共39页近似多重共线性的影响近似多重共线性的影响v如果第如果第k个解释变量与其余个解释变量与其余K1个解释变量完全没个解释变量完全没有相关性,那么有相关性,那么 。v当第当第k个解释变量与其他解释变量之间有相关性时,个解释变量与其他解释变量之间有相关性时,。v当第当第k个解释变量与其他解释变量之间有很强的相个解释变量与其他解释变量之间有很强的相关性时,关性时,接近于接近于1,此时,此时 第19页,本讲稿共39页(一)多重共线性问题的诊断原则:(一)多重共线性问
17、题的诊断原则:v多重共线性是一个样本问题,即使在总体中诸多重共线性是一个样本问题,即使在总体中诸X X变量变量没有逻辑和理论上的线性关系,但在具体的样本仍可能没有逻辑和理论上的线性关系,但在具体的样本仍可能有线性关系有线性关系。v多重共线性的根源是多重共线性的根源是解释变量之间的样本相关性解释变量之间的样本相关性,因,因此分析解释变量之间的此分析解释变量之间的样本相关性样本相关性,进行单相关或多,进行单相关或多元相关性的分析检验,是发现和判断多重共线性问元相关性的分析检验,是发现和判断多重共线性问题的基本方法题的基本方法v多重共线性的发现和判断是克服和处理多重共线多重共线性的发现和判断是克服和
18、处理多重共线性问题的基础性问题的基础。三、三、多重共线性的诊断多重共线性的诊断第20页,本讲稿共39页(二)(二)多重共线性问题的多重共线性问题的诊断方法诊断方法 1 1、初步诊断:、初步诊断:R R2 2值高而显著的值高而显著的t t比率少比率少 2 2、单相关检验:检验回归元两两之间的相关系数、单相关检验:检验回归元两两之间的相关系数 3 3、多元相关检验:检查偏相关多元相关检验:检查偏相关 v它只是充分条件而不是必要条件 v偏相关系数不能保证对多重共线性提供一 个准确的指南。第21页,本讲稿共39页4 4、辅助回归:做每个解释变量对其他剩余变量的回归并、辅助回归:做每个解释变量对其他剩余
19、变量的回归并计算相应的计算相应的R R2 2值。其中的每一个回归都被称为是值。其中的每一个回归都被称为是从属或者辅从属或者辅助回归助回归。(二)多重共线性问题的诊断方法(二)多重共线性问题的诊断方法第22页,本讲稿共39页5 5、容许度与方差膨胀因子、容许度与方差膨胀因子(二)多重共线性问题的诊断方法(二)多重共线性问题的诊断方法6 6、其他一些方法:、其他一些方法:比如主成分分析法等第23页,本讲稿共39页多重共线性表现形式和原因很多,并且由于数据问题导致的多重共线性表现形式和原因很多,并且由于数据问题导致的多重共线性具有隐蔽性,使多重共线性的发现和判断比较困多重共线性具有隐蔽性,使多重共线
20、性的发现和判断比较困难。难。多重共线性的发现和判断是克服和处理多重共线性问题的基础。多重共线性的发现和判断是克服和处理多重共线性问题的基础。多重共线性的根源是解释变量之间的相关性,因此多重共线性的根源是解释变量之间的相关性,因此分析解释变分析解释变量之间的相关性量之间的相关性,进行,进行单相关单相关或或多元相关性多元相关性的的分析检验分析检验,是发,是发现和判断多重共线性问题的现和判断多重共线性问题的基本方法基本方法。由于解释变量之间的相关性程度不一样,所以要确定模型确实存由于解释变量之间的相关性程度不一样,所以要确定模型确实存在比较严重的共线性问题就必须在比较严重的共线性问题就必须结合参数符
21、号的估计、参数大小结合参数符号的估计、参数大小和显著性是否异常,或者参数估计是否表现出很大的不稳定性和显著性是否异常,或者参数估计是否表现出很大的不稳定性等等来判断。来判断。第24页,本讲稿共39页四、多重共线性的克服和处理四、多重共线性的克服和处理(一)增加样本容量(一)增加样本容量(二)差分方程(二)差分方程(三)模型修正(三)模型修正(四)分步估计参数(四)分步估计参数第25页,本讲稿共39页(一)增加样本容量(一)增加样本容量v由于近似多重共线性意味着由于近似多重共线性意味着 对任意对任意i i都必须成立,因此若样本容量较小,近似多重共线都必须成立,因此若样本容量较小,近似多重共线性的
22、可能性就较大;若性的可能性就较大;若样本容量大,近似多重共线性的可能性就小。样本容量大,近似多重共线性的可能性就小。但增加样本容量并不必然降低多重共线性,若增加的数据和原来的数但增加样本容量并不必然降低多重共线性,若增加的数据和原来的数据有基本相同的性质这时增加样本容量没有帮助。据有基本相同的性质这时增加样本容量没有帮助。v很多情况下无法增加新的样本,常见的替代方法是很多情况下无法增加新的样本,常见的替代方法是横截面与时横截面与时间序列数据并用间序列数据并用。(。(混合数据混合数据和和面板数据面板数据)第26页,本讲稿共39页(二)差分方程(二)差分方程v线性回归模型为线性回归模型为 且已知且
23、已知 和和 之间存在多重共线性问题。之间存在多重共线性问题。作如下变换:作如下变换:改用差分方程改用差分方程 进行回归,受多重共线性的影响比较小。进行回归,受多重共线性的影响比较小。第27页,本讲稿共39页v注意:用差分方程解决多重共线性问题可能会导致误差项出现序列相关。运用差分模型往往会使参数估计的方差变大,样本容量减小。v如果原模型既有多重共线性问题,又有较强的一阶正自相关,那么差分方法可以同时消除多重共线性和序列相关的影响。(二)差分方程(二)差分方程第28页,本讲稿共39页(三)模型修正(三)模型修正1 1、删减解释变量、删减解释变量2 2、逐步回归法、逐步回归法3 3、先验信息参数约
24、束、先验信息参数约束第29页,本讲稿共39页1 1、删减或合并解释变量、删减或合并解释变量v引起多重共线性的原因中其一是在模型中引入过多的、有内在联系的解释变量,在这种情况下,如果删掉一些与其它解释变量意义相近的变量,可以起到降低多重共线性的作用。v如资产和流动资产,收入和财富之间就常有很强的相关性,在他们都对被解释变量有显著影响时,可只选择其中一个。第30页,本讲稿共39页2 2、逐步回归法、逐步回归法 以以Y Y为被解释变量,逐个引入解释变量,构成回归模为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。型,进行模型估计。根据拟合优度的变化决定新引入的变量是根据拟合优度的变化决定新
25、引入的变量是否独立。否独立。如果拟合优度变化显著如果拟合优度变化显著,则说明新引入的变量,则说明新引入的变量是一个独立解释变量;是一个独立解释变量;如果拟合优度变化很不显著如果拟合优度变化很不显著,则说明新引入,则说明新引入的变量与其它变量之间存在共线性关系。的变量与其它变量之间存在共线性关系。第31页,本讲稿共39页3 3、先验信息参数约束、先验信息参数约束 例:生产函数 ,经对数变换为:如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足 就可以克服多重共线性。第32页,本讲稿共39页(四)分步估计参数(四)分步估计参数例:研究需求规律的模型 可以先求出下面模型中参数 的估计值
26、。前一个模型变为 整理这个模型可以得到 从而估计出 和 的估计值 和 ,得到克服了多重共线性的回归直线第33页,本讲稿共39页案例分析案例分析一、研究的目的要求一、研究的目的要求 提出研究的问题提出研究的问题为了规划中国未来国内旅游产业为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。的主要因素。二、模型设定及其估计二、模型设定及其估计 影响因素分析与确定影响因素分析与确定影响因素主要有国内旅游影响因素主要有国内旅游人数人数X2X2 ,城镇居民人均旅游支出,城镇居民人均旅游支出X3X3 ,农村居民人均,农村居民人
27、均旅游支出旅游支出X4X4 ,并以公路里程次,并以公路里程次X5X5 和铁路里程和铁路里程X6X6 作为相关基础设施的代表作为相关基础设施的代表 理论模型的设定理论模型的设定其中其中 :YtYt 第第 t t 年全国国内旅游收入年全国国内旅游收入第34页,本讲稿共39页数据的收集与处理年年份份国内旅游国内旅游收入收入Y Y(亿亿元)元)国内旅国内旅游人数游人数X2X2(万人次)(万人次)城城镇镇居民人居民人均旅游支出均旅游支出X3X3(元)(元)农农村居民人村居民人均旅游支出均旅游支出X4 X4(元)(元)公路里公路里程程 X5X5(万公里)(万公里)铁铁路里路里程程X6X6(万公里)(万公里
28、)199419941023.51023.55240052400414.7414.754.954.9111.78111.785.905.90199519951375.71375.76290062900464.0464.061.561.5115.70115.705.975.97199619961638.41638.46390063900534.1534.170.570.5118.58118.586.496.49199719972112.72112.76440064400599.8599.8145.7145.7122.64122.646.606.60199819982391.22391.269450
29、69450607.0607.0197.0197.0127.85127.856.646.64199919992831.92831.97190071900614.8614.8249.5249.5135.17135.176.746.74200020003175.53175.57440074400678.6678.6226.6226.6140.27140.276.876.87200120013522.43522.47840078400708.3708.3212.7212.7169.80169.807.017.01200220023878.43878.48780087800739.7739.7209.1
30、209.1176.52176.527.197.19200320033442.33442.38700087000684.9684.9200.0200.0180.98180.987.307.30数据来源:中国统计年鉴2004第35页,本讲稿共39页该模型,可决系数很高,F检验值173.3525,明显显著。但是当时、不仅 、系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。OLS OLS 法估计的结果法估计的结果第36页,本讲稿共39页计算各解释变量的相关系数计算各解释变量的相关系数 表明各解释变量间确实存在严重的多重共线性表明各解释变量间确实存在严重的多重共线性第
31、37页,本讲稿共39页消除多重共线性采用逐步回归法检验和解决多重供线性问题。采用逐步回归法检验和解决多重供线性问题。分别作分别作Y Y 对对X2X2、X3X3、X4X4、X5X5、X6X6的一元回归的一元回归 变变量量X2X3X4X5X6参数估参数估计值计值0.08429.052311.667334.33242014.146t 统计统计量量8.665913.15985.19676.46758.74870.90370.95580.77150.83940.9054的大小排序为:的大小排序为:X3、X6、X2、X5、X4。以以X3为基础,顺次加入其他变量逐步回归,过程从略为基础,顺次加入其他变量逐步
32、回归,过程从略第38页,本讲稿共39页 最后消除多重共线性的结果最后消除多重共线性的结果 这说明,在其他因素不变的情况下,当城镇居民人均旅游支出这说明,在其他因素不变的情况下,当城镇居民人均旅游支出 和农村居民人均旅游支出和农村居民人均旅游支出 分别增长分别增长1 1元时,国内旅游收入元时,国内旅游收入 将分别增长将分别增长4.214.21亿元和亿元和3.22 3.22 亿元。在其他因素不变的情况下,亿元。在其他因素不变的情况下,作为旅游设施的代表,公路里程作为旅游设施的代表,公路里程 每增加每增加1 1万公里时万公里时,国内旅游国内旅游收入收入 将增长将增长13.6313.63亿元。亿元。回归结果的解释与分析回归结果的解释与分析t=(-8.2537)(3.9502)(4.6945)(3.0633)F=231.7958 DW=1.9520第39页,本讲稿共39页