《多重共线性讲稿.ppt》由会员分享,可在线阅读,更多相关《多重共线性讲稿.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多重共线性第一页,讲稿共五十二页哦一、多重共线性的概念一、多重共线性的概念第二页,讲稿共五十二页哦1、多重共线性、多重共线性 对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n (2.6.1)其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为如果某两个或多个解释变量之间出现了相关性,则称为多重共线性多重共线性。第三页,讲稿共五十二页哦 如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n (2.6.2)其中:ci不全为0,即某一个解释变量可以用其它解释变量某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在的线性
2、组合表示,则称为解释变量间存在完全共线性完全共线性。如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n (2.6.3)其中ci不全为0,为随机误差项,则称为一般共线性一般共线性(近似共线近似共线性性)或或交互相关交互相关(intercorrelated)。第四页,讲稿共五十二页哦 在矩阵表示的线性回归模型 Y=XB+N中,完全共线性指:秩完全共线性指:秩(X)k+1,即矩阵knnnkkXXXXXXXXXX212221212111111中,至少有一列向量可由其他列向量(不包括第一列)线性表出。第五页,讲稿共五十二页哦 例如例如,X2=X1,这时X1与X2的相关系数为1,解释变
3、量X2对因变量的作用完全可由X1代替。注意:注意:完全共线性的情况并不多见,一般出现的是在一定完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性程度上的共线性,即近似共线性。第六页,讲稿共五十二页哦2、实际经济问题中的多重共线性现象、实际经济问题中的多重共线性现象 经济变量的共同变化趋势经济变量的共同变化趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。第七页,讲稿共五十二页哦 滞后变量的引入滞后变量的引入 在计量经济
4、模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。第八页,讲稿共五十二页哦 一般经验一般经验 对于采用对于采用时间序列数据时间序列数据作样本、以简单线性形式建作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。立的计量经济学模型,往往存在多重共线性。以以截面数据截面数据作样本时,问题不那么严重,但多重共作样本时,问题不那么严重,但多重共线性仍然是存在的。线性仍然是存在的。第九页,讲稿共五十二页哦二、多重共线性的后果二、多重共线性的后果第十页,讲稿共五十二页哦 1 1、完全共线性下参数估计量不存在、完全共线性
5、下参数估计量不存在多元线性模型 YX的普通最小二乘参数估计量为:()X XX Y1 (2.6.4)如果存在完全共线性,则如果存在完全共线性,则(XX)-1不存在,无法得到不存在,无法得到参数的估计量。参数的估计量。第十一页,讲稿共五十二页哦例例如如:对一个离差形式的二元回归模型 2211xxy 如果两个解释变量完全相关,如12xx,则有221212212121221221211iiiiiiiiiiixxxxxxxxxxxXX1121iiiiiiyxyxyxYX第十二页,讲稿共五十二页哦该回归模型的正规方程为 YXBX)X(或 iiiiiyxxxx1212211 iiiiiyxxxx222212
6、1解该线性方程组得:002122121212121211221221212222111iiiiiiiiiiiiiiiiiiiiiiixxxxxyxxyxxxxxxxxyxxxyx1为不定式;同理,2也为不定式,其值无法确定。第十三页,讲稿共五十二页哦事实上,当12xx时,原二元回归模型退化为一元回归模型:121)(xy只能确定综合参数21的估计值:21121iiixyx第十四页,讲稿共五十二页哦2 2、近似共线性下普通最小二乘法参数估计、近似共线性下普通最小二乘法参数估计量非有效量非有效 在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为 12)(
7、)(XXCov 可见,由于此时|XX|0,引起(XX)-1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。第十五页,讲稿共五十二页哦仍以一元模型中1为例,1的方差为2221221212221222122211121)(1/)()()var(iiiiiiiiiixxxxxxxxxxXX 2221221)(iiiixxxx恰为1x与2x的线性相关系数的平方2r,由于2r1,故1112 r。第十六页,讲稿共五十二页哦即:多重共线性使参数估计值的方差增大,多重共线性使参数估计值的方差增大,方差扩方差扩大因子大因子(Variance Inflation Factor)为为1/(1-
8、r2),其增大趋势见下表:当完完全全不不共共线线时,2r=0,2121/)var(ix当不完全共线不完全共线(近似共线)时,102 r,2122212111)var(iixrx相关系数平方00.50.80.90.950.960.970.980.990.999方差扩大因子12510202533501001000当完全共线时,2r=1,)var(1第十七页,讲稿共五十二页哦3 3、参数估计量经济含义不合理、参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如果模型中两个解释变量具有线性相关性,例如如X1和和X2,那么它们中的一个变量可以由另一个变量,那么它们中的一个变量可以由另一个
9、变量表征。表征。这时,这时,X1和和X2前的参数并不反映各自与被解释变前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共量之间的结构关系,而是反映它们对被解释变量的共同影响。同影响。所以各自的参数已经失去了应有的经济含义,于是经所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。恰是负的。第十八页,讲稿共五十二页哦4 4、变量的显著性检验失去意义、变量的显著性检验失去意义存在多重共线性时存在多重共线性时参数估计值的方差与标准差变大参数估计值的方差与标准差变大使使t统计量
10、的拒绝域变小(临界值增大)统计量的拒绝域变小(临界值增大)容易使通过样本计算的容易使通过样本计算的t值小于临界值,值小于临界值,误导作出参数为误导作出参数为0的推断的推断可能将重要的解释变量排除在模型之外可能将重要的解释变量排除在模型之外第十九页,讲稿共五十二页哦5 5、模型的预测功能失效、模型的预测功能失效 变大的方差容易使区间预测的变大的方差容易使区间预测的“区间区间”变大,使预测失变大,使预测失去意义。去意义。能否说:如果存在完全共线性,预测值的置信区间为能否说:如果存在完全共线性,预测值的置信区间为(,+)?)?第二十页,讲稿共五十二页哦三、多重共线性的检验三、多重共线性的检验第二十一
11、页,讲稿共五十二页哦 由于多重共线性表现为解释变量之间具有相关关系,由于多重共线性表现为解释变量之间具有相关关系,所以所以用于多重共线性的检验方法主要是统计方法:用于多重共线性的检验方法主要是统计方法:如如判定系数检验法判定系数检验法、逐步回归检验法逐步回归检验法等等。多重共线性检验的任务多重共线性检验的任务是:是:(1)检验多重共线性是否存在;)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之)估计多重共线性的范围,即判断哪些变量之间存在共线性。间存在共线性。第二十二页,讲稿共五十二页哦1 1、检验多重共线性是否存在、检验多重共线性是否存在 (1)(1)对两个解释变量的模
12、型,采用对两个解释变量的模型,采用简单相关系数法简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(2)(2)对多个解释变量的模型,采用对多个解释变量的模型,采用综合统计检验法综合统计检验法 若 在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。第二十三页,讲稿共五十二页哦2 2、判明存在多重共线性的范围、判明存在多重共线性的范围(1)判定系数检验法判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回
13、归计算,并计算相应的拟合优度,也称为判定系数。如果在某一种形式 Xji=1X1i+2X2i+LXLi中判定系数较大,则说明在该形式中作为被解释变量的Xj可以用其他X的线性组合代替,即Xj与其他X之间存在共线性。第二十四页,讲稿共五十二页哦 等价的检验是对上述回归方程作等价的检验是对上述回归方程作F F检验检验 式中:Rj2为第j个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则Rj2较大且接近于1,这时(1-Rj2)较小,从而Fj的值较大。因此,可以在给定的显著性水平下,通过计算F值的方法进行检验。构造如下 F 统计量:)1,2()1/()1()2/(2.2.knkFknRk
14、RFjjj第二十五页,讲稿共五十二页哦 另一等价的检验另一等价的检验:在模型中排除某一个解释变量在模型中排除某一个解释变量Xj,估计模型,如果拟,估计模型,如果拟合优度与包含合优度与包含Xj时十分接近,则说明时十分接近,则说明Xj与其它解释变量与其它解释变量之间存在共线性。之间存在共线性。第二十六页,讲稿共五十二页哦(2)逐步回归法逐步回归法 以以Y为被解释变量,逐个引入解释变量,构成回归为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否可以根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释
15、用其它变量的线性组合代替,而不作为独立的解释变量。变量。如果拟合优度变化显著,如果拟合优度变化显著,则说明新引入的变量是一则说明新引入的变量是一个独立解释变量;个独立解释变量;如果拟合优度变化很不显著如果拟合优度变化很不显著,则说明新引入的变量,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。代替,也就是说它与其它变量之间存在共线性关系。第二十七页,讲稿共五十二页哦四、克服多重共线性的方法四、克服多重共线性的方法第二十八页,讲稿共五十二页哦 1 1、第一类方法:排除引起共线性的变量、
16、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,是最找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。以逐步回归法得为有效的克服多重共线性问题的方法。以逐步回归法得到最广泛的应用。到最广泛的应用。注意:注意:剩余解释变量参数的经济含义和数值都发生了变化。剩余解释变量参数的经济含义和数值都发生了变化。第二十九页,讲稿共五十二页哦2 2、第二类方法:差分法、第二类方法:差分法 对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 Yi=1 X1i+2 X2i+k Xki+i可以有效地消除存在于原
17、模型中的多重共线性。一般讲,增量之间的线性关系远比总量之间的线性一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。关系弱得多。第三十页,讲稿共五十二页哦例如例如:在中国消费模型中的:在中国消费模型中的2个变量个变量:收入(Y:GDP)与消费 C 的总量与增量数据YC(-1)C(-1)/YYC(-1)C(-1)/Y1981490129760.60721982548933090.60285883330.56631983607636380.59965873290.56051984716440210.561310883830.35201985879246940.533916286730.4134
18、19861013357730.5697144110790.748819871178465420.555216517690.465819881470474510.506729209090.311319891646693600.5684176219091.083199018320105560.5762185411960.6451199121280113620.533929608060.2723199225864131460.5083458417840.3892199334501159520.4624863728060.3249199447111201820.42841261042300.33541
19、99559405272160.45811229470340.5721199668498345290.5041909373130.8042第三十一页,讲稿共五十二页哦 由表中的比值可以直观地看到,由表中的比值可以直观地看到,两变量增量的线性两变量增量的线性关系弱于总量之间的线性关系。关系弱于总量之间的线性关系。进一步分析:进一步分析:Y与C(-1)之间的判定系数为0.9845,Y与C(-1)之间的判定系数为0.7456。一般认为:两个变量之间的判定系数大于0.8时,二者之间存在线性关系。所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。第三十二页,讲稿共五十二页哦3、
20、第三类方法:减小参数估计量的方差、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。重共线性造成的后果。例如,增加样本容量增加样本容量,可使参数估计量的方差减小。,可使参数估计量的方差减小。第三十三页,讲稿共五十二页哦 再如再如:岭回归法岭回归法(Ridge Regression)70年代发展的岭回归法,以引入偏误为代价减小参数以引入
21、偏误为代价减小参数估计量的方差,估计量的方差,受到人们的重视。具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即 D=aI (2.6.6)a为大于0的常数。显然,与未含显然,与未含D的参数的参数B的估计量相比,的估计量相比,(2.6.5)的估计的估计量有较小的方差。量有较小的方差。()X XDX Y1 (2.6.5)第三十四页,讲稿共五十二页哦五、案例一:服装市场需求函数五、案例一:服装市场需求函数第三十五页,讲稿共五十二页哦1 1、建立模型、建立模型 根据理论和经验分析,影响居民服装类支出的主要因素有:可支配收入、居民流动资产拥有量、服装价格指数、物价总指数。已知某地区
22、的有关资料,根据散点图判断,建立线性服装消费支出模型:Y=0+1X+2K+3P1+4P0+第三十六页,讲稿共五十二页哦2 2、样本数据、样本数据第三十七页,讲稿共五十二页哦 由于R2较大且接近于1,而且 F=638.4,大于临界值:F 0.05(4,5)=15.19,故认为服装支出与上述解释变量间总体线性关系显著。但由于参数K的估计值的t检验值较小(未能通过检验),故解释变量间存在多重共线性解释变量间存在多重共线性。(1)用用 OLS 法法估估计计上上述述模模型型:01334.0197.0001.010.020.13PPKXY (-1.76)(3.71)(0.30)(-2.20)(2.24)r
23、2=0.9980 R2=0.9965 F=638.43 3、估计模型、估计模型第三十八页,讲稿共五十二页哦(2)检验简单相关系数)检验简单相关系数 各解释变量间存在高度相关性,其中尤其以各解释变量间存在高度相关性,其中尤其以P1,P0间的相关系数为最高。间的相关系数为最高。列出 X,K,P1,P0 的相关系数矩阵:XKP1P0X10.9883 0.9804 0.9878K0.988310.9700 0.9695P10.9804 0.970010.9918P00.9878 0.9695 0.99181第三十九页,讲稿共五十二页哦(3)找出最简单的回归形式)找出最简单的回归形式 可见,应选可见,应
24、选为初始的回归模型。为初始的回归模型。分别作 Y 与 X,K,P1,P0 间的回归:XY118.024.1 KY327.0118.2 (-3.36)(42.48)(2.58)(15.31)2R=0.9950 F=1805.1 2R=0.9629 F=234.4 1516.05.38PY 0663.07.53PY (-9.16)(12.53)(-14.77)(18.66)2R=0.9455 F=157.1 2R=0.9747 F=348.1第四十页,讲稿共五十二页哦(4 4)逐步回归)逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。YCXKP1P02RF=f(X)-1.250
25、.120.99501805.1t 值-3.3642.49=f(X,P1)1.530.13-0.040.9958826.9t0.318.57-0.57=f(X,P1,K)1.060.14-0.04-0.040.9941509.0t0.215.70-0.68-0.53=f(X,P1,P0)-12.450.10-0.190.310.99701003.6t-1.927.55-2.472.59=f(X,P1,P0,K)-13.200.100.01-0.200.330.9965638.4-1.793.710.30-2.202.24第四十一页,讲稿共五十二页哦4 4、讨论:、讨论:在初始模型中引入在初始模型
26、中引入P1,模型拟合优度提高,且参数,模型拟合优度提高,且参数符号合理,但符号合理,但P1的的t检验未通过;检验未通过;再引入再引入K,拟合优度虽有提高,但,拟合优度虽有提高,但K与与P1的的t检验未能检验未能通过,且通过,且X与与P1的的t检验值及检验值及F检验值有所下降,表明引入检验值有所下降,表明引入K并未对回归模型带来明显的并未对回归模型带来明显的“好处好处”,K可能是多余的可能是多余的;去掉去掉K K,加入,加入P P0 0,拟合优度有所提高,且各解释变量,拟合优度有所提高,且各解释变量的的t t检验全部通过,检验全部通过,F F值也增大了。值也增大了。将将4 4个解释变量全部包括进
27、模型,拟合优度未有明显改个解释变量全部包括进模型,拟合优度未有明显改观,观,K K的的t t检验未能通过,检验未能通过,K K显然是多余的。显然是多余的。第四十二页,讲稿共五十二页哦 5 5、结论、结论回归方程以回归方程以Y=f(X,P1,P0)Y=f(X,P1,P0)为最优:为最优:Y=-12.45+0.10X-0.19P1+0.31P0Y=-12.45+0.10X-0.19P1+0.31P0第四十三页,讲稿共五十二页哦五、案例二:中国消费函数模型五、案例二:中国消费函数模型第四十四页,讲稿共五十二页哦1 1、OLSOLS估计结果估计结果Dependent Variable:CONS Met
28、hod:Least Squares Date:03/01/03 Time:00:46 Sample:1981 1996 Included observations:16 Variable Coefficient Std.Error t-Statistic Prob.C 540.5286 84.30153 6.411848 0.0000 GDP 0.480948 0.021861 22.00035 0.0000 CONS1 0.198545 0.047409 4.187969 0.0011 R-squared 0.999773 Mean dependent var 13618.94 Adjust
29、ed R-squared 0.999739 S.D.dependent var 11360.47 S.E.of regression 183.6831 Akaike info criterion 13.43166 Sum squared resid 438613.2 Schwarz criterion 13.57652 Log likelihood-104.4533 F-statistic 28682.51 Durbin-Watson stat 1.450101 Prob(F-statistic)0.000000 第四十五页,讲稿共五十二页哦2 2、差分法估计结果、差分法估计结果Depende
30、nt Variable:DCONS Method:Least Squares Date:03/18/03 Time:23:18 Sample(adjusted):1982 1996 Included observations:15 after adjusting endpoints Variable Coefficient Std.Error t-Statistic Prob.DGDP 0.496723 0.026879 18.48006 0.0000 DCONS1 0.158504 0.051678 3.067122 0.0090 R-squared 0.992686 Mean depend
31、ent var 2457.533 Adjusted R-squared 0.992123 S.D.dependent var 2422.687 S.E.of regression 215.0169 Akaike info criterion 13.70288 Sum squared resid 601019.5 Schwarz criterion 13.79728 Log likelihood-100.7716 Durbin-Watson stat 2.612102 第四十六页,讲稿共五十二页哦3 3、比较、比较1:0.480950.496722:0.198540.15850在消除了共线性后,
32、在消除了共线性后,GDP对对CONS的影响增大,的影响增大,CONS1对对CONS的影响减少。的影响减少。第四十七页,讲稿共五十二页哦六、分部回归与多重共线性六、分部回归与多重共线性第四十八页,讲稿共五十二页哦1 1、分部回归法、分部回归法(Partitioned Regression)(Partitioned Regression)对于模型YX将解释变量分为两部分,对应的参数也分为两部分:2211XXY在满足解释变量与随机误差项不相关的情况下,可以写出关于参数估计量的方程组:212212211121xxxxxxxxYXYX第四十九页,讲稿共五十二页哦如果存在)()()()(221111221
33、11111111XYXXXXXXXYXXX0XX21则有YXXX11111)(这就是仅以这就是仅以X X1 1作为解释变量时的参数估计量作为解释变量时的参数估计量。同样有YXXX21222)(这就是仅以这就是仅以X X2 2作为解释变量时的参数估计量作为解释变量时的参数估计量。第五十页,讲稿共五十二页哦2 2、由分部回归法导出、由分部回归法导出 如果一个多元线性模型的解释变量之间完全正交,如果一个多元线性模型的解释变量之间完全正交,可以将该多元模型分为多个一元模型、二元模型、可以将该多元模型分为多个一元模型、二元模型、进行估计,参数估计结果不变;进行估计,参数估计结果不变;实际模型由于存在或轻
34、或重的共线性,如果将它们分为多实际模型由于存在或轻或重的共线性,如果将它们分为多个一元模型、二元模型、个一元模型、二元模型、进行估计,参数估计结果将进行估计,参数估计结果将发生变化;发生变化;第五十一页,讲稿共五十二页哦 当模型存在共线性,将某个共线性变量去掉,剩当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经济含余变量的参数估计结果将发生变化,而且经济含义有发生变化;义有发生变化;严格地说,实际模型由于总存在一定程度的共线严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不性,所以每个参数估计量并不 真正反映对应变真正反映对应变量与被解释变量之间的结构关系。量与被解释变量之间的结构关系。第五十二页,讲稿共五十二页哦