《多重共线性.ppt》由会员分享,可在线阅读,更多相关《多重共线性.ppt(78页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二部分 计量经济学检验,问题的提出,在前述基本假定下OLS估计具有BLUE的优良性。 然而实际问题中,这些基本假定往往不能满足,使OLS方法失效不再具有BLUE特性。 估计参数时,必须检验基本假定是否满足,并针对基本假定不满足的情况,采取相应的补救措施或者新的方法。 检验基本假定是否满足的检验称为计量经济学检验,回顾6项基本假定,(1)解释变量间不相关(无多重共线性) (2)E(ui)=0 (随机项均值为零) (3)Var(ui)=2 (同方差) (4)Cov(ui, uj)=0(随机项无自相关) (5)Cov(X, ui)=0(随机项与解释变量X不相关) (6)随机扰动项服从正态分布。,u
2、p,1. 线性特征 是 的线性函数,2. 无偏特性 3. 最小方差特性 在所有的线性无偏估计中,OLS估计 具有最小方差 结论:在古典假定条件下,OLS估计式是最佳线性无 偏估计式(BLUE),OLS估计式的统计性质高斯定理,up,不满足基本假定的情形,1、解释变量之间相关=多重共线 2、随机扰动项方差不等于常数=异方差 截面数据时,经常出现异方差 3、随机扰动项相关=序列自相关 时间序列数据经常出现序列相关,解决问题的思路,1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、后果 3、违反基本假定的检验 4、违反基本假定的补救措施,up,什么是多重共线性 多重共线性产生的后果(1)
3、多重共线性的检验 多重共线性的补救措施(2) 案例分析 本章小结,本章讨论,第四章 多重共线性,第一节 什么是多重共线性,两个实例,例1:某地区为研究不同家庭的消费Y与收入X2 的关系,在此基础上,还引进了消费者家庭财富 状况X3作为第二个解释变量。回归方程为:,SE =(6.7525) (0.8229)(0.0807),t =(3.6690) (1.1442)(- 0.5261),F924020,= 24.7747 + 0.9415X2 - 0.0424*X3 (1),消费支出、收入和财富的截面数据 单位:美元,消费支出,收入,财富,这一回归结果说明什么? 可决系数和修正可决系数都很理想 F
4、统计量高度显著,说明X1、X2联合 对Y的影响显著 各变量参数的t检验都不显著,不能否定等于零的假设 财产变量的系数竟然与预期的符号相反。,仅对Y和X2的回归,看会出现什么情况: Y=24.4545+ 0.5091X2 (2) (6.4138) (0.0357) (3.8128) (14.2432) 在二元线性模型(1)中,收入变量是统计上不显著 的,而在现在的一元线性模型(2)中则是高度显著 的。 同样,我们做对Y和X3的回归 Y=24.411+ 0.0498X3 (3) (6.874) (0.0037) (3.551) (13.29) 我们看到财富现在对消费支出也有显著的影响,再比如课本例
5、题发展农业和建筑业会减少财政收入吗?,为了分析各主要因素对财政收入的影响,建立财政收入模型: 其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2007年 采用普通最小二乘法得到以下估计结果,可决系数为0.989654,校正的可决系数为0.986955,模型拟合很好。模型对财政收入的解释程度高达98.7%。 F统计量为366.6801,说明0.05水平下回归方程整体上显著。 t 检验结果表明,除了农业增加值、建筑业增加值以外,其
6、他因素对财政收入影响均不显著。 农业增加值的回归系数是负数。 农业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?,模型估计与检验结果分析,一. 多重共线性的概念,多重共线性:在多元线性回归模型中,解释变量之间存在着完全的线性关系或接近的线性关系,完全多重共线性,近似多重共线性,不存在多重共线性只说明解释变量之间没有线性关系,而不排除他们之间存在某种非线性关系,1、 经济变量的共同变化趋势 许多经济变量在随时间的变化过程中往往存在共同的变动趋势。这就使得它们之间容易产生多重共线性。例如在经济繁荣时期,收入、消费、储
7、蓄、投资、就业都趋向于增长;在经济衰退时期,都趋向于下降。如果将这些变量作为解释变量同时引入模型,则它们之间极有可能存在很强的相关性。,二、产生多重共线性的原因,2、模型中采用滞后变量,例如:在计量经济模型中,往往需要引入滞后变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。,3、用截面数据建立模型也可能出现多重共线性,比如建立企业生产函数模型,以产出量为解释变量,选择资本、劳动、技术等投入要素为解释变量。而这些投入要素的数量往往与产出量呈正比,产出量高的企业,投入的各种要素都比较多,这就使得投入要素之间出现线性相关性。,一般来讲,解释变量
8、之间存在多重共线性是难以避免的,所以在多元线性回归模型中,我们关心的并不是多重共线性的有无,而是多重共线性的程度。当多重共线性程度过高时,给最小二乘估计量带来严重的后果。因此,我们追求的也是使多重共线性的程度尽可能地减弱。,up,第二节 多重共线性产生的后果,一、完全多重共线性下的后果 二、不完全多重共线性下的后果,up,1、参数估计值不确定,一、完全多重共线性下的后果,例:以二元线性回归模型为例,EVIEWS遇到完全多重共线性时,会显示 Near singular matrix,无法进行估计,2、参数估计值的方差无限大,即:,up,1、估计量的方差增大,由于,1/(1-r2) 称为方差膨胀因
9、子(Variance Inflating Factor),记成VIF。,方差膨胀因子,二、不完全多重共线性下的后果,2.t检验容易作出错误的判断 3.可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。,up,练习题4.5,从模型拟合结果可知,样本观测个数为27,消费模型的判定系数,F统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F临界值为3.028,计算的F值远大于临界值,表明回归方程是显著的。模型整体拟合程度较高。 依据参数估计量及其标准误,可计算出各回归系数估计量的t统计量值:,除t1外,其
10、余的t值都很小。工资收入X1的系数的t检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。 另外,理论上非工资非农业收入与农业收入也是消费行为的重要解释变量,但两者的t检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。,up,习题,up,第三节 多重共线性的检验,一、简单相关系数检验法 二、方差膨胀因子 三、综合判断法 四、逐步回归检测法,up,一、简单相关系数检验法,含义:简单相关系数检验法是利用解
11、释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。 判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。,例如(例1),Quickgroup statistics-correlation X1 X2 X1 1 0.999 X2 0.999 1 说明 X1、X2近似完全线性关系。可以判定模型存在严重的多重共线性,例如(引子),注意: 较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数
12、进行多重共线性的准确判断。,up,二、方差膨胀因子,在二元回归模型中,VIF表明:当x1、x2高 度相关时(r121),VIF+;OLS估计 量的方差将成倍增长,直至趋于无穷大。 经验: VIF5,存在轻度的多重共线性 5VIF10,存在较重的多重共线性 VIF10,存在严重的多重共线性,多元中VIF怎么表示呢,VIFi=1/(1-Ri2) 其中Ri2表示第i个解释变量用其他解释变量辅助线性回归的可决系数 VIF方法直观,但是Eviews不能直接计算VIF的数值。需要逐个进行回归,较为麻烦。,up,三、综合判断法,另外判断参数估计值的符号,如果不符合经济理论或实际情况,可能存在多重共线性。,u
13、p,四、逐步回归检测法,逐步回归的基本思想 将变量逐个的引入模型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行t 检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。,up,第四节 多重共线性的补救措施,一、删除不重要的解释变量 二、增加样本容量 三、利用差分变换 四、利用先验信息 五、数据的结合 六、逐步回归法,up,二、增加样本容量,建模时样本数据太少,易产生多重共线性。 例如,二元线性回归模型,u
14、p,先验信息:在此之前的研究成果所提供的信息。 利用某些先验信息,将信息重叠的一些变量合为一个变量,从而消除共线性。 例如建立模型为: Y= a0+a1X1+a2X2+u 此时发现被解释变量存在多重共线性,且根据资料可得到a1=1/4a2,如何解决多重共线性?,四、利用先验信息,up,例如,对国民经济生产函数研究,建立回归方程:,若通过经济理论分析或经验判断可认为该经济系统 存在规模效益不变的特征,即有,上述回归模型就转变为:,即可将Y对L和K的二元双对数线性回归模型转化为劳动生产率(资本产出率)Y/L对劳动资本装备程度(劳动对资本的投入率)K/L的一元双对数线性回归模型,避免了多重共线性的影
15、响。,up,五、数据的结合,如果经济计量建模利用的是时间序列数据(又存在多重共线性),可考虑用时间序列数据与截面数据相结合的办法来修正多重共性的影响,up,三、利用差分变换,一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。,则模型变化为,up,六、逐步回归法,首先,用因变量Y对每一个解释变量Xi分别进行回归,从中确定一个基本回归方程。 然后,逐一引入其它解释变量,重新再作回归,逐步扩大模型的规模。,引入每个新变量之后,如果 1) 拟合优度得以改进( 提高),而且每个参数统计检验显著,则引入的变量保留; 2) 拟合优度无明显提高甚至下降,对其他参数无明显影响,则舍弃该变量. 3)拟合优度
16、提高,但方程内其他参数的符号和数值明显变化,可以肯定产生了严重多重共线性。,注意: 这时对于3), 需考察变量间线性相关的形式和程度,经过经济意义的综合权衡,在线性相关程度最高的两个变量中,略去其中对因变量影响较小,经济意义相对次要的一个,保留影响较大,经济意义相对重要的一个。此时不宜轻率舍去新引入变量,否则会造成模型设定偏误和随机项与解释变量相关的后果。,up,一、删除不重要的解释变量,up,习题,1、关于线性回归模型中F检验与t检验的关系,描述错误的是 A.一元模型中F检验与t检验是等价的 B. 多元模型中,t检验全部通过时,F检验一定通过 C. 多元模型中,至少有一个变量的t检验通过时,
17、F检验一定通过 D. 多元模型中,F检验通过时,t检验一定全部通过,A.1.00 B.1.33 C.1.45 D.2.00,2、在对多元线性计量经济学模型进行经济意义检验时,发现某些参数估计量的符号是反号的,违背经济常识,同时,发现解释变量间相关程度较高,这说明模型很可能存在( ) A.异方差性 B. 多重共线性 C.序列相关性 D.设定误差,4、下列各项中,不属于解决多重共线性的方法的是() A.删除不必要的解释变量 B.增大样本容量 C.加权最小二乘法 D.逐步回归法,1、变量不存在两两高度相关表示不存在高度多重共线性。 2、多重共线性的存在降低OLS估计的方差。 3. 多重共线性问题是随
18、机扰动项违背古典假定引起的。 4、如果有某一辅助回归显示出高的值 ,则高度共线性的存在是肯定无疑的了.( ),回答下列问题 (1)请根据上表中已由数据,填写表中画线处缺失结果(注意给出计算步骤); (2)模型是否存在多重共线性?为什么?,up,第五节 案例分析,一、研究的目的要求 提出研究的问题为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。 二、模型设定及其估计 影响因素分析与确定影响因素主要有国内旅游 人数 ,城镇居民人均旅游支出 ,农村居民人均 旅游支出 ,并以公路里程次 和铁路里程 作为相关基础设施的代表 理论模型的设定 其中 : 第 t 年全
19、国国内旅游收入,数据的收集与处理,该模型,,,可决系数很高,F检验值 593.4168,明显显著。 但是当,时,、,不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。,OLS 法估计的结果,计算各解释变量的相关系数,表明各解释变量间确实存在严重的多重共线性,三、消除多重共线性,采用逐步回归法检验和解决多重供线性问题。 分别作Y 对X2、X3、X4、X5、X6的一元回归,以X2为基础,顺次加入其他变量逐步回归,过程从略 (见教材),最后消除多重共线性的结果,这说明,在其他因素不变的情况下,当国内旅游人数X2每增加 1万人次,城镇居民人均旅游花费X3和农
20、村居民人均旅游花费X4 分别增长1元时,国内旅游收入 将分别增长0.0435亿元、 3.666亿元和2.1768亿元。,四、回归结果的解释与分析,t =(-10.5998) (16.0418) (3.8314) (1.9744),F=841.4324 DW=1.1763,up,案例2,表 估计天津市粮食需求的数据,第四章 小结,1.多重共线性是指各个解释变量之间有准确或近似 准确的线性关系。 2.多重共线性的后果: 如果各个解释变量之间有完全的共线性,则它们的 回归系数是不确定的,并且它们的方差会无穷大。 如果共线性是高度的但不完全的,回归系数可估计, 但有较大的标准误差。回归系数不能准确地估计。,3.诊断共线性的方法: (1)简单相关系数检验法 (2)方差膨胀因子法 (3)综合判断法 (4)逐步回归检测法,4.降低多重共线性的经验方法: (1)增加样本容量 (2)利用先验信息 (3)数据的结合 (4)利用差分变换 (5)逐步回归法(重点),up,