《Lecture3浙江大学朱燕建中级计量经济学课件剖析.ppt》由会员分享,可在线阅读,更多相关《Lecture3浙江大学朱燕建中级计量经济学课件剖析.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2引子:引子:发展农业和建筑业会如何影响财政收入?发展农业和建筑业会如何影响财政收入? 为了分析各主要因素对财政收入的影响,建立财政收为了分析各主要因素对财政收入的影响,建立财政收入模型入模型:其中其中: CS财政收入财政收入(亿元亿元) ; NZ农业增加值农业增加值(亿元亿元); GZ工业增加值工业增加值(亿元亿元); JZZ建筑业增加值建筑业增加值(亿元亿元); TPOP总人口总人口(万人万人); CUM最终消费最终消费(亿元亿元); SZM受灾面积受灾面积(万公顷万公顷) 数据样本时期数据样本时期1978年年-2003年(资料来源:年(资料来源:中国统计年鉴中国统计年鉴2004,中国统计
2、出版社,中国统计出版社2004年版)年版) iiiiiiiiuSZMCUMTPOPJZZGZNZCS65432103财政收入模型的财政收入模型的SASSAS估计结果估计结果见见SAS分析结果分析结果4 可决系数为可决系数为0.9950.995,校正的可决系数为,校正的可决系数为0.9930.993,模型,模型拟合很好。模型对财政收入的解释程度高达拟合很好。模型对财政收入的解释程度高达99.5%99.5%。 F F统计量为统计量为632.10632.10,说明,说明0.050.05水平下回归方程整体水平下回归方程整体上显著。上显著。 t t 检验结果表明,除了农业增加值、工业增加值检验结果表明,
3、除了农业增加值、工业增加值和总人口以外,其他因素对财政收入影响均不显著。和总人口以外,其他因素对财政收入影响均不显著。 农业增加值和建筑业增加值的回归系数是负数。农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗?农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?若模型设定和数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析模型估计与检验结果分析5 本讲讨论四个问题:本讲讨论四个问题: 什么是多重共线性什么是多重共线性
4、多重共线性产生的后果多重共线性产生的后果 多重共线性的检验多重共线性的检验 多重共线性的补救措施多重共线性的补救措施6第一节第一节 什么是多重共线性什么是多重共线性 本节基本内容本节基本内容: : 多重共线性的含义多重共线性的含义 解释变量关系与相关指标解释变量关系与相关指标 产生多重共线性的背景产生多重共线性的背景 7n 完全共线性完全共线性 对于解释变量对于解释变量 ,如果存在不全为,如果存在不全为0的的 数数 ,使得,使得 此时,此时, ,表明在数据矩阵,表明在数据矩阵 中,至中,至少有一个列向量可以用其余的列向量线性表示,少有一个列向量可以用其余的列向量线性表示,则说明存在完全的共线性
5、。则说明存在完全的共线性。1k,.1122.01,2,.,iikkiXXXin 12,kXXX一、多重共线性的含义一、多重共线性的含义*()RankkXX8 多重共线性多重共线性对于解释变量对于解释变量,存在不全为存在不全为0的数的数,使得使得 为随机变量。这表明解释变量为随机变量。这表明解释变量只是一种近似的线性关系只是一种近似的线性关系。其中其中,12,kX XX12, k1122.01, 2,.,iikkiiXXXuin 12,kXXXiu一、多重共线性的含义(续)一、多重共线性的含义(续)9二、解释变量关系与相关指标二、解释变量关系与相关指标考虑二元线性回归:考虑二元线性回归:指标1:
6、指标2:指标3:样本简单相关系数21122212iiiiiixx xx xx xx01122iiiiYXXu1 122iiiyxxrank x x12122212,iiiix xr XXxx10指标4:矩阵行列式指标5:逆矩阵221122212122212222121iiiiiiiiiiiixx xx xxxx xx xxxxr21212221122222112222222121111111iiiiiiiiiiiixx xx xx xxx xrxrrxxrxrrxx11情形情形1 1:正交:正交指标1:指标2:指标3:样本简单相关系数212200iixx xx12120iix xx x2ran
7、k x x 12122212,0iiiix xr XXxx12指标4:矩阵行列式指标5:逆矩阵2122122200iiiixx xxxx2211221221001010iiiixxx xxx xx13情形情形2 2:完全共线性:完全共线性指标1:指标2:指标3:样本简单相关系数221122222121iiiiiiixx xx xxx xx1212222212212,iiiiiiixxxxx xxxx1rank x x 12122212,1iiiix xr XXxx 14指标4:矩阵行列式指标5:逆矩阵不存在22201ix xx15情形情形3 3:多重共线性:多重共线性指标1:指标2:22222
8、21iiiexx xx2rank x x 1212221222222222221222iiiiiiiiiiiiiixxvxxex xxx exxxx eexe16指标3:相关系数指标4:矩阵行列式指标5:逆矩阵222iix xxe2212222211iiiiieex xexe222211iirex数值举例(见数值举例(见SAS程序)程序)X的关系XX秩相关系数行列式逆矩阵正交201完全共线110不存在多重贡献(强)20.90.1920.990.0220.9990.002多重贡献(弱)20.10.9920.190.96420.1990.9610.9990.9991500.25499.75499.
9、75500.2510.90.91100150.2549.7549.7550.2510011.010.10.11.0110.10.115.264.744.745.261.0410.2070.2071.04110.190.1911.0370.1970.1971.03710.1990.199110.90.90.8110.990.99118 三、产生多重共线性的背景三、产生多重共线性的背景 对多重共线性的理解对多重共线性的理解一种样本现象一种样本现象介于正交与完全共线之间,不是有无问题,而是程介于正交与完全共线之间,不是有无问题,而是程度问题度问题深层次的后果是对矩阵深层次的后果是对矩阵XX的影响的影
10、响19 多重共线性产生的经济背景主要有几种情形:多重共线性产生的经济背景主要有几种情形:经济变量之间具有共同变化趋势;经济变量之间具有共同变化趋势;模型中包含滞后变量模型中包含滞后变量模型设定错误模型设定错误 20第二节第二节 多重共线性产生的后果多重共线性产生的后果 本节基本内容本节基本内容: : 正交时的情形正交时的情形 完全共线性产生的后果完全共线性产生的后果 多重共线性产生的后果多重共线性产生的后果21关心系数与系数方差协方差阵关心系数与系数方差协方差阵 111*2212*,variiiix yxxxy xyx yxx01122iiiiYXXu1 122iiiyxx以下结果以二元回归为
11、例:以下结果以二元回归为例:22一、正交时一、正交时 211112*1222212222221122*1222122210,1010varvar,var10iiiiiiiiiiiiiiiixx yx yx yxxxyx yxxxxxxxxx结论?结论?23二、完全共线性产生的后果二、完全共线性产生的后果1. 参数的估计值不唯一参数的估计值不唯一12*22122221iiiiiiixxx xx yx yxx y假设:解不唯一2422111222221212()()-()()()()-()iiiiiiiiiiiy xxy xx xxxx x21221212221212()()-()()()()-(
12、)iiiiiiiiiiiy xxy xx xxxx x20010012iixxn 事实上,原二元模型退化为一元模型事实上,原二元模型退化为一元模型只能确定综合参数的估计值只能确定综合参数的估计值0122iiiYXu21222iiix yx估计252.参数估计值的方差无限大参数估计值的方差无限大OLS估计式的方差成为无穷大:估计式的方差成为无穷大: 2-1Var-Cov( )()XX2Var()jjj c 2222221222121222221122221212iiiiiiiiiiiixxVarx xxxx xxxVarx xxxx x 2221212200iixVarxVar 12iixx26
13、 三、多重共线性产生的后果三、多重共线性产生的后果 1. 参数的估计值可计算,但不稳定参数的估计值可计算,但不稳定 22111222221212()()-()()()()-()iiiiiiiiiiiy xxy xx xxxx x21221212221212()()-()()()()-()iiiiiiiiiiiy xxy xx xxxx x12iiixxv1222222222222222222222iiiiiiiixvxxxvxx数值举例(见SAS程序)112211221122110.92.80.912.923.5710.992.80.9912.96.4348.5710.9992.80.9991
14、2.951.43 112211221122110.11.20.112.120.8310.191.20.1912.11.940.8110.1991.20.19912.11.94282.参数估计的方差增大参数估计的方差增大 2221222121221222221212iiiiiiiiiixVarxxx xxVarxxx x 22122211212212212222221211111iiiiiiiVarxrx xxxxVarxr相关性越相关性越高,参数高,参数估计量的估计量的方差越大方差越大二元回归的方差扩二元回归的方差扩大因子(大因子(VIF)293.对参数区间估计时,置信区间趋于变大对参数区间估
15、计时,置信区间趋于变大4.假设检验容易作出错误的判断假设检验容易作出错误的判断5.可能造成可决系数较高,但对各个参数单独的可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。符号相反,得出完全错误的结论。 2( -1)2( -1)(-,)jjn kjjjn kjjt ct c相关系数平方00.50.80.90.950.960.970.980.990.999方差扩大因子12510202533501001000当完全共线时,2r=1,)var(130 第三节第三节 多重共线性的检验多重共线性
16、的检验 本节基本内容:本节基本内容: 简单相关系数检验法简单相关系数检验法 直观判断法直观判断法 辅助回归法辅助回归法 方差扩大(膨胀)因子法方差扩大(膨胀)因子法31一、简单相关系数检验法一、简单相关系数检验法 含义:含义:简单相关系数检验法是利用解释变量之间的线简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简性相关程度去判断是否存在严重多重共线性的一种简便方法。便方法。 判断规则:判断规则:一般而言,如果每两个解释变量的简单相一般而言,如果每两个解释变量的简单相关系数比较高,例如大于关系数比较高,例如大于0.5,则可认为存在着较严重,则可认为存在着较严
17、重的多重共线性。的多重共线性。32 注意:注意: 较高的简单相关系数只是多重共线性存在的充分条件,而较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。不能简单地依据相关系数进行多重共线性的准确判断。举例:见举例:见SAS程序程序33二、直观判断法二、直观判断法 1. 当增加或剔除一个解释变量,或者改变一个观测当增加或剔除一个解释变量,或者改变一个
18、观测值时,回归参数的估计值发生较大变化,回归方值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。程可能存在严重的多重共线性。 2. 从定性分析认为,一些重要的解释变量的回归系从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性检验时,可初步判断可能存在严重的多重共线性。性。343. 有些解释变量的回归系数所带正负号与定性分析结有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。果违背时,很可能存在多重共线性。举例:朗利(举例:朗利(L
19、ongley)数据)数据35三、辅助回归法三、辅助回归法 以某一解释变量以某一解释变量 为被解释变量,以其余解释为被解释变量,以其余解释变量作为新的解释变量,进行一个新的回归分析,变量作为新的解释变量,进行一个新的回归分析,得出回归的拟合优度得出回归的拟合优度 和总显著性检验的和总显著性检验的F统统计量值计量值 若若F检验检验 显著,可以认为存在明显的多重共显著,可以认为存在明显的多重共线性问题线性问题 若存在部分若存在部分j有有 ,则可以怀疑存在,则可以怀疑存在多重共线性问题;多重共线性问题; 若对于所有的若对于所有的j都有都有 ,则表明存在明,则表明存在明显的多重共线性问题显的多重共线性问
20、题 举举例见例见SAS程序程序jX2jRjFjF22jRR22jRR36 四、方差扩大(膨胀)因子法四、方差扩大(膨胀)因子法 101110122221122222221122221varvarvarvar111varvar1111111jjjjkkjkjjjjjjjjjjVIFYXXuYXuxRxRRVIFRR其中:对应于多元回归对应于简单回归可以证明:辅助回归拟合优辅助回归拟合优度度37经验规则经验规则方差膨胀因子越大,表明解释变量之间的多重共性越严方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于重。反过来,方差膨胀因子越接近于1,多重共线性越弱。,多重共线
21、性越弱。经验表明,方差膨胀因子经验表明,方差膨胀因子5时,说明解释变量与其余解时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。会过度地影响最小二乘估计。另一相关指标为容忍度另一相关指标为容忍度TOL = 1/VIFTOL = 1/VIF举例见举例见SASSAS程序程序38第四节第四节 多重共线性的补救措多重共线性的补救措施施 本节基本内容本节基本内容: : 修正多重共线性的经验方法修正多重共线性的经验方法 逐步回归法逐步回归法 岭回归法岭回归法 主成份回归法主成份回归法39一、修正多重共线性的
22、经验方法一、修正多重共线性的经验方法 1. 剔除变量法剔除变量法把方差扩大因子最大者所对应的自变量首先把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。不再存在严重的多重共线性。注意注意: 若剔除了重要变量,可能引起模型的设若剔除了重要变量,可能引起模型的设定误差。定误差。40 2. 增大样本容量增大样本容量如果样本容量增加,会减小回归参数的方差,如果样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。够
23、多的样本数据可以改进模型参数的估计。问题:问题:增加样本数据在实际计量分析中常面临增加样本数据在实际计量分析中常面临许多困难。许多困难。41 3. 变换模型形式变换模型形式一般而言,差分后变量之间的相关性要比差分一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。线性的可能性,此时可直接估计差分方程。问题:问题:差分会丢失一些信息,差分模型的误差差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要
24、慎重。归模型的相关假设,在具体运用时要慎重。42 4. 利用非样本先验信息利用非样本先验信息通过经济理论分析能够得到某些参数之间的关通过经济理论分析能够得到某些参数之间的关系,可以将这种关系作为约束条件,将此约束系,可以将这种关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估条件和样本信息结合起来进行约束最小二乘估计。计。01122iiiiYXXu210.201iiiYXu120.2iiiXXX43 5. 横截面数据与时序数据并用横截面数据与时序数据并用首先利用横截面数据估计出部分参数,再利用时序数据首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到
25、整个方程参数的估计。估计出另外的部分参数,最后得到整个方程参数的估计。 注意:注意:这里包含着假设,即参数的横截面估计和从纯粹这里包含着假设,即参数的横截面估计和从纯粹时间序列分析中得到的估计是一样的。时间序列分析中得到的估计是一样的。 ttttuIPYlnlnln321ttPYln21*iiIYlnln*31第一步第一步(横截面数据横截面数据)tttIYYlnln*3第二步第二步(时间序列数据时间序列数据)44 6. 变量变换变量变换变量变换的主要方法:变量变换的主要方法:(1)计算相对指标计算相对指标 (2)将名义数据转换为实际数据将名义数据转换为实际数据 (3)将小类指标合并成大类指标将
26、小类指标合并成大类指标 变量数据的变换有时可得到较好的结果,但无变量数据的变换有时可得到较好的结果,但无法保证一定可以得到很好的结果。法保证一定可以得到很好的结果。45 二、逐步回归法二、逐步回归法(1)用被解释变量对每一个所考虑的解释变量做简)用被解释变量对每一个所考虑的解释变量做简单回归。单回归。(2)以对被解释变量贡献最大的解释变量所对应的)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。序逐个引入其余的解释变量。 若新变量的引入改进了若新变量的引入改进了 和和 检验,且回归参数的检验,
27、且回归参数的t t 检验在统计上也是显著的,则在模型中保留该变量。检验在统计上也是显著的,则在模型中保留该变量。F2R46 若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且对其他回归参数检验,且对其他回归参数估计值的估计值的t t 检验也未带来什么影响,则认为该变量是多余变检验也未带来什么影响,则认为该变量是多余变量。量。 若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且显著地影响了其检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通他回归参数估计值的数值或符号,同时本身的回归参数也通不过不过t t 检验,说明出现了严重的多重共线性。检验,说明出
28、现了严重的多重共线性。2RFF2R47 三、岭回归法三、岭回归法岭回归分析实际上是一种改良的最小二乘法,是一种专门用岭回归分析实际上是一种改良的最小二乘法,是一种专门用于共线性数据分析的有偏估计回归方法(于共线性数据分析的有偏估计回归方法(A.E.Hoerl提出)提出)当自变量间存在共线性时,当自变量间存在共线性时, 是奇异的,也就是说它的行列是奇异的,也就是说它的行列式的值也接近于零(或者说该矩阵有接近于零的特征根),式的值也接近于零(或者说该矩阵有接近于零的特征根),此时此时OLS估计将失效。岭回归就是用估计将失效。岭回归就是用 代替正规方程代替正规方程中的中的 。 r 为岭回归系数为岭回
29、归系数XX()X XrDXX2022222102,1,ijjikddDdY dXjkdDI 或者取48岭回归的参数估计式为岭回归的参数估计式为r越大,则越大,则 对对 的偏差越大,但方差越小,的偏差越大,但方差越小,理论选择:理论选择:实际操作为:对实际操作为:对r进行搜索,直到估计的系数趋进行搜索,直到估计的系数趋于稳定于稳定具体操作见具体操作见SAS软件软件1( )()rX XrDXY( ) r2min( )var( )Biasrr49 四、主成份回归法四、主成份回归法 原理原理主成分法是通过线性变换,将原来的多个指标组合成主成分法是通过线性变换,将原来的多个指标组合成相互独立的少数几个能
30、充分反映总体信息的指标,从相互独立的少数几个能充分反映总体信息的指标,从而在不丢掉重要信息的前提下避开变量间共线性问题,而在不丢掉重要信息的前提下避开变量间共线性问题,便于进一步分析。便于进一步分析。这些主成分从不同侧面反映解释变量的综合影响,并这些主成分从不同侧面反映解释变量的综合影响,并且互不相关。因此,可以将被解释变量关于这些主成且互不相关。因此,可以将被解释变量关于这些主成分进行回归,再根据主成分与解释变量之间的对应关分进行回归,再根据主成分与解释变量之间的对应关系,求得原回归模型的估计方程。系,求得原回归模型的估计方程。 主成份定义主成份定义501111111111 1,(1),1,
31、(2) ,(3)(4)kkjkjjkkjjjjkjkkkjjjjjjkkxxxzzzzxxzxxxjkzzz zx xz zz z ,称为主成分,需满足如下条件:为的线性组合:其中,两两正交总变差不变:51 求主成分步骤求主成分步骤 计算解释变量的相关系数矩阵计算解释变量的相关系数矩阵 计算计算R的的 k 个特征值个特征值 ,以及相应的标准化正交特征向量以及相应的标准化正交特征向量 max12min0k12,k *112211*111122211*1122222*1122,1,jjjkkjkjkjjkkkkkkkkkkzxxxxxxjxxxxxxkzzxxzx*Rx x52利用特征值检验多重共
32、线性。模型存在多重共线性时,至利用特征值检验多重共线性。模型存在多重共线性时,至少有一个特征值近似地等于零少有一个特征值近似地等于零计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 贡献率贡献率: : 累计贡献率累计贡献率1(1, 2,)ikjjik11(1, 2,)ijjkjjik一般取累计贡献率达一般取累计贡献率达8595%的特征值的特征值 所所对 应 的 第 一 、 第对 应 的 第 一 、 第二、二、第、第m(mk)个主成分个主成分m,2153 解释变量前解释变量前m个主成份表示为个主成份表示为各个观测值的综合得分各个观测值的综合得分被解释变量与上面被解释变量与上面m个主成份进
33、行回归个主成份进行回归*1 122mmaaayzzze*1112211*1122222*112122kkkkmmkkmmxxxxxzzxzxxx1111mmkkjjjjSCOREzz根据主成份与原解释变量的关系,将主成份关系式代入上根据主成份与原解释变量的关系,将主成份关系式代入上面回归方程,得到面回归方程,得到y与与x的回归方程的回归方程54*1 122mm*1122*1 1*1111 1aaaaaammkkkkkkkyzzzeyxxxeb xb xexxybbeyxxyc xc xe55小结小结1.多重共线性是指多重共线性是指各个解释变量之间有近似准确的线性各个解释变量之间有近似准确的线性
34、关系。关系。2.共线性的后果:共线性的后果: 如果各个解释变量之间有完全的共线性,则它们的如果各个解释变量之间有完全的共线性,则它们的 回归系数是不确定的,并且它们的方差会无穷大。回归系数是不确定的,并且它们的方差会无穷大。 如果共线性是高度的但不完全的,回归系数可估计,如果共线性是高度的但不完全的,回归系数可估计, 但有较大的标准误差。回归系数不能稳定地估计。但有较大的标准误差。回归系数不能稳定地估计。56 3.诊断共线性的方法:诊断共线性的方法: (1) 表现为可决系数异常高而回归系数的表现为可决系数异常高而回归系数的t 检验不显著。检验不显著。 (2) 变量之间的零阶或简单相关系数。多个
35、解释变量时,较低变量之间的零阶或简单相关系数。多个解释变量时,较低的零阶相关也可能出现多重共线性。的零阶相关也可能出现多重共线性。 (3) 用解释变量间辅助回归的可决系数判断(方差扩大因子用解释变量间辅助回归的可决系数判断(方差扩大因子法)。法)。57 4.降低多重共线性的经验方法:降低多重共线性的经验方法: (1)利用外部或先验信息;利用外部或先验信息; (2)横截面与时间序列数据并用;横截面与时间序列数据并用; (3)剔除高度共线性的变量剔除高度共线性的变量(如逐步回归如逐步回归); (4)数据转换;数据转换; (5)获取补充数据或新数据;获取补充数据或新数据; (6)选择有偏估计量(如岭回归)。选择有偏估计量(如岭回归)。 (7)主成份分析。主成份分析。 经验方法的效果取决于数据的性质和共线性的严重程度。经验方法的效果取决于数据的性质和共线性的严重程度。58本本 讲讲 结结 束束 了!了!