《工具变量(IV):估计与检验ppt课件.ppt》由会员分享,可在线阅读,更多相关《工具变量(IV):估计与检验ppt课件.ppt(140页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、工具变量回归工具变量回归由来估计矩估计(不好)2SLS (最常用)GMM(异方差自相关);LIML(若IV)工具变量有效性检验相关性F检验; Partial R2,单内生解释变量Minimum eigenvalue statistic,最小特征值统计量,用于多内生解释变量外生性过度识别约束检验 J统计量(又称Sargan 统计量)解释变量内生性检验Hausman 检验寻找工具变量的方法:几个实例方法例子由来由来经典假设经典假设 所有的解释变量所有的解释变量X Xi i与随机误差项彼此与随机误差项彼此之间不相关。之间不相关。若解释变量若解释变量Xi和和ui相关,则相关,则OLS估计量是非一致估计
2、量是非一致的,也就是即使当样本容量很大时,的,也就是即使当样本容量很大时,OLS估计量估计量也不会接近回归系数的真值。也不会接近回归系数的真值。( ,)0iiCov u X造成误差项与回归变量相关(内生性)的原因造成误差项与回归变量相关(内生性)的原因很多,但我们主要考虑如下几个方面:很多,但我们主要考虑如下几个方面:遗漏变量变量遗漏变量变量变量有测量误差变量有测量误差双向因果关系双向因果关系。遗漏变量偏差遗漏变量偏差可采用在多元回归中加入遗漏变量可采用在多元回归中加入遗漏变量的方法加以解决,但前提是只有当你有遗漏变量的方法加以解决,但前提是只有当你有遗漏变量数据时上述方法才可行。数据时上述方
3、法才可行。双向因果关系偏差双向因果关系偏差是指如果有时因果关系是从是指如果有时因果关系是从X到到Y又从又从Y到到X时,此时仅用多元回归无法消除这时,此时仅用多元回归无法消除这一偏差。同样,一偏差。同样,变量有测量误差变量有测量误差也无法用我们前面学过的方法解也无法用我们前面学过的方法解决。决。因此我们就必须寻找一种新的方法。因此我们就必须寻找一种新的方法。工具变量工具变量(instrumental variable, IV)回回归是当回归变量归是当回归变量X与误差项与误差项u相关时获得总体相关时获得总体回归方程未知系数一致估计量的一般方法。回归方程未知系数一致估计量的一般方法。我们经常称其为我
4、们经常称其为IV估计估计。其其基本思想基本思想是:假设方程是:是:假设方程是:我们假设我们假设ui与与Xi相关,则相关,则OLS估计量一定是估计量一定是有偏的和非一致的。有偏的和非一致的。工具变量估计工具变量估计是利用另是利用另一个一个“工具工具”变量变量Z将将Xi分离成与分离成与ui相关和相关和不相关的两部分。不相关的两部分。在经济学中:在经济学中:(1)内生变量内生变量:由模型内的变量所决定:由模型内的变量所决定的变量称作内生变量。的变量称作内生变量。(2)外生变量外生变量:由模型外的变量所决定:由模型外的变量所决定的变量称作外生变量。的变量称作外生变量。重要概念:内生变量和外生变量重要概
5、念:内生变量和外生变量在计量经济学中,把所有与扰动项相关在计量经济学中,把所有与扰动项相关的解释变量都称为的解释变量都称为“内生变量内生变量”。这与。这与一般经济学理论中的定义有所不同。一般经济学理论中的定义有所不同。1。与误差项相关的变量称为。与误差项相关的变量称为内生变量内生变量(endogenous variable)。2。与误差项不相关的变量称为。与误差项不相关的变量称为外生变量外生变量(exogenous variable)。我们的工作就是要寻找相应的我们的工作就是要寻找相应的工具变量工具变量将解将解释变量分解成内生变量和外生变量,然后利释变量分解成内生变量和外生变量,然后利用用两阶
6、段最小二乘法两阶段最小二乘法(TSLS)进行估计。进行估计。一个例子:考虑货币政策对宏观经济的影响。一个例子:考虑货币政策对宏观经济的影响。由于货币政策的制定者会根据宏观经济的运由于货币政策的制定者会根据宏观经济的运行情况来调整货币政策,故货币政策是个内行情况来调整货币政策,故货币政策是个内生变量(双向因果关系)。生变量(双向因果关系)。Romer (2004)通过阅读历史文献将货币政策的变动分解为通过阅读历史文献将货币政策的变动分解为“内生内生”(对经济的反应)与(对经济的反应)与“外生外生”(货(货币当局的自主调整)的两部分。币当局的自主调整)的两部分。谁开创了工具变量回归?谁开创了工具变
7、量回归?1928年的著作的年的著作的“The Tariff on Animal and Vegetable Oils”的附录的附录B。作者是谁?作者是谁?Philip Wright 还是他的儿子还是他的儿子Sewall Wright文体计量学的分析文体计量学的分析为什么为什么IV回归是有效的?回归是有效的?例例1: Philip Wright的问题的问题Philip Wright关心的是那个时期的一个重要关心的是那个时期的一个重要经济问题:即如何对诸如黄油,大豆油这样的经济问题:即如何对诸如黄油,大豆油这样的动植物油和食用动物设置进口关税。在动植物油和食用动物设置进口关税。在20世世纪纪20年
8、代,进口关税是美国主要的税收收入年代,进口关税是美国主要的税收收入来源。而理解关税的经济效应的关键在于要有来源。而理解关税的经济效应的关键在于要有商品需求和供给曲线的定量估计。由前知供给商品需求和供给曲线的定量估计。由前知供给弹性为价格上涨弹性为价格上涨1%引起的供给量变化的百分引起的供给量变化的百分率,而需求弹性为价格上涨率,而需求弹性为价格上涨1%引起的需求量引起的需求量的百分率变化。的百分率变化。例如具休考虑黄油的需求弹性估计问题:例如具休考虑黄油的需求弹性估计问题:根据根据11个均衡样本点估计的方程究竟是需求函数还是个均衡样本点估计的方程究竟是需求函数还是供给函数?两者都不是。由于这些
9、点是由需求和供给供给函数?两者都不是。由于这些点是由需求和供给两者的变化确定的,因此用两者的变化确定的,因此用OLS拟合这些点的直线既拟合这些点的直线既不是需求曲线也不是供给曲线的估计。不是需求曲线也不是供给曲线的估计。利用这些样本点估计出来的利用这些样本点估计出来的OLS拟合线是需求曲拟合线是需求曲线还是供给曲线,都不是!两个极端的情况如图:线还是供给曲线,都不是!两个极端的情况如图:因此,由于这些点是由需求和供给两者的变化因此,由于这些点是由需求和供给两者的变化确定的,因此用确定的,因此用OLS拟合这些点的直线既不是拟合这些点的直线既不是需求曲线也不是供给曲线的估计。需求曲线也不是供给曲线
10、的估计。Wright的解决办法:的解决办法:1。找到第三个变量,。找到第三个变量,这个变量影响供给但不这个变量影响供给但不影响需求影响需求。这样,所有的均衡价格和均衡量对。这样,所有的均衡价格和均衡量对都落在这条稳定的需求曲线上,此时很容易估都落在这条稳定的需求曲线上,此时很容易估计出它的斜率。计出它的斜率。2。可见,这第三个变量,也就是工具变量,。可见,这第三个变量,也就是工具变量,它与价格相关它与价格相关(它使供给曲线移动,于是导致它使供给曲线移动,于是导致价格发生变化价格发生变化),但与,但与u无关无关(需求曲线保持不需求曲线保持不变变)。3。Wright考虑了几个可能的工具变量;考虑了
11、几个可能的工具变量;其中一个是天气。例如,某牧场的其中一个是天气。例如,某牧场的降雨量降雨量低于平均值会使牧草减少从而减少给定价低于平均值会使牧草减少从而减少给定价格时黄油的产量格时黄油的产量(会使供给曲线向左移动而会使供给曲线向左移动而使均衡价格上升使均衡价格上升),因此牧场地区降雨量满,因此牧场地区降雨量满足工具变量相关性的条件。但牧场地区降足工具变量相关性的条件。但牧场地区降雨量对黄油的需求没有直接影响,因此牧雨量对黄油的需求没有直接影响,因此牧场地区降雨量与场地区降雨量与ui的相关系数为零;也就是的相关系数为零;也就是牧场地区降雨量满足工具变量外生性条件。牧场地区降雨量满足工具变量外生
12、性条件。上图表明若某个变量使供给曲线移动而使需求保待不上图表明若某个变量使供给曲线移动而使需求保待不变时会发生什么样的情况。现在所有的均衡价格和均变时会发生什么样的情况。现在所有的均衡价格和均衡量对都落在这条稳定的需求曲线衡量对都落在这条稳定的需求曲线工具变量法的本质是联立方程,只不过,我们只关心原方程的可识别性估计:估计:矩估计、矩估计、TSLS、GMM、LIMLInstrumental VariableIV一、工具变量法( ,)ttttttwCov wp0pCov w0可以引入工具变量来解决内生变量问题。一个有效的工具变量应满足以下两个条件:(1)相关性:工具变量与内生解释变量相关,即,
13、为内生解释变量(2)外生性:工具变量与扰动项不相关,即,二、工具变量法作为一种矩估计Method of MomentsMM1、矩估计( ,) 222222xNE xE xVar xE x首先以一个例子来说明矩估计方法:假设随机变量,其中 ,为待估参数。因为有两个待估参数,故需要使用以下两个总体矩条件:一阶中心矩:二阶中心矩:用对应的样本矩来替代总体矩条件可得以下联立方程组,求解后即得到期望与方差的矩估计:nii=1n22n222ii=1ii=1nii=1nn222iii=1i=11xxn1xx1xnn1xxnxxxnx其中, 为样本均值,上面推导中用到: xf xE f xOLS任何随机向量
14、的函数的期望都被称为总体矩。事实上,也是一种矩估计。利用解释变量与扰动项的正交性,可以得到以下总体矩条件iiiiiiiii1iiiiiiE x0E xyx0E x yE x xE x xE x yE x x (假设可逆)1nn1MMiiiiOLSi=1i=111x xx yX XX ynnOLS以样本矩替代上式中的总体矩,即可得到矩估计:显然这就是估计量2、工具变量法作为一种矩估计i1i1k-1ik-1kikiikiki yxxxxCov x0OLS,假设回归模型为假设只有最后一个解释变量为内生变量,即,因此是不一致的。ikiii1k-1wCov xw0Cov w0 xx假设有一个有效工具变量
15、 满足,(相关性),以及,(外生性)。由于, ,不是内生变量,故可以把自己作为自己的工具变量(因为满足工具变量的两个条件)ii1ik-1ikiiiii1ik-1iki1ik-1ixxx x yxzzz zxx w,记解释变量向量,则原模型为 记工具变量向量为。iiiiiigzE gE z0定义。由于工具向量与扰动项正交,故 为总体矩条件或正交条件iiiiiiiii11iiiiiiE z0E zyx0E z yE z xE z xE z yE z x由此可得 (假定存在)1nn1IViiiii=1i=11n-1n1n-1n11z xz yZ XZ ynnZzz zZzz z以样本矩代替上式中的总
16、体矩,即可得到工具变量估计量:其中, 即下面是工具变量法的大样本性质:iiiiIVIVr E z xkE z x定理:若秩条件 成立(方阵满秩),则在一定的正则条件下,是 的一致估计且服从渐近正态分布1IVZ XZ y证明:抽样误差 11Z XZ XZ XZ 1nnp1iiiiZXi=1i=111z xzSgnn 1iii0nnZXiiiii=1i=1E z xE g011Sz xgznn其中,d2iiiiingN 0SSE g gEz z 与第三章大样本最小二乘法类似的假定和推导, 可以证明, 其中IVd1IVZXIV11IViiii1iinSngN 0AVarAVarE z xS E z
17、xE z x 进一步,工具变量估计量渐近服从正态分布,即,其中渐近方差矩阵用到为对称矩阵iiiir E z xkwx秩条件 意味着工具变量与内生解释变量 相关,若不相关,则秩条件无法满足。证略 izk123阶条件: 中至少包含 个变量根据是否满足阶条件可分为三种情况:不可识别:工具变量个数少于内生解释变量个数恰好识别:工具变量个数等于内生解释变量个数过度识别:工具变量个数多于内生解释变量个数1IVZ XZ X以上介绍的矩估计法仅适用于恰好识别的情况。在过度识别的情况下,不是方阵,不存在无法得到工具变量估计量。若扔掉多余的工具变量将会浪费有用的信息,有效的方法是二阶段最小二乘法三、二阶段最小二乘
18、法kSLS显然,多个工具变量的线性组合仍然是工具变量因为仍满足工具变量的两个条件(相关性与外生性)如果生成工具变量的 个线性组合,则又回到恰好识别的情形。那么什么样的线性组合才是最有效率的呢?可以证明在球形扰动项的假设下,由二阶段最小二乘法(2)所提供的工具变量线性组合是所有线性组合中最渐近有效的。这个结论类似于小样本理论中的高斯马尔可夫定理。1k1Li1inin 1ii1122kki1xxLzzOLSxxxi1kixxxPxxPxxPxxZyXyPyyXPZ Z ZZZ第一阶段:将每个解释变量 , ,分别对所有 个工具变量, ,作回归,其中, , , (注意,不同于第二章对第 个观测数据 的
19、定义)。相当于将 视作被解释变量。得到拟合值 , ,即 到 上的投影(相当于 对 求回归拟合值 ,即 到 上的投影)其中,为 的投影矩阵。写成矩阵形12k12k1 Xx x xP x xxPX ZZ ZZ X式 1L11IV2IVXzzXkXyX X XX yX XX y X XPXPXX P PXX P XPXXX XPPPPPyX 第二阶段:由于 是, ,的线性组合(参见第一阶段回归),故 恰好包含 个工具变量。使用为工具变量对原模型 进行工具变量法估计: 后一个等号能成立是由于,其中,投影矩阵 为对称幂等矩阵即 , 。因此,可以将视为把 对 进行OLS回归而得到,故名“二阶段最小二乘法”
20、22SLS2SLSeyXeyX注意,第二阶段回归所得到的残差为而原方程的残差却是(这是正确的)IVIV122IVOLSe e VarsX Xsn-k由于的表达式在形式上完全类似于估计量故在条件同方差的假设下,的协方差矩阵估计量为,其中,n112IViiii=1 VarX Xe x xX X在存在异方差的情况下,则应使用稳健的协方差矩阵估计量,即11IV12SLS111XZ Z ZZ XPZ Z ZZ2SLSX PXX PyX Z Z ZZ XX Z Z ZZ y将 (或将)代入的公式,可得的最终表达式: SLSGeneralized Method ofMomentsGMM在球型扰动项的假定下,
21、2是最有效的。但如果扰动项存在异方差或自相关,则存在更有效的方法即“广义矩估计”( ,)GMM估计GMMSLSGLSOLS在某种意义上,之于2,正如之于GMMOLS首先引入以下关于的假定(类似于第三章大样本的系列假定)iiiii1i2ikyxi1nxx x xi假定7.1:线性假定 , ,其中,为第 个观测数据iiiiiii7.2Lzxwyxzw假定: 渐近独立的平稳过程记 维工具变量为(可能与 有重叠部分),由, ,中不重复的变量构成,随机过程为渐近独立的平稳过程iiiiiiiizLgzgE gE z0假定7.3:工具变量的正交性所有工具变量 均为前定,即与同期扰动项正交。定义 维列向量(与
22、第三章中的 的定义不同) 则iiiiZXii7.4L kE z xr E z xkE z x假定: 秩条件矩阵列满秩,即 记 i2iiiii7.5g SE g gEz z假定: 为鞅差分序列,其协方差矩阵为非退化矩阵2ikijEx zijk假定7.6: 四阶矩存在且有限, , ,GMM六、的推导 iiinniiii=1E gE z01gzyx0n与总体矩条件 相对应的样本矩条件为: iIVkLzLk如果,为过度识别,则 无解。(通过举例来理解这三者的关系:过一个点可有无穷条直线,过两个点决定一条直线;过三个点或很多点既不能确定一条直线又可以确定一条直线) nnng0ggweighting ma
23、trixW此时传统的矩估计法行不通。可用统计归纳法即类似于最小二乘法的思想去寻找 ,使得向量尽可能地接近 ,比如,使二次型最小。更一般地,可以用一个权重矩阵( )来构成二次型 nnnGMMWL LplimWWWWminJWn gW gnGMMWargminJW假设一个依赖于样本数据的随机矩阵是一个阶对称正定矩阵,而且,其中为非随机的对称正定矩阵。的确定在下一节介绍。定义最小化的目标函数为 ,其中,因子 只是为了统计量计算方便而加上的,不影响最小化。定义“估计量”为此二次型最小化问题的解:, arg之意是返回一个使方框内的函数最小化的 的值GMMiGMMGMMWWgGMMGLS显然估计量取决于权
24、重矩阵,可以通过最优地选择使得最有效。可以让方差较小的 获得较大的权重而使的方差最小。因此,在某种意义上,与有相通之处。 niingz ezegJWOLS由的定义可知,它实际上是的样本平均数。由定义可知是 的一次函数,故,是 的二次(型)函数,通过向量微分可以得到其最小化问题的解(推导方法类似于估计量)(练习) nnZXiiZyiii=1i=1nnnnpAAp811Sz xSz ynnn gW gJWg2nW g推导过程:需用到第二章 7之(2.6)的推广,即 ,以及之(2.7)令, nnnnZyZXnZXZyZXZXZXZXZy1GMMZXZXZXZyggg2nW gSS2nW g2nSW
25、SS0SWSSWSWSWSSWS由于对二次型求导的结果是个列向量,而是列向量,将是个矩阵,故上式应为 ii1ZXZXr E z xkWSWS秩条件 及为正定矩阵保证了在大样本下的存在。ZX1111GMMZXZXZXZyZXZyIVSGMMWSWSSWSS S在恰好识别的情况下,为方阵,则还原为普通的工具变量法,因为GMM七、的大样本性质GMMOLS的大样本性质的证明思路与第三章的大样本性质的类似。 GMMGMMnGMMiidGMMGMM11GMMZXZXZXZXZXZXGMM17.1 7.4 plimW27.3E ggnN 0AVarAVarWWSWW 定理估计量的大样本性质 :为一致估计 在
26、假定之下,为渐近正态 如果假定 (即0)强化为假定7.5(即为鞅差分序列),则有,其中渐近协方差矩阵2iiiiiZXiiSE g gEz zE z x, GMMGMM11GMMZXZXZXZXZXZX3AVarSSAVarAVarSWSSWSWSSWS的一致估计量 若 是 的一致估计量,则在假定7.2下的一致估计量为 n1GMMZXZXZXiii=1n1ZXZXZXiiii=111WSWSSWz yn1SWSSWzxn证明: 抽样误差可以写为 n1ZXZXZXZXiii=1n1ZXZXZXiiiii=11SWSSW Szn1SWSSWg gggzn其中,11pZXZXZXZXppZXZXiii
27、pGMMiiSWSWSWWgE gE z0W0GMME z0 由于,而因此,。可见,保证一致性的最重要条件是 ,即工具变量与扰动项正交。 1GMMZXZXZX1GMMZXZXZXd2iiiii2WSWSSWgnWSWSSWng7.5ngN 0SSE g gEz z 由于抽样误差 故根据假定及鞅差分序列的中心极限定理,其中GMMdGMMGMM11pZXZXZXZXpZXZXnWngnWN 0AVarSWSWSWW 由于是的线性组合,故,。由于以及,GMM11ZXZXZXZXZXZX1ZXZXAVarWWSWWW故有,其中为对称矩阵。 pppZXZXGMM11ZXZXZXZXZXZXGMM3SSS
28、WWAVarSWSSWSWSSWSAVar 由于,而且,故估计量是的一致估计量,也是一个“三明治”估计量n22iiiii=1n222iiiii=12iiiii7.1 7.27.61eyxsen1ESe z znSE g gEz z定理:在假定、 与假定下,对于 的任何一致估计量 ,定义残差,则是的一致估计,而且是的一致估计GMM1AVaroptimal weighting matrixWS定理:使最小化的最优权重矩阵( )为1GMMS这意味着,使用任何其他权重矩阵进行估计其估计量的渐近方差矩阵都将大于或等于使用为权重的渐近方差矩阵,即前者与后者之差为半正定矩阵1SGMMGMMGMM定义:使用为
29、权重矩阵的估计量被称为“效率”或“最优”1n2iiii=1SS2SLS2SLS1Se z znGMM为了使用最优权重矩阵,首先必须估计 。由于也是一致的,故用的残差来计算也是一致的。因此可以进行以下“两步最优估计”n2iiii=111GMM12SLSSe z znJSS第一步:使用,得到残差,计算第二步:最小化,得到1GMMiterative GMMSS在实际操作中,常使用迭代法( )直至估计值收敛,即用第二步所获的残差再来计算 ,然后再求,依此迭代。GMMGMM2SLS在条件同方差的假定下,最优的表达式可以大大简化定理:在条件同方差的情况下,最优就是iiii22ii22iiiziiii222
30、ziiiiiiZZZZ112ZZzxEz0SE z zE E z zzEz z EzE z zSs S1SSZ ZnSs SGMM证明:这里的条件同方差是指,在给定工具变量而非解释变量 情况下的条件方差相同假设(条件同方差),则根据迭代期望定律,。因此是的一致估计量,其中,。使用为最优权重矩阵,则最优估计量为111122GMMZXZZZXZXZZZy111ZXZZZXZXZZZy2GMMSSs SSSs SSS S SS S Ss 上式中 被消去了,即最优权重矩阵的常数倍并不影响的取值。ZXZZZy111GMM11112SLS111SZ XSZ ZSZ ynnn111SX Z n Z ZZ X
31、X Znnn1n Z ZZ yX Z Z ZZ XX Z Z ZZ yn由于,故 111ZZGMMGMMSSS2SLSGMM可见,在条件同方差下,两步最优可以省略为一步。这是因为,两步最优中第一步的目的只是得到,而在条件同方差下,可以直接令。因此有时也被称为“一步”1GMMGMMNeweyWestGMMS在存在异方差的情况下,依然是稳健与最优的。在时间序列数据中,即使存在自相关,也仍然可以使用,只要采用异方差稳健的标准差(标准差)来进行统计推断即可。此时估计量依然满足一致性、渐近正态性、渐近有效性,只是最优权重矩阵的表达式不同。TSLS估计量的抽样分布估计量的抽样分布为了简单起见,我们仅考虑只
32、有一个回归变为了简单起见,我们仅考虑只有一个回归变量量X和一个工具变量和一个工具变量Z的情况。的情况。即,参数的即,参数的TSLS估计量估计量为为Z和和Y的样的样本协方差与本协方差与Z和和X的样本协的样本协方差之比。方差之比。假设原方程为:假设原方程为:即总体系数为即总体系数为Z和和Y的总体的总体协方差与协方差与Z和和X的总体协方的总体协方差之比。差之比。在香烟需求中的应用在香烟需求中的应用为了减少由于吸烟导致的疾病和死亡,以及为了减少由于吸烟导致的疾病和死亡,以及这些生病的人对社会其他成员产生的成本或这些生病的人对社会其他成员产生的成本或外部性,一种方法是对香烟征收重税从而减外部性,一种方法
33、是对香烟征收重税从而减少吸烟同时阻止潜在的新吸烟者。但具体需少吸烟同时阻止潜在的新吸烟者。但具体需要增加多大幅度的税收来削减香烟的消费呢?要增加多大幅度的税收来削减香烟的消费呢?例如,若要使香烟消费减少例如,若要使香烟消费减少20%则香烟的税则香烟的税后售价应该是多少?后售价应该是多少?若需求弹性为若需求弹性为-1,使价格上涨,使价格上涨20%就能达到就能达到减少减少20%消费量的目标。若弹性为消费量的目标。若弹性为-0.5,则,则价格必须上涨价格必须上涨40%才能使消费下降才能使消费下降20%。同同philip Wright对黄油的研究一样。我们无对黄油的研究一样。我们无法通过数量对数关于价
34、格对数的法通过数量对数关于价格对数的OLS回归得到回归得到香烟需求弹性的一致估计。香烟需求弹性的一致估计。我们利用我们利用TSLS和和1985-1995年美国年美国48个大个大陆州的年度数据估计了香烟的需求弹性。陆州的年度数据估计了香烟的需求弹性。模型假定:模型假定:被解释变量:被解释变量:香烟消费,即为州内每人购买香烟消费,即为州内每人购买的香烟包数。的香烟包数。内生解释变量:内生解释变量:包含所有税收的每包香烟的包含所有税收的每包香烟的实际平均价格。实际平均价格。工具变量:工具变量:由一般销售税征收的香烟税收。由一般销售税征收的香烟税收。这个工具变量设定是否合理?这个工具变量设定是否合理?
35、 工具变量的相关性:工具变量的相关性:由于高销售税增加了总的由于高销售税增加了总的销售价格销售价格 ,因此每包香烟的销售税满,因此每包香烟的销售税满足工具变量相关性的条件。足工具变量相关性的条件。工具变量的外生性:工具变量的外生性:若销售税是外生的,则必若销售税是外生的,则必须与需求方程中的误差无关;即销售税必然只须与需求方程中的误差无关;即销售税必然只是通过价格间接影响香烟的需求。这看上去是是通过价格间接影响香烟的需求。这看上去是合理的:主要是因为不同州选择了不同的销售合理的:主要是因为不同州选择了不同的销售额、收入、财产和其他公共财政事业的混合税额、收入、财产和其他公共财政事业的混合税收,
36、所以不同州的一般销售税是不同的。其中收,所以不同州的一般销售税是不同的。其中关于公共财政的选择受到政治考量的驱使而不关于公共财政的选择受到政治考量的驱使而不是受香烟需求有关的因素影响。是受香烟需求有关的因素影响。结论:这种工具变量的设置方法是合理的。结论:这种工具变量的设置方法是合理的。因此我们利用两阶段最小二乘法因此我们利用两阶段最小二乘法(TSLS):第一阶段结果:第一阶段结果:第二阶段结果:第二阶段结果:66香烟需求 (续) 67STATA 实例: 香烟需求,第一阶段68第二阶段69结合到一个命令中一般一般IV回归模型回归模型一般一般IV回归模型回归模型1. 因变量因变量 Yi。2. 外
37、生解释变量外生解释变量 Wi。3. 内生解释变量内生解释变量 Xi。4. 我们引入的工具变量我们引入的工具变量Zi。更为详细的说明更为详细的说明引入工具变量的个数引入工具变量的个数假设我们有假设我们有n个内生解释变量,引入了个内生解释变量,引入了m个工个工具变量,具变量,n和和m的关系是什么?的关系是什么?n=m 恰好识别恰好识别 nm 不可识别不可识别 只有恰好识别和过度识别才能用只有恰好识别和过度识别才能用IV方法估计。方法估计。一般一般IV模型的模型的TSLS对一般的对一般的IV回归模型,我们需要修改工具变量的相回归模型,我们需要修改工具变量的相关性和外生性条件。关性和外生性条件。相关性
38、条件:相关性条件:1. 当包含一个内生变量但有多个工具变量时,工具当包含一个内生变量但有多个工具变量时,工具变量相关性的条件为给定变量相关性的条件为给定W时至少有一个时至少有一个Z对预测对预测X是有用的(相关的)。是有用的(相关的)。2. 当包含多个内生变量时,不但要排除完全多重共当包含多个内生变量时,不但要排除完全多重共线性问题,而且工具变量必须提供关于这些变量外生线性问题,而且工具变量必须提供关于这些变量外生性变动的足够信息,以分离出它们各自对性变动的足够信息,以分离出它们各自对Y的效应。的效应。外生性条件:外生性条件:工具变量外生性条件的一般叙述为每个工具变量必须工具变量外生性条件的一般
39、叙述为每个工具变量必须与误差项与误差项ui不相关。不相关。一般一般IV模型中的工具变量相关性模型中的工具变量相关性和外生性和外生性IV回归假设和回归假设和TSLS估计量的抽样估计量的抽样分布分布基于基于TSLS估计量的推断估计量的推断在香烟需求中的应用在香烟需求中的应用在上一节中,我们基于在上一节中,我们基于1995年美国年美国48个州的年消个州的年消费数据利用包含一个回归变量费数据利用包含一个回归变量(每包香烟的实际价格每包香烟的实际价格对数对数)和一个工具变量和一个工具变量(每包香烟的实际销售税每包香烟的实际销售税)的的TSLS估计了香烟的需求弹性。估计了香烟的需求弹性。但这个估计并非没有
40、问题的。但这个估计并非没有问题的。收入会影响需求,它是总体回归误差的一部分。若收入会影响需求,它是总体回归误差的一部分。若州销售税与州的收入有关,则它与香烟需求方程误州销售税与州的收入有关,则它与香烟需求方程误差项中的某个变量相关。这违反了工具变量外生性差项中的某个变量相关。这违反了工具变量外生性的条件。会导致的条件。会导致IV估计量是非一致的。因此我们需估计量是非一致的。因此我们需要在回归中加入收入这一变量。要在回归中加入收入这一变量。除了工具变量除了工具变量SaleTaxi外,我们增加一个新的工外,我们增加一个新的工具变量具变量香烟专项香烟专项税税CigTaxi,香烟专项税提高了,香烟专项
41、税提高了消费者支付的香烟价格,因此可证明它满足工具消费者支付的香烟价格,因此可证明它满足工具变量相关性的条件。同时它与州香烟需求方程中变量相关性的条件。同时它与州香烟需求方程中的误差项不相关,因此它是外生工具变量。的误差项不相关,因此它是外生工具变量。有了这个工具变量后我们就有了每包香烟的实际销售有了这个工具变量后我们就有了每包香烟的实际销售税和每包香烟的实际州专项税两个工具变量。因此需税和每包香烟的实际州专项税两个工具变量。因此需求弹性是过度识别的,即工具变量的个数求弹性是过度识别的,即工具变量的个数(m=2)大于包大于包含的内生变量个数含的内生变量个数(k=1)。现在我们就可以利用现在我们
42、就可以利用TSLS估计需求弹性了,其中第一估计需求弹性了,其中第一阶段回归中的回归变量为包含的外生变帚阶段回归中的回归变量为包含的外生变帚ln(Inci)和两和两个工具变量。个工具变量。结果,使得标准误差变小。结果,使得标准误差变小。85实例: 香烟的需求86实例:香烟需求,一个工具 87实例: 香烟需求, 两个工具88工具变量有效性检验工具变量有效性检验1.相关性:为什么弱工具变量是个问题相关性:为什么弱工具变量是个问题如果工具变量是弱的,那么即使当样本容量较大时如果工具变量是弱的,那么即使当样本容量较大时用正态分布近似用正态分布近似TSLS估计量的抽样分布效果仍然很估计量的抽样分布效果仍然
43、很差。因此即便是在大样本下仍然缺乏常用统计推断差。因此即便是在大样本下仍然缺乏常用统计推断方法的理论依据。事实上,如果工具变量较弱,则方法的理论依据。事实上,如果工具变量较弱,则TSLS估计量严重偏离估计量严重偏离OLS估计量的方向。估计量的方向。弱工具变量会使得分母变得很小,甚至为弱工具变量会使得分母变得很小,甚至为0,导致结,导致结果严重偏离。果严重偏离。1ii11IViiiizxE z xAVarE z xS E z x如果 与 仅仅微弱相关,则可认为很大,导致工具变量法估计量的渐近方差非常之大。直观上看,由于直观上看,由于z 中仅包含很少与中仅包含很少与x 有关的信有关的信息,利用这部
44、分信息进行的工具变量法估计就不准息,利用这部分信息进行的工具变量法估计就不准确,即使样本容量很大也很难收敛到真实的参数值确,即使样本容量很大也很难收敛到真实的参数值。这种工具变量称为弱工具变量,将使。这种工具变量称为弱工具变量,将使 _IV 的的小样本性质变得很差,且基于大样本理论的统计推小样本性质变得很差,且基于大样本理论的统计推断失效断失效此外,用此外,用TSLS估计量估计量1.96标准误差构造的标准误差构造的95%置信置信区问包含系数真值的次数远小于区问包含系数真值的次数远小于95%,简言之,若,简言之,若工具变量较弱则工具变量较弱则TSLS不再是可靠的了。不再是可靠的了。F检验检验 (
45、只有一个内生解释变量只有一个内生解释变量)当只有一个内生解释变量时检验弱工具变当只有一个内生解释变量时检验弱工具变量的一种方法是利用量的一种方法是利用F统计量检验统计量检验TSLS第第一阶段回归中工具变量系数都为零的假设。一阶段回归中工具变量系数都为零的假设。第一阶段第一阶段F统计量,度量了工具变量中包含统计量,度量了工具变量中包含的信息:包含的信息越多,则的信息:包含的信息越多,则F统计量的期统计量的期望值越大。经验法则是如果第一阶段望值越大。经验法则是如果第一阶段F统计统计量应该超过量应该超过10。即检验即检验Z1、 Z2 、Zm的联合显著性。的联合显著性。test Z1=Z2=Zm=0
46、计算计算F值值 然后和然后和10比较。比较。112221122OLS21222221yxxxxx zz2SLSxxzRxzxx假设回归模型为 ,其中只有为内生解释变量, 为外生解释变量向量。记工具变量为,其中 为方程外的工具变量。在的第一阶段回归中, ,其包含了内生变量与工具变量 相关性的信息,但也可能由于与 的相关性造成。2212pxRpartial RR为此,应该使用滤去 影响的“偏”( )记为偏偏R2检验检验 (只有一个内生解释变量只有一个内生解释变量)222221OLS21x21OLS2121z21OLSxz2p2xxxxexxzxzxezxeeRz 具体操作步骤如下:首先作对 回归,
47、记其残差为,代表中不能由 解释的部分;其次,作对 回归,记其残差为,代表 中不能由 解释的部分;最后对两个残差进行回归,即,所得的判定系数即,若其较小即可认为 是弱工具变量21 12202xxzerrorH0判断弱工具变量的另一个方法是,在第一阶段回归中, ,检验原假设 : F10F一个经验规则是,如果此检验的 统计量大于,则可拒绝“存在弱工具变量”的原假设,从而不必担心弱工具变量问题。在多个内生解释变量的情况下,将有多个如此的第一阶段回归和 统计量解决弱工具变量问题的方法是寻找更强的工具变量或若有较多工具变量,可舍弃弱工具变量Minimum eigenvalue statistic(最小特征
48、值统计量最小特征值统计量)经验上此数应该大于经验上此数应该大于10。这个方法类似于与书上的这个方法类似于与书上的“第一阶段第一阶段F统计量统计量” (但允许有多个内生变量)(但允许有多个内生变量) 。如果存在弱工具变量该怎么办?如果存在弱工具变量该怎么办?1. 如果有很多工具变量,有少数强工具变量和如果有很多工具变量,有少数强工具变量和许多弱工具变量,可以忽略最弱的工具变量而许多弱工具变量,可以忽略最弱的工具变量而选用相关性最强的工具变量子集。选用相关性最强的工具变量子集。2. 但如果系数是恰好识别的,则你不能略去弱但如果系数是恰好识别的,则你不能略去弱工具变量。即使系数是过度识别的,但你可能
49、工具变量。即使系数是过度识别的,但你可能没有足够的强工具变量用于识别,因此略去一没有足够的强工具变量用于识别,因此略去一些弱工具变量也没有什么帮助。在这种情况下,些弱工具变量也没有什么帮助。在这种情况下,有两个选择:有两个选择:第一个选择第一个选择是寻找其他较强的工具变量。是寻找其他较强的工具变量。(难难度较大度较大)第二个选择第二个选择是利用弱工具变量继续进行实证分是利用弱工具变量继续进行实证分析,但采用的方法不再是析,但采用的方法不再是TSLS。而是对弱工。而是对弱工具变量不太敏感的有限信息极大似然法具变量不太敏感的有限信息极大似然法(LIML)。在大样本下,。在大样本下,LIML 与与2
50、SLS是渐近是渐近等价的,但在存在弱工具变量的情况下,等价的,但在存在弱工具变量的情况下,LIML 的小样本性质可能优于的小样本性质可能优于2SLS。按:从更根本上说,应该跳出按:从更根本上说,应该跳出IV框架,寻找框架,寻找IV 方法本方法本身的替代工具,这就是身的替代工具,这就是DID和和Regression Discontinuity的作用的作用有可能正式其由来。参教育报酬率的文献有可能正式其由来。参教育报酬率的文献,Angrist & Kruger (1991); Oreopoulos (2006, AER)2.外生性:过度识别约束检验过度识别约束检验刚才我们提到:只有刚才我们提到:只