《内生性产生的原因及解决方案培训讲学.ppt》由会员分享,可在线阅读,更多相关《内生性产生的原因及解决方案培训讲学.ppt(114页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五第五(d w)讲讲 内生性内生性第一页,共114页。OLS OLS经典假设经典假设 所有所有(suyu)(suyu)的解释变量的解释变量XiXi与与随机误差项彼此之间不相关。随机误差项彼此之间不相关。若解释变量若解释变量Xi和和ui相关,则相关,则OLS估计量是非一致估计量是非一致的,也就是的,也就是(jish)即使当样本容量很大时,即使当样本容量很大时,OLS估计量也不会接近回归系数的真值。估计量也不会接近回归系数的真值。当解释变量和随机误差项相关时,模型存在着内当解释变量和随机误差项相关时,模型存在着内生性问题。生性问题。第二页,共114页。n n在计量经济学中,把所有与扰动项相关的在
2、计量经济学中,把所有与扰动项相关的解释变量都称为解释变量都称为(chnwi)“内生变量内生变量”。这与一般经济学理论中的定义有所不同。这与一般经济学理论中的定义有所不同。n n1。与误差项相关的变量称为。与误差项相关的变量称为(chnwi)内生变量内生变量(endogenousvariable)。n n2。与误差项不相关的变量称为。与误差项不相关的变量称为(chnwi)外生变量外生变量(exogenousvariable)。第三页,共114页。n n造成误差项与回归变量相关(内生性)的原造成误差项与回归变量相关(内生性)的原因很多,但我们主要考虑因很多,但我们主要考虑(kol)如下几个方如下几
3、个方面:面:n n遗漏变量偏差遗漏变量偏差n n变量有测量误差变量有测量误差n n双向因果关系。双向因果关系。第四页,共114页。遗漏变量遗漏变量(binling)偏差偏差第五页,共114页。第六页,共114页。n n变量有测量变量有测量(cling)误差误差n n测量测量(cling)数据正确时:假设方数据正确时:假设方程为:程为:当存在当存在(cnzi)测量误差时:方程为:测量误差时:方程为:所以所以(suy)我们有:我们有:第七页,共114页。可知,误差可知,误差(wch)项项中包含中包含所以可以所以可以(ky)得到:得到:如果如果则回归结果则回归结果(ji gu)有偏,非一致有偏,非一
4、致我们假设我们假设则有则有第八页,共114页。结论结论(jiln):1。由于。由于 2。回归的性质。回归的性质(xngzh)决定于决定于w的标准的标准差差 第九页,共114页。n双向因果关系双向因果关系n之前我们假定因果关系是从之前我们假定因果关系是从回归变量到因变量的回归变量到因变量的(X导致了导致了Y)。但如果因果关系同时也。但如果因果关系同时也是从因变量到一个或多个回归是从因变量到一个或多个回归变量变量(Y导致了导致了X)的呢?如果的呢?如果是这样的话,因果关系是向前是这样的话,因果关系是向前的也是的也是“向后向后”的,即存在的,即存在双向因果关系,如果存在双向双向因果关系,如果存在双向
5、因果关系,则因果关系,则OLS回归中同时回归中同时包含了这两个效应,因此包含了这两个效应,因此(ync)OLS估计量是有偏的、估计量是有偏的、非一致的。非一致的。第十页,共114页。可以可以(ky)推导出:推导出:第十一页,共114页。检验检验(jinyn)方法:豪斯曼方法:豪斯曼检验检验(jinyn)检验检验(jinyn)n n豪斯曼检验(豪斯曼检验(Hausmanspecificationtest)n nH0:所有解释变量均为外生变量。:所有解释变量均为外生变量。n nH1:至少有一个解释变量为内生变量。:至少有一个解释变量为内生变量。n nquietlyreglw80s80expr80t
6、enure80iqn neststoreolsn nquietlyivregress2slslw80expr80tenure80(s80iq=medkwwmrtage)n neststoreivn nhausmanivolsn n,若,若Hausman检验失效(检验统计检验失效(检验统计(tngj)量为负值),则使用量为负值),则使用dmexogxt,否则仍,否则仍Hausman检验为主。检验为主。第十二页,共114页。使用(shyng)Davidson-MacKinnon检验n nxtivreg后后使用使用(shyng)dmexogxtn n*Davidson-MacKinnon(1993)
7、检验检验*H0:OLS和和xtivreg都是一致的,即内生都是一致的,即内生性问题对性问题对OLS的估计结果影响不大的估计结果影响不大xtivregtlsizendtstang(npr=tobinL1.npr),fedmexogxtn nDavidson-MacKinnon检验得到检验得到F统计量的统计量的P值小于值小于0.05,代表有内生性,代表有内生性第十三页,共114页。n n遗漏变量偏差可采用在多元回归中加入遗漏变遗漏变量偏差可采用在多元回归中加入遗漏变量的方法加以解决,但前提是只有当你有遗漏量的方法加以解决,但前提是只有当你有遗漏变量数据时上述方法才可行变量数据时上述方法才可行(kx
8、ng)。n n双向因果关系偏差是指如果有时因果关系是从双向因果关系偏差是指如果有时因果关系是从X到到Y又从又从Y到到X时,此时仅用多元回归无法消时,此时仅用多元回归无法消除这一偏差。同样,除这一偏差。同样,n n变量有测量误差也无法用我们前面学过的方法变量有测量误差也无法用我们前面学过的方法解决。解决。n n因此我们就必须寻找一种新的方法。因此我们就必须寻找一种新的方法。第十四页,共114页。二、内生性的解决方案二、内生性的解决方案n n事实上,仅仅为了解决内生性问题,并不需要我们事实上,仅仅为了解决内生性问题,并不需要我们对内生性问题的缘起有很深入的理解。对于应用型对内生性问题的缘起有很深入
9、的理解。对于应用型的实证研究而言,我们只需要掌握的实证研究而言,我们只需要掌握(zhngw)(zhngw)解决解决内生性问题的具体方案即可。内生性问题的解决方内生性问题的具体方案即可。内生性问题的解决方案一共四种,理论上来讲,这四种方案应对内生性案一共四种,理论上来讲,这四种方案应对内生性问题都很有效。但于我个人而言,我对四种方法的问题都很有效。但于我个人而言,我对四种方法的评价是有高低的,由高到低分别介绍如下。评价是有高低的,由高到低分别介绍如下。n n第十五页,共114页。1.自然实验法自然实验法n n所谓自然实验,就是发生了某些外部突发事件,使得研究对所谓自然实验,就是发生了某些外部突发
10、事件,使得研究对象仿佛被随机分成了实验组或控制组。象仿佛被随机分成了实验组或控制组。n n这是我最喜欢这是我最喜欢(xhuan)(xhuan)的方法,只是自然实验需要寻找一个的方法,只是自然实验需要寻找一个事件,并且这个事件只影响解释变量而不影响被解释变量。事件,并且这个事件只影响解释变量而不影响被解释变量。遇着这种事件是一种缘分,还要能识别出来,这对学者的眼遇着这种事件是一种缘分,还要能识别出来,这对学者的眼光也是一种挑战。光也是一种挑战。n n有很多文章声称使用了自然实验,但严格来讲,并没有做到有很多文章声称使用了自然实验,但严格来讲,并没有做到对研究对象进行了随机分组。虽然如此,我对此类
11、文章仍然对研究对象进行了随机分组。虽然如此,我对此类文章仍然很是喜欢很是喜欢(xhuan)(xhuan)。n n第十六页,共114页。n n自然实验包括自然实验包括(boku)(boku)的要素有的要素有:一个政策措施一个政策措施(treatment),(treatment),一个观察到的结果一个观察到的结果(outeome),(outeome),一个对照组一个对照组(contorlgoruP)(contorlgoruP)。在评估。在评估“政策措施政策措施”对对“结果结果”是否发挥作是否发挥作用时用时,对照组充当一个参照系。而一个对照组充当一个参照系。而一个“准自然实验准自然实验”和自和自然实
12、验的区别在于处理组和对照组的选取是否随机。然实验的区别在于处理组和对照组的选取是否随机。n n这里的这里的“结果结果”是以受政策影响的县和没有受政策影响的是以受政策影响的县和没有受政策影响的县之间在增长速度上的差异来衡量。县之间在增长速度上的差异来衡量。n n简单连接改革措施和被直管县绩效的做法并不恰当。这简单连接改革措施和被直管县绩效的做法并不恰当。这样的做法无法排除其他政策或是整体经济的影响样的做法无法排除其他政策或是整体经济的影响,因而是因而是无法衡量改革真实效果的。无法衡量改革真实效果的。17第十七页,共114页。2.双重双重(shungchng)差分法差分法n nDifference
13、-in-DifferenceDifference-in-Difference(DIDDID)一般称为双重差分法,或倍)一般称为双重差分法,或倍差法。倘若出现了一次外部冲击,这次冲击影响了一部分样本,差法。倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是有何影响,双重差分法就是(jish)(jish)用来研究这次冲击的净效应用来研究这次冲击的净效应的。的。n n其基本思想是,将受冲击的样本视作实验组,再按照一定标准其基本思想是,将受冲击的样本视作实验组,再按照一定
14、标准在未受冲击的样本中寻求与实验组匹配的对照组,而后做差,在未受冲击的样本中寻求与实验组匹配的对照组,而后做差,做差剩下来的便是这次冲击的净效应。做差剩下来的便是这次冲击的净效应。n n双重差分法实际上是固定效应的一个变种,差分的过程实际上双重差分法实际上是固定效应的一个变种,差分的过程实际上是排除固定效应的过程。是排除固定效应的过程。ZERAZERA在计量论文写作和发表的黑客在计量论文写作和发表的黑客教程有一个非常简明风趣的举例,我转述于此,以飨读者。教程有一个非常简明风趣的举例,我转述于此,以飨读者。第十八页,共114页。19Differenceindifferencemodelsn nM
15、aybethemostpopularidentificationstrategyinappliedworktodayn nAttemptstomimicrandomassignmentwithtreatmentand“comparison”samplen nApplicationoftwo-wayfixedeffectsmodel第十九页,共114页。20Problemsetupn nCross-sectionalandtimeseriesdatan nOnegroupistreatedwithinterventionn nHavepre-postdataforgroupreceivingin
16、terventionn nCanexaminetime-serieschangesbut,unsurehowmuchofthechangeisduetosecularchanges第二十页,共114页。21Differenceindifferencemodelsn nBasictwo-wayfixedeffectsmodeln nCrosssectionandtimefixedeffectsn nUsetimeseriesofuntreatedgrouptoestablishwhatwouldhaveoccurredintheabsenceoftheinterventionn nKeyconc
17、ept:cancontrolforthefactthattheinterventionismorelikelyinsometypesofstates第二十一页,共114页。22Threedifferentpresentationsn nTabularn nGraphicaln nRegressionequation第二十二页,共114页。23DifferenceinDifferenceBeforeBeforeChangeChangeAfterAfterChangeChangeDifferenceDifferenceGroup 1Group 1(Treat)(Treat)Y Yt1t1Y Yt2
18、t2 Y Yt t=Y=Yt2t2-Y-Yt1t1Group 2Group 2(Control)(Control)Y Yc1c1Y Yc2c2 Y Yc c=Y=Yc2c2-Y-Yc1c1DifferenceDifferenceY Y Y Yt t Y Yc c第二十三页,共114页。24timeYt1t2Yt1Yt2treatmentcontrolYc1Yc2Treatment effect=(Yt2-Yt1)(Yc2-Yc1)第二十四页,共114页。25KeyAssumptionn nControlgroupidentifiesthetimepathofoutcomesthatwouldh
19、avehappenedintheabsenceofthetreatmentn nInthisexample,YfallsbyYc2-Yc1evenwithouttheinterventionn nNotethatunderlyinglevelsofoutcomesarenotimportant(returntothisintheregressionequation)第二十五页,共114页。26BasicEconometricModeln nDatavariesbyn nstate(i)n ntime(t)n nOutcomeisYitn nOnlytwoperiodsn nInterventi
20、onwilloccurinagroupofobservations(e.g.states,firms,etc.)第二十六页,共114页。27n nThreekeyvariablesn nTit=1ifobsibelongsinthestatethatwilleventuallybetreatedn nAit=1intheperiodswhentreatmentoccursn nTitAit-interactionterm,treatmentstatesaftertheinterventionn nYit=0+1Tit+2Ait+3TitAit+it第二十七页,共114页。28Yit=0+1Ti
21、t+2Ait+3TitAit+itBeforeBeforeChangeChangeAfterAfterChangeChangeDifferenceDifferenceGroup 1Group 1(Treat)(Treat)0 0+1 1 0 0+1 1+2 2+3 3 Y Yt t =2 2+3 3Group 2Group 2(Control)(Control)0 0 0 0+2 2 Y Yc c=2 2DifferenceDifferenceY=Y=3 3第二十八页,共114页。29Moregeneralmodeln nDatavariesbyn nstate(i)n ntime(t)n n
22、OutcomeisYitn nManyperiodsn nInterventionwilloccurinagroupofstatesbutatavarietyoftimes第二十九页,共114页。30n nuiisastateeffectn nvtisacompletesetofyear(time)effectsn nAnalysisofcovariancemodeln nYit=0+3TitAit+ui+t+it第三十页,共114页。31n nGroupeffectsn nCapturedifferencesacrossgroupsthatareconstantovertimen nYear
23、effectsn nCapturedifferencesovertimethatarecommontoallgroups第三十一页,共114页。32其中,其中,d 就是双重差分估计量,就是双重差分估计量,Y 为研究的结局变为研究的结局变量,右侧脚标中量,右侧脚标中 treatment 和和 control 分布代表干预分布代表干预组和对照组,组和对照组,t0 和和 t1 分别代表干预前和干预后。分别代表干预前和干预后。构造构造(guzo)了差分估计量之后,就要根据不同的了差分估计量之后,就要根据不同的数据类型和不同的结局变量数据类型和不同的结局变量 Y,分别选用相应的参,分别选用相应的参数检验
24、方法来进行建模数检验方法来进行建模。第三十二页,共114页。(1)适用于独立混合横截面数据33独立混合横截面数据是在不同时点从同一个的独立混合横截面数据是在不同时点从同一个的大总体内部分别进行随机抽样,将所得的数据大总体内部分别进行随机抽样,将所得的数据混合起来的一种数据集。该类数据的特点为每混合起来的一种数据集。该类数据的特点为每一条数据都是独立的观测值。通过将不同时点一条数据都是独立的观测值。通过将不同时点的多个观测值结合起来,从而可以加大样本量的多个观测值结合起来,从而可以加大样本量以获得更精密的估计量和更具功效的检验统计以获得更精密的估计量和更具功效的检验统计量量;也可加入也可加入(j
25、ir)新的变量新的变量时间时间(即即干预前后干预前后),以便判断干预前后的差别。对于总,以便判断干预前后的差别。对于总体一致、范围较大、涉及不同时间点的调查研体一致、范围较大、涉及不同时间点的调查研究,多收集此类数据究,多收集此类数据第三十三页,共114页。34第三十四页,共114页。35第三十五页,共114页。36第三十六页,共114页。(2)适用于综列数据面板(minbn)数据的DID模型37面板数据面板数据(shj)要求在不同时点调查相同的研要求在不同时点调查相同的研究对象究对象。它与独立混合横截面数据。它与独立混合横截面数据(shj)最大的不同最大的不同在于,不同时点的观测值并不是独立
26、分布的在于,不同时点的观测值并不是独立分布的。这类数据。这类数据(shj)的特点在于的特点在于:由于研究的个由于研究的个体相同,一些不随时间改变的不可观测的因素体相同,一些不随时间改变的不可观测的因素(如个如个人特质等人特质等)对不同时点的观测值会产生影响,可对不同时点的观测值会产生影响,可以通过控制这些影响从而得到较为真实的结果以通过控制这些影响从而得到较为真实的结果;第三十七页,共114页。38第三十八页,共114页。39第三十九页,共114页。40由于一般大规模的人群调查存在较大的由于一般大规模的人群调查存在较大的变异性问题,仅在模型中纳入虚拟变量变异性问题,仅在模型中纳入虚拟变量“分分
27、 组组(A)”、“时时 间间(T)”是远远不够是远远不够的。为了提高解释系数的。为了提高解释系数 R2,需要,需要(xyo)加入其他可能影响被解释变量的加入其他可能影响被解释变量的因素,即控制除分组、时间变量以外的因素,即控制除分组、时间变量以外的其他变量。其他变量。第四十页,共114页。n nsscinstalldiffhelpdiffn ndiffy,t(treated)p(t)robustn n如果(rgu)有控制变量,可以利用cov()添加41第四十一页,共114页。n n工具变量工具变量(instrumentalvariable,IV)回归回归是当回归变量是当回归变量X与误差项与误差
28、项u相关时获得总体相关时获得总体回归方程未知系数一致估计量的一般方法。回归方程未知系数一致估计量的一般方法。我们经常我们经常(jngchng)称其为称其为IV估计。估计。n n其基本思想是:假设方程是:其基本思想是:假设方程是:我们我们(wmen)假设假设ui与与Xi相关,则相关,则OLS估计量估计量一定是有偏的和非一致的。工具变量估计是利一定是有偏的和非一致的。工具变量估计是利用另一个用另一个“工具工具”变量变量Z将将Xi分离成与分离成与ui相关相关和不相关的两部分。和不相关的两部分。3.工具工具(gngj)变量法变量法第四十二页,共114页。n n我们的工作就是要寻找相应的工具变量将解我们
29、的工作就是要寻找相应的工具变量将解释变量分解成内生变量和外生变量,然后利释变量分解成内生变量和外生变量,然后利用两阶段最小二乘法用两阶段最小二乘法(chngf)(TSLS)进行估进行估计。计。第四十三页,共114页。工具变量工具变量(binling)(binling)的选的选取取一个有效(yuxio)的工具变量必须满足称为工具变量相关性和工具变量外生性两个条件:即 (1)工具变量(binling)相关性:工具变量(binling)与所替代的随机解释变量(binling)高度相关;(2)工具变量(binling)外生性:工具变量(binling)与随机误差项不相关;第四十四页,共114页。n n
30、一个合适的工具变量应该同时满足两个条件:第一要一个合适的工具变量应该同时满足两个条件:第一要能很好地解释内生变量,也就是说工具变量和内生变能很好地解释内生变量,也就是说工具变量和内生变量之间要足够相关;第二,工具变量要来自系统之外,量之间要足够相关;第二,工具变量要来自系统之外,即工具变量具备外生性。即工具变量具备外生性。n n如果内生性表现为联立性问题,第二个标准尤其必要。如果内生性表现为联立性问题,第二个标准尤其必要。虽然统计证据可以告诉我们工具变量和内生变量是否虽然统计证据可以告诉我们工具变量和内生变量是否相关,但是其背后的因果链条和工具变量是否具备外相关,但是其背后的因果链条和工具变量
31、是否具备外生性的证明一样,必须依赖令人置信的逻辑生性的证明一样,必须依赖令人置信的逻辑(luj)(luj)推推导导。n n工具变量的外生性在回归中表现为和方程的残差项正工具变量的外生性在回归中表现为和方程的残差项正交,即工具变量不会对方程被解释变量产生影响,如交,即工具变量不会对方程被解释变量产生影响,如果产生影响则只能通过内生变量起作用果产生影响则只能通过内生变量起作用n n。第四十五页,共114页。两阶段两阶段(jidun)最小二乘估计最小二乘估计量量n n若工具变量若工具变量Z满足工具变量相关性和外生性的满足工具变量相关性和外生性的条件,则可用称为两阶段最小二乘条件,则可用称为两阶段最小
32、二乘(TSLS)的的IV估计量估计系数估计量估计系数1。n n两阶段最小二乘估计量分两阶段计算:两阶段最小二乘估计量分两阶段计算:n n第一阶段把第一阶段把X分解成两部分:即与回归误差项分解成两部分:即与回归误差项相关的一部分以及与误差项无关的一部分。相关的一部分以及与误差项无关的一部分。n n第二阶段是利用第二阶段是利用(lyng)与误差项无关的那部与误差项无关的那部分进行估计。分进行估计。第四十六页,共114页。一般一般IV回归回归(hugu)模型模型1.因变量因变量 Yi。2.外生解释变量外生解释变量 W1i、W2i、Wri。3.内生解释变量内生解释变量 X1i、X2i、Xki。4.我们
33、我们(w men)引入工具变量引入工具变量Z1i、Z2i、Zmi。第四十七页,共114页。第一阶段回归:利用第一阶段回归:利用OLS建立每个内生变量(建立每个内生变量(X1i、X2i、Xki)关于工具变量()关于工具变量(Z1i、Z2i、Zmi)和外生变量()和外生变量(W1i、W2i、Wri)的)的回归,并得到所有回归结果的拟合回归,并得到所有回归结果的拟合(n h)值值Xi_hat。第二阶段回归:用第二阶段回归:用Xi_hat取代原有的取代原有的Xi,与原,与原有的外生变量有的外生变量Wi一起进行第二次回归,得到一起进行第二次回归,得到TSLS统计量统计量TSLS。注意:工具变量出现在第一
34、阶段回归,但不出注意:工具变量出现在第一阶段回归,但不出现在第二阶段回归。现在第二阶段回归。第四十八页,共114页。引入工具引入工具(gngj)变量的个数变量的个数n n假设我们有假设我们有n个内生解释变量个内生解释变量(binling),引,引入了入了m个工具变量个工具变量(binling),n和和m的关系的关系是什么?是什么?n nn=m恰好识别恰好识别n nnm不可识别不可识别n n只有恰好识别和过度识别才能用只有恰好识别和过度识别才能用IV方法估计。方法估计。第四十九页,共114页。n n两阶段最小二乘法的两阶段最小二乘法的stata命令:命令:n nivregress2slsdepv
35、arvarlist1(varlist2=instlist),r,firstn n其中,其中,“depvar”为被解释变量,为被解释变量,varlist1为外生解释变量,为外生解释变量,varlist2为所有的内生解为所有的内生解释变量集合,释变量集合,instlist为工具变量集合。为工具变量集合。n n选择项选择项r表示使用异方差稳健的标准表示使用异方差稳健的标准(biozhn)误,选择项误,选择项“first”表示显示表示显示第一阶段的回归。第一阶段的回归。第五十页,共114页。工具变量工具变量(binling)有效性的有效性的检验检验n n工具变量相关性工具变量相关性n n工具变量相关性
36、越强,也就是工具变量能解释工具变量相关性越强,也就是工具变量能解释(jish)越多的越多的X变动,则变动,则IV回归中能用的信息就越回归中能用的信息就越多,因此利用相关性更强的工具变量得到的估计量也多,因此利用相关性更强的工具变量得到的估计量也更精确。更精确。n n弱工具变量:如果虽然弱工具变量:如果虽然n nn n但是但是n n弱工具变量几乎不能解释弱工具变量几乎不能解释(jish)X的变动。的变动。第五十一页,共114页。弱工具弱工具(gngj)变量检验准则变量检验准则n n1.偏偏R2(SheaspartialR2)n n含义:在第一阶段回归中,在控制含义:在第一阶段回归中,在控制(kn
37、gzh)外生变量外生变量影响的前提下,看其它变量对某内影响的前提下,看其它变量对某内生变量的解释力,或者说,在第一阶段回归生变量的解释力,或者说,在第一阶段回归中,剔除掉外生变量的影响。中,剔除掉外生变量的影响。n n2.最小特征值统计量最小特征值统计量F:经验上:经验上F应该大于应该大于10。n nStata命令:命令:n nestatfirststage,allforcenonrobust第五十二页,共114页。n n3.Cragg-DonaldWaldF统计量统计量n n4.Kleibergen-PaapWaldrkF统计量统计量”(当假定残差项不满足独立同分布时,就看(当假定残差项不满
38、足独立同分布时,就看这个这个(zhge)来判断是否弱工具,原假设是来判断是否弱工具,原假设是弱工具,所以拒绝原假设就可以)弱工具,所以拒绝原假设就可以)n nF检验临界值表检验临界值表CHIDISTn nF(12(自变量数据(自变量数据m),600(自由度(自由度df=n(样本数)(样本数)-m-1))=87.06n nStata命令:命令:ivreg2第五十三页,共114页。如果存在如果存在(cnzi)弱工具变量该怎么弱工具变量该怎么办?办?n n1.如果有很多工具变量,有部分强工具变量和部分弱如果有很多工具变量,有部分强工具变量和部分弱工具变量,可以舍弃较弱的工具变量而选用相关性较工具变量
39、,可以舍弃较弱的工具变量而选用相关性较强的工具变量子集。在强的工具变量子集。在stata中,可以使用中,可以使用ivreg2命命令进行令进行“冗余检验冗余检验”,以决定选择舍弃哪个工具变量。,以决定选择舍弃哪个工具变量。(直观上,冗余工具变量是那些第一阶段回归中不显(直观上,冗余工具变量是那些第一阶段回归中不显著的变量。)著的变量。)n n2.如果系数是恰好识别的,则你不能略去弱工具变量。如果系数是恰好识别的,则你不能略去弱工具变量。在这种情况在这种情况(qngkung)下,有两个选择:下,有两个选择:n n第一个选择是寻找其他较强的工具变量。第一个选择是寻找其他较强的工具变量。(难度较大难度
40、较大)第五十四页,共114页。n n第二个选择是利用弱工具变量继续进行实证分第二个选择是利用弱工具变量继续进行实证分析,但采用的方法不再是析,但采用的方法不再是TSLS。而是对弱工。而是对弱工具变量不太敏感的有限信息极大似然法具变量不太敏感的有限信息极大似然法(LIML)。在大样本下,在大样本下,LIML与与2SLS是渐近等价的,是渐近等价的,但在存在弱工具变量的情况下,但在存在弱工具变量的情况下,LIML的小样的小样本性质可能本性质可能(knng)优于优于2SLS。n nLIML的的Stata命令为命令为n nivregresslimldepvarvarlist1(varlist2=inst
41、list)第五十五页,共114页。工具工具(gngj)变量外生性的检变量外生性的检验验n n刚才我们提到:只有恰好识别和过度识别才刚才我们提到:只有恰好识别和过度识别才能用能用IV方法方法(fngf)估计。估计。n n一个很重要的命题是:只有过度识别情况下一个很重要的命题是:只有过度识别情况下才能检验工具变量的外生性,而恰好识别情才能检验工具变量的外生性,而恰好识别情况下无法检验。况下无法检验。第五十六页,共114页。过度过度(gud)识别约束检验识别约束检验n n基本思想:基本思想:n n假设有一个内生回归变量,两个工具变量且没假设有一个内生回归变量,两个工具变量且没有包含的外生有包含的外生
42、(wishn)变量。则你可以计变量。则你可以计算两个不同的算两个不同的TSLS估计量:其中一个利用第估计量:其中一个利用第一个工具变量,而另一个利用第二个工具变量。一个工具变量,而另一个利用第二个工具变量。由于抽样变异性,这两个估计量不会相同,但由于抽样变异性,这两个估计量不会相同,但如果两个工具变量都是外生如果两个工具变量都是外生(wishn)的,的,则这两个估计量往往比较接近。如果由这两个则这两个估计量往往比较接近。如果由这两个工具变量得到估计非常不同,则你可以得出其工具变量得到估计非常不同,则你可以得出其中一个或两个工具变量都有内生性问题的结论。中一个或两个工具变量都有内生性问题的结论。
43、第五十七页,共114页。n n识别标准:识别标准:n nSargan统计量:统计量:ivregress2sls过程中,实过程中,实际的工具变量(组)是际的工具变量(组)是x*与与z*。Sagan检验检验即检验这些工具变量是否外生(是否与扰动项即检验这些工具变量是否外生(是否与扰动项相关),原假设是这些变量都与扰动项不相关。相关),原假设是这些变量都与扰动项不相关。利用残差对这些工具变量回归。利用残差对这些工具变量回归。n nsargen检验的检验的P值应该越大越好,一般超过值应该越大越好,一般超过0.1既可以说明不能拒绝工具变量有效的零假既可以说明不能拒绝工具变量有效的零假设,不宜接近于设,不
44、宜接近于1,一般大于,一般大于0.4就是危险信就是危险信号,工具变量过多,导致检验结果不可信。号,工具变量过多,导致检验结果不可信。n nSargan统计量服从自由度为统计量服从自由度为L-k的卡方分布,的卡方分布,查表。在查表。在excel中输入中输入CHIDIST(x,iv-v),),其中其中(qzhng)x是是sargan统计量的值,统计量的值,iv是是工具变量的秩,工具变量的秩,v是估计参数个数。回车。是估计参数个数。回车。n n第五十八页,共114页。n nHansenJ统计量统计量n nC统计量,说明采用工具变量的合理性统计量,说明采用工具变量的合理性n n过度过度(gud)识别检
45、验的识别检验的Stata命令:命令:n nestatoverid第五十九页,共114页。n nxtabond2alsoreportstestsofover-identifyingrestrictions-xtabond2alsoreportstestsofover-identifyingrestrictions-ofwhethertheinstruments,asagroup,appearofwhethertheinstruments,asagroup,appearexogenous.Forone-step,non-robustestimation,itreportsexogenous.For
46、one-step,non-robustestimation,itreportstheSarganstatistic,whichistheminimizedvalueofthetheSarganstatistic,whichistheminimizedvalueoftheone-stepGMMcriterionfunction.TheSarganstatisticisone-stepGMMcriterionfunction.TheSarganstatisticisnotrobustnotrobusttotoheteroskedasticityorautocorellation.Soforhete
47、roskedasticityorautocorellation.Soforone-step,robustestimation(one-step,robustestimation(稳健稳健(wnjin)(wnjin)估计估计andforallandforalltwo-stepestimation),xtabond2alsoreportstheHansenJtwo-stepestimation),xtabond2alsoreportstheHansenJstatistic,whichistheminimizedvalueofthetwo-stepGMMstatistic,whichisthemin
48、imizedvalueofthetwo-stepGMMcriterionfunction,andisrobust.xtabond2stillreportsthecriterionfunction,andisrobust.xtabond2stillreportstheSarganstatisticinthesecasesbecausetheJtesthasitsSarganstatisticinthesecasesbecausetheJtesthasitsownproblem:itcanbegreatlyweakenedbyinstrumentownproblem:itcanbegreatlyw
49、eakenedbyinstrumentproliferation.proliferation.第六十页,共114页。究竟该用究竟该用OLS还是还是(hishi)工具变工具变量法量法n n豪斯曼检验豪斯曼检验(jinyn)n n原假设为:原假设为:n nH0:所有解释变量均为外生变量:所有解释变量均为外生变量n nregyx1x2n neststoreolsn nivregress2slsyx1(x2=z1z2)n neststoreivn nhausmanivols,sigmamore第六十一页,共114页。n n上述检验的缺点是,它假设在上述检验的缺点是,它假设在H0成立成立(chngl)的
50、情况下,的情况下,OLS最有效率。但如果最有效率。但如果存在异方差,存在异方差,OLS并不最有效率并不最有效率(不是不是BLUE)。故传统的豪斯曼检验不适用于异方。故传统的豪斯曼检验不适用于异方差的情形。差的情形。n n此时可以使用杜宾此时可以使用杜宾-吴吴-豪斯曼检验豪斯曼检验(DWH),该,该检验在异方差的情况下也适用,更为稳健。检验在异方差的情况下也适用,更为稳健。n nstata命令:命令:n nestatendogenous为负值不存在内生性为负值不存在内生性第六十二页,共114页。例一例一n nMincer(1958)最早研究最早研究(ynji)了工资与了工资与受教育年限的正相关关