倾向值匹配法(PSM)学习资料.ppt-淘文阁

资源描述

《倾向值匹配法(PSM)学习资料.ppt》由会员分享，可在线阅读，更多相关《倾向值匹配法(PSM)学习资料.ppt（45页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、倾向(qngxing)值匹配法（PSM）第一页，共45页。Q：为什么要使用(shyng)PSM？nA：解决样本选择偏误带来的内生性问题n例：上北大有助于提高收入吗？n样本选择偏误：考上北大的孩子本身就很出色（聪明、有毅力、能力强）n解决方法(fngf)：样本配对第二页，共45页。配对(pi du)方法n同行业（一维配对(pi du)）n同行业、规模相当（二维配对(pi du)）n同行业、规模相当、股权结构相当、（多维配对(pi du)）？nPSM：把多个维度的信息浓缩成一个（降维：多维到一维）第三页，共45页。配对过程中的两个核心(hxn)问题（1）nQ1：哪个(n ge)样本更好一些？A1:

2、Sample2较好：比较容易满足共同(gngtng)支撑假设（common support assumption）第四页，共45页。配对过程中的两个核心(hxn)问题（2）nQ2：stu c1,c2,c3三人中，谁是stu PK的最佳配对对象？nA2：stu c3是最佳配对对象，比较容易满足(mnz)平行假设（balancing assumption）第五页，共45页。ATT（Average Treatment Effect on the Treated）平均处理效应(xioyng)的衡量n运用得分进行样本匹配(ppi)并比较，估计出ATT值。nATT=EY(1)-Y(0)|T=1nY(1):

3、Stu PK 上北大后的年薪nY(0):Stu PK 假如不上北大的年薪可观测可观测(gunc)数数据据不可观测数据，不可观测数据，采用配对者的收采用配对者的收入来代替入来代替ATT=12W-9W=3W第六页，共45页。实例(shl)介绍第七页，共45页。实例(shl)介绍n研究问题：培训对工资的效应n基本思想：分析接受培训行为与不接受培训行为在工资表现上的差异。但是，现实可以观测到的是处理组接受培训的事实，而如果处理组没有接受培训会怎么样是不可(bk)观测的，这种状态称为反事实。匹配法就是为了解决这种不可(bk)观测的事实的方法。第八页，共45页。实例(shl)介绍n分组：在倾向值匹配法中，

4、根据处理指示变量将样本分为两个组。处理组，在本例中就是在NSW（国家支持工作示范项目）实施后接受培训的组；控制组，在本例中就是在NSW实施后不接受培训的组。n研究目的：通过对处理组和对照组的匹配，在其他条件完全相同的情况(qngkung)下，通过接受培训的组（处理组）与不接受培训的组（控制组）在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。第九页，共45页。变量(binling)定义变量变量定义定义treat接受培训（处理组）表示接受培训（处理组）表示1，没有接受培训（控制组）表示，没有接受培训（控制组）表示0age年龄年龄educ受教育年数受教育年数black种族虚拟变量，黑人时

5、，种族虚拟变量，黑人时，black=1hsip民族虚拟变量，西班牙人时，民族虚拟变量，西班牙人时，hsip=1marr婚姻状况虚拟变量，已婚，婚姻状况虚拟变量，已婚，marr=1re741974年实际工资年实际工资re751975年实际工资年实际工资第十页，共45页。变量(binling)定义re781978年实际工资年实际工资u74当在当在1974年失业，年失业，u74=1agesqage*ageeducsqeduc*educre74sqre74*re74re75sqre75*re75u74blcaku74*blcak第十一页，共45页。倾向(qngxing)打分第十二页，共45页。OLS回

6、归(hugu)结果工资的变化到底工资的变化到底(do d)是来自个体的异质性是来自个体的异质性性还是培训？性还是培训？第十三页，共45页。倾向(qngxing)打分n1.设定宏变量(binling)n(1)设定宏变量(binling)breps表示重复抽样200次n命令：global breps 200n(2)设定宏变量(binling)x，表示age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74blackn命令：global x age agesq educ educsq married black hisp

7、 re74 re75 re74sq re75sq u74black第十四页，共45页。倾向(qngxing)打分n2.通过(tnggu)logit模型进行倾向打分n命令：pscore treat$x,pscore(mypscore)blockid(myblock)comsup numblo(5)level(0.05)logitn注:$表示引用宏变量第十五页，共45页。pscore结果(ji gu)第十六页，共45页。倾向(qngxing)值分布第十七页，共45页。倾向(qngxing)值分布第十八页，共45页。block中样本(yngbn)的分布第十九页，共45页。block中的描述性统计(t

8、ngj)第二十页，共45页。运用(ynyng)得分进行样本匹配并比较第二十一页，共45页。方法方法(fngf)一：最邻近方法一：最邻近方法(fngf)（nearest neighbor matching）n含义：最邻近匹配法是最常用的一种匹配方法，它把控制组中找到的与处理组个体倾向得分差异最小的个体，作为自己的比较对象。n优点：按处理个体找控制个体，所有处理个体都会配对成功，处理组的信息得以充分使用。n缺点：由于不舍弃任何一个处理组，很可能有些配对组的倾向得分差距(chj)很大，也将其配对，导致配对质量不高，而处理效应ATT的结果中也会包含这一差距(chj)，使得ATT精确度下降。第二十二页，

9、共45页。方法方法(fngf)一：最邻近方法一：最邻近方法(fngf)（nearest neighbor matching）n命令(mng lng)nset seed 10101（产生随机数种子）nattnd re78 treat$x,comsup boot reps($breps)dots logit第二十三页，共45页。方法方法(fngf)一：最邻近方法一：最邻近方法(fngf)（nearest neighbor matching）第二十四页，共45页。方法二：半径方法二：半径(bnjng)匹配法匹配法（radius matching）n半径匹配法是事先设定(sh dn)半径，找到所有设定

10、(sh dn)半径范围内的单位圆中的控制样本，半径取值为正。随着半径的降低，匹配的要求越来越严。第二十五页，共45页。方法二：半径方法二：半径(bnjng)匹配法匹配法（radius matching）n命令(mng lng)n set seed 10101n attr re78 treat$x,comsup boot reps($breps)dots logit radius(0.001)第二十六页，共45页。方法二：半径方法二：半径(bnjng)匹配法匹配法（radius matching）第二十七页，共45页。方法方法(fngf)三：分层匹配法三：分层匹配法（stratification

11、 matching）n内容：分层匹配法是根据估计的倾向得分将全部样本分块，使得每块的平均倾向得分在处理组和控制组中相等。n优点：Cochrane,Chambers（1965）指出五个区就可以消除95%的与协变量相关的偏差。这个方法考虑到了样本的分层问题或聚类问题。就是假定：每一层内的个体样本具有相关性，而各层之间的样本不具有相关性。n缺点：如果在每个区内(q ni)找不到对照个体，那么这类个体的信息，会丢弃不用。总体配对的数量减少。第二十八页，共45页。方法方法(fngf)三：分层匹配法三：分层匹配法（stratification matching）n命令(mng lng)nset seed

12、10101natts re78 treat,pscore(mypscore)blockid(myblock)comsup boot reps($breps)dots第二十九页，共45页。方法方法(fngf)三：分层匹配法三：分层匹配法（stratification matching）第三十页，共45页。方法方法(fngf)四：核匹配法四：核匹配法（kernel matching）n核匹配是构造一个虚拟对象来匹配处理组，构造的原则是对现有的控制变量做权重平均，权重的取值与处理组、控制组PS值差距呈反向(fn xin)相关关系。第三十一页，共45页。方法方法(fngf)四：核匹配法四：核匹配法（k

13、ernel matching）n命令(mng lng)nset seed 10101nattk re78 treat$x,comsup boot reps($breps)dots logit第三十二页，共45页。方法方法(fngf)四：核匹配法四：核匹配法（kernel matching）第三十三页，共45页。psmatch2第三十四页，共45页。匹配(ppi)变量的筛选n1.设定宏变量(binling)n设定宏变量(binling)x，表示age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74blackn命令：

14、global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black第三十五页，共45页。匹配变量(binling)的筛选n2.初步(chb)设定nlogit treat$x第三十六页，共45页。匹配变量(binling)的筛选n3.逐步回归nstepwise,pr(0.1):logit treat$x第三十七页，共45页。ps值的计算(j sun)npsmatch2 treat$x,out(re78)n倾向(qngxing)得分的含义是，在给定X的情况下，样本处理的概率值。利用logit模型估计样

15、本处理的概率值。概率表示如下：nP(x)=PrD=1|X=ED|X第三十八页，共45页。匹配(ppi)处理组n最近(zujn)邻匹配n命令：psmatch2 treat$x（if soe=1）,out(re78)neighbor(2)aten半径匹配n命令：psmatch2 treat$x,out(re78)ate radius caliper(0.01)n核匹配n命令：psmatch2 treat$x,out(re78)ate kernel第三十九页，共45页。匹配(ppi)处理组n满足两个假设：A共同(gngtng)支撑假设B平行假设第四十页，共45页。ATT（平均处理效应(xioyng)

16、的衡量）以半径(bnjng)匹配为例：psmatch2 treat$x,out(re78)ate radius caliper(0.01)1231、处理组平均、处理组平均(pngjn)效应效应（ATT）2、控制组平均、控制组平均(pngjn)效应效应（ATU）3、总体平均、总体平均(pngjn)效应效应（ATE）第四十一页，共45页。ATT（平均处理效应(xioyng)的衡量）n匹配前后变量的差异对比(dub)n命令：pstest re78$x（pstest re78$x,both graph）第四十二页，共45页。匹配前后密度(md)函数图twoway(kdensity _ps if _tr

17、eat=1,legend(label(1 Treat)(kdensity _ps if(_wei!=1&_wei!=.),legend(label(2 Control),xtitle(Pscore)title(After Matching)twoway(kdensity _ps if _treat=1,legend(label(1 Treat)(kdensity _ps if _treat=0,legend(label(2 Control),xtitle(Pscore)title(Before Matching)第四十三页，共45页。运用(ynyng)bootstrap获得ATT标准误n命令：bootstrap,reps(#):psmatch2 treat$x,out(re78)n在统计分析中，样本较少，采用bootstrap，可以减少小样本偏误。n步骤：首先，从原始(yunsh)样本中可重复地随机抽取n个观察值，得到经验样本；然后采用PSM计算改经验样本的平均处理效果ATT；将第一步和第二步重复进行#次，得出#个ATT值；计算#个ATT值的标准差。第四十四页，共45页。核匹配(ppi)的Bootstrap检验第四十五页，共45页。

展开阅读全文