《STATA面板数据回归(固定效应-随机效应-Hausman检验)32763.pdf》由会员分享,可在线阅读,更多相关《STATA面板数据回归(固定效应-随机效应-Hausman检验)32763.pdf(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Estimation with STATA 连玉君 (西安交通大学金禾经济研究中心) 2005.10 目录 第八章面板数据模型2 8.1简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 8.2静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 8.2.1固定效应模型 . . . . . . . . . . . . . . . . . . . .
2、 . . . . . . . . . . . . . . .4 8.2.2随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 8.2.3假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 8.2.4STATA 实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13 8.3非均齐方差 .
3、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 8.3.1异方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 8.3.2序列相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25 8.3.3方差形式未知时的稳健性估计 . . . . . . . . . . .
4、 . . . . . . . . . . . . . . .30 8.3.4STATA 实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30 8.4参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32 1 第八章面板数据模型 8.1简介 面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国 家、公司等)连续观察多期得到的资料。所以很多时候我们也称
5、其为“追踪资料”。近年来, 由于面板数据资料获得变得相对容易,使得其应用范围也不断扩大。而关于面板数据的计量理 论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题,如近年来发展出的 面板向量自回归模型(Panel VAR)、面板单位根检验(Panel Unit Root test)、面板协整分析 (Panel Cointegeration)、门槛面板数据模型(Panel Threshold)等,都是在现有截面分析和时 间序列分析中的热点主题的基础上发展起来的。 采用面板数据模型进行分析的主要目的在于两个方向:一是控制不可观测的个体异质性; 二是描述和分析动态调整过程,处理误差成分。
6、 使用面板数据主要有以下几方面的优点: 便于控制个体的异质性。比如,我们在研究全国 30 个省份居民人均消费青岛啤酒的数量 时。可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变量。 但同时我们认为民族习惯、1风俗文化、2广告投放等因素也会显著地影响居民的啤酒消 费量。对于特定的个体而言,前两种因素不会随时间的推移而有明显的变化,通常称为个 体效应。而广告的投放往往通过电视或广播,我们可以认为在特定的年份所有省份所接受 的广告投放量是相同的,通常称为时间效应。这些因素往往因为难以获得数据或不易衡量 而无法进入我们的模型,在截面分析中者往往会引起遗漏变量的问题。而面板数据模型
7、的 主要用途之一就在于处理这些不可观测的个体效应或时间效应。 包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。 便于分析动态调整。 1如宁夏属于回族自治区,那里的回民因为信仰伊斯兰教,所以不允许饮酒的,而生活在宁夏的许多汉民也往往 因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。 2如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用较多的啤酒,冬天他们一般是只喝 白酒的。 2 8.2. 静态面板数据模型3 8.2静态面板数据模型 我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通 常为一阶滞后项)的情形。但严格地讲,随机干
8、扰项服从某种序列相关(如 AR(1), AR(2), MA(1)等)的模型也不是静态模型。动态模型和静态模型在处理方法上往往有较大的差异。本 节中我们重点介绍两种最为常用的静态模型固定效应模型和随机效应模型。 考虑如下模型: yit=x0it + uit(8.1) uit=ai+ it(8.2) 其中, i = 1,2, , N , t = 1,2, ,T ;xit为 K 1 列向量, K 为解释变量的个数, 为 K 1 系数列向量。对于特定的个体 i 而言, ai表示那些不随时间改变的影响因素,而这些因 素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我 们一
9、般称其为“个体效应”(individual effects)。对“个体效应”的处理主要有两种方式:一种是 视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;另一种是视其为随机 因素,相应的模型称为“随机效应”模型。 这两种模型的差异主要反映在对“个体效应”的处理上。固定效应模型中的个体差异反映 在每个个体都有一个特定的截距项上;随机效应模型则假设所有的个体具有相同的截距项,个 体的差异主要反应在随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。基于 此,一种常见的观点认为,当我们的样本来自一个较小的母体时,我们应该使用固定效应模 型,而当样本来自一个很大的母体时,应当采用
10、随机效应模型。比如在研究中国地区经济增长 的过程中,我们以全国 28 个省区为研究对象,可以认为这 28 个省区几乎代表了整个母体。同 时也可以假设在样本区间内,各省区的经济结构、人口素质等不可观测的特质性因素是固定不 变的,因此采用固定效应模型是比较合适的。而当我们研究西安市居民的消费行为时,即使样 本数为 10000 人,相对于西安市 600 万人口的母体而言仍然是个很小的样本。此时,可以认为 不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。 遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的 母体。因此有些学者认为,区分固定效
11、应模型和随机效应模型应当看使用二者的假设条件是否 满足。由于随机效应模型把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应 不相关,而固定效应模型并不需要这个假设条件。所以如果我们的检验结果表明该假设满足, 那么就应该采用随机效应模型,因为它更为有效,反之,就需要采用固定效应模型。 另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于 8.2. 静态面板数据模型4 估计模型的参数,而模型中个体的数目又不是很大的情况下,采用固定效应模型是个不错的选 择,因为它非常容易估计。但当我们需要对模型的误差成分进行分析时(通常分解为长期效果 和短期效果),就只能采用随机
12、效应模型。在这种情况下,即使模型中的部分解释变量与个体 效应相关,我们仍然可以通过工具变量法对模型进行估计。 简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根据 分析的目的选择合适的模型,同时也要以 8.2.3 节中介绍的假设检验方法为基础进行模型筛选。 8.2.1固定效应模型 模型的基本设定和假设条件 若视 ai为固定效应,模型 (8.1) 可以采用向量的形式表示为: yi= ai1T+ xi + i(8.3) 其中, yi= (yi1, yi2, , yiT)0, xi= (xi1,xi2, ,xiT)0, i= (i1,i2, ,iT)0, 1T是一个所有元
13、素都为 1 的 T 1 列向量。 我们有如下两个基本假设:3 假设 1 : E i|xi,ai = 0(8.4) 假设 2 : Var i|xi,ai = 2IT(8.5) 假设 1 表明干扰项 与解释变量 x 的当期观察值、前期观察值以及未来的观察值均不相关,也 就是说我们的模型中所有的解释变量都是严格外生的。假设 2 就是一般的同方差假设,在此假 设下模型 (8.1) 的 OLS 估计是 BLUE 的。当此假设无法满足时,我们就需要处理异方差或序列 相关以便得到稳健性估计量。 组内估计量 上面我们已经提到,在假设 1 和假设 2 同时成立的情况下,模型 (8.1) 的 OLS 估计是 BL
14、UE 的。但在实际操作的过程中,如果 N 比较大,那么我们的模型中将包含 (N+K) 个解释变 量,4计算的工作量往往很大,对于 N 相当大的情况(如 N=10000 ),一般的计算机都无法胜 3一般应用中,我们也常采用如下两个相对较弱的假设。假设 10 : E i|xi = 0 和假设 20: Var i|xi = 2IT。 4此时,我们可以将模型 (8.1) 视为一个包含 N 个虚拟变量, X 中不包含常数项的普通 OLS 模型。当然,我们也 可以在 X 中包含常数项,但此时只需加入 N-1 个虚拟变量,参见脚注 6 。 8.2. 静态面板数据模型5 任。所以我们有必要先进行一些变换以消除
15、固定效应,进而对简化的模型进行估计,本小节和 下一小节介绍的这两种方法都是基于此目的进行的。 我们首先将所有观察值进行堆叠,于是模型 (8.1) 可用矩阵形式表示为: y = Da + X + (8.6) 其中, y = (y01,y02, ,y0N)0, = ( 1, 2, , N)0, 均为 NT 1 向量, D = IN1T, a = (a1,a2, ,aN)0。考虑到 D 矩阵的构造形式,它事实上对应着 N 个虚拟变量。因此,模型 (8.6) 等价于给混合 OLS 模型 y = X + 加入 N 个虚拟变量。 在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复
16、使用。定义 DD0= IN JT, 其中, JT= 1T10T为 T T 维矩阵,每个元素均为 1。同时, 我们定义 P = D(D0D)1D0= INJT, JT= (1/T)JT是 T T 维矩阵,每个元素均为 1/T ; Q = INT D(D0D)1D0= INT P 。矩阵 P 和 Q 都具有如下性质: (1) 对称、幂等性: P0= P , 且 P2= P ; (2) 正交性: PQ = 0 ; (3) 和为单位矩阵: P + Q = INT. 我们可以从上述三个性质中的任意两个推导出第三个。易于证明, QD = 0 ,因此,我们可以 通过在等式 (8.6) 两边同时左乘 Q 以消
17、除固定效应: Qy = QX + Q (8.7) 变换后的模型的 OLS 估计量为:5 WG= (X0QX)1X0Qy(8.8) 方差估计量为: Var( WG) = 2(X0QX)1(8.9) 显然, 2的一致估计量为: 2= 1 NT NK (Qy QX WG)0(Qy QX WG)(8.10) 5事实上,模型 (8.7) 并不满足 OLS 的经典假设,因为 E(Q )(Q )0 = 2Q 6= 2I,但其 GLS 估计量与 (8.8) 式相 同。具体推导过程留给读者。 8.2. 静态面板数据模型6 个体效应的估计值为: ai= yi xi WG(8.11) 该估计量通常称为“组内估计量”
18、,因为上述变换实质上是从每个观察值中减去其组内平 均值,以去除组内不随时间变化的个体效应。变换后的模型 (8.8) 的特定元素为: (yit yi) = (x0it xi) + (it i)(8.12) 其中, yi= (1/T) PT t=1yit , xi和 i的定义方式与此相同。所以,要得到 WG,我们只需要从原 始数据中间去其组内平均,然后对变换后的模型执行 OLS 估计即可。 需要注意的是,在模型 (8.6) 中, Da 项实际上对应着 N 个虚拟变量,所以为了避免共线性 问题,解释变量 X 中不应再包含常数项。6 一阶差分估计量 除了上述通过“组内去心”的办法消除固定效应外,我们还
19、可以通过一阶差分的方式去除 固定效应。对 (8.1) 式取一阶差分,得到 4yi2=4xi2 + 4 i2 . . . 4yiT=4xiT + 4 iT (8.13) 采用矩阵形式可表示为 Byi= Bxi+ B i(8.14) 其中, B = 11000 01100 . . . . . . . . 00011 (T1)T (8.15) 对所有观察值进行堆叠,得到 (IN B)y = (IN B)X + (IN B) (8.16) 设 QB= IN B ,则相应的 OLS 的估计量为: OLS= (X0QBX)1X0QBy(8.17) 6当然,我们也可以在 X 中加入常数项,但此时要同时加入约
20、束条件: PN i=1ai = 0 。这样我们估计出的个体效 应 ai就应当解释为个体 i 的相对截距项,而不是前面得到的绝对截距项。STATA8.0 就采取了在 X 中包含常数项的 处理方式。 8.2. 静态面板数据模型7 根据假设 1 可知,E X = 0 ,所以 OLS是 的无偏估计量,在 N 较大的情况下, OLS也 是一致的。由假设 2 可知, 满足同方差假设,且不存在序列相关。但变换后的干扰项 B 却 并不满足同方差的假设, Var(QB ) = 2QBQ0B(8.18) 但此时模型 (8.16) 的 GLS 估计量是 BLUE 的, GLS= XQB(QBQ0B)1QBX1XQB
21、(QBQ0B)1QBy.(8.19) 易于证明 QB(QBQ0B)1QB= Q 。7因此, GLS WG 也就是说,我们采用一阶差分去除“固定效应”后,再用 GLS 估计差分后的模型以消除由于差 分而导致的干扰项的序列相关问题得到的 GLS 估计量与我们前面介绍的组内估计是等价的。由 于 GLS满足经典 OLS 的基本假设,所以 WG是 BLUE 的。 8.2.2随机效应模型 模型的基本设定和 GLS 估计 当 N 很大时,采用固定效应模型往往会使参数的个数迅速增加,自由度的损失往往较大。 另一方面,固定效应模型的基本目的是在控制个体效应的前提下估计模型的参数,而我们采用 面板数据模型的另一个
22、重要的目的在于分离出方差中的长期成分和短期成分。此时,随机效应 模型可能更为适用。模型的基本设定同 (8.1) : yit=xit + uit(8.20) uit=ai+ it(8.21) 随机效应模型可以视为固定效应模型的一个扩展,这需要我们在上一节中假设 1 和假设 2 的基础上再增加如下假设: 7利用矩阵直乘的性质: (A F)(C D) = (AC) (FD) , 我们可以得到 QB(QBQ0 B)1QB = IN B0(BB0)1B 。 进一步,我们可以证明 B0(BB0)1B = IT JT:由于矩阵 H = T1/210T (BB0)1/2B 满足 HH0= IT, 所以 H0H
23、 = IT, 即 10T1T/T + B0(BB0)1B = IT 因此, QB(QBQ0B)1QB= IN (IT JT) = INT P = Q . 8.2. 静态面板数据模型8 假设 3 : ai IID(0,2 a) (8.22) 假设 4 : Cov(ai,xit) = 0(8.23) 假设 5 : ui|xi IID(0,2IT+ 2 a1T1 0 T) (8.24) 其中,假设 1 将个体效应设定为服从均值为 0 ,方差为 2 a 的随机数,而我们在固定效应模型中 没有对 Eai 作任何限制;假设 2 非常显然,因为此时我们将 ai视为随机干扰项的一部分,所 以它不能与解释变量相
24、关;假设 3 表明 ai与 it相互独立。 基于以上设定,我们可以写出模型的方差-协方差矩阵: ? ? ? = Euu0 = IN (2IT+ 2 a1T1 0 T) = IN 6 6 6(8.25) 其中,6 6 6 = 2IT+ 2 a1T1 0 T ,具体形式为: 6 6 6 = 2 a + 22 a 2 a 2 a 2 a + 22 a . . . . . . . . 2 a 2 a 2 a + 2 .(8.26) 那么, 的 GLS 估计量为: GLS= X0? ? ?1X1X0? ? ?1y(8.27) 方差估计量为: Var( GLS) = X0? ? ?1X1(8.28) 这里
25、,我们也可以像第四章那样将 ? ? ? 矩阵进行分解并转换原始数据,继而用 OLS 估计转 换后的数据。我们需要求得 ? ? ?1/2= In 6 6 61/2,显然,我们只需要求出 6 6 61/2即可, 6 6 61/2= 1 ? I T 1T10T ? 其中, = 1 p 2 + T2 a 8.2. 静态面板数据模型9 于是我们可以对原始数据作如下转换: 6 6 61/2yi= 1 yi1 yi yi2 yi . . . yiT yi (8.29) 按照同样的方法我们可以对 xi进行转换。对转换后的数据执行 OLS 回归即可得到与 (8.27) 式相 同的结果。我们注意到,如果 (8.2
26、9) 式中的 = 1,则上述变换就是我们前面讲到的“去心变 换”,得到的就是固定效应模型对应的组内估计量。事实上,我们可以证明 GLS可以表示为 组内估计量和组间估计量的加权平均,详细过程请参考 Greene(2002, pp.295-296)。 FGLS 估计 我们上面介绍的 GLS 估计是在假设方差成分已知的前提下进行了,但多数情况下我们并不 知道 2 和 2 a ,因此需要先估计这两个未知参数,继而用它们去代替 (8.51) 式中的真实值并采 用 GLS 估计即可。基本思路是:先估计固定效应模型,得到 2 的估计值 2 ,继而估计混合 OLS 模型,利用其残差和第一步得到的 2 即可估计
27、出 2 u 。 由于组内估计量是无偏且一致的,所以我们可以利用固定效应模型的残差来估计 2 ,因为 在估计固定效应模型的过程中我们已经去除了个体效应。设 eit= (yit yi) (xit xi)0 WG为 固定效应模型的残差,则 2 = Pn i=1 PT t=1e 2 it nT n K (8.30) 接着我们看如何估计 2 a 。模型 (8.20) 的 OLS 估计仍然是一致的,多数情况下也是无偏 的。设 eit为模型 (8.20) 的 OLS 残差,则 2 u = Pn i=1 PT t=1 e2 it nT K 1 = 2 + 2 a (8.31) 由此,我们可以得到: 2 a =
28、 2 u 2 采用该估计量的一个问题是它有时可能是负值,此时我们可以略去 (8.30) 式和 (8.31) 式中队自 由度的调整。这样就可以保证 2 u 一定是大于 2 的,因为前者是后者的受限模型的估计量。这 种处理方法的依据在于我们只需要 2 和 2 a 的一致估计即可,至于是否无偏并不影响大样本性 质。 上述估计方法虽然简单易行,但是当随机效应模型中包含不随时间改变的变量,如性别、 种族等,我们就无法通过估计固定效应模型来估计 了。不过此时,我们可以沿袭上面的思 8.2. 静态面板数据模型10 路,利用组间估计和混合 OLS 估计的残差来估计 2 和 2 a 。采用 OLS 估计模型 y
29、i= x0i + i(8.32) 可以得到一致估计量 m= 2 a + ( 2 /T),结合 m 和 2 u 我们可以得到: 2 = T T 1( 2 u m) 2 a = T T 1m 1 T 1 2 u 那么以上介绍的各种 FGLS 估计量哪个更为有效呢?我们知道,对于随机效应模型而言, 针对方差成分的真实值进行 GLS 估计将得到 BLUE 估计量。而以上介绍的 FGLS 估计量在 N 或 T 或二者都成立的情况下,都是渐进有效的。Maddala 和 Mount(1973) 采用蒙特 卡罗模拟方法对各种 FGLS 估计量的比较表明,在小样本下各种估计方法难分仲伯,所以建议 采用简单易行的
30、方法进行估计。 Taylor(1980) 比较了小样本下随机效应的 FGLS 估计和固定效应的 LSDV 估计,结果表明: (1) 相对于 LSDV ,FGLS 更具有效性,且具有较小的自由度; (2) FGLS 的方差不会大于 Cramer-Rao 下限的 17% 。 (3) 选择相对有效的方差成分估计量并不必然能够提高 FGLS 估计量的有效性。 序列相关性 易于证明: Cov(uit,ujs) = 2 a + 2fori = j, t = s 2 a fori = j, t 6= s (8.33) 和 = Corr(uit,ujs) = 1fori = j, t = s 2 a/( 2
31、a + 2)fori = j, t 6= s (8.34) 不同截面间干扰项的协方差和相关系数都为 0 。从 (8.34) 式可以看出,由于随机效应的引入使 得组内不同时期的观察值之间存在固定不变的自相关关系,相关系数为 = 2 a/( 2 a + 2)。这 很容易理解,因为尽管个体效应是随机的,但在组内并不随时间改变,组内不同期间固定的相 关性也就很显然了。显然,在某些情况下这个假设并不合理。如在研究投资或消费时,我们往 往会假设组内不同期间的相关性是随时间逐渐减弱的。关于序列相关更为一般性的设定将在 8.3.2 小节中讲述。 8.2. 静态面板数据模型11 8.2.3假设检验 检验固定效应
32、 在本章的 (8.2.1) 小节中,我们已经提到,固定效应模型的设定是建立在如下假设基础之上 的,即,我们认为个体间存在显著差异,但是对于特定的个体而言,组内不存在时间序列上的 差异。但是,如果个体间(组间)的差异不明显,那么采用 OLS 对混合数据(Pooled OLS)进 行估计即可。检验的基本思路为,在个体效应不显著的原假设下,应当有如下关系成立: H0:1= 2= = n 我们可以采用F统计量来检验上述假设是否成立, F = (R2 u R2 r)/(n 1) (1 R2 u)/(nT n K) F(n 1,nT n K)(8.35) 其中, u 表示不受约束的模型,即我们的固定效应模
33、型; r 表示受约束的模型,即混合数据模 型,仅有一个公共的常数项。 同理,我们可以构造相应的 F 统计量来检验时间效应的显著性,以及个体效应和时间效应 的联合显著性。 检验随机效应 Breusch和Pagan(1980)则基于OLS估计的残差构造LM统计量,针对如下假设来检验随机 效应, H0:2 a = 0v.s.H1: 2 a 6= 0 相应的检验统计量为: LM = nT 2(T 1) Pn i=1 hPT t=1eit i2 Pn i=1 PT t=1e 2 it 1 2 (8.36) 在原假设下,LM 统计量服从一个自由度为 1 的卡方分布。如果拒绝原假设则表明存在随机效 应。如果
34、采用矩阵的形式,该 LM 统计量可以表示为: LM = nT 2(T 1) ?e0DD0e e0e 1 ?2 (8.37) 需要说明的是,该检验假设模型的设定是正确的,即 ai与解释变量不相关,而这一假设是否正确 还需要作进一步的检验,这是我们下面要分析的内容。 8.2. 静态面板数据模型12 固定效应还是随机效应?Hausman 检验 在前面的分析中,我们从不同角度比较了固定效应模型和随机效应模型的差别,但是在实 际分析中应该使用哪个模型呢?某些学者指出,试图区分固定效应和随机效应本身就是错误 的,二者似乎不具可比性。Mundlak(1978)指出,一般情况下,我们都应当把个体效应视为 随机
35、的。如果从单纯的实际操作角度来考虑,固定效应模型往往会耗费很大的自由度,尤其是 对于截面数目很大的面板数据,随机效应模型似乎更合适。但另一方面,固定效应模型有一个 独特的优势,我们无须做个体效应与其它解释变数不相关的假设,而在随机效应模型中,这个 假设是必须的,在模型的设定中如果遗漏了重要的变量,就会导致参数估计的非一致性。 因此,我们可以通过检验固定效应 ai与其它解释变量是否相关作为进行固定效应和随机效 应模型筛选的依据。Hausman 检验就是这样一个检验统计量。其基本思想是,在 ai与其他解释 变量不相关的原假设下,我们采用 OLS 估计固定效应模型和采用 GLS 估计随机效应模型得到
36、 的参数估计都是无偏且一致的,只是前者不具有效性。若原假设不成立,则固定效应模型的参 数估计仍然是一致的,但随机效应模型却不是。因此,在原假设下,二者的参数估计应该不会 有显著的差异,我们可以基于二者参数估计的差异构造统计检验量。 假设 b 和 分别为固定效应模型的 OLS 估计和随机效应模型的 GLS 估计,则 Varb = Varb + Var Covb Covb 0(8.38) 基于上述 Hausman 检验的思想,有效估计量与它和非有效估计量之差的协方差应当为零,即 Cov(b ), = Covb, Var = 0(8.39) 由此我们可以得到: Covb, = Var (8.40)
37、将 (8.40) 式的结果代入 (8.38) 式得到: Varb = Varb Var = 9 9 9(8.41) Hausman 检验基于如下 Wald 统计量: W = b 09 9 9 1b 2(K 1)(8.42) 其中, 9 9 9 采用固定效应和随机效应模型的协方差矩阵进行计算. 如果拒绝了原假设,就表明个体 效应 ai和解释变量 xit是相关的,此时我们有两种处理办法:一是采用固定效应模型,某些情 况下这是一种无奈的选择;8二是采用工具变量法来处理内生问题。 8因为有时我们通过 B-P 检验发现存在随机效应,但 Hausman 检验又表明使用随机效应模型的前提假设得不到满 足,而
38、我们又往往很难找到合适的工具变量,所以只能采用固定效应模型。 8.2. 静态面板数据模型13 序列相关检验 考虑固定效应模型 yit= ai+ xit + it(8.43) 其一阶差分的形式为: 4yit= 4xit + 4it(8.44) 若我们设定 it= it1+ uit, 则 4it= 4it1+ 4uit。那么序列相关的原假设为: H0: = 0v.s. 6= 0 设 4it= eit在原假设 H0下,我们易于证明有如下关系成立: Corr(eit,eit1) = 0.5(8.45) 由于在存在序列相关的情况下, (8.44) 式的 OLS 估计量仍然是其真实值的一致估计量,设用 e
39、it 对 eit1进行 OLS 回归的系数估计值为 ,那么上述序列相关检验就转化为检验 是否显著异 于 -0.5 ,这采用一般的 t 检验即可完成。9 至于随机效应模型设定下的序列相关检验就要相对复杂一些,有兴趣的读者可以参考 Baltagi (2001)。10 异方差检验 see xttest2 and xttest3 8.2.4STATA 实现 基本设定 Panel Data 具有如下数据存储格式: companyyearinvestmvalue 11951755.94833.0 11952891.24924.9 119531304.46241.7 119541486.75593.6 21
40、951588.22289.5 21952645.52159.4 21953641.02031.3 21954459.32115.5 9对于这部分内容的详细介绍,请参考 Wooldridge (2002,pp.282),STATA 中的 xtserial 可以完成该检验。 10不过 STATA 中的 xttest1 可以完成这一任务,我们在下面会介绍该命令的使用。 8.2. 静态面板数据模型14 31951135.21819.4 31952157.32079.7 31953179.52371.6 31954189.62759.9 . . . 其中,变量 company 和 year 分别为截面变
41、量和时间变量。显然,通过这两个变量我们可以非常 清楚地确定 panel data 的数据存储格式。因此,在使用 STATA 估计模型之前,我们必须告诉它 截面变量和时间变量分别是什么,所用的命令为 tsset,11命令为: tsset company year 输出结果为: panel variable:company, 1 to 5 time variable:time, 1 to 20 这里需要指出的是,由于 Panel Data 本身兼具截面数据和时间序列二者的特性,所以对时间序 列进行操作的运算同样可以应用到 Panel Data 身上。这一点在处理某些数据时显得非常方便。 如,对于上
42、述数据,我们想产生一个新的变量 Lag invest ,也就是 invest 的一阶滞后,那么我们 可以采用如下命令: gen Lag_invest = L.invest 得到的新的数据为: companyyearinvestLag_investmvalue 11951755.9.4833.0 11952891.2755.94924.9 119531304.4891.26241.7 119541486.71304.45593.6 21951588.2.2289.5 21952645.5588.22159.4 21953641.0645.52031.3 21954459.3641.02115.5
43、 31951135.2.1819.4 31952157.3135.22079.7 31953179.5157.32371.6 31954189.6179.52759.9 . . . 11 See help tsset, 命令为 whelp tsset。另外,如果想获得关于 Panel Data 的所有帮助,可采用命令 whelp xt 。 8.2. 静态面板数据模型15 当然,按照这样的思路,我们还可以产生某个变量的移动平均、差分等。总之,凡是可以 应用到时间序列上的命令,基本上都可以应用到 Panel Data 中来。在完成了上述设定后,我们 就可以进行基于Panel Data的数据描述性统
44、计和模型的估计了。 统计描述 在正式进行模型的估计之前,我们必须对样本的基本分布特性有一个总体的了解。对于 Panel Data 而言,我们至少要知道我们的数据中有多少个截面(个体),每个截面上有多少个 观察期间,整个数据结构是平行的还是非平行的。进一步地,我们还要知道主要变量的样本均 值、标准差、最大值、最小值等情况。这些都可以通过以下三个命令来完成:12xtdes 命令用于 表 8-1: 面板数据描述统计命令 命令用途 xtdes对Panel Data截面个数、时间跨度的整体描述 xtsum分组内、组间和样本整体计算各个变量的基本统计量 xttab采用列表的方式显示某个变量的分布,较少使用
45、 初步了解数据的大体分布状况,我们可以知道数据中含有多少个截面,最大和最小的时间跨度 是多少。在某些要求使用平行面板数据的情况下,我们可以采用该命令来诊断处理后的数据是 否为平行数据。 xtsum 命令事实上是我们经常使用的命令 summary 的扩展,各个统计量都分别在样本总 体、组内和组建三个层次上进行计算。 需要指出的是,由于我们可以把面板数据简单地视为混合数据(pooled data),所以以往 针对截面数据设定的命令,如 list、sum、des、tabstat、histogram、kdensity 等命令也都可以用 于 Panel data 的样本描述。 估计 STATA8.0 主
46、要提供了如下模型的估计方法,如表 8-2 所示。其中多数模型的估计方法我们 都会在随后的章节中陆续讲到。 这里我们先介绍固定效应模型和随机效应模型的估计方法。二 者都是采用 xtreg 命令来估计的,差别在于选项的设定,基本命令格式如下: 12另外一些用于面板数据统计性描述的命令可以从网上下载,包括xtcount、xtlist、countby、xtpattern、xtcorr 和 xtcorr2。 8.2. 静态面板数据模型16 表 8-2: STATA8.0 中用于估计 Panel Data 模型的主要命令一览 命令模型 xtregFixed-, between- and random-ef
47、fects, and population-averaged linear models xtregarFixed- and random-effects linear models with an AR(1) disturbance xtglsPanel-data models using GLS xtpcseOLS or Prais-Winsten models with panel-corrected standard errors xtrchh Hildreth-Houck random coeffi cients models xtivregInstrumental variable
48、s and two-stage least squares for panel-data models xtabondArellano-Bond linear, dynamic panel data estimator xtabond2Arellano-Bond system dynamic panel data estimator(需要从网上下载) xttobitRandom-effects tobit models xtintregRandom-effects interval data regression models xtlogitFixed-effects, random-effects, population-averaged logit models xtprobitRandom-effects and population-averaged probit models xtcloglogRandom-effects and population-averaged cloglog models xtpoissonFixed-effects, random-effects,