《面板数据模型入门讲解.doc》由会员分享,可在线阅读,更多相关《面板数据模型入门讲解.doc(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十四章 面板数据模型在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进展分析,二是把城镇居民与农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。多个观测对象的时间序列数据所组成的样本数据,被称为面板数据Panel Data。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体Individual。例如城镇居民
2、是一个观测个体,农村居民是另一个观测个体。如果面板数据中各观测个体的观测区间是一样的,我们称其为平衡的面板数据,反之,那么为非平衡的面板数据。基于面板数据所建立的计量经济学模型那么被称为面板数据模型。例如,表中城镇居民与农村居民的样本数据具有一样的采样区间,所以,它是一个平衡的面板数据。14.1 面板数据模型一、两个例子1. 居民消费行为的面板数据分析让我们重新回到居民消费的例子。在表.1中,如果我们将城镇居民与农村居民的时间序列数据作为一个样本,以.1的凯恩斯消费函数就可以表述为: 14.1.1其中:与分别表示第i个观测个体在第t期的消费与收入。i=1、2分别表示城镇居民与农村居民两个观测个
3、体,t1980、2021表示不同年度。为经典误差项。在14.1.2中,随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民与农村居民的消费差异一局部来自收入差异与随机扰动,还有一局部差异是由城镇居民与农村居民的身份或地域差异决定的,它不随时间变化,这种差异性就由与来反映。同时,对同一种居民,在收入不变的情况下,消费支出还可能随时间的变化而变化,这种变化的来源在于除随机扰动以外经济环境的一些系统性变化,如经济体制的变迁,这种变化是所有居民共同面对的,所导致的居民消费在时间上的差异性就由时间效应、
4、来反映。实际上,模型.1还隐含了一个假定,既假定城乡居民的边际消费倾向一样并且不随时间变化。尽管这一假定不一定成立,但作为熟悉面板数据模型根底知识的例子,我们还是暂且保存这一假定。2. 农村居民收入分析为了考察中国农民收入及农村要素投入构造之间的关系,同样地,我们既可以采用全国的时间序列总量数据进展分析,也可以采用各省市自治区的横截面数据进展分析。但是,如果能够综合各省市自治区的时间序列数据,从而基于面板数据进展分析,一个显而易见的好处就是,我们将会有更多更具体的信息,估计与检验统计量都会有更大的自由度,从而获得更可靠的分析结论。简单而言,由于农村剩余劳动力的存在,影响农村居民收入的要素配置因
5、素可以分为以下几个方面:资本拥有量、投资主体构造、劳动的配置状态等。所以,基于省际面板数据,有研究者建立了如下的面板数据模型: 14.其中:it为地区在第期的农村人均纯收入,各年份的现值均按本地区农村消费者价格指数折算为1995年不变价。it为地区在第期乡村劳动力中非农产业从业人数及农林牧渔等传统产业从业人数之比。it为地区在第期农村集体投资及个人投资的比率。it为估算的地区在第期农村人均资本存量。与分别为个体效应与时间效应。反映除劳动力分配比例、投资比例、资本存量的影响以外,各省人均纯收入受本省内在因素如地理位置,经济开展根底等所导致的不随时间变化的差异性。而时间效应反映除解释变量的影响以外
6、,所有省份农村人均纯收入面对共同的经济环境的变化而形成的时间上的差异性。显然,面板模型及我们以前所学的模型之间的区别,就在于存在个体效应与时间效应。简而言之,剔除了解释变量的影响以后,由个体内部不变的因素所导致的个体之间的差异性,就是个体效应;由所有个体所面对的共同因素所导致的时间上的变化,就是时间效应。二、面板数据的特征及优势基于前面两个例子,我们发现,面板数据既可以看作多个个体时间序列数据的合并,也可以看作多个时点横截面数据的合并。所以,面板数据的根本特征就是其数据构造的二维性图。或者说,面板数据是一个数据平面,这也正是其被以“面板命名的原因。横截面数据时间序列数据图14.1.1 变量X的
7、面板数据构造那么,有读者会说,我们可以基于全国的总量数据城镇居民与农村居民数据加总来分析中国居民的消费行为,为什么要使用面板数据呢?实际上,使用面板数据会为我们的计量经济学分析带来很多的好处。1扩大信息量,增加估计与检验统计量的自由度。显然,及时间序列数据与横截面数据不同,面板数据是二维数据。它既包含观测同一个体随时间的变化,也包含同一时间不同个体之间的差异。这显著扩大了样本的信息量与样本容量,有助于提高参数估计的精度与检验结论的可靠性。对模型.1而言,如果我们基于居民的时间序列数据进展分析,样本容量为29。而基于城镇与农村的面板数据,样本容量那么为58,如果基于省市区的面板数据,样本容量将更
8、大,模型估计量与检验统计量的自由度显著增加。更重要的是,基于总量数据进展分析,无法反映两种居民之间的差异性,其数据信息对于两种居民都有显著的偏差。2有助于提供动态分析的可靠性。基于单个个体的时间序列数据进展动态分析,一方面会受到采样区间的限制,另一方面其研究结论也缺乏普适性。而基于面板数据,那么可以在较短的采样区间内反映多个个体共同的动态变化特征,从而弱化样本区间的制约得到更为可靠的分析结论。当我们在模型.1中引入预期因素时,其回归模型被表述为:。 14.如果使用总量数据,我们只能根据不同年度消费额的变化信息来估计消费的动态性质,而使用面板数据,我们有两种居民消费的变化信息可供利用。3有助于反
9、映经济构造、经济制度的渐进性变化。对于所考察的经济体系而言,经济构造与经济制度的变化通常是渐进性的,我们很难找到一个量化的指标来反映这种渐进性变化。幸运的是,使用面板数据时,时间效应是被解释变量中不随个体变化而只随时间变化的局部,它反映了所有个体所面对的共同因素的影响。所以,时间效应是对经济构造与经济制度渐变效应的一个很好的度量指标。4面板数据有助于反映经济体的构造性特征。及总量数据相比,面板数据提供了更具微观层次的信息。对很多经济问题的分析而言,某些变量涉及不同观测个体之间的相互关系,例如资本与劳动在区域与产业之间的流动,技术的溢出,通胀的相互影响等。使用面板数据使得这些构造性变化信息的分析
10、成为可能。三、面板数据模型的混合估计既然面板数据有诸多优势,那么,面板数据模型的分析及时间序列或横截面数据模型有什么不同呢?在.1与14.中,如果假定个体效应与时间效应为0,那么,这些模型及我们前面所熟悉的单方程模型没有任何本质上的差异。所以,我们可以直接基于OLS对其进展估计。也就是说,我们没有考虑面板数据的构造特殊性,而直接把各时间序列或各横截面数据混合起来进展估计,这种估计方法我们称之为面板混合OLS估计。对于模型14.,如果假定个体效应与时间效应为0,那么模型可以表述为:其中:,it为地区在第期的农村人均纯收入。也就是说,我们将各个地区的数据堆积起来,看成是对同一个对象的观测数据。其他
11、变量的向量表述也是类似的。如果为经典误差项,这一模型及第五章所讲的多元线性回归模型没有任何本质区别,其OLS估计量是线性无偏最优估计量。基于中国28个省市自治区不包括重庆、海南、西藏19952005年的面板数据,其面板混合OLS估计的结果为: 14. 0.8409 。但是,对面板数据而言,把个体效应与时间效应假定为0一般是不符合经济现实的,尤其是个体效应。我们很难想象各地区农村居民的消费特征不存在差异性。当我们考虑个体效应及时间效应时,我们会发现,面板数据在为我们带来更多信息与便利的同时,也带来了一些新的问题。 固定效应及随机效应面板数据模型的一般形式可以表述为: 14.其中:为经典误差项。,
12、。我们已经知道,及时间序列数据或横截面数据的单方程模型相比,面板数据模型唯一的不同之处就是存在个体效应与时间效应。根据与及模型解释变量是否相关,面板数据的个体效应与时间效应又分为两种情形:固定效应与随机效应。如果个体效应及模型中的解释变量是相关的,我们就称这种个体效应是固定效应Fixed Effect。反之,如果个体效应及模型中的解释变量不相关,我们称之为随机效应Random Effect。同样地,如果时间效应及模型中的解释变量是相关的,我们就称这种时间效应是固定效应。反之,那么为随机效应。例如:在模型中,如果个体效应及收入相关,时间效应及收入不相关,那么,该模型的个体效应是固定效应,时间效应
13、是随机效应。如何理解固定效应与随机效应的含义呢?当个体效应及解释变量相关时,因为解释变量反映观测个体的个性化特征,所以,此时的个体效应反映了观测个体的个性化特征。或者说,此时个体效应的差异及观测个体的特征有内在的联系,所以,我们可以称这种效应是“固定的。相反,如果个体效应及解释变量不相关,那么说明个体效应的差异及观测个体的特征没有显著的内在联系,在某种程度上,这种个体差异有可能是“随机产生的。同样,时间效应的固定效应是指时间效应在时间上的差异是及特定观测时间的经济背景有内在联系,而其随机效应那么是指时间效应在时间上的差异是“随机产生的。14.3 静态面板数据模型的估计对于面板数据模型14.,我
14、们首先考虑解释变量中不含被解释变量滞后项的情形,这样的模型我们称之为静态面板数据模型。当个体效应与时间效应是固定效应与随机效应时,模型所面对的计量经济学问题是不同的,其估计方法也不同。一、静态面板数据模型的固定效应估计如果个体效应与时间效应满足固定效应假定,显然此时模型的随机误差项及解释变量相关,它违背了高斯马尔可夫定理对“解释变量及误差项不相关的假定,根据我们在模型设定与联立方程中所学的知识,此时模型中参数的OLS估计量是有偏的。显然,固定效应面板数据模型的本质问题是解释变量的内生性问题,其后果是OLS估计量不再是无偏的估计量。既然OLS估计量是有偏的,我们就需要新的无偏估计量。对于固定效应
15、的静态面板数据模型,其线性最优无偏的估计方法是最小二乘虚拟变量法LSDV方法。1. LSDV估计方法为了表述简便,我们以后不考虑时间效应,而只考虑个体效应。我们基于如下的一元静态面板数据模型来说明LSDV估计的根本思路: 14.1为每一个个体设定一个虚拟变量,。其中:1表示第i个观测个体,0表示不是第i个观测个体。2在模型中引入虚拟变量,通过虚拟变量使个体效应显性化参数化,那么模型14.3.1可表述为: 14.3.2 为了解决虚拟变量的完全多重多重共线性,我们可以直接估计模型: 14.或 此时,模型的误差项是经典误差项,所以,我们可以直接对14.3.3或14.3.4进展OLS估计。读者应该可以
16、理解,14.3.3与14.3.4是等价的,尽管个体效应的估计值不相等。实际上,鉴于个体效应只是反映个体之间的差异性,其数值本身的大小是没有经济意义的,我们所关心的只是数值的差异。最后,让我们总结一下LSDV估计的根本思想:通过虚拟变量把误差项中及解释变量相关的个体效应与时间效应参数化,把个体效应与时间效应从误差项中别离出来,使误差项及解释变量不相关,以便进展OLS估计。这正是其被称为最小二乘虚拟变量法的原因。回到中国农民纯收入的例子。基于中国的省际面板数据,对模型14.进展LSDV估计,为简便起见,我们在此仅考虑个体效应,其具体估计结果为: 14.3.5 显然。LSDV估计结果14.3.5不同
17、于混合OLS估计结果14.,尤其是系数的估计结果由显著的负值变为不显著的正值。估计结果的显著不同本在我们的意料之中,因为混合OLS估计的实际上是受约束模型,即约束下模型。细心的读者可能已经注意到,在14.3.5的估计结果中,我们没有报告模型的判定系数。原因在于,对于考虑了个体效应或时间效应的面板数据模型而言,不能反映解释变量对被解释变量变化的解释能力。因为,此时的模型包含了个体效应与时间效应对被解释变量变化的解释,其判定系数也包含了个体效应与时间效应的奉献,而不只是解释变量的奉献。2. LSDV估计方法的直观含义 根据我们在第五章中对多元回归方程估计思想的解释,对模型我们还有一种等价的估计方法
18、。这种等价方法的步骤是:1分别估计方程: 得到残差与。 2估计方程: 14. 此时,对的估计及14.3.3的LSDV估计是等价的。我们注意到,在步骤1中,对每一个个体i而言,只有,其他虚拟变量都等于0,既。以i1为例,回归方程可以写成:该方程的残差就是被解释变量的离差。所以,它是在第1个个体内部求变量Y的离差。同样的,是在第1个个体内部求变量X的离差。由此,我们发现,实际上是变量Y的个体内离差对变量X的个体内离差进展回归。所以,LSDV估计方法的直观含义是,将被解释变量与解释变量在个体内取离差,以被解释变量的个体内离差对解释变量的个体内离差进展回归,并进展OLS估计。 在分析农民纯收入的例子,
19、如果我们将所有变量、的样本数据都转换为省内离差的形式,那么,我们对模型直接进展OLS估计,其斜率系数的估计结果及的结果是一样的。二、静态面板数据模型的随机效应估计如果个体效应与时间效应满足随机效应假定,显然此时模型的随机误差项及解释变量不相关,此时模型中参数的OLS估计量仍是无偏的。但是,由于个体效应的存在,同一观测个体的误差项都包含不随挤时间变化的,从而导致同一时间序列样本数据存在自相关。同样地,由于时间效应的存在,同一横截面的误差项都包含不随个体变化的,从而导致同一横截面样本数据存在自相关。我们知道,此时尽管OLS估计量是无偏的,但却不是最优的,OLS估计量有较大的方差。显然,随机效应面板
20、数据模型的本质问题是误差项的自相关问题,其后果是OLS估计量有较大的方差。既然随即效应问题的本质是自相关,在自相关一章中,我们已经知道,修正自相关的影响需要采用GLS估计。所以,对于随机效应的静态面板数据模型,其线性无偏最优的估计方法是广义最小二乘估计法GLS。再次回到中国农民纯收入的例子。基于中国的省际面板数据,在仅考虑个体效应的情况下,我们对模型14.进展GLS估计,其具体估计结果为: 14.3.9 t统计值 35.3193 2.4289 0.4921157 0.6230 就本例而言,14.3.9与14.3.5的估计结果比拟接近,但还是有些许差异。既然固定效应模型应该使用LSDV估计,而随
21、机效应模型应该采取GLS估计,那么,当我们面对一个面板数据模型时,到底是用LSDV方法呢?还是选用GLS方法呢?一方面,我们可以基于固定效应与随机效应的含义,结合回归模型所要研究的经济问题,从问题的经济背景来进展判定。另一方面,我们可以根据样本数据,通过具体的检验统计量来进展检验。三、豪斯曼检验要想固定效应与随机效应作出判定,我们首先要明确两种估计量在不同情形下的性质。如果模型中的个体效应或时间效应是固定效应,那么,LSDV估计量是无偏的估计量,而GLS估计量那么是有偏的。反之,如果模型中是随机效应,那么,LSDV估计量与GLS估计量都是无偏的,但LSDV估计量有较大的方差。鉴于两种估计量的上
22、述特征,我们发现,如果是随机效应模型,LSDV估计量与GLS估计量的估计结果就比拟接近,反之,如果是固定效应模型,两种估计量的结果就有较大的差异。豪斯曼检验正是基于这种思想来检验随机效应与固定效应的。豪斯曼检验的待检验假设为: 原假设H0: 随机效应 备选假设HA: 固定效应其检验统计量为: 14.3.10其中:为回归系数的LSDV估计向量,为回归系数GLS估计向量,为LSDV估计系数的协方差矩阵估计量,为GLS估计系数的协方差矩阵估计量。在原假设随机效应为真时,豪斯曼检验统计量服从分布。即:自由度K为模型中解释变量不包括截距项的个数。 还是回到中国农民纯收入的例子。在仅考虑个体效应的情况下,
23、我们对模型14.进展豪斯曼检验,检验结果为: H p值。显然,根据检验结果,我们无法拒绝随机效应的原假设。所以,从豪斯曼检验结果来看,中国农村居民收入模型中的个体效应很可能是随机效应。14.4 动态面板数据模型简介如果面板数据模型的解释变量中包含被解释变量的滞后项,我们那么称其为动态面板模型。仅包含被解释变量一阶滞后时,动态面板模型的一般表述形式为:。 14.随着滞后被解释变量作为解释变量出现在模型中,由于个体效应的存在,模型解释变量无法满足严格外生性的条件,从而导致LSDV估计与GLS估计都是有偏的。在14.1的消费函数例子中,考虑了预期因素的模型就是一个典型的动态面板数据模型。首先,我们暂
24、不考虑外生的解释变量与截距项,鉴于动态面板数据模型特有的估计问题仅及个体效应有关,为了使表述简化清晰,在后面的分析中,我们将仅考虑个体效应,而不再考虑时间效应。即模型的误差项被设定为:其中:为经典误差项。,。一、动态面板数据模型的内生性问题在动态面板数据模型中,无论个体效应是固定效应还是随机效应,固定效应的LSDV与随机效应的GLS估计都是有偏的并且非一致的 Cheng Hsiao, Analysis of Panel Data, 北京大学出版社,2005,pp70-85.。其原因在于,动态面板数据模型存在固有的内生性问题。1. GLS估计的有偏与非一致性对于GLS估计,模型14.4.2的内生
25、性问题是显而易见的。因为解释变量及误差项都包含个体效应。即使进展差分变换,及,都包含共同因素,我们也还是无法消除解释变量的内生性问题。理解这一问题,需要注意是的构成局部。2. LSDV估计的有偏与非一致性对于LSDV估计,模型14.4.2可以表示为:它等价于模型: 14.4.4其中,符号“*表示变量的样本数据相对于对本观测个体时间序列均值的离差。即:,。显然,与是相关的,二者都包含误差,在中的权重是11/T,在中的权重是1/T。所以,LSDV估计方法也无法消除动态面板模型的内生性问题。由于动态面板模型固有的内生性问题,一般而言,我们通常有三种方法估计动态面板数据模型:GMM方法、偏误直接修正方
26、法、变换的似然方法。目前应用最多的估计方法那么是GMM方法。二、动态面板模型的广义矩估计方法GMM对于一阶自回归的动态面板数据模型: 14.4.2其中:为经典误差项。,。我们已经知道,动态面板模型的与是相关的,而且LS估计无论是LSDV还是GLS都是有偏并且非一致的。如果要想得到的一致估计量,我们需要为寻找适当的工具变量。根据工具变量的选择的两个条件,我们要找的工具变量必须及不相关,而及相关。基于给定的样本信息,我们所能够找到的及高度相关的变量只有的滞后项。但是,由于个体效应的存在,的滞后项即、也及相关,它们不能作为工具变量使用。为了能够找到适当的工具变量,我们对模型14.4.2取一阶差分:
27、。 14.4.5显然,、及不相关。因为已经剔除了个体效应,同时,对于与,、都是前定变量。所以,、都及不相关,都可以作为模型14.中的工具变量。 如果我们只选择作为的工具变量,由及之间正交的约束条件:基于一个给定的样本,我们通过求解就可以得到的估计量。这就是我们前面所学过的工具变量估计量IV估计量。 我们知道,工具变量不但要求及模型的误差项不相关,而且,要尽可能地反映原内生解释变量的信息。显然,很难反映太多的信息,IV估计量会有较大的估计方差。所以,我们通常会选择、作为模型14.中的工具变量。我们把的工具变量集定义为,那么其满足如下的正交条件: 。 14.4.8基于上述正交条件,我们就可以建立的
28、广义矩GMM估计量 Arellano, M. and Bond,S.R., 1991, Some Tests of Specification for Panel Data: Monte Carlo Evidence and an application to employment equations, Review of Economic Studies, 58,277-297.。因为我们首先对模型进展了一阶差分变换,所以,该估计量有时也被称为差分GMM估计量。在此,我们简要地介绍GMM估计的根本思想。先回头看一下工具变量估计量,我们基于这一个约束方程估计一个参数,所以,我们可以通过14.4
29、.7的求解计算出。当我们为解释变量选取了多个工具变量时,14.4.8所表示的是多个约束方程,在此,我们并不具体地讨论14.4.8的约束形式,但至少我们已经注意到是一个向量。所以说,基于14.4.8的估计,我们实际上就等于是基于多个方程估计一个参数。这样的情况被称为过度识别。的所有约束方程都是成立的。被称为总体矩,我们称14.4.8为总体矩条件。针对一个给定的样本,因为存在多个约束方程,我们通常不可能用一个估计值保证所有的约束方程都成立。也就是说,所对应的样本矩通常不为0。我们只能选择一个, 使所有样本矩尽可能地接近0。对每一个工具变量,或者说每一个总体矩条件,我们都可以计算出对应的样本矩的值。
30、所有样本矩的值可以表示为一个向量。那么,我们的估计思想就很明确了,我们要基于一个样本,寻找一个估计值,使所有样本矩尽可能接近0,以满足总体矩的约束条件。对应于所有的矩约束条件而言,我们的目标就是:最小化所有样本矩的平方与。即:其中:函数G被称为GMM目标函数。W是一个对称、正定的加权矩阵。所以,GMM目标函数实际上是所有样本矩的加权平方与。是否引入加权矩阵W并不影响GMM估计量的一致性。但会影响到有限样本下的估计精度。其最优的选择是使用总体矩协方差逆矩阵的一致估计量。显然,引入这样的加权矩阵是为了修正样本矩之间相关性与异方差的影响。简而言之,GMM估计的根本思想就是:加权以后样本矩的平方与最小
31、化,即GMM目标函数G最小化。三、工具变量的选择及其有效性的检验1. 关于GMM工具变量选择的两点说明1在为动态面板模型的GMM估计选择工具变量时,我们需要在估计量的偏误与方差之间进展权衡。随着矩条件或者说工具变量个数的增多,估计量的方差减小而偏误增大,反之,方差增大而偏误减小,二者之间存在此消彼涨的权衡关系。所以,在GMM估计的实际应用中,我们通常会选择、作为的工具变量,。也就是说,我们只选取相邻较近的滞后变量作为工具变量,而不再用更早期的那些滞后项。2另一个需要说明的问题是,如果模型中包含了外生解释变量,例如,那么我们所要分析的模型为:其差分形式为:此时,GMM工具变量如何选择呢?的工具变
32、量选择如前所述,外生变量、显然都可以作为的工具变量。2. 工具变量有效性检验当我们为一个解释变量选择了多个工具变量时,那么工具变量的个数就会超过待估参数的个数,也就是说矩约束条件的个数超过了待估参数的个数,导致模型的过度识别。那么,过度识别的矩约束条件是否是有效的呢?也就是说,这些工具变量是否及误差项不相关,从而是否保证矩约束条件成立呢?对此,我们可以用J检验进展判定。实际上,J检验统计量就是根据参数估计值得到的GMM目标函数值。在原假设“过度识别的矩条件是有效的成立的情况下,J检验统计量的极限分布是分布。即:其中:m为工具变量或者矩条件个数,k为待估计参数的个数。W为的加权矩阵,为根据参数向
33、量估计值得到的样本矩的均值。对模型而言,。当J统计值大于给定显著性水平下的临界值时,我们就倾向于拒绝过度识别的矩条件有效的原假设。回到农村居民收入的例子,考虑到一个地区农村居民收入会表现出一定的动态惯性特征,我们有必要在模型14.1.2中引入被解释变量的滞后项,即: 14.其差分GMM估计的具体结果为: 14.就这一估计结果来看,在中国农村居民的收入分析中,动态影响是显著的。显然,无论在理论上还是就统计推断而言,在模型14.1.2中引入动态效应的分析都是恰当的。而且,考虑到动态效应的估计结果及静态模型有显著差异,尤其是投资主体构造变量的系数估计值变为了显著的正值。那么,本模型过度识别的矩约束条
34、件是否是有效的呢?在本例中,解释变量的工具变量集为、,工具变量矩阵的秩全部工具变量个数为28。因为基于一阶差分进展估计,没有估计截距项与个体效应的值,所以待估计参数个数为4。如果过度识别的矩约束条件是有效的,那么,模型的J检验统计量应该服从自由度为28-424的分布。根据式14.计算的J检验统计值为:J25.2211,根据分布计算的p值为0.3938。显然,我们不能拒绝“过度识别的据约束条件有效的原假设。也就是说,基于统计推断,我们可以认为工具变量及误差项不相关,或者说所选择的工具变量是有效的。四、例子:新凯恩斯混合Phillips曲线的估计让我们重新回到第四章一开场所介绍的新凯恩斯混合Phi
35、llips曲线的例子。基于面板数据,新凯恩斯混合Phillips曲线的回归方程可以表述为: 14.其中:对第i个经济个体,表示第期的通货膨胀率,是第期对期的通胀率预期。是厂商真实边际本钱相对于其最优状态的偏离程度,目前文献通常选取劳动份额指标作为真实边际本钱的替代变量。在此,我们使用19922007年中国大陆29个省市区(不包括海南、重庆)的统计数据对模型14.进展估计。其中:基于CPI计算通货膨胀率,并使用第的实际通胀率作为第期的通胀率理性预期。由于中国经济具有非常明显的二元经济构造特征,在模型中可以同时选择了第一产业与第二、三产业的劳动份额指标的自然对数(与)作为真实边际本钱的反映指标。基
36、于差分GMM方法对模型14.进展估计,具体估计结果为:14. t值 p值 0.0000 仅就这一估计结果而言,在中国通货膨胀的动态变化中,适应性预期与理性预期共存,二者的影响大致相当。经济的短期波动对通胀具有显著影响。可能有的读者会问,为什么没有的更高阶滞后项出现在方程中呢?事实上,我们确实可以将乃至更高的滞后项引入回归方程,不过,对本样本而言,当在模型中引入时,其系数估计值为负,所以,我们所需估计的模型应该只包含。根据估计结果,与的系数估计值分别为0.5562与0.5626,二者之与为。可能读者会认为:中国的新凯恩斯混合Phillips曲线可能满足凸组合假设,即与之与为1。但是,F检验统计量
37、的值为,相对于分布F1,373,其p值为0.0000,所以,F检验的结果是:拒绝其满足凸组合的原假设。 在本例中,解释变量的工具变量集为、,工具变量矩阵的秩全部工具变量个数为29。因为基于一阶差分进展估计,没有估计截距项与个体效应的值,所以待估计参数个数为4。显然,模型存在过多的矩约束条件,即存在过度识别的问题。如果过度识别的约束是有效的,那么,模型的J检验统计量应该服从自由度为29-425的分布。 根据参数估计结果得到的J检验统计值为:,对于分布,其p值为,所以,我们不能拒绝“过度识别的据约束条件有效的原假设。也就是说,基于统计推断,我们可以认为工具变量及误差项不相关,或者说所选择的工具变量
38、是有效的。 本例对于中国新凯恩斯混合Phillips曲线的估计结果及相关文献的估计结果有显著差异,其原因在于,本例使用的是一个简化的根本模型。在实证分析中,我们还需要考虑流动性因素对通货膨胀的影响以及通货膨胀率对不同区域间的相互推动作用。本章小结1. 面板数据提供更多的信息,有助于增大估计与检验的自由度,有助于增强动态分析的可靠性,有助于反映经济体的构造性特征与经济制度的渐进性变化。2. 面板模型的混合OLS估计,假定不存在个体效应与时间效应,是一种较为粗略的估计方法。3. 如果个体效应、时间效应及模型中的解释变量是相关的,我们就称这种个体效应或时间效应是固定效应。反之,那么为随机效应。4.
39、固定效应静态面板数据模型的本质问题是解释变量的内生性问题,其后果是OLS估计量不再是无偏的估计量,其最优无偏估计量是LSDV估计量。5. 随机效应面板数据模型的本质问题是误差项的自相关问题,其后果是OLS估计量虽是无偏的,但有较大的方差。其最优无偏估计量是GLS估计量。6. 豪斯曼检验以随机效应为原假设,基于LSDV估计量与GLS估计量是否存在显著差异,检验模型是固定效应还是随机效应。7. 动态面板数据模型具有固有的内生性问题,固定效应的LSDV与随机效应的GLS估计都是有偏的并且非一致的8. GMM估计的根本思想就是:使加权以后的样本矩的平方与最小化。GMM工具变量的有效性可以基于J检验来判
40、定。思考题14.1. 固定效应为什么会导致模型存在内生性问题?LSDV估计量是如何消除内生性的?14.2 随机效应为什么会导致自相关的问题?随机效应所导致的自相关及第九章所讲的AR(1)形式的自相关有什么样的区别?14.3. 进展固定效应/随机效应检验的豪斯曼检验统计量服从分布,所以,豪斯曼检验值应该只取正值。但是,在现实应用中,通常会出现豪斯曼检验值为负的情形。1请基于豪斯曼检验统计量的公式,思考豪斯曼检验值为负值的原因。2当豪斯曼检验值为负值时,豪斯曼检验是否有效,解释你的理由。14.4. 如果所估计的动态面板模型为请思考:在进展差分GMM估计时,是否仍然可以作为工具变量?提示:矩条件是否
41、仍然成立?练习题14.1基于表的数据,将城镇居民与农村居民的时间序列数据合并为面板数据,并根据静态模型14.1.1与动态模型14.1.4分析中国居民消费行为的特征。 1用混合OLS对模型进展估计,解释估计结果的经济含义。 2用固定效应估计模型,解释估计结果的经济含义。 3用随机效应估计模型,解释估计结果的经济含义。 4在13三个估计结果中,你选择哪一个,说明你的理由。 5用差分GMM估计模型,解释估计结果的经济含义。14.2. 至此,我们分别通过第四章习题4.6、第五章习题5.5、本章方程,基于不同的模型或样本数据估计了中国的新凯恩斯Phillips曲线。 1比拟三个局部的估计结果,说明估计结果的差异以及差异产生的原因。 2在三局部的估计结果中,你倾向于哪一个估计结果,说明你的理由。 3基于本章方程的估计结果,说明中国通货膨胀的动态特征。第 28 页