《关于虚拟变量的回归(计量经济学-中南财经政法大学,dxzs.pptx》由会员分享,可在线阅读,更多相关《关于虚拟变量的回归(计量经济学-中南财经政法大学,dxzs.pptx(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第11章章关于虚拟变量的回归关于虚拟变量的回归1第第11章章 关于虚拟变量的回归关于虚拟变量的回归1 1、虚拟变量的性质、虚拟变量的性质2 2、对一个定量变量和一个两分定性变量的回归、对一个定量变量和一个两分定性变量的回归3 3、对一个定量变量和一个多分定性变量的回归、对一个定量变量和一个多分定性变量的回归4 4、对一个定量变量和两个定性变量的回归、对一个定量变量和两个定性变量的回归5 5、一个例子:、一个例子:“兼职兼职”经济学经济学6 6、检验回归模型的结构稳定性、检验回归模型的结构稳定性7 7、比较两个回归:虚拟变量法、比较两个回归:虚拟变量法8 8、比较两个回归:进一步说明、比较两个
2、回归:进一步说明9 9、交互作用效应、交互作用效应1010、虚拟变量在季节分析中的应用、虚拟变量在季节分析中的应用1111、分段线性回归、分段线性回归1212、在时间序列和横截面数据的合并中使用虚拟变量、在时间序列和横截面数据的合并中使用虚拟变量1313、虚拟变量方法的一些技术问题、虚拟变量方法的一些技术问题211.1虚拟变量的性质虚拟变量的性质虚拟变量虚拟变量,是一种离散结构的量,用来描述所,是一种离散结构的量,用来描述所研究变量的发展或变异而建立的一类特殊变研究变量的发展或变异而建立的一类特殊变量,常用来表示职业、性别、季节、灾害、量,常用来表示职业、性别、季节、灾害、经济结构变化、受教育
3、程度等的影响。此外经济结构变化、受教育程度等的影响。此外它还有一些其他的名称,如指标变量、二值它还有一些其他的名称,如指标变量、二值变量、范畴变量、定性变量和二分变量。变量、范畴变量、定性变量和二分变量。量化虚拟变量的方法通常是赋值量化虚拟变量的方法通常是赋值“1”和和“0”。在回归模型中,对定量变量和虚拟变量的估计在回归模型中,对定量变量和虚拟变量的估计方法是一样。方法是一样。3如果一个模型中的自变量全都是虚拟变量,通常对这如果一个模型中的自变量全都是虚拟变量,通常对这种模型的分析方法称之为方差分析。(为什么把这种种模型的分析方法称之为方差分析。(为什么把这种模型称为方差分析模型?)模型称为
4、方差分析模型?)一个教授年薪的模型:一个教授年薪的模型:其中表示教授的年薪其中表示教授的年薪4根据所给数据可以估计出如下结果:根据所给数据可以估计出如下结果:估计方法与前面说讲的方法没有区别。由于这个模估计方法与前面说讲的方法没有区别。由于这个模型与单因素方差分析统计模型的原理及所要表达的型与单因素方差分析统计模型的原理及所要表达的统计意义一致,因此这个最简单的虚拟变量模型也统计意义一致,因此这个最简单的虚拟变量模型也称之为称之为方差分析模型方差分析模型56711.2一个定量变量和一个一个定量变量和一个两分两分定性变量定性变量仍然用上面的例子,只是引入教龄作为解释变量。仍然用上面的例子,只是引
5、入教龄作为解释变量。有如下模型:有如下模型:表示教龄,其他定义如前。这个模型的系表示教龄,其他定义如前。这个模型的系数估计用数估计用ols即可完成。即可完成。89主要以下几点需要注意主要以下几点需要注意:1 1、虽然有男、女两个分类,但是只用一个虚、虽然有男、女两个分类,但是只用一个虚拟变量。更通用的规则是:如果一个定性变拟变量。更通用的规则是:如果一个定性变量量有有m m个类别,则引入个类别,则引入m-1m-1个虚拟变量个虚拟变量。2 2、虚拟变量的取值是随意,但是一旦取定之、虚拟变量的取值是随意,但是一旦取定之后要能合理地解释其意义。后要能合理地解释其意义。3 3、被赋予零值的那个类别通常
6、称为基底。它、被赋予零值的那个类别通常称为基底。它是用以和其他类别作比较的一个基础。是用以和其他类别作比较的一个基础。4 4、虚拟变量的系数称为、虚拟变量的系数称为级差截距系数,级差截距系数,它表它表示取值示取值1 1的类别的截距值和基底类的截距值相的类别的截距值和基底类的截距值相比有多大差别。比有多大差别。1011.3一个定量变量和一个多分定性变量一个定量变量和一个多分定性变量假设在横截面数据的基础上,分析个人保健支出对假设在横截面数据的基础上,分析个人保健支出对个人收入和教育水平的回归。教育水平是定性变个人收入和教育水平的回归。教育水平是定性变量,分为三类:低于中学、中学和大学。模型中量,
7、分为三类:低于中学、中学和大学。模型中引入两个虚拟变量。模型如下:引入两个虚拟变量。模型如下:其中保健年度支出其中保健年度支出年度收入年度收入111211.4一个定量变量和两个定性变量一个定量变量和两个定性变量回顾前面学院教授薪金回归模型,现在假定除了回顾前面学院教授薪金回归模型,现在假定除了教龄和性别之外,肤色也是一个重要的薪金决教龄和性别之外,肤色也是一个重要的薪金决定因素。肤色假定只有两种情况:黑和白。于定因素。肤色假定只有两种情况:黑和白。于是模型改写为:是模型改写为:其中表示学院教授的薪金其中表示学院教授的薪金表示教龄表示教龄13假定假定 ,则可以得到以下回归:,则可以得到以下回归:
8、黑人女教授平均薪金:黑人女教授平均薪金:黑人男教授平均薪金:黑人男教授平均薪金:白人女教授平均薪金:白人女教授平均薪金:白人男教授平均薪金:白人男教授平均薪金:1415.5一个例子:一个例子:“兼职兼职”经济学经济学在国外,把持有两份工作的人称为在国外,把持有两份工作的人称为“夜袭者夜袭者”。Shisko和和Rostker为了发现是什么因素影响这些人的工薪。根据为了发现是什么因素影响这些人的工薪。根据318名夜袭者的数据建立了如下回归模型:名夜袭者的数据建立了如下回归模型:表示夜袭工资,表示夜袭工资,表示主业工资,表示主业工资,race0白人,白人,race1非白人;非白人;urban=0非城
9、里人,非城里人,urban1城里人;城里人;reg0非西部,非西部,reg 1西部;西部;hisch=0非毕业,非毕业,hisch1中学毕业;中学毕业;age表示年龄。表示年龄。15当所有虚拟变量都为当所有虚拟变量都为0时,可以得到白人、时,可以得到白人、非城镇、非西部、非中学毕业夜袭者的平非城镇、非西部、非中学毕业夜袭者的平均小时工薪模型:均小时工薪模型:当所有虚拟变量都为当所有虚拟变量都为1时,可以得到非白时,可以得到非白人、城镇、西部、中学毕业夜袭者的平均人、城镇、西部、中学毕业夜袭者的平均小时工薪模型:小时工薪模型:1611.6检验回归模型的结构稳定检验回归模型的结构稳定前面的虚拟变量
10、模型只考虑了影响回归截距的情前面的虚拟变量模型只考虑了影响回归截距的情形,这一节将分析存在变斜率的虚拟变量模型。仍形,这一节将分析存在变斜率的虚拟变量模型。仍然用联合王国储蓄收入数据。(见表然用联合王国储蓄收入数据。(见表15.2)数据分为两期:数据分为两期:重建时期:重建时期:重建后时期:重建后时期:其中其中Y表示储蓄,表示储蓄,X表示收入。表示收入。17这两个回归模型可能有以下四种情形:这两个回归模型可能有以下四种情形:1、和;两个回归相同。、和;两个回归相同。(重复回归重复回归)2、但;平行回归,截距不同。、但;平行回归,截距不同。3、但;相汇回归,截距相同,斜率、但;相汇回归,截距相同
11、,斜率不同。不同。4、且;相异回归,、且;相异回归,所有这些情形都说明模型发生了所有这些情形都说明模型发生了结构性变化结构性变化,在,在前面曾经讲到的前面曾经讲到的邹至庄检验邹至庄检验对结构性变化有很好对结构性变化有很好的描述,下面将用虚拟变量模型来处理结构性变的描述,下面将用虚拟变量模型来处理结构性变化,某些地方有着比邹检验更好的性质。化,某些地方有着比邹检验更好的性质。181911.7比较两个回归:虚拟变量法比较两个回归:虚拟变量法将储蓄收入模型中两期数据进行合并,重新建立以下将储蓄收入模型中两期数据进行合并,重新建立以下回归模型:回归模型:和同前,观测值属于重建时期;和同前,观测值属于重
12、建时期;观测值观测值属于重建后时期。假定属于重建后时期。假定E(ui)=020根据表根据表15.2中的数据得到如下结果:中的数据得到如下结果:各个系数在统计上都是显著的。可以肯定两个各个系数在统计上都是显著的。可以肯定两个时期的回归是相异的。时期的回归是相异的。重建时期重建时期重建后时期重建后时期212223242526虚拟变量法相比邹至庄检验的优越性虚拟变量法相比邹至庄检验的优越性:1 1、用虚拟变量只需做一个回归。、用虚拟变量只需做一个回归。2 2、一个回归可以做各种检验。截距检验和斜率、一个回归可以做各种检验。截距检验和斜率检验都可以一次完成。检验都可以一次完成。3 3、邹至庄检验没有明
13、确告诉是哪一个系数发生、邹至庄检验没有明确告诉是哪一个系数发生变化,而虚拟变量模型则可以很清楚看出这一变化,而虚拟变量模型则可以很清楚看出这一点。点。4 4、合并后样本容量变大,估计精度也有所提高、合并后样本容量变大,估计精度也有所提高2711.8比较两个回归:进一步说明比较两个回归:进一步说明虚拟变量技术在实际中有很多的应用,下面虚拟变量技术在实际中有很多的应用,下面是一个关于英国失业和空缺的例子。从是一个关于英国失业和空缺的例子。从19581958年第年第4 4季度到季度到19711971年第年第2 2季度的失业率与职位季度的失业率与职位空缺率的关系。通过散点图空缺率的关系。通过散点图(p
14、508(p508图图15.6)15.6)可可以看出在以看出在19661966年年4 4季度前后曲线发生了明显季度前后曲线发生了明显的变动。作者认为这是因为工党的失业补贴的变动。作者认为这是因为工党的失业补贴政策发生了重大变化,致使失业等待时间更政策发生了重大变化,致使失业等待时间更长,给定的空缺所对应的失业人数更多。长,给定的空缺所对应的失业人数更多。28建立以下模型:建立以下模型:UN=失业率,失业率,V=职位空缺率。职位空缺率。D=1从从1966年年4季度开始以后的时期季度开始以后的时期01966年年4季度以前的时期季度以前的时期估计得到如下结果:估计得到如下结果:2930313211.9
15、交互作用效应交互作用效应再考虑这样一个模型:再考虑这样一个模型:其中其中 表示衣着方面的年度开支表示衣着方面的年度开支 表示收入表示收入该模型隐含的假定是,在两种教育水平之间性别的级差效该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。应保持不变,在两种性别之间教育的级差效应保持不变。33这种假定显然是站不住脚的。显然上过大学这种假定显然是站不住脚的。显然上过大学的男性与女性在衣着方面支出差距比没上过的男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学
16、和性别谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,这两个因素对衣着支出的影响不是独立的,他们相互影响,也即他们相互影响,也即交互效应交互效应。34模型修正为:模型修正为:女性的级差效应女性的级差效应大学毕业的级差效应大学毕业的级差效应女大学毕业生的级差效应女大学毕业生的级差效应交互作用虚拟变量的系数是否在统计上显著,可交互作用虚拟变量的系数是否在统计上显著,可通过平常的通过平常的t检验加以验证。错误地忽略一个显检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。著的交互作用项将导致模型设定上的偏误。3511.10虚拟变量在季节分析中的应用虚拟变量
17、在季节分析中的应用经济数据有时会呈现一种季节波动。这一点在时间序列经济数据有时会呈现一种季节波动。这一点在时间序列数据出现比较多。当然现在有很多方法来消除季节波数据出现比较多。当然现在有很多方法来消除季节波动,下面主要讲述用虚拟变量方法怎么解决季节波动动,下面主要讲述用虚拟变量方法怎么解决季节波动的问题。的问题。例子:美国制造业的利润销售额行为例子:美国制造业的利润销售额行为其中利润,销售额其中利润,销售额36根据所提供的数据,估计结果如下:根据所提供的数据,估计结果如下:结果表明只有销售额和第二季度的系数在统计上显著。结果表明只有销售额和第二季度的系数在统计上显著。因此可以重新考虑以下模型,
18、只引入一个虚拟变量以因此可以重新考虑以下模型,只引入一个虚拟变量以区别第二季度和其他季度。区别第二季度和其他季度。37新的模型估计结果如下:新的模型估计结果如下:注意:这里我们所建立的模型都没有考虑销售额的斜率注意:这里我们所建立的模型都没有考虑销售额的斜率系数是否随着季节变化,只是考虑了截距项的变化。系数是否随着季节变化,只是考虑了截距项的变化。关于这一点可以通过乘积性虚拟变量技术加以检验关于这一点可以通过乘积性虚拟变量技术加以检验383911.11分段线性回归分段线性回归虚拟变量的另一种用途。虚拟变量的另一种用途。在销售没在销售没有达到给定销有达到给定销售水平之前以售水平之前以一种方式支付
19、一种方式支付佣金,在销售佣金,在销售额达到给定销额达到给定销售水平之后以售水平之后以另一种方式支另一种方式支付佣金。付佣金。40根据所给条件建立如下回归:根据所给条件建立如下回归:给定销售水平,又称为结点。给定销售水平,又称为结点。1如果如果0如果如果达到销售水平以前的平均佣金达到销售水平以前的平均佣金达到销售水平以后的平均佣金达到销售水平以后的平均佣金参阅例参阅例15.7414211.12在时间序列和横截面数据的合并在时间序列和横截面数据的合并中使用虚拟变量中使用虚拟变量混合回归混合回归Grunfeld研究总投资研究总投资()与厂商的价值与厂商的价值()和资本和资本存量存量()之间的关系一个
20、例子。研究对象分别是通之间的关系一个例子。研究对象分别是通用汽车、西屋电气和用汽车、西屋电气和通用电气通用电气。研究、。研究、之间的关系有如下三种方式:之间的关系有如下三种方式:、对每一个厂商进行时间序列回归:、对每一个厂商进行时间序列回归:通用汽车:通用汽车:西屋电气:西屋电气:43、对每一年做一个横截面回归。但是在本、对每一年做一个横截面回归。但是在本例中样本过少,只有例中样本过少,只有3个厂商。如果有个厂商。如果有1520或以上,这也是一种思路。或以上,这也是一种思路。、把所有样本数据聚合,做一个回归:、把所有样本数据聚合,做一个回归:i=1,2 t=1,2,20.这就是混合回归的一个例
21、子,这个回归假定了回这就是混合回归的一个例子,这个回归假定了回归参数不随时间变化,并且在各个横截面之间没归参数不随时间变化,并且在各个横截面之间没有差异,不存在异方差。有差异,不存在异方差。44在仅考虑这样一种情形:通用汽车和西屋电气的投资函在仅考虑这样一种情形:通用汽车和西屋电气的投资函数有不同截距,但有相同的斜率,并且误差项都满足经数有不同截距,但有相同的斜率,并且误差项都满足经典假设。模型可改写为:典假设。模型可改写为:其中对通用汽车的观测值取其中对通用汽车的观测值取;否则取零。如果;否则取零。如果 是统计上的显著的,这就意味这着通用汽车投资函数的是统计上的显著的,这就意味这着通用汽车投
22、资函数的截距不同于西屋电气投资函数的截距。具体估计结果如截距不同于西屋电气投资函数的截距。具体估计结果如下:下:4511.13虚拟变量方法的一些技术问题虚拟变量方法的一些技术问题1、在半对数回归中的虚拟变量的解释、在半对数回归中的虚拟变量的解释回顾前面的关于线性到对数回归模型的讨论。加入虚拟回顾前面的关于线性到对数回归模型的讨论。加入虚拟变量之后的模型变为:变量之后的模型变为:其中学院教授的起薪,其中学院教授的起薪,教龄,教龄,D1男性,男性,D=0女性。女性。对于对于 的解释前面已经介绍的很清楚了。现在关键要的解释前面已经介绍的很清楚了。现在关键要考虑虚拟变量的系数考虑虚拟变量的系数 的解释
23、。的解释。46这方面的解释可以参照霍尔沃森和帕姆奎斯特的建这方面的解释可以参照霍尔沃森和帕姆奎斯特的建议:均值的相对变化取所估的虚拟喜事的反对数再议:均值的相对变化取所估的虚拟喜事的反对数再从中减。书上举了一个学院教授薪金与教龄和性别从中减。书上举了一个学院教授薪金与教龄和性别的假想例,估计结果如下:的假想例,估计结果如下:重点是看虚拟变量的解释:在其他情况不变的情况重点是看虚拟变量的解释:在其他情况不变的情况下,男教授的平均薪金比女教授高出下,男教授的平均薪金比女教授高出 0.1435,即即14.35。472、避免虚拟变量陷阱的另一种方法、避免虚拟变量陷阱的另一种方法再考虑前面的教授薪金模型
24、(再考虑前面的教授薪金模型(P497,15.2.4):):把模型改写为:把模型改写为:在去掉截距项之后,数据不再有完全共线性的问题。其实在去掉截距项之后,数据不再有完全共线性的问题。其实仔细看上面的模型就是一个过原点回归模型。这个模型仔细看上面的模型就是一个过原点回归模型。这个模型虽然可以避免多重共线性的问题,但是要注意他的虽然可以避免多重共线性的问题,但是要注意他的 并并不总是有意义。还是遵循我们前面的规则:如果有不总是有意义。还是遵循我们前面的规则:如果有m个个类别,就选择类别,就选择(m-1)个虚拟变量。个虚拟变量。483、虚拟变量与异方差、虚拟变量与异方差前面所考虑的模型都没有考虑异方
25、差的问前面所考虑的模型都没有考虑异方差的问题,包括在分段回归中,如果两个时期的回题,包括在分段回归中,如果两个时期的回归方程都不一样,怎么保证他们有相同的残归方程都不一样,怎么保证他们有相同的残差方差?也许求得系数在统计上显著,而实差方差?也许求得系数在统计上显著,而实际上却并不如此。当然,对于异方差的问际上却并不如此。当然,对于异方差的问题,我们已经有很好的工具来解决这一问题题,我们已经有很好的工具来解决这一问题494、虚拟变量与自相关、虚拟变量与自相关考虑以下涉及时间序列数据的模型:考虑以下涉及时间序列数据的模型:其中第一时期的观测值取;而对第二时期的其中第一时期的观测值取;而对第二时期的
26、观测值取。再假定误差项观测值取。再假定误差项 按马尔可夫一按马尔可夫一阶自回归方式生成。即:阶自回归方式生成。即:。满足。满足标准假定。对于一阶自相关可以用一阶迭代法解标准假定。对于一阶自相关可以用一阶迭代法解决。但是对于虚拟变量,有另外一套解决办法决。但是对于虚拟变量,有另外一套解决办法50马达拉的建议:马达拉的建议:、在第一时期的全部观测取、在第一时期的全部观测取 值为零;在第二期中,值为零;在第二期中,对第一个观测对第一个观测 值为,但对其余观测值取值为,但对其余观测值取为为1。、将变量、将变量 变换为。注意,除非我们借变换为。注意,除非我们借助于助于普莱斯温斯顿变换普莱斯温斯顿变换,将失去一个观测值。,将失去一个观测值。、在第一时期的全部观测取的值为零(注意在第、在第一时期的全部观测取的值为零(注意在第一时期里为零);在第二时期里,第一个观测值取一时期里为零);在第二时期里,第一个观测值取,并置第二时期的其余观测值为,并置第二时期的其余观测值为5120042005学年第一学期学年第一学期计量经济学期末考试时间安排计量经济学期末考试时间安排时间:时间:2005年年1月月4日上午日上午8:3010:30地点地点:首义校区文津楼首义校区文津楼401教室教室注意事项:不能携带手机、计算器等物品注意事项:不能携带手机、计算器等物品 考场声音不能超过考场声音不能超过5贝分贝分52