《计量经济学第八章虚拟变量回归.ppt》由会员分享,可在线阅读,更多相关《计量经济学第八章虚拟变量回归.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章 虚拟变量回归18.1 虚拟变量简介 在进行回归分析时,因变量不仅受到一些定量变量(如收入、产量、价格、成本)的影响,而且还受到一些定性变量(如性别、学历、季节)的影响。比如说在其他因素相同的情况下,具有硕士文凭的人通常能比本科文凭的人获得更高的收入;在一家公司,从事相同工作的男性获得的收入有时也比女性高。诸如学历、性别等等这些定性的变量确实影响着个人的收入(因变量),而且应该被包含在自变量的行列中。从这一章开始引入定性变量作为自变量,从而使线性回归模型作为一种及其灵活的工具,可以处理经验研究中许多实际的问题2由于这些定性变量通常指某一性质或属性的出现或不出现,比如男性或女性、大学学历或
2、专科学历等,因此量化这些变量的方法就是构造一个取值为0或1的人为变量,可以用0表示某种属性不出现,1表示某种属性出现。这种人为设定的变量就称作虚拟变量(Dummy Variable)1大学毕业20 其他1男性20 女性1夏季20 其他季节学历性别季节企业规模1大型企业20 其他户口1城镇20 农村38.1.2 虚拟变量的引入方式1.加法模型加法模型:仅仅反映定性变量对截距的影响。1 男性20 女性 这个模型和前面的回归模型没有什么太大的差异,只不过用一个虚拟变量D代替了X。这个模型能使我们发现性别是否会造成公司职员薪水差异,这里假定了其他变量如年龄、学历等都相同,而且随机误差项也服从线性回归模
3、型的基本假定。4 从上面可以看出,截距系数给出了女职员的平均年薪,而斜率系数反映了男职员和女职员平均年薪的差异。按照普通线性回归模型来估计上面的模型,如果斜率系数能通过显著性检验,就表明这个公司在员工的薪水方面似乎存在性别歧视。5 右表给出了按性别划分的10名公司职员的年薪数据,对应于模型8.1的回归结果如下(7.4392)年薪Y(千元)性别D(1男 0女)22119018021.7118.5021120.5117017.5021.21 由于虚拟变量通过了t检验,表明该公司的男女职员平均年薪存在差异,女职员的平均年薪为18000元,而男职员的平均年薪为21280元(18000+3280)6 研
4、究一个虚拟变量的模型在实际运用中并不常见,更多的情况是模型中即含有一些定量变量,也含有一些虚拟变量。可以把模型8.1改为1 男性20 女性工龄年薪72.乘法模型:反映定性变量对斜率的影响乘法模型:反映定性变量对斜率的影响1 有适龄子女20 无适龄子女收入支出以家庭消费支出为例,假设随着家庭收入支出的增加,家庭中有无适龄子女也对边际消费倾向产生影响。收入以家庭消费支出为例,假设随着家庭收入支出的增加,家庭中有无适龄子女也对边际消费倾向产生影响。83.一般形式一般形式:在回归模型中同时以加法和乘法模型引入虚拟变量 在实际运用中,有时没有办法确定定性变量的影响类型,此时可以使用一般形式引入虚拟变量,
5、然后再用t检验判断估计参数是否能通过显著性检验,最终确定虚拟变量的具体引入方式。9课本P125页例7中数据建立的我国城镇居民彩电消费模型(9.03)(8.32)(-6.59)1 中高收入家庭20 低收入家庭 模型的估计参数都通过了显著性检验,说明我国城镇居民中高收入和低收入家庭对彩电的消费需求,在截距和斜率上都存在明显差异。108.1.3 虚拟变量引入原则1.如果一个定性变量有如果一个定性变量有m个类别,那么只能引入个类别,那么只能引入m-1个虚拟个虚拟变量。变量。这样做是为了避免虚拟变量之间产生完全多重共线性问题。1男性20 其他1 女性20 其他在上面的例子中,性别有两个类别,因而只引入了
6、一个虚拟变量,如果不遵守这个原则,引入两个虚拟变量,就会产生多重共线性,掉进所谓的“虚拟变量陷阱”。假设在原模型中设定两个虚拟变量:11有5个样本数据,3名男职员,2名女职员,那么数据矩阵如下11(男)011(男)0101(女)11(男)0101(女)在完全共线性条件下,没有办法得到三个参数唯一解。12在模型中,如何分配虚拟变量是任意的。1 男性20 女性1女性20 男性或者132.如果有如果有m定性变量,每个变量只有两个类型,那么可以引定性变量,每个变量只有两个类型,那么可以引入入m个虚拟变量。个虚拟变量。1 城镇居民20 农村居民1 高收入家庭20 低收入家庭农村低收入家庭农村高收入家庭城
7、市低收入家庭城市高收入家庭比如在研究居民消费函数的时候,考虑到城乡差距和收入差距,消费函数可以表示为:148.2 虚拟变量的作用一、调整季节一、调整季节(月度月度)波动波动1 一季度20 其他1 二季度20 其他1 三季度20 其他 在使用季节和月度数据建立回归模型时,经常存在季节波动,使用虚拟变量也可以反映季节或月度因素的影响。例如在利用季度数据对某公司消费Y和收入X进行回归分析时,在夏季(第三季度)发半年奖或冬季(第一季度)发年终奖时,收入会显得异乎寻常的高,此时为了消除季节变动的影响,可以用加法模式引入季度虚拟变量15例:美国制造业利润-销售额模型分析1 二季度20 其他1 三季度20
8、其他1 四季度20 其他16yxd2d3d410503114862000120921239681001083412145401012201131917001122451299110001400114097610012213137828010128201454650011134913698900012615145126100110141415360101273015177600112539148862000148491589131001320315572701014947168409001141511627810001594917605710014024172419010143151833270
9、011238117041500013991181313100121741767120101098518037000117利用上表中数据,建立回归模型如下 由于只有第二个季度的虚拟变量通过参数的显著性检验,为此可以重新设置模型和虚拟变量1 二季度20 其他季度18yzd1050311486201209212396811083412145401220113191701224512991101400114097611221313782801282014546501134913698901261514512611101414153601273015177601253914886201484915891
10、3113203155727014947168409014151162781015949176057114024172419014315183327012381170415013991181313112174176712010985180370019重新建立回归模型,有下面的结果 由于第二季度的虚拟变量通过参数的显著性检验,表明第二季度制造业利润-销售额数据和其他三个季度确实存在显著差异。20二、检验回归模型的稳定性二、检验回归模型的稳定性 利用不同的样本数据估计同一形式的计量经济模型,可能会有不同的结果,若估计的参数之间存在显著差异,那么模型结构是不稳定的;反之模型是稳定的。使用虚拟变量检验回
11、归模型的稳定性,有下面两个用途:1、分析回归模型结构对样本变化的敏感性;2、比较、分析两个或多个回归模型的差异情况,即分析模型结构是否发生了变化,如我国改革开放前后经济发生了很大变化,利用前后两个时期的数据建立相关的宏观计量模型,就可能存在较大的差异。21设前后两个时期的回归模型分别为如果引入虚拟变量1 后一时期20 前一时期那么回归模型可以变为222324已知19461963年英国个人储蓄和收入数据(单位:百万英镑)年份储蓄收入年份储蓄收入19460.368.819550.5915.519470.219.419560.916.719480.081019570.9517.719490.210.
12、619580.8218.619500.11119591.0419.719510.1211.919601.5321.119520.4112.719611.9422.819530.513.519621.7523.919540.4314.319631.9925.2其中:19461954 战后重建时期 19551963 重建后时期25 为了研究重建前后两个时期模型是否存在差异,利用表中数据估计混合回归模型有下面的结果(-3.2594)(1.6315)(3.1701)回归结果表明,级差截距和级差斜率都通过了显著性检验,重建前后两个时期的回归差异显著。0重建时期1 重建后时期26重建时期:重建后时期:-0.2663-1.7502收入储蓄273、分段线性回归 其基本形式为在研究某些经济问题时,要使用分段回归模型来进行描述。28Y(总成本)X(产出)d256100004142000063430000778400001003500001839600012081700012423800012734900012914100001 已知一个成本和产出函数,假设在5500单位的产出水平时,总成本函数也许会改变斜率29利用表中数据,建立回归模型如下 从结果中可以看出,虚拟变量并没有通过参数的显著性检验,因此模型在产出X=5500的时候并没有改变斜率30