《CH虚拟变量模型实用.pptx》由会员分享,可在线阅读,更多相关《CH虚拟变量模型实用.pptx(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 虚拟变量模型虚拟变量模型 学习目的学习目的 了解虚拟变量、虚拟变量模型的概念,掌握虚拟变量设置的原则和引入模型的方法。基本要求基本要求1)认识到虚拟变量是建立计量经济学模型经常会遇到的问题;2)了解虚拟变量、虚拟变量模型的概念;3)掌握虚拟变量设置的原则、虚拟变量模型的建模方法及应用。第1页/共55页 虚拟变量虚拟变量虚拟变量模型虚拟变量模型第八章第八章 虚拟变量模型虚拟变量模型第一节第一节 虚拟变量虚拟变量虚拟变量的引入虚拟变量的引入虚拟变量的设置原则虚拟变量的设置原则第2页/共55页一、虚拟变量一、虚拟变量为什么要引入为什么要引入“虚拟变量虚拟变量”?如商品需求量、价格、收入
2、、产量等许多经济变量是可以定量度量的或者说是可以直接观测的但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测 如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等。第3页/共55页 为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将它们人为地“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。这种用两个相异数字来表示对被解释变量有重要影响而自身又没有观测数值的一类变量,称为虚拟变量(dummy variables)。虚拟变量也称为哑变量或定性变量。第4页/共55页虚拟变量的特点是:虚拟变量的特点是:1虚拟变量是对经济变化有重要影
3、响的不可测变量。2虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。这是为了便于计算而把定性因素这样数量化的,所以虚拟变量的数值只表示变量的性质而不表示变量的数值。基础类型和肯定类型取值为1;一般地,在虚拟变量的设置中,比较类型和否定类型取值为0。第5页/共55页例如:例如:1)表示性别的虚拟变量可取为D1=1 男性 0 女性2)表示文化程度的虚拟变量可取为D2=1 本科及以上学历 0 本科以下学历3)表示地区的虚拟变量可取为D3=1 城市 0 农村4)表示消费心理的虚拟变量可取为D4=1 喜欢某种商品 0 不喜欢某种商品5)表示天气变
4、化的虚拟变量可取为D5=0 雨天 1 晴天第6页/共55页二、虚拟变量模型二、虚拟变量模型同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要是用作解释变量。一个以性别为虚拟变量来考察职工薪金的模型如下:(8-1)其中例如:例如:为职工的薪金;为职工工龄;=1 代表男性=0 代表女性第7页/共55页三、虚拟变量的引入三、虚拟变量的引入虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。1.加法方式上述职工薪金模型(8-1)中性别虚拟变量的引入就采取了加法方式,女职工的平均薪金为:在该模型中,如果仍假定=0,则男职工的平均
5、薪金为:第8页/共55页从几何意义上看(图8-1),图8-1 男女职工平均薪金示意图假定0,则两个函数有相同的斜率,但有不同的截距。这意味着,男女职工平均薪金对工龄的。变化率是一样的,但两者的平均薪金水平相差可以通过传统的回归检验,对的统计显著性进行检验,以判断男女职工的平均薪金水平是否有显著差异。第9页/共55页例如:例如:在截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上D1=1 高中 0 其它D2=1 大学及其以上 0 其它这时需要引入两个虚拟变量:模型可设定如下:(8-2)第10页/共55页高中以下:高中以下:E(Yi|Xi
6、,D1i=0,D2i=0)=0+1Xi高中:高中:大学及其以上:大学及其以上:E(Yi|Xi,D1i=1,D2i=0)=(0+2)+1Xi E(Yi|Xi,D1i=0,D2i=1)=(0+3)+1Xi在=0 0的初始假定下,容易得到高中以下、高中、大学及其以上教育水平个人平均保健支出的函数:第11页/共55页假定,且,则其几何意义如图8-2所示。图8-2 不同教育程度人员保健支出示意图第12页/共55页还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。例如:例如:在职工薪金模型(8-1)的例子中,再引入学历的虚拟变量D2=1 本科及以上学历 0 本科以下学历则职工薪金的回归模型可设计如
7、下:(8-3)Yi=0+1Xi+2Di+3D2i+i第13页/共55页于是,不同性别、不同学历职工的平均薪金分别由下面各式给出:女职工本科以下学历的平均薪金:男职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:E(Yi|Xi,D1i=0,D2i=0)=0+1Xi E(Yi|Xi,D1i=1,D2i=0)=(0+2)+1Xi E(Yi|Xi,D1i=0,D2i=1)=(0+3)+1Xi E(Yi|Xi,D1i=1,D2i=1)=(0+2+3)+1Xi第14页/共55页2.乘法方式斜率的变化例如:例如:根据消费理论,消费水平C主要取决于收入水平X。但在一个较长
8、的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。设 Dt=1 正常年份 0 反常年份则消费模型可建立如下:(8-4)这里,虚拟变量 Dt 以与 Xt 相乘的方式引入了模型中,从而可用来考察消费倾向的变化。第15页/共55页在E(t)=0的假定下,上述模型所表示的函数可化为:正常年份:反常年份:图8-3 不同年份消费倾向示意图假定0 0,则其几何图形如图8-3所示。第16页/共55页 如果在模型中同时使用加法和乘法两种方式引入虚拟变量,则回归线的截距和斜率都会改变。例如:例如:对于改革开放前后储蓄
9、-收入模型,可设定为(8-5)其中,Y为储蓄,X为收入,Dt为虚拟变量 Dt=1 改革开放以后 0 改革开放以前显然在式(8-5)中,同时使用加法和乘法两种方式引入了虚拟变量。第17页/共55页在E(t)=0的假定下,上述模型所表示的函数可化为:改革开放以前:E(Yt|Xt,Dt=0)=0+1Xt改革开放以后:则其几何图形如图8-48-4所示。E(Yt|Xt,Dt=1)=(0+1)+(1 2)Xt假定0 0且0,改革开放以前改革开放以后X XY图图8-4 改革开放前后储蓄函数示意图改革开放前后储蓄函数示意图第18页/共55页3 3临界指标的虚拟变量的引入在经济发生转折时,可通过建立临界指标的虚
10、拟变量模型来反映。例如:例如:进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。这时,可以t*=1979为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:1 0Dt=tt*tt*则进口消费品的回归模型可建立如下:(8-6)第19页/共55页如果用OLS法得到该模型的回归方程为(8-7)则两个时期进口消费品函数分别为当tt*=1979时当tt*=1979时几何图形如图8-5所示 图8-5 转折期回归示意图第20页/共55页4数值变量作为虚拟变量引入 有些变量虽然是数量变量,即可以获得实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的,
11、以虚变量引入计量经济学模型更加合理。譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特征,则可将年龄选作虚拟变量。第21页/共55页例如:例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。按年龄划分为三个年龄组:618岁年龄组(中小学教育);1922岁年龄组(大学教育);其它年龄组。于是设定虚拟变量D1=1 6-18岁年龄组 0 其它D2=1 19-22年龄组 0 其它则家庭教育经费支出模型可设定为(8-8)其中,Yi是第i个家庭的教育经费支出;Xi是第i个家庭的收人;虚拟变量D1i、D2i分别表示第i家庭中是否有618岁和1922岁的成员。第22页/共55页5.5.虚拟变
12、量交互效应分析 当分析解释变量对变量的影响时,大多数情形只是分析了解释变量自身变动对被解释变量的影响作用,而没有深入分析解释变量间的相互作用对被解释变量影响。前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定:两个定性变量是分别独立地影响被解释变量的 但是在实际经济活动中,两个定性变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。第23页/共55页考虑下列模型Yi=0+1D1i+2D2i+Xi+i (8-9)其中,Yi为农副产品生产总收益,Xi为农副产品生
13、产投入,D1i为油菜籽生产虚拟变量,D2i为养蜂生产虚拟变量。这里D1i=1 发展油菜籽生产 0 其它D2i=1 发展养蜂生产 0 其它例如:例如:显然,(8-9)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。第24页/共55页虚拟解释变量D1i和D2i是以加法形式引入的,那么暗含着假定:油菜籽生产和养蜂生产是分别独立地影响农副产品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量D1i和D2i之间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产
14、品生产总收益会有影响。第25页/共55页 为描述虚拟变量交互作用对被解释变量的效应,在(8-9)式中以加法形式引入两个虚拟解释变量的乘积,即Yi=0+1D1i+2D2i+3(D1iD2i)+Xi+i (8-10)(1)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益E(Yi|Xi,D1=0,D2=0)=0+Xi (8-11)(2)比较类型:同时发展油菜籽生产和养蜂生产时,农副产品生产平均总收益E(Yi|Xi,D1=1,D2=1)=0+1+2+3+Xi (8-12)1为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;2为是否发展养蜂生产对农副产品生产总收益的截距差异系数
15、;3为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。0 3组成截距水平。其中第26页/共55页 关于交互效应是否存在,可借助于交互效应虚关于交互效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。拟解释变量系数的显著性检验来加以判断。如果如果t t 检验表明交互效应检验表明交互效应D D1 1i iD D2 2i i在统计意义上在统计意义上显著时,说明交互效应对显著时,说明交互效应对Y Yi i存在显著影响。存在显著影响。第27页/共55页四、虚拟变量的设置原则四、虚拟变量的设置原则 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果定性变量
16、有m个类别,则只在模型中引入m-1个虚拟变量。例如:例如:已知冷饮的销售量Y除受k个定量变量Xi的影响外,还受一个定性变量季节即春、夏、秋、冬四季变化的影响。要考察该四季的影响,只需引入三个虚拟变量即可:D1t=1 春季 0 其它D2t=1 夏季 0 其它D3t=1 秋季 0 其它则冷饮销售量的模型为 (8-13)第28页/共55页D4t=1 冬季 0 其它在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变量为(8-14)其矩阵形式为(8-15)第29页/共55页 如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则其中模型(8-14)参数无法唯一求出显然,中的第1列可表示
17、成后4列的线性组合,从而不是满秩的,所谓的“虚拟变量陷阱”第30页/共55页第二节第二节 虚拟被解释变量虚拟被解释变量 当虚拟变量作为被解释变量时,其作用是对某一经济现象或活动进行“是”与“否”的判断或决策。研究是否购买商品住房、是否参加人寿或财产保险、是否能按期偿还贷款、新产品在市场上是否畅销、对某一改革措施所持的态度等。例如:例如:第31页/共55页例如:例如:假定我们要从一个截面样本度量汽车所有权的决定因素。某些人有汽车,而其他人没有。假定这种所有权函数的决定因素是收入和职业,则可设定模型为:(8-16)其中,Xi表示收入,D1i=1 第i个人是有车者 0 第i个人是无车者 D2i=1
18、第i个是白领职业 0 其它显然,这个模型中被解释变量是一个虚拟变量。第32页/共55页特征:特征:被研究的对象(即被解释变量)在受到多种因素影响时,其取值只有两种状态:“是”与“否”。“二元型响应二元型响应”现象现象如何处理二元型响应被解释变量模型的估计、推断问题?一、线性概率模型(LPM)二、Logit模型第33页/共55页一、线性概率模型(LPM)1 1什么是线性概率模型什么是线性概率模型 假设住户是否购买商品房的决定主要依赖于其收入水平。那么考虑下列模型 (8-17)其中,Xi为住户的收入;Yi为一虚拟变量,表示住户购买商品住房的情况Yi=1 已购买商品住房 0 未购买商品住房第34页/
19、共55页问题:问题:我们前面讨论的回归分析主要是研究E(Yi|Xi)=0+1 Xi的问题,即研究条件均值轨迹的问题,而在上述模型中,被解释变量是某种属性发生与否的状况,怎样把被解释变量某种属性发生与否的概率问题同条件均值的轨迹研究联系起来?另外,若概率问题与条件均值轨迹能够联系起来的话,那么,我们所讨论的线性回归分析会出现什么问题?第35页/共55页由于E(i)=0,由(8-17),E(Yi|Xi)=0+1 Xi (8-18)另外,设Y有下列分布:P(Yi=1)=pi ,P(Yi=0)=1-pi根据数学期望的定义 E(Yi)=0(1-pi)+1pi=pi(8-19)注意到事件Y=1是在给定收入
20、X的条件下发生的,因此E(Yi)=E(Yi|Xi),于是有E(Yi|Xi)=i+1X i=pi (8-20)表明购买商品用房的概率是收入的线性函数。第36页/共55页 像(8-17)式那样,以虚拟变量作为被解释变量的模型的条件期望实际上等于随机变量Yi取值为1的条件概率。即当住户的收入水平为X时,其购买商品住房的概率可表示成X的线性函数,故(8-17)式也被称为线性概率模型(LPM)。显然,只要得到(8-17)式中0和1的估计量后,就可以估计出不同收入水平住户购买商品住房的概率。0E(Yi|Xi)1 (8-21)由于E(Yi|Xi)=0+1 Xi=pi 0,1,故在估计(8-20)式时必须满足
21、约束条件第37页/共55页2 2线性概率模型的估计线性概率模型的估计 从形式上看,(8-17)式与普通的线性计量经济模型相似,是否能够运用OLS法直接对其进行估计呢?答案是否定的。因为直接采用OLS法对(8-17)式那样的模型进行估计,将会遇到一些特殊的问题,使得估计结果失去了合理的经济解释,因而需要寻求相应的处理方法。问题:问题:第38页/共55页(1)随机扰动项i的非正态性在线性概率模型中,因为显然,关于i的正态性假设不再成立。i=Yi-0 0-1 1 Xi=1-0-1 Xi 当Yi=1时-0-1 Xi 当Yi=0时 直接运用OLS法对线性概率模型进行估计,对参数的估计不会产生太大影响。说
22、明:说明:第39页/共55页(2)随机扰动项i的异方差性Var(i )=Ei -E(i)2=E(i 2)=(1-0-1 Xi)2pi+(-0-1 Xi)2(1-pi)=(1-0-1 Xi)2(0+1 Xi)+(-0-1 Xi)2(1-0-1 Xi )=(0+1 Xi )(1-0-1 Xi )=pi(1-pi)(8-22)Yi=1时,P(i=1-0-1Xi)=pi;Yi=0时,P(i=-0-1 Xi)=1-pi,根据方差的定义得根据Yi的概率分布,有:E(Yi|Xi)=i+1X i=pi 这里利用了式(8-20)。第40页/共55页Var(i )=pi(1-pi)(8-22)(8-22)式表明,
23、当i满足E(i)=0和E(ij)=0(ij)时,i是异方差的。这时利用OLS法所得的LPM的估计量不再具有最小方差的特性,且各参数估计量的标准差也不可信。也就是说,LPM参数的OLS法估计量虽仍为线性无偏估计量,但不是最佳估计量。怎样消除异方差性的影响?思考:思考:可利用第六章中有关修正异方差的方法,可用加权最小二乘法修正异方差。提示:提示:第41页/共55页 根据前面的讨论,已知LPM中i的方差是Yi条件期望的函数,故选择权重i的一种方法为(8-23)对(8-17)式作变换,有(8-24)(8-24)式中权重i是未知的,随机扰动项i/也是未知的 第42页/共55页在实践中为了估计i,进而估计
24、LPM模型,可采取以下步骤:第一步,不考虑异方差,用OLS法估计原模型(8-17)式,计算作为E(Yi|Xi)=0 0+1 1 Xi=pi i的估计值,取作为i的估计值。第二步,用按照(8-24)式对观察数据进行变换,再用OLS法估计变换后的模型参数,得LPM的参数,从而消除异方差。第43页/共55页(3)(3)不满足00E E(Y Yi i|X Xi i)1)1的约束在线性概率模型中,E(Yi|Xi)表示在给定X的条件下,事件Y发生的概率。解决这一问题的二类方法是:从理论上,E(Yi|Xi)的取值范围必须为01,然而在实证分析中,E(Yi|Xi)的估计量并不一定在0和1之间,这是用LPM的O
25、LS法估计存在的实际问题。当1时,就认定=1;当0时,就认定=0。1)选择对数单位模型或Probit模型等能够保证满足0E(Yi|Xi)1约束的非线性模型。2)第44页/共55页3 3非线性概率模型非线性概率模型 应当指出的是,虽然我们可以采用WLS解决异方差性问题、增大样本容量减轻非正态性问题,通过约束迫使所估计的事件Y发生的概率落入01,但LPM与经济意义的要求不符:随着X的变化,X对pi的“边际效应”保持不变。(如1000元),拥有商品住房的概率恒等地增加0.1。这就是说,无论住户的收入水平为8000元,还是20000元,拥有商品住房的概率都以相同的增量增加。在线性概率模型中,不论X的变
26、化是在什么水平上发生的,参数都不发生变化,显然这与现实经济中所发生的情况是不符的。在住户是否购买商品房的例子中,当=0.1时,表明X每变化一个1单位第45页/共55页因此,表现概率平均变化比较理想的模型应当具有这样的特征:(1)概率pi=P(Yi=1|Xi)随X的变化而变化,但永远不超出01区间。(2)随着Xi-,pi0;Xi+,pi1。符合这些特征的函数可用图8-6形象地刻画。-1P+0 图8-6非线性概率函数德图形第46页/共55页 图8-6的模型满足0E(Yi|Xi)1以及pi是Xi非线性函数的假设,呈现出S型的曲线特征。因此可以设法找到符合这种S型曲线特征的函数形式来作为二元型响应计量
27、经济模型的设定形式。原则上,任何适当的、连续的、定义在实轴上的概率分布都将满足上述两个条件。对于连续随机变量来说,密度函数的积分代表概率的大小,也就是说,连续随机变量的(累积)分布函数(CDF)可以满足上述两个要求。通常选择逻辑斯蒂和正态分布的累积分布函数去设定非线性概率模型。当选用逻辑斯蒂分布时,就生成了Logit模型。第47页/共55页二、二、LogitLogit模型模型1Logit模型(对数单位模型)的基本概念 当选择用逻辑斯蒂分布函数(logistic distribution)去设定二元型响应计量经济模型时,有P(Yi=1)=pi=(8-25)其中,其特征:其特征:(1)zi+时,p
28、i 1;zi-时,pi 0;zi=0时,pi=0.5。(2)它有一个拐点,在拐点之前,随zi或Xi增大,pi的增长速度越来越快;在拐点之后,随zi或Xi增大,pi的增长速度越来越慢,逐渐趋近于1。第48页/共55页考虑到在估计中便利,我们采用以下变换:(8-26)式中,比率pi/(1 pi)通常称为机会比率,即所研究的事件(或属性)“发生”的概率与“没发生”的概率之比。机会比率的对数Li=lnpi/(1 pi)称为对数单位,这里的对数单位Li不仅是 Xi的线性函数,而且也是的线性函数,所以,(8-26)式也称为Logit模型。第49页/共55页 由于pi不仅对Xi是非线性关系,而且对0和1也是
29、非线性关系,不能直接运用OLS法估计参数。必须设法把非线性关系转换为可以运用OLS法估计的线性形式。2Logit模型的估计 由(8-25)式有 1-pi=(8-27)由(8-25)和(8-27)式有(8-28)于是 (8-29)上式表明,Xi变动一个单位,机会比率的对数平均变化1个单位。第50页/共55页Logit模型的以下特点:(1)随着pi从0变化到1,或zi从-变化到+,对数单位Li从-变化到+,即概率pi在0与1之间,但对数单位Li并不一定在0与1之间。(2)虽然对数单位Li对Xi是线性的,但概率pi对Xi并不是线性的;(3)注意Logit模型中参数的意义:1是Xi每变动一个单位时,对
30、数单位Li(机会比率的对数)的平均变化,然而我们研究的目的并不是对数单位Li而是概率pi。(4)如果设法估计出参数0和1,给定某一水平Xi=X0,若欲估计pi,可从 (8-28)式设法计算出要估计的概率。第51页/共55页从计量经济学的角度引入随机扰动项,将(8-29)式改记为(8-30)如何得到如何得到0 0和和1 1的估计量呢?的估计量呢?(8-29)问题:问题:第52页/共55页对(8-30)式直接估计会遇到以下困难:(1)当事件发生时,pi=1,L i=ln(1/0);当事件没有发生时,pi=0,Li=ln(0/1),机会比率pi/(1 pi)的对数都无意义,不能直接用OLS法估计模型
31、,而只能采 用极大似然法(ML)估计参数。当样本容量n较大,可选用加权最小二乘法进 行估计。(2)估计参数需要的机会比率的对数Li的数据无法观测。解决办法是对应于每 个 Xi,样本观测值个数n较大时,可利用整理汇总的数据,用相对频率作 为对pi的估计,并估计机会比率对数Li。第53页/共55页对(8-30)式直接估计会遇到以下困难:(3)(8-30)式模型的随机项i为异方差,可以证明,n足够大时 (8-31)为了估计i的方差,可通过用相对频率代替pi去估计,有 (8-32)估计出i的方差以后,可用加权最小二乘法去估计参数,权数i为 (8-33)第54页/共55页感谢您的欣赏!第55页/共55页