《计量经济学-第八章-虚拟变量doc资料.ppt》由会员分享,可在线阅读,更多相关《计量经济学-第八章-虚拟变量doc资料.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、计量经济学-第八章-虚拟变量第八章第八章 虚拟变量模型虚拟变量模型 学习目的学习目的 了解虚拟变量、虚拟变量模型的概念,掌握虚拟变量设置的了解虚拟变量、虚拟变量模型的概念,掌握虚拟变量设置的原则和引入模型的方法。原则和引入模型的方法。基本要求基本要求1)认识到虚拟变量是建立计量经济学模型经常会遇到的问题;认识到虚拟变量是建立计量经济学模型经常会遇到的问题;2)了解虚拟变量、虚拟变量模型的概念;了解虚拟变量、虚拟变量模型的概念;3)掌握虚拟变量设置的原则、虚拟变量模型的建模方法及应用。掌握虚拟变量设置的原则、虚拟变量模型的建模方法及应用。虚拟变量虚拟变量虚拟变量模型虚拟变量模型第八章第八章 虚拟
2、变量模型虚拟变量模型第一节第一节 虚拟变量虚拟变量虚拟变量的引入虚拟变量的引入虚拟变量的设置原则虚拟变量的设置原则一、虚拟变量一、虚拟变量为什么要引入为什么要引入“虚拟变量虚拟变量”?如商品需求量、价格、收入、产量等如商品需求量、价格、收入、产量等许多经济变量是可以定量度量的或者说是可以直接观测的许多经济变量是可以定量度量的或者说是可以直接观测的但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测 如职业、性别对收入的影响,战争、自然灾害对如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节的影响,季节对某些产品对某些
3、产品(如冷饮如冷饮)销售的影响等。销售的影响等。为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将它们人为地它们人为地“量化量化”,这种,这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完成的。来完成的。这种用两个相异数字来表示对被解释变量有重要影响而自身又这种用两个相异数字来表示对被解释变量有重要影响而自身又没有观测数值的一类变量,称为没有观测数值的一类变量,称为虚拟变量虚拟变量(dummy variables)。虚拟变量也称为哑变量或定性变量。虚拟变量也称为哑变量或定性变量。虚拟变量的特点是:虚拟变量的
4、特点是:1虚拟变量是对经济变化有重要影响的不可测变量。虚拟变量是对经济变化有重要影响的不可测变量。2虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取“0”或或“1”的人工变量,通常称为虚拟变量,记为的人工变量,通常称为虚拟变量,记为D。这是为了便于计算而。这是为了便于计算而把定性因素这样数量化的,所以虚拟变量的数值只表示变量的性质而不表把定性因素这样数量化的,所以虚拟变量的数值只表示变量的性质而不表示变量的数值。示变量的数值。基础类型和肯定类型取值为基础类型和肯定类型取值为1;一般地,在虚拟变量的设置中,一般地,在虚拟变量的设置中
5、,比较类型和否定类型取值为比较类型和否定类型取值为0。例如:例如:1)表示性别的虚拟变量可取为)表示性别的虚拟变量可取为D1=1 男性男性 0 女性女性2)表示文化程度的虚拟变量可取为)表示文化程度的虚拟变量可取为D2=1 本科及以上学历本科及以上学历 0 本科以下学历本科以下学历3)表示地区的虚拟变量可取为)表示地区的虚拟变量可取为D3=1 城市城市 0 农村农村4)表示消费心理的虚拟变量可取为)表示消费心理的虚拟变量可取为D4=1 喜欢某种商品喜欢某种商品 0 不喜欢某种商品不喜欢某种商品5)表示天气变化的虚拟变量可取为)表示天气变化的虚拟变量可取为D5=0 雨天雨天 1 晴天晴天二、虚拟
6、变量模型二、虚拟变量模型同时含有一般解释变量与虚拟变量的模型称为同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型虚拟变量模型。在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要是用作是用作解释变量解释变量。一个以性别为虚拟变量来考察职工薪金的模型如下:一个以性别为虚拟变量来考察职工薪金的模型如下:(8-1)其中其中例如:例如:为职为职工的薪金;工的薪金;为职为职工工工工龄龄;=1代表男性代表男性=0 代表女性代表女性三、虚拟变量的引入三、虚拟变量的引入虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。虚拟变
7、量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。1.加法方式加法方式上述职工薪金模型(上述职工薪金模型(8-1)中性别虚拟变量的引入就采取了加法方式,)中性别虚拟变量的引入就采取了加法方式,女女职职工的平均薪金工的平均薪金为为:在在该该模型中,如果仍假定模型中,如果仍假定=0,则,则男职工的平均薪金为:男职工的平均薪金为:从从几何意义几何意义上看上看(图图8-1),图图8-1 男女职工平均薪金示意图男女职工平均薪金示意图假定假定0,则两个函数有相同的斜率,但有不同的截距。则两个函数有相同的斜率,但有不同的截距。这这意味着,男女意味着,男女职职工平均薪金工平均薪金对对工工龄龄的的。变化
8、率是一样的,但两者的平均薪金水平相变化率是一样的,但两者的平均薪金水平相差差可以通可以通过传统过传统的回的回归检验归检验,对对的的统计显统计显著性著性进进行行检验检验,以判断男女,以判断男女职工的平均薪金水平是否有显著差异。职工的平均薪金水平是否有显著差异。例如:例如:在截面数据基础上,考虑在截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上教育水平考虑三个层次:高中以下,高中,大学及其以上D1=1 高中高中 0 其它其它D2=1 大学及其以上大学及其以上 0 其它其它这时需要引入两个虚拟变量:这
9、时需要引入两个虚拟变量:模型可设定如下:模型可设定如下:(8-2)高中以下:高中以下:E(Yi|Xi,D1i=0,D2i=0)=0+1Xi高中:高中:大学及其以上:大学及其以上:E(Yi|Xi,D1i=1,D2i=0)=(0+2)+1Xi E(Yi|Xi,D1i=0,D2i=1)=(0+3)+1Xi在在=0 0的初始假定下,容易得到高中以下、高中、大学及其以上的初始假定下,容易得到高中以下、高中、大学及其以上教育水平个人平均保健支出的函数:教育水平个人平均保健支出的函数:假定假定,且,且,则则其几何意其几何意义义如如图图8-2所示。所示。图图8-2 不同教育程度人员保健支出示意图不同教育程度人
10、员保健支出示意图还可将还可将多个虚拟变量多个虚拟变量引入模型中以考察多种引入模型中以考察多种“定性定性”因素的影响。因素的影响。例如:例如:在职工薪金模型(在职工薪金模型(8-1)的例子中,再引入学历的虚拟变量)的例子中,再引入学历的虚拟变量D2=1 本科及以上学历本科及以上学历 0 本科以下学历本科以下学历则职工薪金的回归模型可设计如下:则职工薪金的回归模型可设计如下:(8-3)Yi=0+1Xi+2Di+3D2i+i于是,不同性别、不同学历职工的平均薪金分别由下面各式给出:于是,不同性别、不同学历职工的平均薪金分别由下面各式给出:女职工本科以下学历的平均薪金:女职工本科以下学历的平均薪金:男
11、职工本科以下学历的平均薪金:男职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:女职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:E(Yi|Xi,D1i=0,D2i=0)=0+1Xi E(Yi|Xi,D1i=1,D2i=0)=(0+2)+1Xi E(Yi|Xi,D1i=0,D2i=1)=(0+3)+1Xi E(Yi|Xi,D1i=1,D2i=1)=(0+2+3)+1Xi2.乘法方式乘法方式斜率的变化斜率的变化例如:例如:根据消费理论,消费水平根据消费理论,消费水平C主要取决于收入水平主要取决于收入水平X。但在一个较长的。但在一个较长的时期,人们的
12、消费倾向会发生变化,尤其是在自然灾害、战争等反常年时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。中引入虚拟变量来考察。设设 Dt=1 正常年份正常年份 0 反常年份反常年份则消费模型可建立如下:则消费模型可建立如下:(8-4)这里,虚拟变量这里,虚拟变量 Dt 以与以与 Xt 相乘的方式引入了模型中,从而可用来相乘的方式引入了模型中,从而可用来考察消费倾向的变化。考察消费倾向的变化。在在E(t)=0的假定下,上述模型所表示的函数可化为
13、的假定下,上述模型所表示的函数可化为:正常年份:正常年份:反常年份:反常年份:图图8-3 不同年份消费倾向示意图不同年份消费倾向示意图假定假定0 0,则其几何图形如图则其几何图形如图8-3所示。所示。如果在模型中如果在模型中同时使用加法和乘法两种方式引入虚拟变量同时使用加法和乘法两种方式引入虚拟变量,则回归线的截距和斜率都会改变。则回归线的截距和斜率都会改变。例如:例如:对于改革开放前后储蓄对于改革开放前后储蓄-收入模型,可设定为收入模型,可设定为(8-5)其中,其中,Y为储蓄,为储蓄,X为收入,为收入,Dt为虚拟变量为虚拟变量 Dt=1 改革开放以后改革开放以后 0 改革开放以前改革开放以前
14、显然在式(显然在式(8-5)中,同时使用加法和乘法两种方式引入了虚拟变量。)中,同时使用加法和乘法两种方式引入了虚拟变量。在在E(t)=0的假定下,上述模型所表示的函数可化为的假定下,上述模型所表示的函数可化为:改革开放以前:改革开放以前:E(Yt|Xt,Dt=0)=0+1Xt改革开放以后:改革开放以后:则则其几何其几何图图形如形如图图8-48-4所示。所示。E(Yt|Xt,Dt=1)=(0+1)+(1+2)Xt假定假定0 0且且0,改革开放以前改革开放以前改革开放以后改革开放以后X XY图图8-4 改革开放前后储蓄函数示意图改革开放前后储蓄函数示意图3 3临界指标的虚拟变量的引入临界指标的虚
15、拟变量的引入在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。在经济发生转折时,可通过建立临界指标的虚拟变量模型来反映。例如:例如:进口消费品数量进口消费品数量Y主要取决于国民收入主要取决于国民收入X的多少,中国在改革开放前后,的多少,中国在改革开放前后,Y对对X的回归关系明显不同。的回归关系明显不同。这时,可以这时,可以t*=1979为转折期,以为转折期,以1979年的国民收入年的国民收入Xt*为临界值,为临界值,设如下虚拟变量:设如下虚拟变量:1 0Dt=tt*tt*则进口消费品的回归模型可建立如下:则进口消费品的回归模型可建立如下:(8-6)如果用如果用OLS法得到该模型的回归方
16、程为法得到该模型的回归方程为(8-7)则两个时期进口消费品函数分别为则两个时期进口消费品函数分别为当当tt*=1979时时当当tt*=1979时时几何图形如图几何图形如图8-5所示所示 图图8-5 转折期回归示意图转折期回归示意图4数值变量作为虚拟变量引入数值变量作为虚拟变量引入 有些变量虽然是数量变量,即可以获得实际观测值,但在某些特定情有些变量虽然是数量变量,即可以获得实际观测值,但在某些特定情况下把它选取为虚拟变量则是方便的,以虚变量引入计量经济学模型更加况下把它选取为虚拟变量则是方便的,以虚变量引入计量经济学模型更加合理。合理。譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的
17、特譬如年龄因素虽然可以用数字计量,但如果将年龄作为资料分组的特征,则可将年龄选作虚拟变量。征,则可将年龄选作虚拟变量。例如:例如:家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。家庭教育经费支出不仅取决于其收入,而且与年龄因素有关。按年龄划分为三个年龄组:按年龄划分为三个年龄组:618岁年龄组(中小学教育);岁年龄组(中小学教育);1922岁岁年龄组(大学教育);其它年龄组。于是设定虚拟变量年龄组(大学教育);其它年龄组。于是设定虚拟变量D1=1 6-18岁年龄组岁年龄组 0 其它其它D2=1 19-22年龄组年龄组 0 其它其它则家庭教育经费支出模型可设定为则家庭教育经费支出模型可设定
18、为(8-8)其中,其中,Yi是第是第i个家庭的教育经费支出;个家庭的教育经费支出;Xi是第是第i个家庭的收人;个家庭的收人;虚拟变量虚拟变量D1i、D2i分别表示第分别表示第i家庭中是否有家庭中是否有618岁和岁和1922岁的成员。岁的成员。5.5.虚拟变量交互效应分析虚拟变量交互效应分析 当分析解释变量对变量的影响时,大多数情形只是分析了解释变量当分析解释变量对变量的影响时,大多数情形只是分析了解释变量自身变动对被解释变量的影响作用,而没有深入分析解释变量间的相互自身变动对被解释变量的影响作用,而没有深入分析解释变量间的相互作用对被解释变量影响。作用对被解释变量影响。前面讨论的分析两个定性变
19、量对被解释变量影响的虚拟变量模型中,前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定:暗含着一个假定:两个定性变量是分别独立地影响被解释变量的两个定性变量是分别独立地影响被解释变量的 但是在实际经济活动中,两个定性变量对被解释变量的影响可能存在但是在实际经济活动中,两个定性变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型
20、。考虑下列模型考虑下列模型Yi=0+1D1i+2D2i+Xi+i (8-9)其中,其中,Yi为农副产品生产总收益,为农副产品生产总收益,Xi为农副产品生产投入,为农副产品生产投入,D1i为油菜籽生为油菜籽生产虚拟变量,产虚拟变量,D2i为养蜂生产虚拟变量。这里为养蜂生产虚拟变量。这里D1i=1 发展油菜籽生产发展油菜籽生产 0 其它其它D2i=1 发展养蜂生产发展养蜂生产 0 其它其它例如:例如:显然,显然,(8-9)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。副产品总收益的影响。虚拟解释变量虚拟解释变量D1i
21、和和D2i是以加法形式引入的,那么暗含着是以加法形式引入的,那么暗含着假定假定:油菜籽生产和养蜂生产是分别独立地影响农副产品生产总收益。油菜籽生产和养蜂生产是分别独立地影响农副产品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益可能会高于不发展养蜂生产的情况。即在是否发展油菜产品生产总收益可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量籽生产与养蜂生产的虚拟变量D1i和和D2i之间,很可能存在着一定的交互之间,很可能存在着一定的交互作用,且这种交互影响对被解释变量作用,且这种
22、交互影响对被解释变量农副产品生产总收益会有影响。农副产品生产总收益会有影响。为描述虚拟变量交互作用对被解释变量的效应,在为描述虚拟变量交互作用对被解释变量的效应,在(8-9)式中以式中以加法形式加法形式引入引入两个虚拟解释变量的乘积,即两个虚拟解释变量的乘积,即Yi=0+1D1i+2D2i+3(D1iD2i)+Xi+i (8-10)(1)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益)基础类型:不发展油菜籽生产,也不发展养蜂生产时农副产品生产平均总收益E(Yi|Xi,D1=0,D2=0)=0+Xi (8-11)(2)比较类型:同时发展油菜籽生产和养蜂生产时,农副产品生产平
23、均总收益)比较类型:同时发展油菜籽生产和养蜂生产时,农副产品生产平均总收益E(Yi|Xi,D1=1,D2=1)=0+1+2+3+Xi (8-12)1为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;2为是否发展养蜂生产对农副产品生产总收益的截距差异系数;为是否发展养蜂生产对农副产品生产总收益的截距差异系数;3为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。0 3组成截距水平。组成截距水平。其中其中 关于交互效应是否存在,可借助于交互效应虚关于交互
24、效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。拟解释变量系数的显著性检验来加以判断。如果如果t t 检验表明交互效应检验表明交互效应D D1 1i iD D2 2i i在统计意义上在统计意义上显著时,说明交互效应对显著时,说明交互效应对Y Yi i存在显著影响。存在显著影响。四、虚拟变量的设置原则四、虚拟变量的设置原则 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果定性变量有即如果定性变量有m个类别,则只在模型中引入个类别,则只在模型中引入m-1个虚拟变量。个虚拟变量。例如:例如:已知冷饮的销售量已
25、知冷饮的销售量Y除受除受k个定量变量个定量变量Xi的影响外,还受一个定性变量季的影响外,还受一个定性变量季节即春、夏、秋、冬四季变化的影响。要考察该四季的影响,只需引入三个节即春、夏、秋、冬四季变化的影响。要考察该四季的影响,只需引入三个虚拟变量即可:虚拟变量即可:D1t=1 春季春季 0 其它其它D2t=1 夏季夏季 0 其它其它D3t=1 秋季秋季 0 其它其它则冷饮销售量的模型为则冷饮销售量的模型为 (8-13)D4t=1 冬季冬季 0 其它其它在上述模型中,若再引入第四个虚拟变量在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变量为则冷饮销售模型变量为(8-14)其矩阵形式为其矩阵形
26、式为(8-15)如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则其中观测值,则其中模型(模型(8-14)参数无法唯一求出)参数无法唯一求出显显然,然,中的第中的第1列可表示成后列可表示成后4列的列的线线性性组组合,从而合,从而不是满秩的,不是满秩的,所谓的所谓的“虚拟变量陷阱虚拟变量陷阱”第二节第二节 虚拟被解释变量虚拟被解释变量 当虚拟变量作为被解释变量时,其作用是对某一经济现象当虚拟变量作为被解释变量时,其作用是对某一经济现象或活动进行或活动进行“是是”与与“否否”的判断或决策。的判断或决策。研究是否购买商品
27、住房、是否参加人寿或财产保险、是否研究是否购买商品住房、是否参加人寿或财产保险、是否能按期偿还贷款、新产品在市场上是否畅销、对某一改革措施能按期偿还贷款、新产品在市场上是否畅销、对某一改革措施所持的态度等。所持的态度等。例如:例如:例如:例如:假定我们要从一个截面样本度量汽车所有权的决定因素。假定我们要从一个截面样本度量汽车所有权的决定因素。某些人有汽车,而其他人没有。假定这种所有权函数的决定因素是某些人有汽车,而其他人没有。假定这种所有权函数的决定因素是收入和职业,则可设定模型为:收入和职业,则可设定模型为:(8-16)其中其中,Xi表示收入,表示收入,D1i=1 第第i个人是有车者个人是有
28、车者 0 第第i个人是无车者个人是无车者 D2i=1 第第i个是白领职业个是白领职业 0 其它其它显然,这个模型中被解释变量是一个虚拟变量。显然,这个模型中被解释变量是一个虚拟变量。特征:特征:被研究的对象被研究的对象(即被解释变量即被解释变量)在受到多种因素影响时,其取值在受到多种因素影响时,其取值只有两种状态:只有两种状态:“是是”与与“否否”。“二元型响应二元型响应”现象现象如何处理二元型响应被解释变量模型的估计、推断问题?如何处理二元型响应被解释变量模型的估计、推断问题?一、线性概率模型一、线性概率模型(LPM)二、二、Logit模型模型一、线性概率模型一、线性概率模型(LPM)1 1
29、什么是线性概率模型什么是线性概率模型 假设住户是否购买商品房的决定主要依赖于其收入水平。假设住户是否购买商品房的决定主要依赖于其收入水平。那么考虑下列模型那么考虑下列模型 (8-17)其中,其中,Xi为住户的收入;为住户的收入;Yi为一虚拟变量,表示住户购买商品住房的情况为一虚拟变量,表示住户购买商品住房的情况Yi=1 已购买商品住房已购买商品住房 0 未购买商品住房未购买商品住房问题:问题:我们前面讨论的回归分析主要是研究我们前面讨论的回归分析主要是研究E(Yi|Xi)=0+1 Xi的问题,的问题,即研究条件均值轨迹的问题,而在上述模型中,被解释变量是某种属性即研究条件均值轨迹的问题,而在上
30、述模型中,被解释变量是某种属性发生与否的状况,怎样把被解释变量某种属性发生与否的概率问题同条发生与否的状况,怎样把被解释变量某种属性发生与否的概率问题同条件均值的轨迹研究联系起来件均值的轨迹研究联系起来?另外,若概率问题与条件均值轨迹能够联系起来的话,那么,我们另外,若概率问题与条件均值轨迹能够联系起来的话,那么,我们所讨论的线性回归分析会出现什么问题所讨论的线性回归分析会出现什么问题?由于由于E(i)=0,由,由(8-17),E(Yi|Xi)=0+1 Xi (8-18)另外,设另外,设Y有下列分布:有下列分布:P(Yi=1)=pi ,P(Yi=0)=1-pi根据数学期望的定义根据数学期望的定
31、义 E(Yi)=0(1-pi)+1pi=pi(8-19)注意到事件注意到事件Y=1是在给定收入是在给定收入X的条件下发生的,因此的条件下发生的,因此E(Yi)=E(Yi|Xi),于是有,于是有E(Yi|Xi)=i+1X i=pi (8-20)表明购买商品用房的概率是收入的线性函数。表明购买商品用房的概率是收入的线性函数。像像(8-17)式那样,以虚拟变量作为被解释变量的模型的条件期望实际上等于式那样,以虚拟变量作为被解释变量的模型的条件期望实际上等于随机变量随机变量Yi取值为取值为1的条件概率。的条件概率。即当住户的收入水平为即当住户的收入水平为X时,其购买商品住房的概率可表示成时,其购买商品
32、住房的概率可表示成X的线性函的线性函数,故数,故(8-17)式也被称为式也被称为线性概率模型线性概率模型(LPM)。显然,只要得到显然,只要得到(8-17)式中式中0和和1的估计量后,就可以估计出不同收入的估计量后,就可以估计出不同收入水平住户购买商品住房的概率。水平住户购买商品住房的概率。0E(Yi|Xi)1 (8-21)由于由于E(Yi|Xi)=0+1 Xi=pi0,1,故在估计,故在估计(8-20)式时必须式时必须满足约束条件满足约束条件2 2线性概率模型的估计线性概率模型的估计 从形式上看,从形式上看,(8-17)式与普通的线性计量经济模型相似,是否能够式与普通的线性计量经济模型相似,
33、是否能够运用运用OLS法直接对其进行估计呢?法直接对其进行估计呢?答案是否定的。答案是否定的。因为直接采用因为直接采用OLS法对法对(8-17)式那样的模型进行估计,将会遇到一式那样的模型进行估计,将会遇到一些特殊的问题,使得估计结果失去了合理的经济解释,因而需要寻求些特殊的问题,使得估计结果失去了合理的经济解释,因而需要寻求相应的处理方法。相应的处理方法。问题:问题:(1)随机扰动项随机扰动项i的非正态性的非正态性在线性概率模型中,因为在线性概率模型中,因为显显然,关于然,关于i的正的正态态性假性假设设不再成立。不再成立。i=Yi-0 0-1 1 Xi=1-0-1 Xi 当当Yi=1时时-0
34、-1 Xi 当当Yi=0时时 直接运用直接运用OLS法对线性概率模型进行估计,对参数的估计不会产生法对线性概率模型进行估计,对参数的估计不会产生太大影响。太大影响。说明:说明:(2)随机扰动项随机扰动项i的异方差性的异方差性Var(i )=Ei -E(i)2=E(i 2)=(1-0-1 Xi)2pi+(-0-1 Xi)2(1-pi)=(1-0-1 Xi)2(0+1 Xi)+(-0-1 Xi)2(1-0-1 Xi )=(0+1 Xi )(1-0-1 Xi )=pi(1-pi)(8-22)Yi=1时,时,P(i=1-0-1Xi)=pi;Yi=0时,时,P(i=-0-1 Xi)=1-pi,根据方差的
35、定义得根据方差的定义得根据根据Yi的概率分布,有:的概率分布,有:E(Yi|Xi)=i+1X i=pi 这里利用了式(这里利用了式(8-20)。)。Var(i )=pi(1-pi)(8-22)(8-22)式表明,当式表明,当i满足满足E(i)=0和和E(ij)=0(ij)时,时,i是异方差的。是异方差的。这时利用这时利用OLS法所得的法所得的LPM的估计量不再具有最小方差的特性,且各的估计量不再具有最小方差的特性,且各参数估计量的标准差也不可信。参数估计量的标准差也不可信。也就是说,也就是说,LPM参数的参数的OLS法估计量虽仍为线性无偏估计量,但不是法估计量虽仍为线性无偏估计量,但不是最佳估
36、计量。最佳估计量。怎样消除异方差性的影响怎样消除异方差性的影响?思考:思考:可利用第六章中有关修正异方差的方法,可用加权最小二可利用第六章中有关修正异方差的方法,可用加权最小二乘法修正异方差。乘法修正异方差。提示:提示:根据前面的讨论,已知根据前面的讨论,已知LPM中中i的方差是的方差是Yi条件期望的函数,条件期望的函数,故选择权重故选择权重i的一种方法为的一种方法为(8-23)对对(8-17)式作变换,有式作变换,有(8-24)(8-24)式中式中权权重重i是未知的,随机是未知的,随机扰动项扰动项i/也是未知的也是未知的 在实践中为了估计在实践中为了估计i,进而估计,进而估计LPM模型,可采
37、取以下步骤:模型,可采取以下步骤:第一步,不考第一步,不考虑虑异方差,用异方差,用OLS法估法估计计原模型原模型(8-17)式,式,计计算算作作为为E(Yi|Xi)=0 0+1 1 Xi=pi i的估的估计值计值 ,取,取 作作为为i的估的估计值计值。第二步,用第二步,用 按照按照(8-24)式式对观对观察数据察数据进进行行变换变换,再用,再用OLS法估法估计变换计变换后后的模型参数,得的模型参数,得LPM的参数,从而消除异方差。的参数,从而消除异方差。(3)(3)不满足不满足00E E(Y Yi i|X Xi i)1)1的约束的约束在线性概率模型中,在线性概率模型中,E(Yi|Xi)表示在给
38、定表示在给定X的条件下,事件的条件下,事件Y发生的概率。发生的概率。解决这一问题的二类方法是:解决这一问题的二类方法是:从理从理论论上,上,E(Yi|Xi)的取的取值值范范围围必必须为须为01,然而在,然而在实证实证分析中,分析中,E(Yi|Xi)的估的估计计量量并不一定在并不一定在0和和1之之间间,这这是用是用LPM的的OLS法估法估计计存在的存在的实际问题实际问题。当当1时时,就,就认认定定=1;当;当0时时,就,就认认定定=0。1)选择对数单位模型或选择对数单位模型或Probit模型等能够保证满足模型等能够保证满足0E(Yi|Xi)1约束的非线性模型。约束的非线性模型。2)3 3非线性概
39、率模型非线性概率模型 应当指出的是,虽然我们可以采用应当指出的是,虽然我们可以采用WLS解决异方差性问题、增大样本容解决异方差性问题、增大样本容量减轻非正态性问题,通过约束迫使所估计的事件量减轻非正态性问题,通过约束迫使所估计的事件Y发生的概率落入发生的概率落入01,但,但LPM与经济意义的要求不符:随着与经济意义的要求不符:随着X的变化,的变化,X对对pi的的“边际效应边际效应”保持不变。保持不变。(如如1000元元),拥有,拥有商品住房的概率恒等地增加商品住房的概率恒等地增加0.1。这这就是就是说说,无,无论论住住户户的收入的收入水平水平为为8000元,元,还还是是20000元,元,拥拥有
40、商品住房的概率都以相同的增量增加。在有商品住房的概率都以相同的增量增加。在线线性概率模型中,不性概率模型中,不论论X的的变变化是在什么水平上化是在什么水平上发发生的,参数都不生的,参数都不发发生生变变化,化,显显然然这这与与现实经济现实经济中所中所发发生的情况是不符的。生的情况是不符的。在住户是否购买商品房的例子中,当在住户是否购买商品房的例子中,当=0.1时,表明时,表明X每变化一个每变化一个1单位单位因此,表现概率平均变化比较理想的模型应当具有这样的因此,表现概率平均变化比较理想的模型应当具有这样的特征特征:(1)概率)概率pi=P(Yi=1|Xi)随随X的变化而变化,但永远不超出的变化而
41、变化,但永远不超出01区间。区间。(2)随着)随着Xi-,pi0;Xi+,pi1。符合这些特征的函数可用符合这些特征的函数可用图图8-6形象地刻画。形象地刻画。-1P+0 图图8-6非非线线性概率函数的性概率函数的图图形形 图图8-6的模型满足的模型满足0E(Yi|Xi)1以及以及pi是是Xi非线性函数的假设,呈现非线性函数的假设,呈现出出S型的曲线特征。型的曲线特征。因此可以设法找到符合这种因此可以设法找到符合这种S型曲线特征的函数形式来作为二元型响应型曲线特征的函数形式来作为二元型响应计量经济模型的设定形式。计量经济模型的设定形式。原则上,任何适当的、连续的、定义在实轴上的概率分布都将满足
42、上述两个原则上,任何适当的、连续的、定义在实轴上的概率分布都将满足上述两个条件。条件。对于连续随机变量来说,密度函数的积分代表概率的大小,也就是说,连续随对于连续随机变量来说,密度函数的积分代表概率的大小,也就是说,连续随机变量的机变量的(累积累积)分布函数分布函数(CDF)可以满足上述两个要求。可以满足上述两个要求。通常选择逻辑斯蒂和正态分布的累积分布函数去设定非线性概率模型。当选用通常选择逻辑斯蒂和正态分布的累积分布函数去设定非线性概率模型。当选用逻辑斯蒂分布时,就生成了逻辑斯蒂分布时,就生成了Logit模型。模型。二、二、LogitLogit模型模型1Logit模型(模型(对数单位模型)
43、对数单位模型)的基本概念的基本概念 当选择用逻辑斯蒂分布函数当选择用逻辑斯蒂分布函数(logistic distribution)去设定二元型响应去设定二元型响应计量经济模型时,有计量经济模型时,有P(Yi=1)=pi=(8-25)其中,其中,其特征:其特征:(1)zi+时,时,pi 1;zi-时,时,pi 0;zi=0时,时,pi=0.5。(2)它有一个拐点,在拐点之前,随它有一个拐点,在拐点之前,随zi或或Xi增大,增大,pi的增长速度越来越快;的增长速度越来越快;在拐点之后,在拐点之后,随随zi或或Xi增大,增大,pi的增长速度越来越慢,逐渐趋近于的增长速度越来越慢,逐渐趋近于1。考虑到
44、在估计中便利,我们采用以下变换:考虑到在估计中便利,我们采用以下变换:(8-26)式中,比率式中,比率pi/(1 pi)通常称为通常称为机会比率机会比率,即所研究的事件,即所研究的事件(或属性或属性)“发发生生”的概率与的概率与“没发生没发生”的概率之比。的概率之比。机会比率的对数机会比率的对数Li=lnpi/(1 pi)称为称为对数单位对数单位,这里的对数单位,这里的对数单位Li不仅是不仅是 Xi的线性函数,而且也是的线性函数,而且也是的线性函数,所以,的线性函数,所以,(8-26)式也称为式也称为Logit模型模型。由于由于pi不仅对不仅对Xi是非线性关系,而且对是非线性关系,而且对0和和
45、1也是非线性关系,不能也是非线性关系,不能直接运用直接运用OLS法估计参数。必须设法把非线性关系转换为可以运用法估计参数。必须设法把非线性关系转换为可以运用OLS法估法估计的线性形式。计的线性形式。2Logit模型的估计模型的估计 由(由(8-25)式有)式有 1-pi=(8-27)由(由(8-25)和()和(8-27)式有)式有(8-28)于是于是 (8-29)上式表明,上式表明,Xi变动一个单位,机会比率的对数平均变化变动一个单位,机会比率的对数平均变化1个单位。个单位。Logit模型的以下特点:模型的以下特点:(1)随着随着pi从从0变化到变化到1,或,或zi从从-变化到变化到+,对数单
46、位,对数单位Li从从-变化到变化到+,即概率即概率pi在在0与与1之间,但对数单位之间,但对数单位Li并不一定在并不一定在0与与1之间。之间。(2)虽然对数单位虽然对数单位Li对对Xi是线性的,但概率是线性的,但概率pi对对Xi并不是线性的;并不是线性的;(3)注意注意Logit模型中参数的意义:模型中参数的意义:1是是Xi每变动一个单位时,对数单位每变动一个单位时,对数单位Li(机会比率的对数机会比率的对数)的平均变化,的平均变化,然而我们研究的目的并不是对数单位然而我们研究的目的并不是对数单位Li而是概率而是概率pi。(4)如果设法估计出参数如果设法估计出参数0和和1,给定某一水平,给定某
47、一水平Xi=X0,若欲估计,若欲估计pi,可从,可从 (8-28)式设法计算出要估计的概率。式设法计算出要估计的概率。从计量经济学的角度引入随机扰动项,将从计量经济学的角度引入随机扰动项,将(8-29)式改记为式改记为(8-30)如何得到如何得到0 0和和1 1的估计量呢?的估计量呢?(8-29)问题:问题:对对(8-30)式直接估计会遇到以下困难:式直接估计会遇到以下困难:(1)当事件发生时,)当事件发生时,pi=1,L i=ln(1/0);当事件没有发生时,;当事件没有发生时,pi=0,Li=ln(0/1),机会比率机会比率pi/(1 pi)的对数都无意义,不能直接用的对数都无意义,不能直
48、接用OLS法估计模型,而只能采法估计模型,而只能采 用极大似然法用极大似然法(ML)估计参数。当样本容量估计参数。当样本容量n较大,可选用加权最小二乘法进较大,可选用加权最小二乘法进 行估计。行估计。(2)估计参数需要的机会比率的对数)估计参数需要的机会比率的对数Li的数据无法观测。解决办法是对应于每的数据无法观测。解决办法是对应于每 个个 Xi,样本观测值个数,样本观测值个数n较大时,可利用整理汇总的数据,用相对频率作较大时,可利用整理汇总的数据,用相对频率作 为对为对pi的估计,并估计机会比率对数的估计,并估计机会比率对数Li。对对(8-30)式直接估计会遇到以下困难:式直接估计会遇到以下
49、困难:(3)(8-30)式模型的随机项式模型的随机项i为异方差,可以证明,为异方差,可以证明,n足够大时足够大时 (8-31)为为了估了估计计i的方差的方差,可通,可通过过用相用相对频对频率率代替代替pi去估去估计计,有,有 (8-32)估计出估计出i的方差以后,可用加权最小二乘法去估计参数,权数的方差以后,可用加权最小二乘法去估计参数,权数i为为 (8-33)季季 度度 Yt 季季 度度 Yt 季季 度度 Yt 季季 度度 Yt1982.11982.11982.21982.21982.31982.31982.41982.41983.11983.11983.21983.21983.31983.
50、32599.82599.82647.22647.22912.72912.74087.04087.02806.52806.52672.12672.12943.62943.61983.41983.41984.11984.11984.21984.21984.31984.31984.41984.41985.11985.11985.21985.24193.44193.43001.93001.92969.52969.53287.53287.54270.64270.63044.13044.13078.83078.81985.31985.31985.41985.41986.11986.11986.21986.