《第七章 虚拟变量回归模型.ppt》由会员分享,可在线阅读,更多相关《第七章 虚拟变量回归模型.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1-1计计 量量 经经 济济 学学 基基 础础 与与 应应 用用The Economic School of Jilin UniversityYu ZhenDummy Variable Regression Modelschapter seven第七章第七章 虚拟变量回归模型虚拟变量回归模型1-3第一节第一节 虚拟变量的性质虚拟变量的性质1-4如何量化定性变量?如何量化定性变量?p这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完成来完成的。根据这些因素的属性类型,构造只取的。根据这些因素的属性类型,构造只取“0”或或“1”的人为变量,通常称为的人为变量,通常称为虚拟变量
2、虚拟变量(dummy variables),),记为记为D。例如,反映性别的虚拟变量可取为例如,反映性别的虚拟变量可取为:1,男男 D=0,女女1-5第二节第二节 解释变量均为定性变量的模型解释变量均为定性变量的模型p方差分析模型(方差分析模型(ANOVA,analysis-of-variance models)回归模型中解释变量都是虚拟变量的模型回归模型中解释变量都是虚拟变量的模型例如,一个以性别为虚拟变量考察高校教授薪例如,一个以性别为虚拟变量考察高校教授薪金的模型金的模型 其中:其中:Yi为高校教授的薪金为高校教授的薪金 Di=1,若是男性;,若是男性;Di=0,若是女性,若是女性1-6
3、第二节第二节 解释变量均为定性变量的模型解释变量均为定性变量的模型p在该模型中,如果仍假定在该模型中,如果仍假定ui满足经典线性回归模型满足经典线性回归模型的假定的假定,则,则女教授的薪金期望为:女教授的薪金期望为:男教授的薪金期望为:男教授的薪金期望为:取值为取值为0的一类称为基准类、基础类、参照类或比较类的一类称为基准类、基础类、参照类或比较类 称为差别截距系数称为差别截距系数(differential intercept coefficient),它表明取值为它表明取值为1 1的类别与基准类截距的差别,类别对应的类别与基准类截距的差别,类别对应变量贡献的差异。变量贡献的差异。1-7例子一
4、例子一 表表 10-2(精要)(精要)Food expenditure in relation to after-tax income and sex.1-8例子一例子一 表表 10-2(精要)(精要)食品支出对性别虚拟变量的回归结果(男性食品支出对性别虚拟变量的回归结果(男性=0):):1-9例子一例子一 表表 10-2(精要)(精要)食品支出对性别虚拟变量的回归结果(女性食品支出对性别虚拟变量的回归结果(女性=0):):1-10虚拟变量的性质虚拟变量的性质1-11虚拟变量陷阱虚拟变量陷阱p虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定
5、性每一定性变量所需的虚拟变量个数要比该定性变量的类别数少变量的类别数少1即如果某一定性变量有即如果某一定性变量有m个类别,只在模型中引个类别,只在模型中引入入m-1个虚拟变量个虚拟变量违背这一原则会陷入虚拟变量陷阱违背这一原则会陷入虚拟变量陷阱(dummy variable trap),导致多重共线性问题。,导致多重共线性问题。例如:性别(男、女两个类别,例如:性别(男、女两个类别,m=2)地区(东部、中部、西部三个类别,地区(东部、中部、西部三个类别,m=3)1-12ANOVA模型例二模型例二:(表:(表10-4,精要),精要)1-13ANOVA模型例二模型例二:(表:(表10-4,精要),
6、精要)建立如下建立如下ANOVA模型:模型:其中,其中,1-14ANOVA模型例二模型例二:(表:(表10-4,精要),精要)模型估计结果:模型估计结果:1-15ANOVA模型例二模型例二:(表:(表10-4,精要),精要)the overall conclusion is that:statistically the mean salaries of public school teachers in the West and the Northeast andNorth Central are about the same,but the mean salary of teachers i
7、n the South is statisticallysignificantly lower by about$3265.回归结果总体上反馈了如下结论:回归结果总体上反馈了如下结论:西部地区与东北中北部地区公立学校的教师西部地区与东北中北部地区公立学校的教师平均薪水在统计上意义上无差别,但南部教师的平均薪水在统计上意义上无差别,但南部教师的平均薪水在统计上显著低于前两者大约平均薪水在统计上显著低于前两者大约$3265。1-16第三节第三节 解释变量包含一个定量变量、一个两解释变量包含一个定量变量、一个两分定性变量的模型分定性变量的模型p ANOVA模型常见于社会学、心理学、教育学和市模型常见
8、于社会学、心理学、教育学和市场调研等领域中;场调研等领域中;p 在经济学中并不那么常见。在大多数经济研究中,在经济学中并不那么常见。在大多数经济研究中,典型的情形是:一个回归模型既含有一些定量的又典型的情形是:一个回归模型既含有一些定量的又含有一些定性的解释变量;含有一些定性的解释变量;p 兼含有定量和定性变量的回归模型叫做协方差分兼含有定量和定性变量的回归模型叫做协方差分析析(ANCOVA,analysis of covariance)模型模型。1-17第三节第三节 解释变量包含一个定量变量、一个两解释变量包含一个定量变量、一个两分定性变量的模型分定性变量的模型p在例一中加入定量变量税后收入
9、,构成在例一中加入定量变量税后收入,构成ANCOVA模型(例三)模型(例三)1-18前面例子得到结果(例子一)前面例子得到结果(例子一)食品支出对性别虚拟变量的回归结果(男性食品支出对性别虚拟变量的回归结果(男性=0):):回回 忆忆1-19第三节第三节 解释变量包含一个定量变量、一个两解释变量包含一个定量变量、一个两分定性变量的模型分定性变量的模型p 例一中利用例一中利用ANOVA模型存在模型设定错误;模型存在模型设定错误;p 在税后收入不变情况下,男性平均食品消费支出在税后收入不变情况下,男性平均食品消费支出为为$1506.244,女性为,女性为$(1506.244-228.9868)。p
10、 不考虑性别差异,则边际食品消费倾向为不考虑性别差异,则边际食品消费倾向为0.058982p 根据回归结果:根据回归结果:女性平均食品消费支出:女性平均食品消费支出:男性平均食品消费支出:男性平均食品消费支出:1-20图图 10-2(精要)(精要)Food expenditure in relation to after-tax income.1-21第四节第四节 解释变量包含一个定量变量、一个多解释变量包含一个定量变量、一个多分定性变量的模型分定性变量的模型p例二中加入定量变量学生平均教育消费(如下,例四)例二中加入定量变量学生平均教育消费(如下,例四)1-22前面前面ANOVA模型例二结果
11、模型例二结果模型估计结果:模型估计结果:回回 忆忆1-23图图 10-3(精要)(精要)Average annual salary(AAS)and per pupil spending(PPS).西部或南部西部或南部东北、中北部东北、中北部1-24第五节第五节 解释变量包含一个定量变量、多个定解释变量包含一个定量变量、多个定性变量的模型性变量的模型p推广到解释变量不止一个定性变量的情况(例五)推广到解释变量不止一个定性变量的情况(例五)其中,其中,Y=小时工资小时工资 X=教育(受教育年限)教育(受教育年限)D2=1(女性),(女性),0(男性)(男性)D3=1(非白种人和非西班牙人),(非白
12、种人和非西班牙人),0(其他)(其他)p 回归结果回归结果1-25第五节第五节 解释变量包含一个定量变量、多个定解释变量包含一个定量变量、多个定性变量的模型性变量的模型p 交互影响问题交互影响问题 如此设置导致类似问题:假定男性的平均小时工资比女如此设置导致类似问题:假定男性的平均小时工资比女性高,但与种族无关。与现实不符!性高,但与种族无关。与现实不符!p 考虑交互影响的模型(例六)考虑交互影响的模型(例六)称为交互影响虚拟变量称为交互影响虚拟变量1-26第五节第五节 解释变量包含一个定量变量、多个定解释变量包含一个定量变量、多个定性变量的模型性变量的模型p 考虑交互影响的模型估计结果(例六
13、)考虑交互影响的模型估计结果(例六)所有虚拟变量相加所有虚拟变量相加=-1.964,表明非白种,表明非白种/非西班牙女性非西班牙女性的工资偏低约的工资偏低约1.96。介于单独性别差异和单独种族差异。介于单独性别差异和单独种族差异之间。之间。1-27第五节第五节 解释变量包含一个定量变量、多个定解释变量包含一个定量变量、多个定性变量的模型性变量的模型p 模型的一般化:多定量变量和多定性变量混合模型的一般化:多定量变量和多定性变量混合例七例七 表表 10-5(精要)(精要)Aggregate contributions U.S.political parties,1982.1-28第六节第六节 比
14、较两个回归比较两个回归p 如何分析定量变量与定性变量的交互影响?如何分析定量变量与定性变量的交互影响?截距可能不同,斜率也可能不同。截距可能不同,斜率也可能不同。男性平均食品支出男性平均食品支出(Di=0)的条件期望为:的条件期望为:女性平均食品支出女性平均食品支出(Di=1)的条件期望为:的条件期望为:称为差别斜率系数,也称斜率飘移称为差别斜率系数,也称斜率飘移(slope drifter)1-29p 当截距与斜率发生变化时,则需要同时引入当截距与斜率发生变化时,则需要同时引入加加法法与与乘法形式乘法形式的虚拟变量。的虚拟变量。p 例例子子 考考察察1990年年前前后后的的中中国国居居民民的
15、的总总储储蓄蓄-收收入关系是否已发生变化。入关系是否已发生变化。下下表表中中给给出出了了中中国国1979-2001年年以以城城乡乡储储蓄蓄存存款款余余额额代代表表的的居居民民储储蓄蓄以以及及以以GNP代代表表的的居居民民收收入入的的数数据。据。一个例子:一个例子:1-30一个例子:一个例子:1-31 以以Y为储蓄,为储蓄,X为收入,可令:为收入,可令:p1990年前:年前:Yi=1+2Xi+1i i=1,2,n1 p1990年后:年后:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1)1=1,且且 2=2,即即两两个个回回归归相
16、相同同,称称为为一一致致回回归归(Coincident Regressions););(2)11,但但 2=2,即即两两个个回回归归的的差差异异仅仅在在其其截截距距,称称为为 平行回归平行回归(Parallel Regressions);(3)1=1,但但 22,即即两两个个回回归归的的差差异异仅仅在在其其斜斜率率,称称为为 共点回归共点回归(Concurrent Regressions);(4)11,且且 22,即即两两个个回回归归完完全全不不同同,称称为为相相异异回回归归(Dissimilar Regressions)。)。一个例子:从分段函数及其比较说起一个例子:从分段函数及其比较说起1
17、-32四种可能性模型四种可能性模型 图图10-4(精要精要)一一致致回回归归共共点点回回归归平平行行回回归归相相异异回回归归1-33这一问题也可通过引入乘法形式的虚拟变量来解决。这一问题也可通过引入乘法形式的虚拟变量来解决。将将n1与与n2次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:Di为引入的虚拟变量:为引入的虚拟变量:于是有:于是有:可分别表示可分别表示1990年后期与前期的储蓄函数。年后期与前期的储蓄函数。iiiiiiXDDXYmbbbb+=)(4321iiiiXXDYE21),0|(bb+=iiiiXXDYE)()(),1|(4231bbbb+=一个例子:虚拟变
18、量的作用一个例子:虚拟变量的作用1-34p 在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说明两的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。个时期中储蓄函数的斜率不同。p 具体的回归结果为:具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)p 由由 3与与 4的的 t 检验可知:参数显著地不等于检验可知:参数显著地不等于0,强烈示出,强烈示出两个时期的回归是相异回归两个时期的回归是相异回归p 回到分段函数形式也可以!各自储蓄函数分别为:回到分段函数形式也可以!各自储蓄函数分别为:1990年前:1990年后:=0.9836一个例子:是那种模型关系?一个例
19、子:是那种模型关系?1-35表表 10-6(精要)(精要)加入定性变量和定量变量交互影响的回归结果加入定性变量和定量变量交互影响的回归结果(例八)(例八)1-36前面模型得到结果(例三)前面模型得到结果(例三)回回 忆忆1-37例九例九 表表 10-7(精要)(精要)Personal savings and disposable personal income,United States,1970-1995.1-38例九例九 利用虚拟变量评价定性变量影响利用虚拟变量评价定性变量影响p 美国经济的实际状况分析美国经济的实际状况分析1982年之间的经济萧条,及其萧条后时期。年之间的经济萧条,及其萧
20、条后时期。检验时期差异模型如下:检验时期差异模型如下:虚拟变量虚拟变量DUM=0(1970-1981),),=1(1982-1995):):1-39例九例九 表表 10-8(精要)(精要)Regression results of savings-income relations.1-40例九例九 利用虚拟变量评价定性变量影响利用虚拟变量评价定性变量影响p 不考虑不考虑1982年经济衰退对储蓄年经济衰退对储蓄-收入关系影响收入关系影响1982年之间的经济萧条,及其萧条后时期。年之间的经济萧条,及其萧条后时期。估计模型如下:估计模型如下:两模型在整个时期的边际储蓄倾向上存在显著差异两模型在整个时
21、期的边际储蓄倾向上存在显著差异1970-1981:0.0803321982-1995:0.080332-0.06469=0.0156421-41比较两个回归的另一种方法:邹检验比较两个回归的另一种方法:邹检验p Structural Change 经济形势突变经济形势突变内部因素内部因素经济萧条、战争爆发经济萧条、战争爆发政策变化政策变化固定汇率变为浮动汇率、计划经济向市场经济转固定汇率变为浮动汇率、计划经济向市场经济转轨、政权轨、政权/政府更迭政府更迭p如何发现模型中确实发生了结构性变化?如何发现模型中确实发生了结构性变化?模型的结构稳定性模型的结构稳定性回归系数在不同的时间期间有显著的差异
22、回归系数在不同的时间期间有显著的差异p 邹检验邹检验(Chow test)Chow检验的假定检验的假定Chow检验的步骤检验的步骤1-42比较两个回归的另一种方法:邹检验比较两个回归的另一种方法:邹检验p 邹检验的假定邹检验的假定两段时期的回归误差项两段时期的回归误差项 独立分布独立分布p 邹检验的步骤邹检验的步骤步骤步骤1:估计全样本,获得残差平方和:估计全样本,获得残差平方和RSS,记为,记为S1,其,其自由度为自由度为(n1+n2-k),k为估计的参数个数为估计的参数个数步骤步骤2:分别估计两段时期模型,获得残差平方和,分:分别估计两段时期模型,获得残差平方和,分别记为别记为S2和和S3
23、,自由度分别为,自由度分别为(n1-k)和和(n2-k)。令。令S4=S2+S3,其自由度为,其自由度为(n1+n2-2k)步骤步骤3:求得:求得S5=S1-S4步骤步骤4:1-43比较两个回归的另一种方法:邹检验比较两个回归的另一种方法:邹检验p 回到例九,储蓄回到例九,储蓄-收入关系收入关系查查F表,自由度为表,自由度为2和和22的的1%临界临界F值为值为7.72。1-44虚拟变量法相对于邹检验的优势虚拟变量法相对于邹检验的优势p工作量小工作量小只需做一个回归,便可得多个方程只需做一个回归,便可得多个方程p可用于检验各种假设可用于检验各种假设截距、斜率截距、斜率p可明确告知什么导致了结构化
24、变化可明确告知什么导致了结构化变化p提高了估计的精度提高了估计的精度数据混合,自由度增加数据混合,自由度增加1-45第七节第七节 虚拟变量在季节分析中的作用虚拟变量在季节分析中的作用p 时间序列的季节模式时间序列的季节模式时间序列可能包含的四种成分:季节成分、周期成分、时间序列可能包含的四种成分:季节成分、周期成分、趋势成分和随机成分。趋势成分和随机成分。例如,下图为工业生产总值(名义值)季度序列例如,下图为工业生产总值(名义值)季度序列1-46例十例十 表表 10-9(精要)(精要)Actual,forecast and seasonally-adjusted refrigerator sa
25、les,United States,1978-1985.1-47例十例十 图图 10-5(精要)(精要)Sales of refrigerators,United States,1978:1-1985:4.1-48例十例十 图图 10-5(精要)(精要)考虑季节模式的模型:考虑季节模式的模型:1-49例十例十 图图 10-5(精要)(精要)p 如何利用虚拟变量进行季节调整?如何利用虚拟变量进行季节调整?步骤步骤1:加入季节变量进行回归,得到估计值:加入季节变量进行回归,得到估计值 步骤步骤2:提取回归模型残差,即:提取回归模型残差,即 步骤步骤3:残差:残差+均值均值 得到经季节调整后序列得到
26、经季节调整后序列1-50第八节第八节 应变量为虚拟变量模型应变量为虚拟变量模型p 线性概率模型线性概率模型(linear probability model,LPM)应变量为两分变量:是或不是应变量为两分变量:是或不是举个例子:房贷申请成功与否与年收入关系举个例子:房贷申请成功与否与年收入关系 ,表示申请到了贷款,表示申请到了贷款,表示没有。表示没有。建立以下模型建立以下模型 模型的斜率不再表示单位模型的斜率不再表示单位X 变动引起变动引起Y 的变动的变动 可以解释为给定可以解释为给定X下,事件的发生概率下,事件的发生概率1-51例十一例十一 表表 10-10(精要)(精要)Linear pr
27、obability model of mortgage applications.1-52第八节第八节 应变量为虚拟变量模型应变量为虚拟变量模型p 回归结果回归结果1-53第八节第八节 应变量为虚拟变量模型应变量为虚拟变量模型p 回归结果回归结果1-54第八节第八节 应变量为虚拟变量模型应变量为虚拟变量模型p 拟合情况拟合情况1-55第八节第八节 应变量为虚拟变量模型应变量为虚拟变量模型p 线性概率模型的问题线性概率模型的问题无法保证无法保证Y 的估计值在的估计值在0和和1之间。之间。误差项为两分变量,不能假设服从正态分布。误差项为两分变量,不能假设服从正态分布。误差项存在异方差。误差项存在异方差。R2 值失效。值失效。最为重要的问题:概率随最为重要的问题:概率随X线性变化不符合实际。线性变化不符合实际。1-56第八节第八节 应变量为虚拟变量模型应变量为虚拟变量模型p 离散因变量模型扩展离散因变量模型扩展Probit 模型模型Logit 模型模型Tobit 模型模型 详细详细内容参见内容参见Basic econometrics,第,第15章章