《模型设定和虚拟变量专题之虚拟变量.ppt》由会员分享,可在线阅读,更多相关《模型设定和虚拟变量专题之虚拟变量.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第五讲第五讲 模型设定和虚拟变量专题模型设定和虚拟变量专题 之之 虚拟变量虚拟变量 y=b0+b1x1+b2x2+.bkxk+u2前言前言n前面有关多元回归模型的因变量和自变量都具有定量的含义,如小时工资率、受教育年数,大学平均成绩、企业销售水平等等。在经验分析中,每个变量的大小都传递了有用的信息,n然而,经验分析还常常碰到定性的问题,如,一个人的性别、种族、企业所属行业以及城市所处的地理位置等等,当考虑这些因素作为变量时,则必须采用虚拟变量设置。前言前言n其中,如果我们把上述定性变量作为自变量,就是本章要讲的虚拟变量设置,并估计的问题。n如果我们把上述定性变量作为因变量,则为线性概率模型,
2、这些在微观计量经济学中用的比较多,教材也阐述一些,但是本章不讲解该部分的内容,因为如果讲清楚需要很足够时间,如果提到当讲不清楚,不如不讲,等后面以后再学之。3问题问题n定性问题经常以二值信息形式出现:一个人是男还是女,结婚与否,一个人有还没有一台电脑等等。该问题可通过定义一个二值变量(binaryvariable)或一个0-1变量来刻画,此变量即为虚拟变量(dummyvariable)n那么如何引入虚拟变量呢?4举例:一个虚拟变量设置举例:一个虚拟变量设置n设置原理如下:nn虚拟变量的取值nn虚拟变量的作用:n举例,举例,如类别变量n性别变量5设置方式设置方式n两种设置方式:n(1)n保留常数
3、项和其中一个虚拟变量n(2)6举例举例:多虚拟变量:多虚拟变量n举例:举例:季节变量有四个状态7虚拟变量系数分析虚拟变量系数分析n通过例子的形式介绍虚拟变量系数的含义:n例子:例子:nn虚拟变量n,那么在其他条件相同的情况下,女人总体上挣的钱要比男人少。89Example of d0 0 xyd0b0y=(b0+d0)+b1xy=b0+b1xslope=b1d=0d=11011例例7.1 是否存在性别歧视是否存在性别歧视注意t值检验,同时,通常的对一个常数和一个虚拟变量进行简单回归时,是比较两组均值的直接方法,要通常的t统计量生效,我们还必须假定同方差性,这就意味着,对男人和女人而言,工资的总
4、体方程式相同的。12例例7.2 拥有计算机拥有计算机 与大学与大学GPA13例例7.3 培训津贴对培训小时数的影响培训津贴对培训小时数的影响问题的关键是:定性变量所度量的影响是否为因果性?办法之一是,尽可能控制与虚拟变量及因变量相关的因素。14当因变量为当因变量为log(y)时对虚拟变量系数的解释时对虚拟变量系数的解释n当自变量中有一个或多个虚拟变量时,因变量以对数形式出现,虚拟变量的系数具有一种百百分比分比解释。在保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计高出约5.4%。15当y有较大比例变化时,如何更准确估计y变化的百分比?1617多元分类的虚拟变量多元分类的虚拟变量n在
5、应用研究中,我们需要使用多个虚拟变量。在控制性别的基础上,研究婚姻状态的影响;在区域研究中,往往区分东、中、西部;在省级面板数据中,甚至会引入n-1个地区虚拟变量。虚拟变量可以描述包含序数的信息:信用等级18例7.6 工资方程估计一个工资对如下四组都不同的模型:已婚男人、已婚女人、单身男人、单身女人。首先选择基组:单身男人,对剩下的每一组定义一个虚拟变量,并称之为marrmal,marrfem,和singfem。因此,三个虚拟变量的估计量度量的都是与因此,三个虚拟变量的估计量度量的都是与单身男人相比,工资的比例差异。单身男人相比,工资的比例差异。19n如果要比较特定两组之间工资的差异,可以重新
6、设定基组进行回归分析。例如,为检验单身女人和已婚女人之间的估计差异是否显著,以已婚女人组作为基组重新估计得到:n在方程中包括虚拟变量来象征不同组的一般原则:如果回归模型有g组或g类不同的截距,在模型中则包含g-1个虚拟变量和一个1截距。20通过虚拟变量来包含序数信息通过虚拟变量来包含序数信息n序数变量序数变量:穆迪或标准普尔对地方政府债券的质量进行了级别评定,假设等级范围从零到四,零为最低的信用等级,四位最高的信用等级,记为CR。然而,很难有意义地解释CR变化一个单位对MBR的影响。2122例例7.7 相貌吸引力对工资的影响相貌吸引力对工资的影响n在劳动力市场中,除了存在性别歧视之外,还可能存
7、在相貌、身高等歧视。如果将样本相貌分为三类:一般水平、低于一般水平、高于一般水平,并以一般水平组作为基组,分别对男人、女人估计方程得:2324例例7.8 法学院排名对起薪的影响法学院排名对起薪的影响2526涉及虚拟变量的交互作用涉及虚拟变量的交互作用u虚拟变量之间的交互作用例7.6根据婚姻状况和性别定义了四个类别,在模型中引入三个虚拟变量,以单身男性为基组研究了不同类别之间的工资差异。除此之外,还有什么方法?27n此外,我们还可以在female和married分别出现的模型中,增加一个female和married的交互项,同样可以进行组别工资差异比较。28例例7.9 计算机使用对工资的影响计算
8、机使用对工资的影响29容许出现不同的斜率容许出现不同的斜率n虚拟变量之间的交互项反映的是截距之间的差异,斜率并未发生变化。含义是:样本回归曲线是平行的。n虚拟变量与非虚拟变量之间也有交互作用,使得出现不同的斜率不同的斜率。3031n我们关心的两个假设:男性和女性受教育的回报是相同的。受教育水平相同的男性和女性的平均工资相同。32例例7.10 对数小时工资方程对数小时工资方程3334检验不同组之间回归函数上的差别检验不同组之间回归函数上的差别n现在,我们考察的虚拟假设是:两个总体或两组具有同一个回归函数;对立假设是,各组间有一个或多个斜率是不同的。353637一般的检验方法:邹至庄统计量一般的检
9、验方法:邹至庄统计量38邹至庄检验的步骤:邹至庄检验的步骤:n确立回归的一般模型,明确受约束模型和不受约束模型的自由度。(约束个数:k+1)n分别将两组进行回归得到SSR1和SSR2。n将两组数据混合并重新估计模型得到受约束模型的残差平方和SSR.n运用公式计算邹统计量,检验显著性水平。39407.5 二值因变量:线性概率模型二值因变量:线性概率模型*n迄今为止,我们讨论的因变量均具有定量的含义。如果用多元回归解释一个定性事件,需引入二值因变量,即y只取0和1两个值。例如,y表示一个成年人是否受过高中教育,或一个大学生在给定年份是否用过非法毒品等。414243174445467.6 对政策分析和项目评价的进一步讨论对政策分析和项目评价的进一步讨论 内生性问题内生性问题n在社会科学研究中,对照组和处理组并不是随机指定的,因此可能遭遇变量内生性问题。4748自选择(自选择(self-selection)问题)问题n个人自己选择加入某种行为或项目的事实:参与并不是随机决定的。49