《伍德里奇《计量经济学导论》复习笔记和课后习题详解-含有定性信息的多元回归分析:二值变量.docx》由会员分享,可在线阅读,更多相关《伍德里奇《计量经济学导论》复习笔记和课后习题详解-含有定性信息的多元回归分析:二值变量.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、伍德里奇计量经济学导论复习笔记和课后习题详解-含有定性信息的多元归分析:二值变量第7章含有定性信息的多元回归分析:二值(或虚拟)变量7.1 复习笔记考点一:带有虚拟自变量的回归*1 .对定性信息的描述定性信息是指通常以二值信息(0-1)的形式出现的信息,如性别、 是否结婚等。在计量经济学中,二值变量又称为虚拟变量。2 .只有一个虚拟自变量(1)只有一个虚拟自变量的简单模型考虑决定小时工资的简单模型:wage=00 + 60female + pleduc + uo根据多元回归的解释方式,S0表示控制educ不变时,female 变化1单位给wage带来的变化。假定零条件均值假定E(u | fem
2、ale , educ ) = 0 成立,月B么:SO = E ( wage | female = 1 , educ ) - E (wage | female = 0 , educ ),其中 female = 1 表示女性,female =0表示男性。可以发现,在任意教育水平下,男性与女性的工资差异 是固定的,女性工资比男性工资多60o除了 P0之外,模型中只需要引入一个虚拟变量。因为female + male = l ,所以引入两个虚拟变量会导致完全多重共线性,即虚拟变 量陷阱。(2 )当因变量为log ( y )时,对虚拟解释变量系数的解释当变量中有一个或多个虚拟变量,且因变量以对数的形式存
3、在时, 虚拟变量的系数可以理解为百分比的变化。将虚拟变量的系数乘以100 ,表示的是在 保持所有其他因素不变时y的百分数差异,精确的百分数差异为: 100-exp ( Api) - lo其中aPl是一个虚拟变量的系数。3 .使用多类别虚拟变量(1)在方程中包括虚拟变量的一般原则如果回归模型具有g组或g类不同截距,一种方法是在模型中包 含g -1个虚拟变量和一个截距。基组的截距是模型的总截距,某一组 的虚拟变量系数表示该组与基组在截距上的估计差异。如果在模型中引入g个虚拟变量和一个截距,将会导致虚拟变量陷阱。另一种方法是只包括g个虚拟变量,而没有总截距。这种方法存 在两个实际的缺陷:对于相对基组
4、差别的检验变得更繁琐;在模 型不包含总截距时,回归软件通常都会改变R 2的计算方法。具体而言,就是公式R 2 = 1- SSR/SST中的总平方和SST,被一个没有将y i减去其均值的总平方和SST 0取代,由此得到的R 02=1 - SSR/SST 0称为未中心化的R 2 ,从而有可能使得拟合优度指标失效。SST 0的计算公式为:01SST niiy =1(2)通过虚拟变量来包含序数信息假设要估计城市信用等级对市政债券利率(MBR )的影响。城市 信用等级是一个序数变量,范围是04 ,称这个变量为CR0可以对 CR的每个值都定义一个虚拟变量。由于有5个类别,所以可包括4个 虚拟变量,将零信用
5、等级定为基组并省略。若CR = 1 ,则CR 1=1 , 否贝(J CR 1=0 ;若CR = 2 ,贝!J CR 2=1 ,否贝U CR 2 = 0 ,以此类推。因止匕,可以转化为估计模型:MBR = 30 + 61CR 1 + 62CR 2 + 83CR 3 + 84CR 4 + 其他因素。以81为例,系数的解释为:S1为信用等级为1级的城市和信用 等级为0级的城市之间在MBR上的差异(保持其他因素不变)。考点二:涉及虚拟变量的交互作用1 .虚拟变量之间的交互作用具有定量意义的变量在回归模型中可以具有交互作用,类似的, 虚拟变量也能产生交互作用。虚拟变量的交互作用就是在模型中引入 虚拟变量
6、的乘积形式。2 .容许出现不同的斜率3 1 )不含交互项的模型在多元回归模型中存在任意几个组之间的截距不同的情况。在有 些情况下,虚拟变量也可与非虚拟的解释变量有交互作用,从而出现 不同的斜率。考虑模型:log ( wage ) = ( po + SOfemale ) + ( 01 + Slfemale ) educ + u。当 female = 0 时,模型可以写成:log (wage ) = po + pieduc + u ;当 female = 1 时,模型变为:log (wage ) =00 + 60+ ( pi + 51) educ + uo 50 度量的是男性和女性 在截距上的差异
7、,而61度量男性和女性在斜率(即受教育回报)上的 差异。4 2)含有交互项的模型考虑模型:log ( wage ) = po + SOfemale + pieduc + 81female-educ + uo一个重要的假设是,男性和女性受教育的回报是 相同的,这可以表述成H0 : 81 = 0。这意味着log ( wage )对educ 的斜率对男性和女性而言无差异。在这个虚拟假设之下,允许在不同 教育水平下,男性和女性的工资存在差异,但性别工资差异在各种相 同教育水平上必须相同。若对受教育程度相同的男性和女性的平均工资相同这个假设感兴 趣,则50和61都必须同时为零。必须使用F检验来检验虚拟假
8、设H0 : 80 = 0,51 = 0。5 .检验不同组之间回归函数上的差别在含有k个解释变量和1个截距项的一般模型中,假设有两组g = 1和 g = 2。对 g = l 和 g = 2 将模型写成:y=Pg , O + 0g , lxl + Pg , 2x2 +. + Pg , k x k + uo检验这两组的截距和所有斜率都相同,就意味着产生了 k +1个约 束。可以认为无约束模型除了截距和变量本身外,还有一组虚拟变量 和交互项,那么其自由度为n-2(k+l)o无约束模型的残差平方和 可通过两个分离的回归得到,这两个不同回归分别对应着两个不同的 组,令SSR1 ( SSR2 )表示针对第一
9、组(第二组)估计式所得到的残 差平方和,它涉及nl ( n2 )个观测。而约束模型的残差平方和就是将 两组混合在一起并估计同一个方程时所得到的SSR p0在此基础上,就可以计算F统计量:F = SSR p - ( SSR1 +SSR2)/(SSRl + SSR2)Hn - 2 ( k -1) /( k +1) o其中,n 为 总观测次数。在计量经济学中,这也被称为邹至庄统计量。邹至庄检 验的一个重要局限是原假设要求各组之间不存在任何差异。但在更多 情况下,允许组间的截距不同,然后再来检验斜率的差别会更有意义。邹至庄检验的步骤包括:(1)分别对两组数据进行回归估计得到残差平方和SSR1和SSR2
10、 , 两者之和即为无约束模型的残差平方和。(2 )将两组数据混合进行估计得到残差平方和SSR p ,这就是为 受约束回归残差平方和。(3)构造F统计量,并与给定显著水平下F的临界值进行比较。 若F值大于临界值,则拒绝原假设,即说明两个回归函数存在差异。考点三:二值因变量:线性概率模型1 .线性概率模型考虑模型:y = p0 + plxl + p2x2 + . + pkxk +u0在零条件均 值假定 MLR.4 成立时,E ( y | x ) = 30 + pix 1 + p2x 2 + . + pk x k o 当y是一个取值为0和1的二值变量时,P(y = l|x) =E(y|x) 总是成立
11、的。因此有:P (y=l | x) =p0 + plx l + p2x 2 + . + pk x k o这意味着成功的概率p ( x )=P(y = l|x)是所有x变量的一个 线性函数。方程 P (y=l | x) = p0 + pix 1 + p2x 2 +. + pk x k 是二值响应 模型的一个例子,P (y = l | x)被称为响应概率。因为响应概率是所 有参数P的线性函数,所以这类模型又被称为线性概率模型(LPM )。 在LPM中,在保持其他因素不变时,印度量因x j的变化导致成功概 率的变化(j = 1,2,k) :?P(y = l|x) =Pj?xjo2 .线性概率预测以二
12、值变量为因变量进行预测时,预测的概率可能不会落在01 区间内。令4i表示拟合值,定义预测值iy在八y i之0.5时取值为1, 并在八yi706 .卢0一123 . F0 117变量sleep是每周晚上睡眠的总分钟数,totwrk是每周花在工作 上的总分钟数,educ和age则以年为单位,而male是一个性别虚拟 变量。(i)所有其他因素不变,有没有男性比女性睡眠更多的证据?这个证据有多强?(ii)工作与睡眠之间有统计显著的取舍关系吗?所估计的取舍关 系是什么样的?(iii)为了检验年龄在其他因素不变的情况下对睡眠没有影响这 个原假设,你还需要另外做什么回归?答:(i)变量male的回归系数是8
13、7.75 ,根据估计结果可知,男 性每周的睡眠时间要比女性每周的睡眠时间多近一个半小时。又因为其值接近于99%的置信水平下的双侧检验的临界值(大约为2.58 ),因此男性比女性睡眠更多的证据是相当强的。(ii)变量totwrk的t统计量的值为:t totwrk = - 0.163/0.018- - 9.06这是非常显著的。这个系数表明每周平均多工作一个小时(60分 钟),对应的平均每周晚上睡眠将减少0.163x60*9.8 (分钟)。(iii)需要对不含变量age和age2的模型进行回归,以便得到R r2 ,即受约束模型的R20当模型中含有变量age和age2时,当且仅 当两个变量age和ag
14、e2前的系数均为0时,才表明年龄在其他因素 不变的情况下对睡眠没有影响这个原假设成立。2二利用BWGHT中的数据,可估计出如下方程:log (hwht) = 4.66 0.0044c/g,v + 0.0093 log ( famine) + 0.016parity(0.22)(0.0009)(0.0059)(0.006)+ 0.021 male + O.Q55 white(0.010)(0.013)/i = 1388 , R2 = 0.0472和log (bwght) = 4.65 - 0.0052c3 + 0.0110 log (famine)(0.38) (0.0010)(0.0085)+
15、 0.017 parity + 0.034male(0.006)(0.011)+ 0.045white - 0.0030molheduc+ 0.0032fatheduc (0.015)(0.0030)(0.0026)w = 1191 .R2 = 0.0493变量定义和例4.9中一样,但我们增加了两个虚拟变量:一个虚拟 变量表明孩子是不是男孩,另一个虚拟变量则表明这个孩子是不是白 人。(i)在第一个方程中,解释变量cigs的系数。具体而言,每天多 抽10根烟对出生体重有何影响?(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子的 出生体重比一个非白人孩子重多少?这个差异是统计显著的吗?(
16、iii)评价motheduc的估计影响和统计显著性。(iv )从这些给定信息中,为什么不能计算出检验motheduc和 fatheduc联合显著性的F统计量?为了计算这个统计量,还需要做些 什么?答:(i)如果变量cigs每增加10根,即每天多抽10根烟,贝I: A log (bwght) = -0.0044 xl0 = -0.044 即婴儿出生体重将减少大约4.4%。(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子比 一个非白人孩子的出生体重多5.5%。另外,t white*4.23 ,在一般常 用的显著性水平下都是显著的。因此,一个白人孩子与一个非白人孩 子的出生体重在统计上是有
17、显著差异的。(iii )如果母亲的教育年限每增加1年,孩子的出生体重将增加 0.3% ,这个影响是很小的,其t motheduc=1 ,因此母亲的受教育年 限对孩子的出生体重的影响是不显著的。(iv )这两个回归模型用了不同的观测数据,因为对于第二个回 归方程而言,一些观测数据中母亲的受教育年限或者是父亲的受教育 年限的数据是缺失的。因此可以用估计第二个回归模型的数据重新估 计第一个方程,以便得到新的拟合优度R2。-3 .利用GPA2中的数据,可估计出如下方程:sal= 1028.10 + 19.30%size - 2.19hsize2 - 5.W female(6.(29) (3.83)(0
18、.53)(4.29)169.8 black+ 62.31 female - black(12.71)(18.15) =4137 ,/?2 = 0.0858变量sat是SAT的综合分数,hsize是以百人计的学生所在高中毕 业年级的学生规模,female是一个性别虚拟变量,而black是一个种 族虚拟变量(黑人取值1 ,其他人则取值0 )。(i)有很强的证据支持模型中应该包括hsize2吗?从这个方程来 看,最优的高中规模是什么?(ii)保持hsize不变,非黑人女性和非黑人男性之间SAT分数的 估计差异是多少?这个估计差异的统计显著性如何?(iii)非黑人男性和黑人男性之间SAT分数的估计差异是多少? 检验其分数没有差异的原假设,备择假设是他们的分数存在差异。(iv )黑人女性和非黑人女性之间SAT分数的估计差异是多少? 为了检验这个差异的统计显著性,你需要怎么做?答:(i)变量hsize2的t统计量的值为:22.19/0.53 4.132hsize