《计量经济学4多元回归分析:推断.ppt》由会员分享,可在线阅读,更多相关《计量经济学4多元回归分析:推断.ppt(79页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第4章章 多元回归分析:推断多元回归分析:推断o4.1 OLS估计量的抽样分布估计量的抽样分布o4.2 检验对单个总体参数的假设:检验对单个总体参数的假设:t检验检验o4.3 置信区间置信区间o4.4 检验关于参数的一个线性组合的假设检验关于参数的一个线性组合的假设o4.5 对多个线性约束的检验:对多个线性约束的检验:F检验检验o4.6 报告回归结果报告回归结果 回归分析回归分析是要通过样本所估计的参数来代是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归替总体的真实参数,或者说是用样本回归线代替总体回归线。线代替总体回归线。尽管从尽管从统计性质统计性质上已知,如果有足够多的上
2、已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一值的差异有多大,是否显著,这就需要进一步进行步进行统计检验统计检验。主要包括主要包括拟合优度检验拟合优度检验、变量的、变量的显著性检显著性检验验及参数的及参数的区间估计区间估计。4.1 OLS估计量的抽样分布估计量的抽样分布o已经了解了已经了解了OLS估计量的期望值
3、和方差估计量的期望值和方差有助描述有助描述OLS估计量的精密度估计量的精密度o要进行统计推断,还需要知道估计量的抽样要进行统计推断,还需要知道估计量的抽样分布分布4.1.1 正态性假定正态性假定 样本中自变量的值既定,因而样本中自变量的值既定,因而OLS估计量估计量的抽样分布取决于误差分布的抽样分布取决于误差分布o假定假定MLR.6 正态性正态性 总体误差总体误差u独立于解释变量独立于解释变量x1,x2,xk,而且服从均值为零,方差为而且服从均值为零,方差为s s2 2的正态分布:的正态分布:4.1.2 经典线性模型假定经典线性模型假定o高斯高斯马尔科夫假定与正态分布假定一起被马尔科夫假定与正
4、态分布假定一起被称为称为经典线性模型假定经典线性模型假定对参数而言为线性;对参数而言为线性;随机抽样性;条件均随机抽样性;条件均值为值为0;不存在完全;不存在完全共线性;同方差性共线性;同方差性经典线性模型经典线性模型总结经典线性模型假定的一种简洁方法:总结经典线性模型假定的一种简洁方法:在实际应用中,误差不一定具有正态性在实际应用中,误差不一定具有正态性 例子例子:考虑劳动力市场上,工资与教育、:考虑劳动力市场上,工资与教育、工作经历、在现任工作的任职年限的关系工作经历、在现任工作的任职年限的关系工资不可能低于工资不可能低于0,何况有最低工资,何况有最低工资法案法案不具有正不具有正态分布态分
5、布对变量做一对变量做一个变换,比个变换,比如如log一般来讲,相对于很大的样本容量来讲,误差的非正态性算一般来讲,相对于很大的样本容量来讲,误差的非正态性算不上一个严重的问题不上一个严重的问题目前,我们姑且认可正态性假定。目前,我们姑且认可正态性假定。4.1.3 定理定理o定理定理4.1 正态抽样分布正态抽样分布 在经典线性假定下,给定自变量的样本值,在经典线性假定下,给定自变量的样本值,有有其中,其中,SSTj为为xj的总样本变异的总样本变异因此,因此,证明证明:(仅证明:(仅证明1 1)相互独立的正太随机变量的线性组合依然服从正态分布相互独立的正太随机变量的线性组合依然服从正态分布注意:注
6、意:o 的任何线性组合也都是正态分布的。的任何线性组合也都是正态分布的。o 中的任何一个子集也都具有联合正态中的任何一个子集也都具有联合正态分布。分布。4.2 检验对单个总体参数的假设:检验对单个总体参数的假设:t检验检验o对总体模型中的某个参数的假设进行检验对总体模型中的某个参数的假设进行检验 总体模型:总体模型:研究如何检验那些有关某个特定的研究如何检验那些有关某个特定的b bj的假设。的假设。是总体未知的特征,而是总体未知的特征,而且永远不会确定的知道且永远不会确定的知道它们。但可以做出假设,它们。但可以做出假设,然后通过统计推断来检然后通过统计推断来检验假设验假设假设它满足经典假设它满
7、足经典线性模型假定线性模型假定4.2.1 定理及概念定理及概念o定理定理 4.2 标准化估计量的标准化估计量的t分布分布 在经典线性模型假定下,有在经典线性模型假定下,有式中,式中,k+1为总体模型中未知参数的个数。为总体模型中未知参数的个数。证明:证明:o正态分布:正态分布:YN(,2)o标准正态分布:标准正态分布:Z=(Y-)/N(0,1)o2分布:分布:X=Zi2n2ot分布:分布:tnoF分布:分布:Fk1,k2 所谓所谓假设检验假设检验,就是事先对总体参数或总,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即
8、判断样本信息息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接与原假设是否有显著差异,从而决定是否接受或否定原假设。受或否定原假设。假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断是否接受原假设。判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件小概率事件不易发生不易发生”这一原理的。这一原理的。兴趣所在。又叫兴趣所在。又叫原假设,零假设原假设,零假设虚拟假设:虚拟
9、假设:意味着控制了其他自变量后,意味着控制了其他自变量后,xj对对y没有任何局部效应。没有任何局部效应。回顾统计学中给出的正态总体的均值的假设检验回顾统计学中给出的正态总体的均值的假设检验t统计量(或统计量(或t比率)比率)软件会给出软件会给出备择假设备择假设并不是不关心并不是不关心b bj0的的情形情形只是基于只是基于经济理论,对于该经济理论,对于该研究,排除了研究,排除了b bj-1.65不能拒不能拒绝绝H0也不能拒绝虚拟假设也不能拒绝虚拟假设变化函数形式:自变量取变化函数形式:自变量取logt /2 ott /2是小概是小概率事件,如果该事件率事件,如果该事件在一次抽样中就出现,在一次抽
10、样中就出现,说明假设说明假设H0值得怀疑,值得怀疑,应当拒绝应当拒绝H0检验步骤检验步骤(1)计算)计算|t|(2)查表求临界值)查表求临界值 t 2(n-k-1)(3)比较,下结论)比较,下结论n如果如果|t|t 2,则接受,则接受H0,认为在显著性水,认为在显著性水平为平为 的意义下,的意义下,j 不显著;不显著;n如果如果|t|t 2,则拒绝,则拒绝 H0,认为在显著性水,认为在显著性水平为平为 的意义下,的意义下,j 显著。显著。4.2.4 检验检验b bj的其它假设的其它假设o有时,也检验参数是否等于某个给定的常数有时,也检验参数是否等于某个给定的常数最常见的假设最常见的假设那么相应
11、的那么相应的t统计量就是:统计量就是:t=(估计值估计值-假设值假设值)/标准误标准误Example:住房价格和空气污染:住房价格和空气污染o506个社区组成的样本,估计一个联系社区中平个社区组成的样本,估计一个联系社区中平均住房价格均住房价格(price)与各种社区特征的模型:与各种社区特征的模型:nox表示空气中氧化亚氮的含量,以每区的百万表示空气中氧化亚氮的含量,以每区的百万分子数度量;分子数度量;dist表示该社区相距五个商业中心表示该社区相距五个商业中心的加权距离,以英里为单位;的加权距离,以英里为单位;rooms表示社区平表示社区平均每套住房的房间数;均每套住房的房间数;strat
12、io为该社区学校的为该社区学校的平均学生平均学生教师比。总体模型为:教师比。总体模型为:t 0称为p 值(值(pvalue)o通常的计量经济学软件都可自动计算出通常的计量经济学软件都可自动计算出p 值值P值检验法原理值检验法原理bj0-t 2t 2 2 2接受H0拒绝H0拒绝H0t0p2p2o如果如果p ,则,则p/2 /2,t0落入接受域,应落入接受域,应接受接受H0o如果如果p ,则,则p/2/2,t0落入拒绝域,应落入拒绝域,应拒绝拒绝H00bj-t 2t 2 2 2接受H0拒绝H0拒绝H0t0p2p2P值检验法准则值检验法准则o当当P 值小于显著性水平时,系数在显著性水值小于显著性水平
13、时,系数在显著性水平下是显著的平下是显著的o当当P 值大于显著性水平时,系数在显著性水值大于显著性水平时,系数在显著性水平下是不显著的。平下是不显著的。P值检验法的优点值检验法的优点o在使用上更简单在使用上更简单,不用查临界值表不用查临界值表o不将不将 固定在某个武断的水平上是一个更可固定在某个武断的水平上是一个更可取的办法,最好是让使用者自己去决定在给取的办法,最好是让使用者自己去决定在给定的定的p-value,到底是否拒绝零假设。,到底是否拒绝零假设。例子:例子:t=1.85,df=40,对于双侧对,对于双侧对立假设所得到的立假设所得到的p值值-1.8501.85可以在可以在7.18%的显
14、的显著性水平上拒绝著性水平上拒绝H0o一旦一旦p值计算出来,在任何显著性水平值计算出来,在任何显著性水平()上上都能进行检验:都能进行检验:p ,拒绝虚拟假设;否则不能拒绝拒绝虚拟假设;否则不能拒绝o回归软件包都会给出双尾检验的回归软件包都会给出双尾检验的p值。如果值。如果求单侧检验的求单侧检验的p值,只需将双尾检验的值,只需将双尾检验的p值除值除以以2。4.2.6 对经典假设检验用语的提醒对经典假设检验用语的提醒o当当H0 未被拒绝时,我们说未被拒绝时,我们说“在在x%的显著水平的显著水平上不能拒绝上不能拒绝H0”,而不是说,而不是说“在在x%的显著水的显著水平上接受了平上接受了H0”o再次
15、考虑住房价格与空气污染的例子。再次考虑住房价格与空气污染的例子。很显然,两很显然,两个虚拟假设个虚拟假设不可能同时不可能同时接受接受4.2.7 经济或实际显著性与统计显著性经济或实际显著性与统计显著性o前面强调的是统计显著性:与前面强调的是统计显著性:与t统计量相关统计量相关o经济显著性或实际显著性:系数估计值的大小经济显著性或实际显著性:系数估计值的大小及符号及符号过多的强调统计显著性,过多的强调统计显著性,即使一个变量的估计效即使一个变量的估计效应不太大,由于有很小应不太大,由于有很小的标准误,也认为它在的标准误,也认为它在解释解释y时很重要时很重要导致导致错误的结论错误的结论要么它很大要
16、么它很大要么它很小要么它很小Example:401k养老金计划的参与率养老金计划的参与率o企业贡献率、工人年龄、企业规模对养老金计企业贡献率、工人年龄、企业规模对养老金计划参与率的影响划参与率的影响其其t统计量的绝对值为统计量的绝对值为3.25,双尾检,双尾检验的验的P值为值为0.001在相当小的显在相当小的显著性水平上都是统计显著的著性水平上都是统计显著的实际实际意义意义呢?呢?在处理大样本时,除了看在处理大样本时,除了看t统计量,统计量,对系数的大小加以解释也特别重要。对系数的大小加以解释也特别重要。习题习题4.3(i)4.2.8 小结小结o检验统计显著性检验统计显著性o如果该变量是统计显
17、著的,则讨论系数的大小,如果该变量是统计显著的,则讨论系数的大小,以对其实际或经济上的重要性有所认识。以对其实际或经济上的重要性有所认识。o如果变量在通常的显著性水平上不是统计显著如果变量在通常的显著性水平上不是统计显著的,那你仍可能要问这个变量对的,那你仍可能要问这个变量对y是否有预期的是否有预期的影响,而这个影响在实践中是否很大。如果影影响,而这个影响在实践中是否很大。如果影响很大,那你就应该对响很大,那你就应该对t统计量计算统计量计算p值。对于值。对于小样本,可以让小样本,可以让p值大到值大到0.20(并非一成不变)(并非一成不变)需要注意的是:需要注意的是:t统计量小,统计量小,而实际
18、上大的估计值可能来而实际上大的估计值可能来自抽样误差太大自抽样误差太大因为我们可以断定这些变量在统计因为我们可以断定这些变量在统计上不显著上不显著o如果如果t统计量小的变量具有统计量小的变量具有“错误错误”的符号,的符号,则可以忽略这个变量。则可以忽略这个变量。o一个有出乎意料的符号而在实践中具有很大一个有出乎意料的符号而在实践中具有很大影响的显著变量,才是问题。影响的显著变量,才是问题。这常常是可能由于这常常是可能由于遗漏了关键变量遗漏了关键变量4.3 置信区间置信区间 假设检验假设检验可以通过一次抽样的结果检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零)总体参数可能的
19、假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值,但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多到底离总体参数的真值有多“近近”。要判断样本参数的估计值在多大程度上可要判断样本参数的估计值在多大程度上可以以“近似近似”地替代总体参数的真值,往往需地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心要通过构造一个以样本参数的估计值为中心的的“区间区间”,来考察它以多大的可能性(概,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参率)包含着真实的参数值。这种方法就是参数检验的数检验的置信区间估计置信区间估计。如如果果存存在在这这样样一一个
20、个区区间间,称称之之为为置置信信区区间间(confidence interval);1-称称为为置置信信系系数数(置置信信度度)(confidence coefficient),称称为为显显著著性性水水平平(level of significance);置置信信区区间间的的端端点点称称 为为 置置 信信 限限(confidence limit)或或 临临 界界 值值(critical values)。要判断估计的参数值要判断估计的参数值 离真实的参数值离真实的参数值有有多多“近近”,可以预先选择一个概率,可以预先选择一个概率(0c临界值临界值根据显著性根据显著性水平和自由水平和自由度决定度决定
21、拒绝区域拒绝区域o如果拒绝如果拒绝H0,就说,就说xk-q+1,xk在在x%的显的显著性水平上是联合统计显著的。如果虚拟假著性水平上是联合统计显著的。如果虚拟假设未被拒绝,则这些变量是联合不显著的,设未被拒绝,则这些变量是联合不显著的,这为将它们从模型中去掉提供了证据。这为将它们从模型中去掉提供了证据。回顾例子:棒球运动员的薪水模型回顾例子:棒球运动员的薪水模型 因而,拒绝这三个变量对薪水没有影响的虚拟假设因而,拒绝这三个变量对薪水没有影响的虚拟假设o这三个变量的这三个变量的t统计量都不显著,而统计量都不显著,而F统计量显统计量显著著有点令人吃惊有点令人吃惊o因为:因为:hrunsyr(平均每
22、年本垒打次数)平均每年本垒打次数)和和rbisyr(每年击球跑垒得分)每年击球跑垒得分)高度相关高度相关这这种多重共线性让我们难以发现每个变量的偏效种多重共线性让我们难以发现每个变量的偏效应(反映在应(反映在t统计量上)统计量上)o而这种多重共线性对检验联合假设而言,影响而这种多重共线性对检验联合假设而言,影响没有那么大。没有那么大。F统计量对于检验一统计量对于检验一组变量的排除有用处,组变量的排除有用处,特别是在其中的变量特别是在其中的变量高度相关的时候高度相关的时候4.5.2 F统计量与统计量与t统计量之间的关系统计量之间的关系o如果用如果用F统计量去检验单个自变量的显著性,统计量去检验单
23、个自变量的显著性,结果如何了?结果如何了?o虚拟假设:虚拟假设:H0:b b k=0。令。令q=1 可以证明,所得到的可以证明,所得到的F统计量,等于对应统计量,等于对应t统计量的平方。统计量的平方。因为因为 ,所以在双侧对立,所以在双侧对立假设下得到完全一样的结果假设下得到完全一样的结果o对于单个参数假设的检验,仍然用对于单个参数假设的检验,仍然用t统计量统计量o变量各自的变量各自的t统计量不显著,而统计量不显著,而F统计量显著统计量显著(如前例)(如前例)说明变量之间可能存在多重共说明变量之间可能存在多重共线性,但变量组合对被解释变量还是有影响的。线性,但变量组合对被解释变量还是有影响的。
24、o某个变量的某个变量的t统计量显著,而统计量显著,而F统计量不显著统计量不显著可能在一些不显著变量中隐藏了一个统计显可能在一些不显著变量中隐藏了一个统计显著变量。著变量。o不过通常当一个变量十分显著时,它与其他变不过通常当一个变量十分显著时,它与其他变量的联合检验也会是显著的。量的联合检验也会是显著的。4.5.3 F统计量的统计量的R2型型o因为因为SSR r=SST(1-Rr2),SSR ur=SST(1-Rur2),则则R-平方型的平方型的F统计量为统计量为例子:婴儿出生体重方程中的父母受教育水平例子:婴儿出生体重方程中的父母受教育水平 bwght:以磅为单位的出生体重;:以磅为单位的出生
25、体重;cigs:母亲怀孕期:母亲怀孕期间每天吸烟的数量;间每天吸烟的数量;parity:这个孩子在子女中的:这个孩子在子女中的排行;排行;faminc:家庭年收入;:家庭年收入;mothereduc:母亲受:母亲受教育年数;教育年数;fanthereduc:父亲受教育年数。:父亲受教育年数。拟检验的虚拟假设是,在控制了拟检验的虚拟假设是,在控制了cigs,parity和和faminc以后,父母的受教育水平对孩子出生的体重以后,父母的受教育水平对孩子出生的体重没有影响。没有影响。o实际观测值是实际观测值是1191个,则不受约束模型的自由个,则不受约束模型的自由度为?度为?o分子自由度为分子自由度
26、为2,分母自由度为,分母自由度为1185,5%的临的临界值为界值为3.0。所以不能拒绝虚拟假设,即父母受。所以不能拒绝虚拟假设,即父母受教育水平是联合不显著的教育水平是联合不显著的n-k-1=1191-5-1=1185 q=2o给定给定F统计量的观测值,能拒绝虚拟假设的最统计量的观测值,能拒绝虚拟假设的最小显著性水平是多少小显著性水平是多少这个水平被称为检验这个水平被称为检验的的p值值op值值=P(F F F)代表一个自由度代表一个自由度为(为(q,n-k-1)的)的F随机变量随机变量检验统计量检验统计量的实际值的实际值大于大于p值的显著性水平下可以拒绝零假设,值的显著性水平下可以拒绝零假设,
27、小于小于p值的显著性水平下不可以拒绝零假设。值的显著性水平下不可以拒绝零假设。4.5.5 回归整体显著性的回归整体显著性的F统计量统计量o在含有在含有k个自变量的模型中,可以做这样的虚拟个自变量的模型中,可以做这样的虚拟假设:所有的自变量都无助于解释因变量假设:所有的自变量都无助于解释因变量o对立假设:至少有一个对立假设:至少有一个b bj异于异于0o受约束模型:受约束模型:oF统计量:统计量:用于检验所有变用于检验所有变量的联合排除量的联合排除检验回归的整检验回归的整体显著性体显著性若不能拒绝,若不能拒绝,则说明我们需则说明我们需要寻找其他变要寻找其他变量来解释量来解释y。R2为为04.5.
28、6 检验一般的线性约束检验一般的线性约束o比排除某些自变量更为复杂的约束比排除某些自变量更为复杂的约束o例子:考虑如下方程例子:考虑如下方程 price:住房价格;:住房价格;assess:评估的住房价值;:评估的住房价值;lotsize:以英尺为单位的占地面积;:以英尺为单位的占地面积;sqrt:平:平方英尺数;方英尺数;bdrms:卧室数:卧室数o拟检验:评估的住房价值是不是一个理性的定拟检验:评估的住房价值是不是一个理性的定价。如果这样,价。如果这样,assess变化变化1%,则,则price变化变化1%;此外,控制;此外,控制assess后,后,lotsize,sqrft和和bdrms
29、应该无助于解释应该无助于解释log(price)o受约束模型:受约束模型:有有4个约束个约束要检验,其要检验,其中中3个为排个为排除性约束除性约束由于因变量变了,所以受由于因变量变了,所以受约束模型的约束模型的SST不同于原不同于原SST,所以不能使用,所以不能使用F统统计量的计量的R2型,只能使用型,只能使用F统计量的统计量的SSR型型o不受约束模型的不受约束模型的SSR为为1.822,受约束模型的,受约束模型的SSR为为1.880,n=88oF统计量:统计量:o自由度为(自由度为(4,83)的)的F分布,分布,5%的临界值为的临界值为2.50。所以不能拒绝。所以不能拒绝H0。没有证据拒绝评估值。没有证据拒绝评估值是理性的这个假设。是理性的这个假设。4.6 报告回归结果报告回归结果o系数估计值系数估计值对于关键变量的系数估计值对于关键变量的系数估计值要做出解释,对其经济或实际重要性加以解要做出解释,对其经济或实际重要性加以解释。释。o标准误标准误以便计算以便计算t统计量和置信区间。统计量和置信区间。o拟合优度拟合优度以便计算以便计算F统计量统计量o残差平方和残差平方和o回归标准误回归标准误o观测次数观测次数并非至关重要并非至关重要