《多元回归分析:估计.ppt》由会员分享,可在线阅读,更多相关《多元回归分析:估计.ppt(85页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1多元回归分析:估计(1)Multiple Regression Analysis:Estimation(1)y=b0+b1x1+b2x2+.bkxk+u2本章大纲n使用多元回归的动因n普通最小二乘法的操作和解释n估计量的期望值nOLS估计量的方差nOLS的有效性:高斯马尔可夫定理3课堂大纲n使用多元回归的动因 n普通最小二乘法的操作和解释n假定MLR.1 MLR.4 nOLS估计值的无偏性4动因:优点n经验研究中使用简单回归模型的主要缺陷是:它很难得到在其它条件不变的情况下,x对y的影响。n多元回归分析更适合于其它条件不变情况下的分析,因为多元回归分析允许我们明确地控制其它许多也同时影响因变
2、量的因素。n多元回归模型能容纳很多可能相关的解释变量,所以在简单回归分析可能误导的情况下,可以寄希望于多元回归模型来推断因果关系。6动因:优点n可以解释更多的因变量变动。n它可以表现更一般的函数形式。n多元回归模型是实证分析中最广泛使用的工具。7动因:一个例子n考虑一个简单版本的解释教育对小时工资影响的工资方程。exper:在劳动力市场上的经历,用年衡量n在这个例子中,“在劳动力市场上的经历”被明确地从误差项中提出。9含有k个自变量的模型n一般的多元线性回归模型可以写为10类似于简单回归模型nb0仍是截距nb1到bk都称为斜率参数nu仍是误差项(或干扰项)n仍需作零条件期望的假设,所以现在假设
3、 E(u|x1,x2,xk)=0n仍然最小化残差平方和,所以得到k+1个一阶条件11如何得到OLS估计值n普通最小二乘法选择能最小化残差平方和的估计值,12如何得到OLS估计值k+1个一阶条件:13n在估计之后,我们得到OLS回归线,或称为样本回归方程(SRF)n得到OLS回归式之后,对每次观测都得到一个拟合值或预测值,对观测点i,其拟合值就是n第i个观测的残差为:如何得到OLS估计值14OLS拟合值和残差的性质n残差项的均值为零n每个自变量和OLS协残差之间的样本协方差为零。n点 总位于OLS回归线上。15对多元回归的解释n由可知n所以,保持 不变意味着:即,每一个j都有一个偏效应(part
4、ial effect),或其他情况不变(ceteris paribus)的解释。16例子:大学GPA的决定因素n两个解释变量的回归 pcolGPA:大学成绩预测值hsGPA :高中成绩绩 ACT :成绩测验分数(achievement test score)pcolGPA=1.29+0.453hsGPA+0.0094ACTn一个解释变量的回归pcolGPA=2.4+0.0271ACTnACT的系数大三倍。n如果这两个回归都是对的,它们可以被认为是两个不同实验的结果。17“保持其它因素不变”的含义n多元回归分析的优势在于它使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其它因素
5、不变。18对“排除其它变量影响”的解释n考虑回归线n 的一种表达式为:n 是由以下回归得出的残差:20“排除其它变量影响”(一般情况)n在一个含有k个解释变量的一般模型中,仍然可以写成 但残差 来自x1对x2,xk的回归。n于是 度量的是,在排除x2,xk等变量的影响之后,x1对y的影响。21比较简单回归和多元回归估计值n比较简单回归模型和多元回归模型n一般来说,除非:或 样本中x1和x2不相关。22比较简单回归和多元回归估计值n这是因为存在一个简单的关系n这里,是x2对x1的简单回归得到的斜率系数。25简单回归和多元回归估计值的比较n在k个自变量的情况下,简单回归和多元回归只有在以下条件下才
6、能得到对x1相同的估计(1)对从x2到xk的OLS系数都为零(2)x1与x2,xk中的每一个都不相关。拟合优度n每一个观察值可被视为由解释部分和未解释部分构成:n定义:nSST=SSE+SSR2627拟合优度(续)我们怎样衡量我们的样本回归线拟合样本数据有多好呢?可以计算总平方和(SST)中被模型解释的部分,称此为回归R2w R2=SSE/SST=1 SSR/SST28拟合优度(续)我们也可以认为R2等于实际的yi与估计的 之间相关系数的平方29更多关于R2n当回归中加入另外的解释变量时,R2通常会上升。n例外:如果这个新解释变量与原有的解释变量完全共线,那么OLS不能使用。n此代数事实成立,
7、因为当模型加入更多回归元时,残差平方和绝不会增加。30更多关于R2n考虑从一个解释变量开始,然后加入第二个。nOLS性质:最小化残差平方和。n如果OLS恰好使第二个解释变量系数取零,那么不管回归是否加入此解释变量,SSR相同。n如果OLS使此解释变量取任何非零系数,那么加入此变量之后,SSR降低了。n实际操作中,被估计系数精确取零是极其罕见的,所以,当加入一个新解释变量后,一般来说,SSR会降低。31OLS估计量的期望值n我们现在转向OLS的统计特性,而我们知道OLS是估计潜在的总体模型参数的。n统计性质是估计量在随机抽样不断重复时的性质。我们并不关心在某一特定样本中估计量如何。32假定 ML
8、R.1(线性于参数)n总体模型可写成y=b0+b1x1+b2x2+bkxk+u其中,b1,b2,bk 是我们所关心的未知参数(常数),而u则是无法观测的随机误差或随机干扰。n上述方程规范地表述了总体模型或真实模型。由于因变量y与自变量都可以为任意函数,所以上式是灵活多变的。33假定 MLR.2(随机抽样性)n我们有一个包含n次观测的随机样本(xi1,xi2,xik;yi):i=1,n,它来自假定MLR。1中的总体模型。n有时我们将模型写为 yi=b0+b1xi1+b2xi2+bkxik+uin其中,i 表示观测次数,j=1,k代表第j个回归元(变量序号)34假定MLR.3(不存在完全共线性)n
9、在样本(因而在总体)中,没有一个自变量是常数,自变量之间也不存在严格的线性关系。n如果方程中一个自变量是其它自变量的一个线性组合时,我们说此模型遇到完全共线性(perfect collinearity)问题,此时不能用OLS估计参数。35假定MLR.3 n完全共线性的例子:y=b0+b1x1+b2x2+b3x3+u,x2=3x3y=b0+b1log(inc)+b2log(inc2)+uy=b0+b1x1+b2x2+b3x3+b4x4+u,x1+x2+x3+x4=1n当y=b0+b1x1+b2x2+b3x3+u,n 0Corr(x1,x2)0偏误为正偏误为负b2 0偏误为负偏误为正51遗漏变量偏
10、误n但是,通常我们不能观测到b2,而且,当一个重要变量被缺省时,主要原因也是因为该变量无法观测,换句话说,我们无法准确知道Corr(x1,x2)的符号。怎么办呢?n我们将依靠经济理论和直觉来帮助我们对相应符号做出较好的估计。52例3.6:小时工资方程n假定模型 log(wage)=b0+b1educ+b2abil+u,在估计时遗漏了abil。b1的偏误方向如何?n因为一般来说ability对y有正的局部效应,并且ability和education years正相关,所以我们预期b1上偏。53更一般的情形n从技术上讲,要推出多元回归下缺省一个变量时各个变量的偏误方向更加困难。n注意:注意:若有一
11、个对y有局部效应的变量被缺省,且该变量至少和一个解释变量相关,那么所有所有系数的OLS估计量都有偏。54更一般的情形n假设总体模型 满足假定MLR.1MLR.4。但我们遗漏了变量x3,并估计了模型 假设X2和X3无关,X1和X3相关。是1的一个有偏估计量,但 是否有偏?更一般的情形n此时,我们通常假设X1和X2无关。n当X1和X2无关时,可以证明:5558OLS估计量的方差现在我们知道估计值的样本分布是以真实参数为中心的。我们还想知道这一分布的分散状况。在一个新增假设下,度量这个方差就容易多了:59假定MLR.5(同方差性)(Homoskedasticity)同方差性假定:Var(u|x1,x
12、2,xk)=s2.意思是,不管解释变量出现怎样的组合,误差项u的条件方差都是一样的。如果这个假定不成立,我们说模型存在异方差性。60OLS估计量的方差(续)n用x表示(x1,x2,xk)n假定Var(u|x)=s2,也就意味着Var(y|x)=s2n假定MLR.1-5共同被称为高斯马尔可夫假定高斯马尔可夫假定(Gauss-Markov assumptions)61定理 3.2(OLS斜率估计量的抽样方差)n给定高斯-马尔可夫假定62对定理3.2的解释n定理3.2显示:估计斜率系数的方差受到三个因素的影响:n误差项的方差n总的样本变异n解释变量之间的线性相关关系63对定理3.2的解释(1):误差
13、项方差n更大的s2意味着更大的OLS估计量方差。n更大的s2意味着方程中的“噪音”越多。n这使得得到自变量对因变量的准确局部效应变得更加困难。n引入更多的解释变量可以减小方差。但这样做不仅不一定可能,而且也不一定总令人满意。ns2 不依赖于样本大小64对定理3.2的解释(2):总的样本变异n更大的SSTj意味着更小的估计量方差,反之亦然。n其它条件不变情况下,x的样本方差越大越好。n增加样本方差的一种方法是增加样本容量。n参数方差的这一组成部分依赖于样本容量。65对定理3.2的解释(3):多重共线性n更大的Rj2意味着更大的估计量方差。n如果Rj2较大,就说明其它解释变量解释可以解释较大部分的
14、该变量。n当Rj2非常接近1时,xj与其它解释变量高度相关,被称为多重共线性。n严重的多重共线性意味着被估计参数的方差将非常大。66对定理3.2的解释(3):多重共线性(续)n多重共线性是一个数据问题n可以通过适当的地舍弃某些变量,或收集更多数据等方法来降低。n注意:虽然某些自变量之间可能高度相关,但与模型中其它参数的估计程度无关。67总结本堂课重要的几点:n高斯马尔科夫假定n模型过度设定和设定不足的后果n遗漏变量偏差是什么n被估计参数方差的三个组成部分是什么,以及它们如何影响被估计参数方差的大小。68多元回归分析:估计(3)Multiple Regression Analysis:Estim
15、ation(3)y=b0+b1x1+b2x2+.bkxk+u69本章大纲n使用多元回归的动因n普通最小二乘法的操作和解释nOLS估计量的期望nOLS估计量的方差nOLS的有效性:高斯马尔可夫定理70课堂大纲n误设模型中偏误和方差间的替代关系n估计误差项方差n高斯马尔可夫定理71误设模型中的方差n在考虑一个回归模型中是否该包括一个特定变量的决策中,偏误和方差之间的消长关系是重要的。n假定真实模型是 y=b0+b1x1+b2x2+u,我们有72误设模型中的方差n考虑误设模型是 估计的方差是n 当x1和x2不相关时 否则 73舍弃x2的后果R12=0R120b2=0两个对b1的估计都是无偏的,方差相
16、同两个对b1的估计量都是无偏的,舍弃x2使得方差更小b20舍弃x2导致对b1的估计量有偏,但方差和从完整模型得到的估计相同舍弃x2导致对b1的估计量有偏,但其方差变小74误设模型中的方差n如果 ,一些计量经济学家建议,将因漏掉x2而导致的偏误的可能大小与方差的降低相比较以决定漏掉该变量是否重要。n现在,我们更喜欢包含x2,因为随着样本容量的扩大,增加x2导致的多重共线性变得不那么重要,但舍弃x2导致的遗漏变量误偏却不一定有任何变化模式。75不同情形下估计量的期望和方差估计量期望估计量方差估计量期望估计量方差估计量期望估计量方差模型设定不足时模型过度设定时模型设定正确时76估计误差项方差我们希望
17、构造一个s2 的无偏估计量如果我们知道 u,通过计算 u 2的样本平均可以构造一个s2的无偏估计量我们观察不到误差项 ui,所以我们不知道误差项方差s2。77估计误差项方差我们能观察到的是残差项i。我们可以用残差项构造一个误差项方差的估计n df=n (k+1),or df=n k 1n df(自由度,degrees of freedom)df=观察点个数被估参数个数n定理3.3(s2的无偏估计)在高斯马尔可夫假定 MLR.1-5下,我们有n定义术语:s2 正的平方根称为 标准偏差(标准离差)标准偏差(标准离差)(SD),正的平方根称为 标准误差(标标准误差(标 准准 差)差)(SE)。n 的
18、标准误差是79估计误差项方差80OLS的有效性:高斯马尔可夫定理n问题:在假定 下有许多bj的估计量,为什么选OLS?n在假定 下,OLS是最优线性无偏估计量(BLUE)。n最优(Best):方差最小n线性(Linear):因变量数据的线性函数n无偏(Unbiased):参数估计量的期望等于参数的真值。n估计量(Estimator):产生一个估计量的规则81高斯马尔科夫定理图示线性估计量线性无偏估计量无偏估计量所有估计量设此点估计量方差最小,则该估计量为OLS估计量82高斯马尔可夫定理的重要性n当标准假定成立,我们不需要再去找其它无偏估计量了。n如果有人向我们提出一个线性无偏估计量,那我们就知道,此估计量的方差至少和OLS估计量的方差一样大。83OLS估计量为线性的一些细节84OLS估计量为线性的一些细节85复习n多元回归中OLS估计量的性质n高斯马尔科夫假定和OLS估计量的无偏性n模型过度设定和设定不足是什么,两种情况下,期望和方差间的替代关系n遗漏变量偏误是什么,什么情况下此偏误为零,如何确定偏误符号nOLS斜率估计量方差由什么决定,如何计算它们的标准离差和标准差,如何估计误差项方差,以及如何推导被估参量的标准离差n新加的假定和高斯马尔可夫定理