《线性回归模型 (2)精选PPT.ppt》由会员分享,可在线阅读,更多相关《线性回归模型 (2)精选PPT.ppt(124页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于线性回归模型关于线性回归模型(2)第1页,讲稿共124张,创作于星期二第二章第二章 线性回归模型线性回归模型 线性模型的参数估计线性模型的参数估计 线性模型的检验线性模型的检验预预 测测 实证分析实证分析第2页,讲稿共124张,创作于星期二第一节第一节 线性模型的参数估计线性模型的参数估计模型假定及最小二乘估计模型假定及最小二乘估计 估计量的性质及参数的估计估计量的性质及参数的估计 约束最小二乘法约束最小二乘法 第3页,讲稿共124张,创作于星期二2.1.1 模型假定及最小二乘估计模型假定及最小二乘估计一、模型及模型的假定一、模型及模型的假定v线性模型的一般形式是线性模型的一般形式是 (2
2、.1)其中,其中,为被解释变量(因变量),为被解释变量(因变量),为解释变量(自变量),为解释变量(自变量),是随机误差项,是随机误差项,j=1,2,k 为模型参数。为模型参数。第4页,讲稿共124张,创作于星期二v对经济问题的实际意义:对经济问题的实际意义:与与 存存在线性关系,在线性关系,是是 的重要解释的重要解释变量。由于模型是现实问题的一种简化,以及数变量。由于模型是现实问题的一种简化,以及数据收集和测量是产生据收集和测量是产生 ,因此,因此 代表众多影代表众多影响响 变化的微小因素,称为干扰项。计量经济变化的微小因素,称为干扰项。计量经济学中的多种估计、检验、预测等分析方法,是针学中
3、的多种估计、检验、预测等分析方法,是针对不同性质的扰动项引入的。对不同性质的扰动项引入的。第5页,讲稿共124张,创作于星期二v这里应该注意到,由于这里应该注意到,由于 的影响使的影响使 变化偏离变化偏离了了 决定的决定的 维空间平面。维空间平面。用矩阵表示(用矩阵表示(2.1)式变形为)式变形为等价地,总体回归模型表示为等价地,总体回归模型表示为 ,(2.2)第6页,讲稿共124张,创作于星期二v总体回归方程为总体回归方程为 (2.3)其中,其中,第7页,讲稿共124张,创作于星期二 v这里的这里的 表示对于不同的表示对于不同的 (),被解释变量),被解释变量 的均值向量;的均值向量;X是由
4、解释变量是由解释变量 的数据构成的矩阵,其中截距项可视为解释变量的数据构成的矩阵,其中截距项可视为解释变量总是取值为总是取值为1。有时也称为数据矩阵或设计矩阵。有时也称为数据矩阵或设计矩阵。第8页,讲稿共124张,创作于星期二v那么,样本回归模型为那么,样本回归模型为 (2.4)样本回归方程为样本回归方程为 (2.5)其中,其中,这里这里 表示表示Y的样本估计值向量;的样本估计值向量;表示回归表示回归 系数估计值向量;系数估计值向量;e表示残差向量。表示残差向量。第9页,讲稿共124张,创作于星期二v这里需要说明的是,在构建线性回归模型时,要这里需要说明的是,在构建线性回归模型时,要以总体回归
5、方程以总体回归方程(2.3)式描述的内容为理论基础,式描述的内容为理论基础,利用样本通过统计推断建立样本回归方程利用样本通过统计推断建立样本回归方程(2.5)式,然后借助样本回归模型()式,然后借助样本回归模型(2.4)式,)式,解释总体回归模型(解释总体回归模型(2.2)式所描述的实际经济问式所描述的实际经济问题。然而题。然而,线性回归分析是有前提的,下面我们将线性回归分析是有前提的,下面我们将介绍经典线性回归模型必须满足的假定条件。介绍经典线性回归模型必须满足的假定条件。第10页,讲稿共124张,创作于星期二 1、零均值假定、零均值假定v 假定随机干扰项假定随机干扰项 期望向量或均值向量为
6、零,即期望向量或均值向量为零,即 (2.6)第11页,讲稿共124张,创作于星期二2、同方差和无序列相关假定、同方差和无序列相关假定v假定假定随机干扰项假定假定随机干扰项 不存在序列相关且方差相不存在序列相关且方差相同,即同,即第12页,讲稿共124张,创作于星期二即即 (2.7)其中,其中,为为n 阶单位矩阵。阶单位矩阵。3、假定随机干扰项、假定随机干扰项 与解释变量相互独立,即与解释变量相互独立,即 (2.8)这里通常假定这里通常假定X中的元素中的元素 为非随为非随机变量。机变量。第13页,讲稿共124张,创作于星期二4、无多重共线性的假定、无多重共线性的假定v假设各解释变量之间不存在线性
7、关系,或者说各假设各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关,在此条件下,解释变量的观测值之间线性无关,在此条件下,数据矩阵数据矩阵X列满秩列满秩此时,方阵此时,方阵 满秩满秩 (2.9)从而,从而,可逆,可逆,存在。存在。第14页,讲稿共124张,创作于星期二5、正态性假定、正态性假定v 假定随机干扰项假定随机干扰项 服从正态分布,即服从正态分布,即 这里假定这里假定1和假定和假定2是对随机干扰项性质的要求,同时满足也是对随机干扰项性质的要求,同时满足也成为成为“球形干扰项球形干扰项”。假定。假定3 的主要意义是方便线性回归的的主要意义是方便线性回归的讨论和证明,避免
8、由于讨论和证明,避免由于X与随机干扰项有强相关时回归分析的有与随机干扰项有强相关时回归分析的有效性和价值受到影响;假定效性和价值受到影响;假定4是多元线性回归分析的特定要求,对是多元线性回归分析的特定要求,对保证回归分析的有效性和可靠性也很只要;假定保证回归分析的有效性和可靠性也很只要;假定5实际上要求干扰实际上要求干扰项确实是多种微小扰动因素的综合,也是回归系数估计量分布项确实是多种微小扰动因素的综合,也是回归系数估计量分布性质和相关统计推断的基础,但这一假定不是线性回归分析必性质和相关统计推断的基础,但这一假定不是线性回归分析必须要求,因为本身不影响回归系数估计的性质。须要求,因为本身不影
9、响回归系数估计的性质。第15页,讲稿共124张,创作于星期二v在实际经济问题中,这些假定条件有时可能并不在实际经济问题中,这些假定条件有时可能并不成立。如何识别这些假定条件是否满足,以及假成立。如何识别这些假定条件是否满足,以及假定条件不成立时如何进行参数估计和检验,我们定条件不成立时如何进行参数估计和检验,我们将在下一章讨论。将在下一章讨论。第16页,讲稿共124张,创作于星期二二、最小二乘估计二、最小二乘估计v总体回归模型总体回归模型(2.2)式式 中的参数矩阵中的参数矩阵 各个元素,各个元素,反映了解释变量反映了解释变量 对被解释变量对被解释变量Y的影响程度。由于的影响程度。由于 矩阵是
10、总体参数矩阵,通矩阵是总体参数矩阵,通过有限的样本无法得到过有限的样本无法得到 矩阵。只能通过统计推矩阵。只能通过统计推断的思想,用有限的样本对断的思想,用有限的样本对 矩阵进行估计,得矩阵进行估计,得出参数估计值矩阵出参数估计值矩阵 。第17页,讲稿共124张,创作于星期二v求参数估计值矩阵求参数估计值矩阵 的方法是最小二乘的方法是最小二乘(OLS)法,即求法,即求 使得残差平方和使得残差平方和 达到最小。达到最小。由样本回归模型由样本回归模型(2.4)式式和样本回归方程为(和样本回归方程为(2.5)式)式可以得到残差矩阵可以得到残差矩阵 (2.10)第18页,讲稿共124张,创作于星期二v
11、那么,残差平方和为那么,残差平方和为 (2.11)根据矩阵代数理论,对(根据矩阵代数理论,对(2.11)式以)式以 求偏导,求偏导,并令其为零,可以得到方程并令其为零,可以得到方程即即 (2.12)称其为正则方程。称其为正则方程。第19页,讲稿共124张,创作于星期二v因为因为(X X)是一个非退化矩阵,所以有是一个非退化矩阵,所以有 (2.13)这就是线性回归模型参数的最小二乘估计量。这就是线性回归模型参数的最小二乘估计量。v这里需要提及的是,根据微积分的极值理论,这里需要提及的是,根据微积分的极值理论,只是函数只是函数 的一个驻点,应该证明的一个驻点,应该证明 确实使确实使得得 达到最小。
12、事实上,对于任何一个达到最小。事实上,对于任何一个 ,有有 (2.14)第20页,讲稿共124张,创作于星期二v由于由于 满足正则方程满足正则方程(2.12)式,于是式,于是 ,那么(那么(2.14)式中的第三项为零。这样就证明了)式中的第三项为零。这样就证明了对于任何的对于任何的 ,有,有 (2.15)v又因为又因为 是一个正定阵,故(是一个正定阵,故(2.15)式中的)式中的第二项总是非负的,于是第二项总是非负的,于是且等号成立当且仅当且等号成立当且仅当第21页,讲稿共124张,创作于星期二v下面我们考虑一个多元线性回归模型的特例下面我们考虑一个多元线性回归模型的特例一元线性回归模型一元线
13、性回归模型v假设影响被解释变量假设影响被解释变量Y的因素只有一个,记为的因素只有一个,记为X。已知得到已知得到Y和和X的一组观测值(的一组观测值(,)()(),于是有),于是有 ()这时,正则方程(这时,正则方程(2.12)式变为)式变为第22页,讲稿共124张,创作于星期二v当当 ()不全相等时)不全相等时,这里这里 。于是正则方程左边的系数。于是正则方程左边的系数行列行列 式式n 。经过初等计算可以得到。经过初等计算可以得到 和和 的最小二乘估计分别为的最小二乘估计分别为其中,其中,第23页,讲稿共124张,创作于星期二2.1.2 估计量的性质及参数的估计估计量的性质及参数的估计一、估计量
14、的性质一、估计量的性质v在线性模型的经典假设的前提下,线性回归模型在线性模型的经典假设的前提下,线性回归模型参数的最小二乘估计有优良的性质,是对最小二参数的最小二乘估计有优良的性质,是对最小二乘估计量有效性和其价值的有力支持。线性回归乘估计量有效性和其价值的有力支持。线性回归模型参数的最小二乘估计量性质的具体内容由高模型参数的最小二乘估计量性质的具体内容由高斯斯马尔可夫定理来体现。马尔可夫定理来体现。v高斯高斯马尔可夫(马尔可夫(Gauss-Markov)定理:在)定理:在线性模型的经典假设下,线性模型的经典假设下,参数的最小二乘估计量参数的最小二乘估计量是线性无偏估计中方差最小的估计量(是线
15、性无偏估计中方差最小的估计量(BLUE估估计量)。计量)。第24页,讲稿共124张,创作于星期二v下面我们逐一证明。下面我们逐一证明。1、线性特性、线性特性由(由(2.13)式知)式知 (2.16)令令 ,那么,(,那么,(2.16)式为)式为 (2.17)第25页,讲稿共124张,创作于星期二v各个参数的估计量为各个参数的估计量为 (2.18)这里(这里(2.18)中的)中的 是矩阵是矩阵 的的k行因素构成的行向量,由此证明了参数估计行因素构成的行向量,由此证明了参数估计量量 具有线性特性。它不仅是具有线性特性。它不仅是Y的线性组合,也是的线性组合,也是 的线性组合。线性特性是确定参数估计量
16、的的线性组合。线性特性是确定参数估计量的分布性质和进行统计推断的重要基础。分布性质和进行统计推断的重要基础。第26页,讲稿共124张,创作于星期二2、无偏性、无偏性v由(由(2.17)式知)式知 (2.19)这里需要提及的是,这个性质从概率分布的角度这里需要提及的是,这个性质从概率分布的角度反映了最小二乘估计量与参数真实值之间的内在反映了最小二乘估计量与参数真实值之间的内在联系,利用无偏性通过最小二乘估计量的概率分联系,利用无偏性通过最小二乘估计量的概率分布可以推断参数情况和范围等。布可以推断参数情况和范围等。第27页,讲稿共124张,创作于星期二3、最小方差性、最小方差性v最小二乘估计量的有
17、效性,也称为最小二乘估计量的有效性,也称为“有效性有效性”。即在模型参数的所有线性无偏估计量中最小二乘即在模型参数的所有线性无偏估计量中最小二乘估计的方差最小。估计的方差最小。v由(由(2.17)式知,最小二乘估计量的协方差矩阵)式知,最小二乘估计量的协方差矩阵为为 (2.20)第28页,讲稿共124张,创作于星期二v该协方差矩阵对角线上的因素就是模型各个参数该协方差矩阵对角线上的因素就是模型各个参数估计量的方差,其他因素是不同参数估计量之间估计量的方差,其他因素是不同参数估计量之间的协方差。的协方差。v下面需要证明,任何其他线性无偏估计量下面需要证明,任何其他线性无偏估计量 的方的方差都大于
18、差都大于 ,不妨假设,不妨假设 (2.21)第29页,讲稿共124张,创作于星期二v由于由于 为为 的无偏估计量,即有的无偏估计量,即有 (2.22)这样只有这样只有 或或那么有那么有 (2.23)第30页,讲稿共124张,创作于星期二v在(在(2.23)式中)式中从而从而 (2.24)第31页,讲稿共124张,创作于星期二v根据矩阵代数的知识,任何矩阵与自身转置的乘根据矩阵代数的知识,任何矩阵与自身转置的乘积都是半正定矩阵,(积都是半正定矩阵,(2.24)式中的)式中的 为半为半正定矩阵,其对角线上的元素必然是非负的,因正定矩阵,其对角线上的元素必然是非负的,因此得知,任意其他线性无偏估计量
19、的方差都大于此得知,任意其他线性无偏估计量的方差都大于最小二乘估计量的方差。最小二乘估计量的方差。v这里需要说明的是,对于无偏估计,方差愈小愈这里需要说明的是,对于无偏估计,方差愈小愈好,因此高斯好,因此高斯马尔可夫(马尔可夫(Gauss-Markov)定理表明:最小二乘估计量定理表明:最小二乘估计量 在在 的线性无偏的线性无偏估计量中是最优的,所以我们也称估计量中是最优的,所以我们也称 在在 的的“最佳线性无偏估计量最佳线性无偏估计量”(BLUE估计量)。这个估计量)。这个实事奠定了最小二乘估计在线性回归模型中的地实事奠定了最小二乘估计在线性回归模型中的地位。位。第32页,讲稿共124张,创
20、作于星期二二、参数二、参数 的估计的估计v在线性回归模型在线性回归模型(2.7)式中还有一个重要的参数式中还有一个重要的参数 ,它是模型干扰项的方差,因而有时简称为误差方它是模型干扰项的方差,因而有时简称为误差方差。差。反映了模型误差以及观测误差的大小,反映了模型误差以及观测误差的大小,在线性回归分析中起着重要的作用。现在我们讨在线性回归分析中起着重要的作用。现在我们讨论论 的估计问题。的估计问题。由样本回归模型(由样本回归模型(2.4)式知)式知 (2.25)第33页,讲稿共124张,创作于星期二v令令 ,即有,即有说明说明e是是 的线性变换。其中,的线性变换。其中,M称为最小二乘称为最小二
21、乘基本等幂矩阵。基本等幂矩阵。M有如下的性质:有如下的性质:1、对称性。即、对称性。即 (2.26)实际上,实际上,这个性质表明这个性质表明M为为 对称矩阵。对称矩阵。第34页,讲稿共124张,创作于星期二2、等幂性。即、等幂性。即 (2.27)实际上,实际上,所以所以第35页,讲稿共124张,创作于星期二3、M与与X互相独立。即互相独立。即 (2.28)实际上,实际上,利用最小二乘基本等幂矩阵利用最小二乘基本等幂矩阵M的性质,以及的性质,以及(2.25)式,可以得到残差平方和为式,可以得到残差平方和为第36页,讲稿共124张,创作于星期二v由于由于 和和 都是标量,由矩阵代数的知识都是标量,
22、由矩阵代数的知识知知,标量应与其迹相等,并由迹的轮换性定理知,即标量应与其迹相等,并由迹的轮换性定理知,即第37页,讲稿共124张,创作于星期二v再由迹的轮换性知再由迹的轮换性知 (2.29)从而,从而,即即 定义定义 (2.30)则则 为为 的无偏估计量,即的无偏估计量,即 。第38页,讲稿共124张,创作于星期二2.1.3 约束最小二乘法约束最小二乘法v对于线性回归模型(对于线性回归模型(2.2)式,在对参数向量)式,在对参数向量 没有附加任何约束条件的情况下,我们以前求出没有附加任何约束条件的情况下,我们以前求出了最小二乘估计量,并讨论了它的基本性质。但了最小二乘估计量,并讨论了它的基本
23、性质。但是,在解决经济活动的实际问题中,我们需要求是,在解决经济活动的实际问题中,我们需要求带一定线性约束的最小二乘估计量。带一定线性约束的最小二乘估计量。假设参数向量假设参数向量 的线性约束为的线性约束为 (2.31)是一个相容线性方程组,其中是一个相容线性方程组,其中D为为 的已知的已知矩矩 阵,而且秩为阵,而且秩为p,b为为 已知向量。已知向量。第39页,讲稿共124张,创作于星期二v我们用我们用Lagrange乘子法求模型(乘子法求模型(2.2)满足线)满足线性约束(性约束(2.31)式的最小二乘估计量。)式的最小二乘估计量。,则线性约束(则线性约束(2.31)式可以表示为)式可以表示
24、为 ,(2.32)我们的问题是在(我们的问题是在(2.32)式的)式的p个条件下,求使个条件下,求使得得达到最小的达到最小的 。第40页,讲稿共124张,创作于星期二v应用应用Lagrange乘子法构造目标函数为乘子法构造目标函数为其中其中 为为Lagrange乘子。对函乘子。对函数数 求对求对 的偏导数,整理并的偏导数,整理并令它们等于零,得到令它们等于零,得到 (2.33)然后解(然后解(2.33)式和线性约束()式和线性约束(2.31)式组成)式组成的联立方程组。的联立方程组。第41页,讲稿共124张,创作于星期二v为方便表述,我们用为方便表述,我们用 和和 表示(表示(2.33)式)式
25、和(和(2.31)式的解。用)式的解。用 左乘(左乘(2.33)式,)式,整理整理 后得到后得到 (2.34)代入(代入(2.31)式得到)式得到 即即 (2.35)这是一个关于这是一个关于 的线性方程组。的线性方程组。第42页,讲稿共124张,创作于星期二v因为因为D的秩为的秩为p,于是,于是 是是 的的可逆矩可逆矩 阵,从而(阵,从而(2.35)式有唯一的解)式有唯一的解 将将 代入(代入(2.34)式得到)式得到 (2.36)第43页,讲稿共124张,创作于星期二v这里我们需要提及的是,这里我们需要提及的是,确实是线性约束确实是线性约束 下的下的 的最小二乘估计量。即的最小二乘估计量。即
26、 应该满足:应该满足:1、;2、对一切满足、对一切满足 的的 ,都有,都有根据(根据(2.36)式容易验证)式容易验证 。第44页,讲稿共124张,创作于星期二v下面我们只验证第二个结论即可。下面我们只验证第二个结论即可。利用(利用(2.15)式得到)式得到 (2.37)其中其中 是无约束条件下的最小二是无约束条件下的最小二乘估计量。乘估计量。第45页,讲稿共124张,创作于星期二v由(由(2.34)式得知)式得知这个等式对一切满足这个等式对一切满足 的的 成立。成立。那么,(那么,(2.37)式表明,对一切满足)式表明,对一切满足 的的 ,总有总有 (2.38)第46页,讲稿共124张,创作
27、于星期二v且等号成立当且仅当(且等号成立当且仅当(2.37)式中的)式中的 0,也就是,也就是 。于是(。于是(2.38)式中用)式中用 代替代替等式成立,即等式成立,即 (2.39)从而,综合(从而,综合(2.38)和()和(2.39)式,得到)式,得到 这里我们把估计量这里我们把估计量 称为称为 的约束最小二乘估的约束最小二乘估计。计。第47页,讲稿共124张,创作于星期二第二节第二节 线性模型的检验线性模型的检验 拟合优度拟合优度 参数估计值的分布与检验参数估计值的分布与检验 第48页,讲稿共124张,创作于星期二2.2.1 拟合优度拟合优度v拟合优度是描述线性回归方程与样本数据趋势拟拟
28、合优度是描述线性回归方程与样本数据趋势拟合情况的重要指标,它既是分析数据情况的手段,合情况的重要指标,它既是分析数据情况的手段,也是检验模型变量关系真实性的重要手段。也是检验模型变量关系真实性的重要手段。v为了说明线性回归模型对样本观测值的拟合情况,为了说明线性回归模型对样本观测值的拟合情况,需要考察解释变量需要考察解释变量Y的总变差进行分解分析。的总变差进行分解分析。Y的的总变差分解式为:总变差分解式为:(2.40)其中,其中,称为总离差平方和,记为称为总离差平方和,记为TSS,它反映了被解释变量观测值总变差的大小,其自它反映了被解释变量观测值总变差的大小,其自由度为由度为 ;第49页,讲稿
29、共124张,创作于星期二v 称为残差平方和,记为称为残差平方和,记为ESS,它反,它反映了被解释变量观测值与估计值之间的变差,其映了被解释变量观测值与估计值之间的变差,其自由度为自由度为 ;称为回归平方和,称为回归平方和,记为记为RSS,它反映了被解释变量回归估计值总变差它反映了被解释变量回归估计值总变差的大小,其自由度为的大小,其自由度为 。用矩阵表示为:用矩阵表示为:TSS RSS ESS第50页,讲稿共124张,创作于星期二v实际上,由(实际上,由(2.11)和()和(2.12)式知)式知即有即有 (2.41)第51页,讲稿共124张,创作于星期二v这里,回归平方和这里,回归平方和RSS
30、越大,残差平方和越大,残差平方和ESS就就越小,从而被解释变量观测值总变差中能由解释越小,从而被解释变量观测值总变差中能由解释变量解释的那部分变差就越大,回归模型对观测变量解释的那部分变差就越大,回归模型对观测值的拟合程度就越高。因此,我们定义可决系数值的拟合程度就越高。因此,我们定义可决系数来描述回归模型对观测值的拟合程度,即来描述回归模型对观测值的拟合程度,即 (2.42)我们应该注意到,可决系数我们应该注意到,可决系数 有一个显著的特有一个显著的特点:如果观测值点:如果观测值 不变,可决系数不变,可决系数 将随着解将随着解释变量数目的增加而增大。释变量数目的增加而增大。第52页,讲稿共1
31、24张,创作于星期二v设解释变量为设解释变量为 时,残差平方和为时,残差平方和为 ,如果观测值,如果观测值 不变,再增加一个解释变量不变,再增加一个解释变量 ,相应的残差平方和为,相应的残差平方和为 。由于在利用最。由于在利用最小二乘法求参数估计值时,残差平方和小二乘法求参数估计值时,残差平方和 和和 都分别达到最小值,而达到最小值,相当于最后都分别达到最小值,而达到最小值,相当于最后引入的解释变量引入的解释变量 的系数的系数 等于零的条等于零的条件下的极小值,即件下的极小值,即 是条件极小值。而是条件极小值。而 是不要求是不要求 等于零这个条件就可以达到极小值,即等于零这个条件就可以达到极小
32、值,即 无条件极小值。因为无条件极小值不大于条件极无条件极小值。因为无条件极小值不大于条件极小值,即小值,即 (2.43)因此,因此,(2.44)第53页,讲稿共124张,创作于星期二v其中,其中,是解释变量为是解释变量为 时的可决时的可决系数,而系数,而 是增加了解释变量是增加了解释变量 以后的以后的可决系数。这样随着解释变量数目的增加,残差可决系数。这样随着解释变量数目的增加,残差平方和不断减小,可决系数不断增加。平方和不断减小,可决系数不断增加。v有些解释变量对被解释变量有些解释变量对被解释变量 的影响很小,增加的影响很小,增加这些解释变量对减少残差平方和没有多大作用。这些解释变量对减少
33、残差平方和没有多大作用。由(由(2.30)式)式 可以知道引入解释变量数目越多,可以知道引入解释变量数目越多,k 越大。如果越大。如果残差平方和残差平方和 减小不明显,那么误差方差减小不明显,那么误差方差 估计值估计值 将增大。将增大。第54页,讲稿共124张,创作于星期二v 的增大对于推断参数的增大对于推断参数 的置信区间,以及对于预测区间的估计,的置信区间,以及对于预测区间的估计,都意味这推断精度的降低。因此,在线性模型中引入某个解释变量不都意味这推断精度的降低。因此,在线性模型中引入某个解释变量不应该根据可决系数应该根据可决系数 是否增大来判断。为了解决这一问题,我们定是否增大来判断。为
34、了解决这一问题,我们定义修正可决系数为义修正可决系数为 (2.45)修正可决系数修正可决系数 描述了,当增加一个对被解释变量描述了,当增加一个对被解释变量 有有较大影响的解释变量时,残差平方和较大影响的解释变量时,残差平方和 减小比减小比 减小更显著,修正可决系数减小更显著,修正可决系数 就增大;如果增加一个对就增大;如果增加一个对被解释变量被解释变量 没有多大影响的解释变量,残差平方和没有多大影响的解释变量,残差平方和 减小没有减小没有 减小显著,减小显著,会减小,其说明不应该引入会减小,其说明不应该引入这个不重要的解释变量。这个不重要的解释变量。第55页,讲稿共124张,创作于星期二v由此
35、可见,修正可决系数由此可见,修正可决系数 比一般可决系数比一般可决系数 更准确的反映了解释变量对被解释变量的影响程更准确的反映了解释变量对被解释变量的影响程度。因此在一般情况下修正可决系数度。因此在一般情况下修正可决系数 比比 应应用更广泛。那么,修正可决系数用更广泛。那么,修正可决系数 与一般可决与一般可决系数系数 的关系怎样呢?的关系怎样呢?第56页,讲稿共124张,创作于星期二v由于由于 (2.46)第57页,讲稿共124张,创作于星期二v由于由于 ,知知 (2.47)即修正可决系数即修正可决系数 不大于一般可决系数不大于一般可决系数 。修正可决系数修正可决系数 有一个重要的特点,它可能
36、为有一个重要的特点,它可能为负值。根据(负值。根据(2.46)式,若)式,若 ,则,则 即即第58页,讲稿共124张,创作于星期二v这样这样 (2.48)那么,当(那么,当(2.48)式成立时,)式成立时,。这样使。这样使用修正可决系数用修正可决系数 将失去意义,因此,将失去意义,因此,只只适应于变量适应于变量Y与变量与变量 的整体相关的整体相关程度比较高的情况。程度比较高的情况。第59页,讲稿共124张,创作于星期二2.2.2 参数估计值的分布与检验参数估计值的分布与检验v在本章在本章2.1节中讨论参数节中讨论参数 的最小二乘估计的过的最小二乘估计的过程,及参数估计量程,及参数估计量 的有关
37、性质,并没有涉及的有关性质,并没有涉及干扰项干扰项 的具体分布形式。如果只计算最小二的具体分布形式。如果只计算最小二乘估计乘估计 ,不需要对,不需要对 的分布形式提出要求。的分布形式提出要求。但是如果讨论参数估计的检验问题、总体参数但是如果讨论参数估计的检验问题、总体参数 的置信区间和预测问题时,就必须对干扰项的置信区间和预测问题时,就必须对干扰项 的分布形式作出规定。的分布形式作出规定。第60页,讲稿共124张,创作于星期二一、参数估计式的分布特性一、参数估计式的分布特性v首先,我们明确根据中心极限定理,无论干扰项首先,我们明确根据中心极限定理,无论干扰项 服从什么分布,只要样本容量服从什么
38、分布,只要样本容量n足够大,就可以足够大,就可以近似按近似按 服从正态分布的情况一样,对服从正态分布的情况一样,对 进行显进行显著性检验,以及对总体参数著性检验,以及对总体参数 的置信区间进行推断。的置信区间进行推断。在实际经济活动中,各种经济变量之间有的联系在实际经济活动中,各种经济变量之间有的联系较为复杂,样本资料很难满足正态分布的要求。较为复杂,样本资料很难满足正态分布的要求。同时,也很难对样本本身是否严格服从正态分布同时,也很难对样本本身是否严格服从正态分布作出准确判断,甚至根本无法判断样本服从什么作出准确判断,甚至根本无法判断样本服从什么分布。有了中心极限定理,就可以回避检验分布。有
39、了中心极限定理,就可以回避检验 的分的分布形式的困难,按照布形式的困难,按照Y和和 服从正态分布讨论检验服从正态分布讨论检验和预测等问题。只要样本容量比较大,得到的结和预测等问题。只要样本容量比较大,得到的结果的近似程度就比较高。因此,对正态分布的讨果的近似程度就比较高。因此,对正态分布的讨论具有一般性。论具有一般性。第61页,讲稿共124张,创作于星期二v根据线性模型回归模型的经典假设,随机干扰项根据线性模型回归模型的经典假设,随机干扰项 服从多元正态分布,即服从多元正态分布,即 由式(由式(2.16)可以知道,参数估计可以知道,参数估计 中的任何一个元素中的任何一个元素 等等于于 矩阵矩阵
40、 中的对应元素中的对应元素 加上加上 的线性组合。假定的线性组合。假定 服从多元正态分布,那么服从多元正态分布,那么 也服从多元正态分布。由(也服从多元正态分布。由(2.19)式和)式和(2.20)式,可以得到)式,可以得到 (2.49)第62页,讲稿共124张,创作于星期二v这里用它的无偏估计这里用它的无偏估计 近似代替近似代替 。利用。利用 的方差估计式的方差估计式 就可以对参数估计就可以对参数估计 进行显著性检验。进行显著性检验。在线性回归模型分析中,除了要对单个参数进行在线性回归模型分析中,除了要对单个参数进行检验,还要检验多个解释变量对被解释变量检验,还要检验多个解释变量对被解释变量
41、Y的的共同影响是否显著。这种检验是多方面的检验,共同影响是否显著。这种检验是多方面的检验,要反复筛选解释变量和反复检验。通常构造统计要反复筛选解释变量和反复检验。通常构造统计量量F进行这些检验。进行这些检验。第63页,讲稿共124张,创作于星期二v为了构造为了构造F统计量,必须证明:统计量,必须证明:1、服从服从 分布。分布。2、与与 的分布互相独立。的分布互相独立。首先证明首先证明 服从服从 分布。由矩阵的秩的性质分布。由矩阵的秩的性质可以知道,如果可以知道,如果M是是等幂矩阵,则是是等幂矩阵,则由由(2.29)式,可以得到式,可以得到 第64页,讲稿共124张,创作于星期二v因此,最小二乘
42、基本等幂矩阵因此,最小二乘基本等幂矩阵M为一个降秩矩阵,为一个降秩矩阵,并且存在一个并且存在一个 维正交矩阵维正交矩阵P,满足,满足第65页,讲稿共124张,创作于星期二v如果把干扰项如果把干扰项 看做利用正交矩阵看做利用正交矩阵P对一个对一个 维随机变量列矩阵维随机变量列矩阵V作线性变换得到的,即作线性变换得到的,即那么,那么,(2.50)第66页,讲稿共124张,创作于星期二v由正交矩阵的性质,由正交矩阵的性质,也是正交矩阵,并且也是正交矩阵,并且P和和中的行向量都是单位向量,两两正交,所以中的行向量都是单位向量,两两正交,所以 与与有相同方差有相同方差 。由于。由于 ,那么,那么 。v由
43、由(2.50)式可以知道,式可以知道,为为 个均值为个均值为0,方差为,方差为 的满足独立正态分布变量的平方和。的满足独立正态分布变量的平方和。因此,因此,服从自由度为服从自由度为 的的 分布,即分布,即所以所以 (2.51)第67页,讲稿共124张,创作于星期二v下面证明下面证明 与与 的分布互相独立。由于的分布互相独立。由于将将(2.25)式和式和(2.16)式代入上式得式代入上式得 (2.52)因此,因此,与与 的分布互相独立。即的分布互相独立。即 与与 的的分布互相独立。分布互相独立。第68页,讲稿共124张,创作于星期二二、参数估计的显著性检验与总体参数的二、参数估计的显著性检验与总
44、体参数的 置信区间置信区间v下面讨论下面讨论 的检验问题。为了得到多种假设检验的检验问题。为了得到多种假设检验和和 的置信区间的一般方法,首先对的置信区间的一般方法,首先对 作线性变作线性变换。换。则则 (2.53)第69页,讲稿共124张,创作于星期二v其中,其中,为为 维列矩阵。维列矩阵。C为为 维常数维常数矩阵。矩阵。r为待检验的参数数目,为待检验的参数数目,k为全部参数的数为全部参数的数目。显然目。显然 。假设。假设C为满秩矩阵,即为满秩矩阵,即 。这样只要改变。这样只要改变C的定义形式,对的定义形式,对 的检验可以的检验可以代表对代表对 中不同参数估计的各种检验。中不同参数估计的各种
45、检验。随机矩阵随机矩阵 的期望和协方差分别为的期望和协方差分别为 第70页,讲稿共124张,创作于星期二v和和 由于由于 是是 的线性变换,的线性变换,服从多元正态分服从多元正态分布,所以布,所以 也服从多元正态分布。并且也服从多元正态分布。并且 的元的元素之间是互相独立的。素之间是互相独立的。第71页,讲稿共124张,创作于星期二v 服从自由度为服从自由度为r 的的 分布,即分布,即 用矩阵形式表示用矩阵形式表示 的的 统计量为统计量为 第72页,讲稿共124张,创作于星期二v即即 令令 及及 由由(2.51)式式,知知 令令 及及 。第73页,讲稿共124张,创作于星期二v因此,可以得到因
46、此,可以得到F统计量统计量第74页,讲稿共124张,创作于星期二v将将(2.30)式代入上式得式代入上式得 (2.54)上式中的上式中的F统计量不但可以用于显著性检验,也可统计量不但可以用于显著性检验,也可以用于推断以用于推断 的置信区间。的置信区间。v如果确定了显著水平如果确定了显著水平 ,那么,那么 (2.55)第75页,讲稿共124张,创作于星期二v 的概率为的概率为 。并且。并且 的的 置信区间为置信区间为 (2.56)对于不同的情形,讨论参数估计对于不同的情形,讨论参数估计 的显著性检验的显著性检验问题和总体回归的参数问题和总体回归的参数 的置信区间问题。的置信区间问题。1、对全部对
47、全部 的显著性检验及全部的显著性检验及全部 的置信区的置信区间问间问 题。题。假设假设 ,即,即 ,则,则 ,第76页,讲稿共124张,创作于星期二v且且(2.54)式简化为式简化为 (2.57)那么,我们检验的问题是那么,我们检验的问题是 ,备选假设为,备选假设为 。在原假设成立下,。在原假设成立下,(2.57)式简化式简化为为 (2.58)第77页,讲稿共124张,创作于星期二v当当 时,接受时,接受 。即认。即认为为 矩阵中的所有元素矩阵中的所有元素 作为一个整作为一个整体不显著,因此必须重新建立模型。当体不显著,因此必须重新建立模型。当 时,中的元素作为一个整体显著,但是并不保证时,中
48、的元素作为一个整体显著,但是并不保证其中每个元素都显著。其中每个元素都显著。v由由(2.56)式,式,的置信区间,即的置信区间,即 的联的联合置合置信区间为信区间为 (2.59)落入该置信区间的概率为落入该置信区间的概率为 。第78页,讲稿共124张,创作于星期二2、对部分、对部分 的显著性检验和部分的显著性检验和部分 的置信区间的置信区间问题。问题。重新排列原解释变量矩阵中各解释变量的顺序,重新排列原解释变量矩阵中各解释变量的顺序,把准备留在模型中的把准备留在模型中的 个解释变量排到新的个解释变量排到新的X矩矩阵中的右边阵中的右边r 列。重新排列的列。重新排列的 矩阵和矩阵和 矩阵中,矩阵中
49、,与与X相应的相应的 和和 排列在下面排列在下面r 行。定义行。定义第79页,讲稿共124张,创作于星期二v因此因此 ,如果定义如果定义 矩阵为矩阵为 矩阵中下面矩阵中下面r 行右面行右面r 列元素构成的子矩阵,那么列元素构成的子矩阵,那么 (2.60)那么,我们检验的问题是那么,我们检验的问题是 ,备选假设,备选假设为为 。第80页,讲稿共124张,创作于星期二v在原假设成立下,则(在原假设成立下,则(2.54)式简化为)式简化为 (2.61)当当 时,接受假设时,接受假设 。当当 时,接受对立假设时,接受对立假设 。由(由(2.56)式)式,的联合置信区间为的联合置信区间为 (2.62)落
50、入上述区间的概率为落入上述区间的概率为 。第81页,讲稿共124张,创作于星期二3、对单个对单个 的显著性检验和单个的显著性检验和单个 的置信区的置信区间问题。间问题。在上述对部分参数的检验问题中,令在上述对部分参数的检验问题中,令 。即。即重新排列重新排列X矩阵,把最重要的解释变量放在新矩阵,把最重要的解释变量放在新X矩矩阵最右边一列,即阵最右边一列,即 。和和 矩阵也重新排列,矩阵也重新排列,把与把与 相应的元素放在最下面一行,即相应的元素放在最下面一行,即 和和 。取。取 ,矩阵的右下矩阵的右下角的元素记为角的元素记为 。构造假设。构造假设 。在原假。在原假设成立下,(设成立下,(2.5