《计量经济学第三章evkg.pptx》由会员分享,可在线阅读,更多相关《计量经济学第三章evkg.pptx(85页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 多元线性回归模型多元线性回归模型多元线性回归模型及其古典假设多元线性回归模型及其古典假设 参数估计参数估计最小二乘估计量的统计特性最小二乘估计量的统计特性统计显著性检验统计显著性检验解释变量的选择解释变量的选择中心化和标准化回归方程中心化和标准化回归方程利用多元线性回归方程进行预测利用多元线性回归方程进行预测第一节第一节 多元线性回归模型多元线性回归模型 及其古典假设及其古典假设 一、多元线性回归一、多元线性回归模型的一般形式模型的一般形式二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 如果被解释变量(因
2、变量)如果被解释变量(因变量)y与与k个解释变量个解释变量(自变量)(自变量)x1,x2,xk 之间有线性相关关系,之间有线性相关关系,那么他们之间的那么他们之间的多元线性总体回归模型多元线性总体回归模型可以表示可以表示为:为:(3.1)其中,其中,0,1,2,k是是k+1个未知参数,即个未知参数,即回回归系数归系数,u是随机误差项。是随机误差项。习惯上:习惯上:把常数项看成为一虚变量的系数,该虚把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取变量的样本观测值始终取1,这样模型中解释变,这样模型中解释变量的数目也为量的数目也为k+1。如如:考虑劳动力预期受教育年数问题。考虑劳动力预期受
3、教育年数问题。edu为劳动力受教育年数,为劳动力受教育年数,sibs为该劳动力家庭中为该劳动力家庭中兄弟姐妹的个数,兄弟姐妹的个数,medu与与fedu分别为母亲与父亲受到分别为母亲与父亲受到教育的年数。教育的年数。如果将如果将n组实际观测数据(组实际观测数据(yi,x1i,x2i,xki),i=1,2,n代入代入i=1,2,n可以得到下列形式:可以得到下列形式:(3.1)也也被被称称为为总总体体回回归归模模型型的的随随机机表表达达形形式式。它它 的的非随机表达式非随机表达式为为:方程表示:方程表示:各各变量变量x值固定时值固定时y的平均响应的平均响应。j也也被被称称为为偏偏回回归归系系数数,
4、表表示示在在其其他他解解释释变变量量保保持持不不变变的的情情况况下下,xj每每变变化化1个个单单位位时时,y的的均均值值E(y)的变化的变化;或或者者说说j给给出出了了xj的的单单位位变变化化对对y均均值值的的“直直接接”或或“净净”(不含其他变量)影响。(不含其他变量)影响。总体回归模型总体回归模型n个随机方程的为:个随机方程的为:将其写为矩阵形式为:将其写为矩阵形式为:其中:其中:(3.3)二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定假设假设1,随机误差项,随机误差项ui的条件期望值为零的条件期望值为零假设假设2,随机误差项,随机误差项ui的条件方差相等的条件方差相等假设假
5、设3,随机误差项,随机误差项ui之间无序列相关之间无序列相关(i,j=1,2,n;ij)假设假设2,假设,假设3,又称,又称Gauss-Markov假设,将起合并假设,将起合并记为记为:Var-Cov(U)=E(UUT)假设假设4 自变量自变量 xl 与随机误差项与随机误差项 ui 独立独立 Cov(ui,xl)=0 (i=1,2,n;l=1,2,k)假设假设5 5 随机误差项随机误差项 ui 服从正态分布服从正态分布 假设假设6 6 解释变量之间不存在显著的线性相关关解释变量之间不存在显著的线性相关关系,也即自变量之间不存在多重共线性,也就是系,也即自变量之间不存在多重共线性,也就是矩阵矩阵
6、X的秩等于参数个数:的秩等于参数个数:rank(X)=k+1 n 第二节第二节 参参 数数 估估 计计 一、样本回归模型与样本回归方程一、样本回归模型与样本回归方程二、参数的最小二乘估计(二、参数的最小二乘估计(OLSOLS)三、参数的极大似然估计(三、参数的极大似然估计(MLML)对于若干个观测(样本)点(对于若干个观测(样本)点(x1,x2,xk;y )自)自变量变量x1,x2,xk和和y之间存在线性相关关系,则:之间存在线性相关关系,则:一、样本回归模型与样本回归方程一、样本回归模型与样本回归方程(3.4)(3.4)式称为式称为样本回归模型样本回归模型,它由两部分组成。,它由两部分组成。
7、其中其中 称为称为系统分量系统分量,是可以被自变量解释的部分;是可以被自变量解释的部分;ei是不能被自变量解释的部分是不能被自变量解释的部分称为称为残差残差或或剩余项剩余项(residuals),可看成是总体回归模型中随机扰动,可看成是总体回归模型中随机扰动项项ui的近似替代。的近似替代。样本回归模型样本回归模型的的矩阵表达矩阵表达:其中:其中:对样本回归模型的系统分量的系数进行估计可得对样本回归模型的系统分量的系数进行估计可得样本回归样本回归方程:方程:其中:其中:其中,其中,是是y的系统分量,即由自变量决定的理论值,的系统分量,即由自变量决定的理论值,分别是分别是 0,1,k的无偏估计量。
8、的无偏估计量。样本回归方程的矩阵形式为:样本回归方程的矩阵形式为:(3.5)二、参数的最小二乘估计二、参数的最小二乘估计根据根据最小二乘原理最小二乘原理:参数估计值应该是下列方程组的解参数估计值应该是下列方程组的解 整理得到关于待估参数估计值的整理得到关于待估参数估计值的正规方程组正规方程组:利用克莱姆法则,解该利用克莱姆法则,解该k+1个方程组成的线性方个方程组成的线性方程组,即可解得程组,即可解得 。(3.6)正规方程组正规方程组(3.6)(3.6)的矩阵形式矩阵形式即即:由于由于Rank(X)=k+1,故故XTX满秩,故有满秩,故有:=(XTX)-1XTY (3.8)上述问题也可以用以下
9、矩阵方法来推导:上述问题也可以用以下矩阵方法来推导:因为因为 都是标量,所以二者相等,故:都是标量,所以二者相等,故:(3.7)化简得:化简得:由于由于Rank(X)=k+1,故故XTX满秩,故有满秩,故有:=(XTX)-1XTY (3.8)例例3-1 搜集某地区有关数据如下,建立消费关于搜集某地区有关数据如下,建立消费关于收入和人口的二元回归方程。收入和人口的二元回归方程。转数据。转数据。一一、线性线性 由由(3.3),(3.8)式知:式知:=(XTX)-1XTY=(XTX)-1XTX+(XTX)-1XTU =+(XTX)-1XTU (3.9)这说明,最小二乘估计量不仅是这说明,最小二乘估计
10、量不仅是的线性组合,的线性组合,也是也是的线性组合。的线性组合。=(XTX)-1XTY第三节第三节 最小二乘估计量的统计特性最小二乘估计量的统计特性在满足基本假设的情况下,其结构参数在满足基本假设的情况下,其结构参数 仍具有仍具有BLUE特性特性(Gauss-Markov定理定理):线性、无偏性、最优性等统计特性线性、无偏性、最优性等统计特性。二、无偏性二、无偏性 对对(3.8)两边期望得:两边期望得:E()=E(XTX)-1XTY =(XTX)-1XTE(Y)=(XTX)-1XTE(X+U)=(XTX)-1(XTX)E()+(XTX)-1XTE(U)=类似的:类似的:E()=E+(XTX)-
11、1XTU=(这里利用了假设:E(XTU)=0)三三、最优性、最优性 考察一下参数估计量考察一下参数估计量 的协方差矩阵:的协方差矩阵:又:j=0,1,2,k (3.12)其中,其中,Cjj是是(XTX)-1主对角线上的元素。主对角线上的元素。所以,矩阵主对角线上的元素是所以,矩阵主对角线上的元素是 的方差,其他的方差,其他元素为元素为 和和 的协方差。于是的协方差。于是 的方差记作:的方差记作:设设*=AY也是也是的一个线性无偏估计量,则:的一个线性无偏估计量,则:由于由于*是无偏估计量,则是无偏估计量,则E(*)=,所以所以:AX=I.因为任意矩阵与其自身的转置矩阵的乘积因为任意矩阵与其自身
12、的转置矩阵的乘积一定是半正定矩阵,所以有:一定是半正定矩阵,所以有:AX=I而:所以:四、随机误差项随机误差项u的方差的方差 的无偏估计的无偏估计 可以证明,随机误差项可以证明,随机误差项u的方差的无偏估计量为:的方差的无偏估计量为:其中,其中,m=k+1,m为变量个数或参数个数,为变量个数或参数个数,k为自变量个数。为自变量个数。它的算术方根称为估计标准误差,记为:它的算术方根称为估计标准误差,记为:其中,其中,Cjj是是(XTX)-1主对角线上的元素。主对角线上的元素。(j=0,1,2,k)此时,估计量此时,估计量 的标准差可以表示为:的标准差可以表示为:五、回归系数的置信区间五、回归系数
13、的置信区间故可得故可得的置信度为的置信区间为:的置信度为的置信区间为:参参数数的的置置信信区区间间用用来来考考察察:在在一一次次抽抽样样中中所所估估计的参数值离参数的真实值有多计的参数值离参数的真实值有多“近近”。由于:由于:其中,其中,t/2为显著性水平为为显著性水平为、自由度为、自由度为n-k-1的临的临界值。界值。如何才能缩小置信区间?如何才能缩小置信区间?增大样本容量增大样本容量n,因为在同样的样本容量下,因为在同样的样本容量下,n越大,越大,t分布表中的临界值越小,同时,增大样分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;本容量,还可使样本参数估计量的标
14、准差减小;提高模型的拟合优度提高模型的拟合优度,因为样本参数估计量的,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。残差平方和应越小。提高样本观测值的分散度提高样本观测值的分散度,一般情况下,样本一般情况下,样本观测值越分散观测值越分散,(XTX)-1的分母的的分母的|XTX|的值越大,的值越大,致使区间缩小。致使区间缩小。样本容量问题样本容量问题 模型参数估计是在样本观测值的支持下完成模型参数估计是在样本观测值的支持下完成的,计量经济学模型说到底是从表现已经发生的的,计量经济学模型说到底是从表现已经发生的经济活动的样本数
15、据中寻找经济活动中内含的规经济活动的样本数据中寻找经济活动中内含的规律性,所以,它对样本数据具有很强的依赖性。律性,所以,它对样本数据具有很强的依赖性。而收集与整理样本数据又是一件困难的工作,于而收集与整理样本数据又是一件困难的工作,于是选择合适的样本容量,既能满足建模的需要,是选择合适的样本容量,既能满足建模的需要,又能减轻收集数据的困难,是一个重要的实际问又能减轻收集数据的困难,是一个重要的实际问题。题。从建模需要来讲,当然是样本容量越大越好,从建模需要来讲,当然是样本容量越大越好,这是显而易见的。这里需要讨论的是满足基本要这是显而易见的。这里需要讨论的是满足基本要求的样本容量和最小样本容
16、量。求的样本容量和最小样本容量。1.最小样本容量最小样本容量 所谓所谓“最小样本容量最小样本容量”,即从最小二乘原理出,即从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。的样本容量的下限。分析知样本容量必须不少于模型中解释变量的分析知样本容量必须不少于模型中解释变量的数目(包括常数项):数目(包括常数项):n k+1这就是最小样本容量。这就是最小样本容量。2.满足基本要求的样本容量满足基本要求的样本容量 虽然当虽然当n k+1时可以得到参数估计量,但除了时可以得到参数估计量,但除了参数估计量质量不好以外,一些建立模型所必
17、须的后参数估计量质量不好以外,一些建立模型所必须的后续工作也无法进行。经验表明,当续工作也无法进行。经验表明,当n-k 8时时t分布较为分布较为稳定,检验才较为有效。所以,一般经验认为,当稳定,检验才较为有效。所以,一般经验认为,当n30或者至少或者至少n3(k+1)时,才能满足模型估计的基本时,才能满足模型估计的基本要求。要求。第四节第四节 统计显著性检验统计显著性检验 一、拟合优度检验一、拟合优度检验 二、二、F F 检验检验 三、三、t t 检验检验 四、相关系数分析四、相关系数分析 一、拟合优度检验一、拟合优度检验 1、决定系数与调整的决定系数、决定系数与调整的决定系数则:则:总离差平
18、方和(总离差平方和(TSS)可以分为可解释(回归)可以分为可解释(回归)平方和(平方和(ESS)与残差平方和()与残差平方和(R SS),简记),简记为:为:TSS=ESS+RSS注意:注意:一个有趣的现象一个有趣的现象 决定系数决定系数该统计量越接近于该统计量越接近于1,模型的拟合优度越高。,模型的拟合优度越高。问题:问题:在应用过程中发现,如果在模型中增加一个在应用过程中发现,如果在模型中增加一个解释变量,解释变量,R2 2往往增大往往增大.这就给人这就给人一个错觉一个错觉:要使得模型拟合得好,:要使得模型拟合得好,只要增加解释变量即可。只要增加解释变量即可。但是,现实情况往往是,由增加解
19、释变量但是,现实情况往往是,由增加解释变量个数引起的个数引起的R2 2的增大与拟合好坏无关,的增大与拟合好坏无关,R2 2需调整。需调整。调整的决定系数调整的决定系数(adjusted coefficient of determination)在样本容量一定的情况下,增加解释变量必定在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以使得自由度减少,所以调整的思路是调整的思路是:将残差平方将残差平方和与总离差平方和分别除以各自的自由度,以剔和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响除变量个数对拟合优度的影响:其中:其中:n-k-1为残差平方和的自由度,为残差平
20、方和的自由度,n-1为总体平为总体平方和的自由度,方和的自由度,称为调整的决定系数或修正拟称为调整的决定系数或修正拟合优度。合优度。注意:注意:1.因为因为R21,所以,所以 。2.当当 时时 ,此时取,此时取?问题?问题:如何检验:如何检验调整的决定系数调整的决定系数 的优劣的优劣我们知道当模型中解释变量数目改变时,我们知道当模型中解释变量数目改变时,TSS/(n-1)保持不变,保持不变,RSS/(n-k-1)则随之而变,而且可能变大则随之而变,而且可能变大也可能变小,因此会引起也可能变小,因此会引起 的减小或增大。据此可的减小或增大。据此可以判断新增添的这个解释变量对被解释变量的影响以判断
21、新增添的这个解释变量对被解释变量的影响程度。当模型中增加一个自变量,如果程度。当模型中增加一个自变量,如果RSS/(n-k-1)变小,因而变小,因而 增大,便可认为这个解释变量对被解增大,便可认为这个解释变量对被解释变量有显著影响,则该解释变量应放进模型中,释变量有显著影响,则该解释变量应放进模型中,否则,应予舍弃。否则,应予舍弃。二、回归方程显著性检验二、回归方程显著性检验(F检验检验)方程的方程的F检验,旨在对模型中被解释变量与解检验,旨在对模型中被解释变量与解释变量之间的线性关系释变量之间的线性关系在总体上在总体上是否显著成立作是否显著成立作出推断。出推断。1、方程显著性的、方程显著性的
22、F检验检验 即检验模型即检验模型 yi=0+1x1i+2x2i+kxki+ui i=1,2,n中的所有参数是否显著。中的所有参数是否显著。可提出如下原假设与备择假设:可提出如下原假设与备择假设:H0:0=1=2=k=0 H1:j不全为不全为0 根据数理统计学中的知识,在原假设根据数理统计学中的知识,在原假设H0成立成立的条件下,统计量的条件下,统计量:服从自由度为服从自由度为(k,n-k-1)1)的的F分布分布.给定显著性水平给定显著性水平,可得到临界值,可得到临界值F(k,n-k-1),由样本求出统计量由样本求出统计量F的数值,通过的数值,通过 F F F(k,n-k-1)或或 F F F(
23、k,n-k-1)来拒绝或接受原假设来拒绝或接受原假设H0,以判定原方程,以判定原方程总体上总体上的的线性关系是否显著成立。线性关系是否显著成立。F统计值的计算表格统计值的计算表格变差来源SSdfMSF统计值回归ESSkESS/k残差RSSn-k-1RSS/(n-k-1)总变差TSSn-1TSS/n-12、关于拟合优度检验与方程显著性检验关系的关于拟合优度检验与方程显著性检验关系的讨论讨论 由由又由:又由:可推出可推出:知:知:或:或:F与与R2同向变化:当同向变化:当R2=0时,时,F=0;R2 越大,越大,F值也越大。值也越大。三、回归系数的显著性检验三、回归系数的显著性检验(t 检验检验)
24、方程的方程的总体线性总体线性关系关系显著显著 每个解释变量每个解释变量对被对被解释变量的影响都是显著的解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验,因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。以决定是否作为解释变量被保留在模型中。这一检验是由对变量的这一检验是由对变量的 t 检验完成的检验完成的。t 检验检验 1 1、设计原假设与备择假设:设计原假设与备择假设:H1:j 0 0 H0:j=0=0 (j=1,2k)2、构造、构造T统计量:统计量:其中其中:3 3、给定显著性水平给定显著性水平,可得到临界值,可得到临界值t/2(n-k-1),由
25、样本求出统计量,由样本求出统计量 t 的数值。的数值。4 4、做出判断:、做出判断:通过通过|t t|t/2(n-k-1)或或|t t|t/2(n-k-1)来拒绝或接受原假设来拒绝或接受原假设H0,从而,从而判定对应的判定对应的解释变量是否应包括在模型中。解释变量是否应包括在模型中。第五节第五节 解释变量的选择解释变量的选择一、选元问题一、选元问题 在实际问题中,影响因变量在实际问题中,影响因变量y的因素(自变量)很多,人的因素(自变量)很多,人们希望从中挑选出影响显著的自变量来建立回归关系式,这们希望从中挑选出影响显著的自变量来建立回归关系式,这就涉及到自变量选择的问题就涉及到自变量选择的问
26、题,即即“选元问题选元问题”。在回归方程中若漏掉对在回归方程中若漏掉对y影响显著的自变量,那么建立的影响显著的自变量,那么建立的回归式用于预测时将会产生较大的偏差。但回归式若包含的变回归式用于预测时将会产生较大的偏差。但回归式若包含的变量太多,且其中有些对量太多,且其中有些对y影响不大,显然这样的回归式不仅使影响不大,显然这样的回归式不仅使用不方便,而且反而会影响预测的精度。因而选择合适的变量用不方便,而且反而会影响预测的精度。因而选择合适的变量用于建立一个用于建立一个最优最优的回归方程是十分重要的问题。的回归方程是十分重要的问题。理论上讲,对自变量的所有可能子集分别构建回归方程,理论上讲,对
27、自变量的所有可能子集分别构建回归方程,对这些回归方程都计算出选元的统计量,通过某一个或某几对这些回归方程都计算出选元的统计量,通过某一个或某几个选元统计量的比较,就可以选出个选元统计量的比较,就可以选出“最优最优”的回归方程。的回归方程。当可供选择的变量不太多时,这种方法是可行的,但当可供选择的变量不太多时,这种方法是可行的,但当自变量个数较多时,要求出所有可能的回归方程是非常困当自变量个数较多时,要求出所有可能的回归方程是非常困难的。难的。从从20世纪世纪60年代开始,关于回归自变量的选择成为数年代开始,关于回归自变量的选择成为数理统计中研究的热点问题,但时至今日也还没有理统计中研究的热点问
28、题,但时至今日也还没有“绝对绝对”最最优的方法。优的方法。下面我们就来了解一下,目前常用的几种方法:下面我们就来了解一下,目前常用的几种方法:“前前进法进法”,“后退法后退法”和和“逐步回归法逐步回归法”。二、前进法二、前进法(Forward)前进法的思想是由少到多,每次增加一个自变量,直至前进法的思想是由少到多,每次增加一个自变量,直至没有可以引入的变量为止。没有可以引入的变量为止。(1)对全部)对全部k个自变量分别建立个自变量分别建立k个一元线性回归方程,并个一元线性回归方程,并分别计算这分别计算这k个方程的个方程的F检验值,记为:检验值,记为:;具体做法是:具体做法是:(2)选其最大的记
29、为:)选其最大的记为:,给定显,给定显著性水平著性水平,若,若 ,则首先将,则首先将xj引入方程,引入方程,并设并设xj就是就是x1 1;(3)分别建立)分别建立y与与(x1,x2),(x1,x3),(x1,xk)的的k-1个二元个二元线性回归方程,对这线性回归方程,对这k-1个方程中的个方程中的x2,x3,xk的回归系数的回归系数分别计算其偏分别计算其偏F检验值,记为:检验值,记为:;(4)选其最大的记为:)选其最大的记为:,若若 ,则将,则将xj引入方程,不妨设为引入方程,不妨设为x2;(5)依上述做法继续下去,直到所有未被引入方程的自变)依上述做法继续下去,直到所有未被引入方程的自变量的
30、偏量的偏F值均小于值均小于F(1,n-k-1)为止。这样就得到最终确定的为止。这样就得到最终确定的方程。方程。三、后退法三、后退法(Backward)后退法与前进法相反,首先用全部后退法与前进法相反,首先用全部k个变量建立一个回个变量建立一个回归方程,然后在这归方程,然后在这k个变量中选择一个最不重要的变量,将个变量中选择一个最不重要的变量,将其删除。把回归系数检验的偏其删除。把回归系数检验的偏F值最小者(即值最小者(即t统计量绝对值统计量绝对值最小者)对应的自变量剔除。最小者)对应的自变量剔除。设对设对k个回归系数进行个回归系数进行F检验,记求得的偏检验,记求得的偏F值为:值为:选其最小者记
31、为:选其最小者记为:给定显著性水平给定显著性水平,若,若 ,则首先将,则首先将xj从回归从回归方程中剔除,为方便不妨设方程中剔除,为方便不妨设xj就是就是xk。下面再对剩下的下面再对剩下的k-1个自变量重新建立回归方程,进行回个自变量重新建立回归方程,进行回归系数的显著性检验归系数的显著性检验,如果又有:如果又有:,则再将则再将xj从回归从回归方程中剔除,再重新建立方程中剔除,再重新建立k-2-2个自变量的个自变量的回归方程。依次下去,直到回归方程中的变量偏回归方程。依次下去,直到回归方程中的变量偏F F检验值检验值均大于给定显著性水平下的临界值,没有可剔除的变量均大于给定显著性水平下的临界值
32、,没有可剔除的变量为止。此时,得到的方程就是最终确定的回归方程。为止。此时,得到的方程就是最终确定的回归方程。前进法的不足之处:前进法的不足之处:一旦引入,就是一旦引入,就是“终身制终身制”。后退法的不足之处:后退法的不足之处:一旦剔除,就是一旦剔除,就是“一棍子打死一棍子打死”。四、逐步回归法四、逐步回归法(Stepwise Regression)逐步回归的逐步回归的基本思想基本思想:有进有出有进有出逐步回归的具体做法:逐步回归的具体做法:将变量将变量一个一个引入一个一个引入,引入变量的条件是偏,引入变量的条件是偏F F检验值检验值或或t t检验值是显著的。即检验值是显著的。即每引入一个变量
33、后,对已经被选每引入一个变量后,对已经被选入的变量要进行逐个检验入的变量要进行逐个检验,当,当原引入的变量原引入的变量由于后面变由于后面变量的引入而量的引入而变得不再显著时变得不再显著时,要将其,要将其剔除剔除。引入一个变量或从回归方程中剔除一个变量,为逐步引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,回归的一步,每一步都要进行偏每一步都要进行偏F F检验或检验或t t检验检验,以确保,以确保每次引入新变量之前回归方程中只包含显著的变量。这每次引入新变量之前回归方程中只包含显著的变量。这个过程个过程反复进行反复进行,直到既无显著的变量引入方程,也无直到既无显著的变量引入方程,也无不
34、显著的变量从回归方程中剔除为止不显著的变量从回归方程中剔除为止。这样就保证了最。这样就保证了最后所得的回归子集是后所得的回归子集是“最优最优”的。的。注意注意:引入和剔除自变量的显著性水平应该有所不同引入和剔除自变量的显著性水平应该有所不同,一般要求,一般要求引入自变量的显著性水平引入自变量的显著性水平1要小于剔除要小于剔除变量的量的显著性水平著性水平2,否否则可能可能产生生“死循死循环”现象。象。前进法,后退法,逐步回归法选择解释变量,计算量都前进法,后退法,逐步回归法选择解释变量,计算量都很大,需要借助相关软件来完成。很大,需要借助相关软件来完成。第六节第六节 中心化和标准化回归方程中心化
35、和标准化回归方程 一、一、中心化回归方程中心化回归方程二、二、标准化回归方程标准化回归方程一、一、中心化回归方程中心化回归方程多元线性回归模型的一般形式为:多元线性回归模型的一般形式为:其经验(样本)回归方程为:其经验(样本)回归方程为:由于该回归方程经过样本中心点由于该回归方程经过样本中心点 ,若将坐标原点移至样本中心,只须作坐标变换若将坐标原点移至样本中心,只须作坐标变换即可得到即可得到中心化的经验回归方程中心化的经验回归方程:显然中心化的经验回归方程显然中心化的经验回归方程没有常数项没有常数项,而其他最,而其他最小二乘回归系数与原方程相同。小二乘回归系数与原方程相同。由此可见,中心化的经
36、验回归方程只需要对由此可见,中心化的经验回归方程只需要对k个个参数进行估计,而一般的回归方程需要对参数进行估计,而一般的回归方程需要对k+1+1个参个参数进行估计,少了一个参数对手工计算会减少计算数进行估计,少了一个参数对手工计算会减少计算量。量。所以,常在所以,常在手工计算手工计算时使用。时使用。得到中心化的经验回归方程后,要想得到一般的回归得到中心化的经验回归方程后,要想得到一般的回归方程,也很简单,因为方程,也很简单,因为 相同,所以只需要相同,所以只需要由:由:求出求出 ,即可将其还原为:,即可将其还原为:二、标准化回归方程二、标准化回归方程 为了消除自变量量纲的不同,常需要先对为了消
37、除自变量量纲的不同,常需要先对样本样本原始数据进行标准化处理。原始数据进行标准化处理。样本原始数据的样本原始数据的标准化处理公式为:标准化处理公式为:、分别为分别为 的样本标准差。的样本标准差。可可以以看看出出,标标准准化化处处理理包包括括了了中中心心化化处处理理。对对标标准准化化的的样样本本数数据据,用用最最小小平平方方法法可可以以得得到到下下列经验回归方程:列经验回归方程:可以证明,标准化回归系数与普通最小二乘可以证明,标准化回归系数与普通最小二乘回归系数之间的关系为:回归系数之间的关系为:注意:注意:普通最小二乘回归系数普通最小二乘回归系数 表示在其他变量不变的情表示在其他变量不变的情况
38、下,自变量况下,自变量 每变化一个绝对单位引起的因变量每变化一个绝对单位引起的因变量的平均变化量;的平均变化量;标准化回归系数标准化回归系数 表示在其他变量不变的情况下,表示在其他变量不变的情况下,自变量自变量 每变化每变化1%1%(相对于其标准差)引起的因变(相对于其标准差)引起的因变量的平均变化的百分数(相对于其标准差)。量的平均变化的百分数(相对于其标准差)。第七节第七节 利用利用多元线性回归方程进行预测多元线性回归方程进行预测 一、点预测一、点预测二、区间预测二、区间预测对于模型对于模型 给定样本以外的解释变量的观测值给定样本以外的解释变量的观测值X0=(1,x10,x20,xk0),
39、可以得被解释变量的预测值:,可以得被解释变量的预测值:一、点预测一、点预测 但严格地说,但严格地说,这只是被解释变量的预测值的估这只是被解释变量的预测值的估计值,而不是预测值。计值,而不是预测值。为了进行科学预测,还需求出预测值的置信区为了进行科学预测,还需求出预测值的置信区间,包括间,包括E(y0)和和y0的的置信区间置信区间。它是个别值它是个别值y0的预测,总体均值的预测,总体均值E(y0)的预测值:的预测值:二、区间预测二、区间预测1 1、个别值、个别值 y0 的区间预测的区间预测 如果已经知道实际的观测值如果已经知道实际的观测值 y0,那么预测误差为:,那么预测误差为:容易证明:容易证
40、明:e0服从正态分布,即:服从正态分布,即:构造构造 t 统统计量计量:取随机项的样本估计值取随机项的样本估计值 ,可得,可得e0的方差的估的方差的估计量。计量。其中:其中:可得给定可得给定(1-(1-)的置信水平下的置信水平下y0的的置信区间置信区间:2 2、平均值、平均值E(y0)的区间预测的区间预测 容易证明容易证明 于是,得到于是,得到(1-(1-)的置信水平下的置信水平下E(y0)的的置信区间置信区间:取随机项的样本估计值取随机项的样本估计值 ,构造如下的,构造如下的t 统计量:统计量:案例:多元线性回归模型的应用案例:多元线性回归模型的应用 我们以中国民航客运量预测为例进行多元线性
41、回我们以中国民航客运量预测为例进行多元线性回归分析归分析。根据预测目标选择中国民航客运量根据预测目标选择中国民航客运量,作为因变量。作为因变量。确定国内生产总值(确定国内生产总值(x1)、实际利用外资额()、实际利用外资额(x2)、民)、民航线里程(航线里程(x3)、来华旅游入境人数()、来华旅游入境人数(x4)为自变量。)为自变量。搜集样本资料如表所示。搜集样本资料如表所示。基本步骤如下:基本步骤如下:第一步确定因变量。第一步确定因变量。第二步确定自变量。第二步确定自变量。第三步第三步 建立模型,进行参数估计。建立模型,进行参数估计。第四步第四步 进行有关统计显著性检验进行有关统计显著性检验
42、 第五步第五步 进行预测进行预测 根据计算机输出结果完成根据计算机输出结果完成第三章复习内容第三章复习内容1.多元线性回归模型的基本假定多元线性回归模型的基本假定假设1,随机误差项 的条件期望值为零假设2,随机误差项 的条件方差相等假设3,随机误差项 之间无序列相关(i,j=1,2,n;ij)假设假设4,自变量,自变量 xl 与随机误差项与随机误差项 ui 独立独立 Cov(ui,xl)=0 (i=1,2,n;l=1,2,k)假设假设5 5,随机误差项,随机误差项 ui 服从正态分布服从正态分布 假设假设6,6,解释变量之间不存在显著的线性相关关解释变量之间不存在显著的线性相关关系,也即自变量
43、之间不存在多重共线性,也就是系,也即自变量之间不存在多重共线性,也就是矩阵矩阵X的秩等于参数个数:的秩等于参数个数:rank(X)=k+1 n 多元线性总体回归模型多元线性总体回归模型:总体回归模型总体回归模型(n个随机方程个随机方程)的矩阵形式为:的矩阵形式为:样本回归模型为:样本回归模型为:样本回归模型的矩阵表达样本回归模型的矩阵表达:Y=XB+E 样本回归方程:样本回归方程:样本回归方程的矩阵形式为:样本回归方程的矩阵形式为:2.模型、方程汇总模型、方程汇总 B=(XTX)-1XTY3.最小二乘估计量最小二乘估计量正规方程组:正规方程组:在满足基本假设的情况下,其结构参数在满足基本假设的
44、情况下,其结构参数B B仍具有仍具有BLUE特性特性(Gauss-Markov定理定理):线性、无偏性、最优性等统计特性。线性、无偏性、最优性等统计特性。1、线性、线性 B=(XTX)-1XTY=(XTX)-1XTX+(XTX)-1XTU =+(XTX)-1XTU 2、无偏性、无偏性 E(B)=E(XTX)-1XTY =(XTX)-1XTE(Y)=(XTX)-1XTE(X+U)=(XTX)-1(XTX)E()+(XTX)-1XTE(U)=3、最优性、最优性 j=0,1,2,k 其中,其中,Cjj是是(XTX)-1主对角线上的元素。主对角线上的元素。4.随机误差项随机误差项u的方差的方差 的无偏估计的无偏估计 此时,估计量此时,估计量bj的标准差可以表示为:的标准差可以表示为:其中,其中,Cjj是是(XTX)-1主对角线上的元素。主对角线上的元素。(j=0,1,2,k)5、回归系数的置信区间、回归系数的置信区间6.6.样本容量问题样本容量问题最小样本容量:最小样本容量:n k+1满足基本要求的样本容量:满足基本要求的样本容量:n30或者至少或者至少n3(k+1)