《第三章-双变量线性回归模型.ppt》由会员分享,可在线阅读,更多相关《第三章-双变量线性回归模型.ppt(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 双变量线性回归模型双变量线性回归模型 (简单线性回归模型)(Simple Linear Regression Model)第一节第一节 双变量线性回归模型的估计双变量线性回归模型的估计第二节第二节 最小二乘估计量的性质最小二乘估计量的性质第三节第三节 拟合优度的测度拟合优度的测度第四节第四节 双变量回归中的区间估计和假设检验双变量回归中的区间估计和假设检验第五节第五节 预测预测第一节第一节 双变量线性回归模型的估计双变量线性回归模型的估计一、一、双变量线性回归模型的概念双变量线性回归模型的概念 我们在上一章给出的需求函数的例子我们在上一章给出的需求函数的例子 Q=+P+u (1)
2、是一个双变量线性回归模型,模型中是一个双变量线性回归模型,模型中只有两个变量,只有两个变量,一个因变量,一个解释变量一个因变量,一个解释变量,由解释变量的变动来解,由解释变量的变动来解释因变量的变动,或者说用因变量对解释变量进行线释因变量的变动,或者说用因变量对解释变量进行线性回归,因而称为性回归,因而称为双变量线性回归模型双变量线性回归模型,亦称,亦称简单线简单线性回归模型性回归模型或是或是一元线性回归模型一元线性回归模型。(3)式称为式称为双变量线性回归模型双变量线性回归模型或或简单线性回归模型简单线性回归模型或或一元线性回归模型一元线性回归模型。其中。其中 和和 为未知的总体参数,为未知
3、的总体参数,也也称为称为回归模型的系数(回归模型的系数(coefficients)。)。下标下标 i是是观测值的序号。观测值的序号。设我们有设我们有Y和和X的的n对观测值数据,则根据对观测值数据,则根据(1)式,变式,变量量Y的每个观测值应由下式决定:的每个观测值应由下式决定:Yi=+Xi+ui,i=1,2,.,n (3)当数据为时间序列时,往往用当数据为时间序列时,往往用下标下标 t来表示来表示观测值的观测值的序号,从而(序号,从而(3)式变成)式变成 Yt=+Xt+ut,t=1,2,.,n (3*)为何要在模型中包括扰动项为何要在模型中包括扰动项u 我我们们在在上上一一章章中中已已初初步步
4、介介绍绍了了为为什什么么要要在在模模型型中中包包括扰动项括扰动项u,下面进一步说明之:,下面进一步说明之:(1)真真正正的的关关系系是是Y=f(X1,X2,),但但X2,X3,相对不重要,用相对不重要,用u代表之。代表之。(2)两两变变量量之之间间的的关关系系可可能能不不是是严严格格线线性性的的,u反反映了与直线的偏差。映了与直线的偏差。(3)经济行为是随机的,我们能够用)经济行为是随机的,我们能够用 Y=+X 解释解释“典型典型”的行为,而用的行为,而用u来表示个体偏差。来表示个体偏差。(4)总总会会出出现现测测量量误误差差,使使得得任任何何精精确确的的关关系系不不可能存在可能存在。(一)双
5、变量线性回归模型的统计假设(一)双变量线性回归模型的统计假设 我们的模型是:Yt=+Xt+ut,t=1,2,.,n 这里 和 为未知总体参数,下一步的任务是应用统计学的方法,由Y和X的观测值(即样本数据)来估计和 的总体值,常用的估计方法就是最小二乘法。为了应用最小二乘法,得到好的估计量,双变量线性回归模型需要满足一些统计假设条件。二、二、普通最小二乘法普通最小二乘法(OLS法法,Ordinary Least squares)(1)E(ut)=0,t=1,2,.,n 即各期扰动项的均值即各期扰动项的均值(期望值期望值)为为0.(2)COV(ui,uj)=E(uiuj)=0 i j 即各期扰动项
6、互不相关即各期扰动项互不相关.(3)Var(ut)=E(ut2)=2 ,t=1,2,.,n 即各期扰动项方差是一常数即各期扰动项方差是一常数.双变量线性回归模型的统计假设双变量线性回归模型的统计假设 (4)解释变量解释变量Xt 为非随机量为非随机量 即即Xt的取值是确定的的取值是确定的,而不是随机的而不是随机的.(5)ut N(0,2),t=1,2,.,n 即各期扰动项服从正态分布即各期扰动项服从正态分布.满足条件满足条件(1)-(4)的线性回归模型称为的线性回归模型称为古典线性古典线性(或是经典线性)回归模型(或是经典线性)回归模型 (CLR模型模型)下面简单讨论一下上述假设条件。下面简单讨
7、论一下上述假设条件。(1)E(ut)=0,t=1,2,n 即各期扰动项的均值(期望值)均为即各期扰动项的均值(期望值)均为0。均均值值为为0的的假假设设反反映映了了这这样样一一个个事事实实:扰扰动动项项被被假假定定为为对对因因变变量量的的那那些些不不能能列列为为模模型型主主要要部部分分的的微微小小影影响响。没没有有理理由由相相信信这这样样一一些些影影响响会会以以一一种种系系统统的的方方式式使使因因变变量量增增加加或或减减小小。因因此此扰扰动动项项均均值值为为0的的假假设设是是合理的。合理的。(2)E(uiuj)=0,ij 即即各各期期扰扰动动项项互互不不相相关关。也也就就是是假假定定它它们们之
8、之间间无无自相关或无序列相关。自相关或无序列相关。实际上该假设等同于:实际上该假设等同于:cov(ui,uj)=0,ij这是因为:这是因为:cov(ui,uj)=Eui-E(ui)uj-E(uj)=E(uiuj)根据假设(根据假设(1)(3)E(ut2)=2,t=1,2,n 即即各各期期扰扰动动项项的的方方差差是是一一常常数数,也也就就是是假假定定各各扰扰动项具有同方差性。动项具有同方差性。实际上该假设等同于:实际上该假设等同于:Var(ut)=2,t=1,2,n这是因为:这是因为:Var(ut)=Eut-E(ut)2=E(ut2)根据假设(根据假设(1)(4)Xt为非随机量为非随机量 即即X
9、t的取值是确定的的取值是确定的,而不是随机的。而不是随机的。事事实实上上,我我们们后后面面证证明明无无偏偏性性和和时时仅仅需需要要解解释释变变量量X与与扰扰动动项项u不不相相关关,但但不不容容易易验验证证之之,因因而而通通常常采采用非用非随机量的假设随机量的假设。(5)ut N(0,2),t=1,2,.,n 即扰动项服从正态分布。即扰动项服从正态分布。(二)普通最小二乘法原理(二)普通最小二乘法原理 通常真实的回归直线是观测不到的。收集样本通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。的目的就是要对这条真实的回归直线做出估计。我们的任务是,我们的任务是,在给
10、定在给定X和和Y的一组观测值的一组观测值(X1,Y1),(X2,Y2),.,(Xn,Yn)的情况下的情况下,求出求出 Yt=+Xt+ut 中中 和和 的估计值的估计值 和和 ,使得拟合的直线使得拟合的直线为最佳。为最佳。直观上看,也就是要求在直观上看,也就是要求在X和和Y的散点图上穿过各观的散点图上穿过各观测点画出一条测点画出一条“最佳最佳”直线,如下图所示。直线,如下图所示。*et *YXXt 图图 1 YtYt残差残差拟合的回归线拟合的回归线拟合方程或估拟合方程或估计方程计方程 拟合的直线拟合的直线 称为称为拟合的回归线拟合的回归线.对于任何数据点对于任何数据点(Xt,Yt),此直线将此直
11、线将Yt 的总值的总值 分分成两部分。成两部分。第一部分是第一部分是Yt的的拟合拟合值或预测值值或预测值 :,t=1,2,n 第二部分,第二部分,et 代表观测点对于回归线的误差,称代表观测点对于回归线的误差,称为为拟合拟合或预测的残差或预测的残差(residuals):):t=1,2,n 即即 t=1,2,n残差残差残差平方和残差平方和 我们的目标是使拟合出来的直线在某种意义上是我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是最佳的,直观地看,也就是要求估计直线尽可能地靠要求估计直线尽可能地靠近各观测点,这意味着应使残差近各观测点,这意味着应使残差总体上总体上尽可能地小。尽
12、可能地小。要做到这一点,就必须用某种方法将每个点相应要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是的残差加在一起,使其达到最小。理想的测度是残差残差平方和平方和,即,即 最小二乘法就是选择一条直线,使其残差平方和最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择达到最小值的方法。即选择 和和 ,使得,使得达到最小值。达到最小值。运用微积分知识,使上式达到最小值的必要条件为:运用微积分知识,使上式达到最小值的必要条件为:即即整理,得:整理,得:此二式称为正规方程。解此二方程,得:此二式称为正规方程。解此二方程,得:.其中:其中:离差离差样本均
13、值样本均值估计量估计量 (5)式和()式和(6)式给出了)式给出了OLS法计算法计算 和和 的的公式,公式,和和 称为线性回归模型称为线性回归模型 Yt=+Xt+ut 的参数的参数 和和 的普通最小二乘估计量的普通最小二乘估计量(OLS estimators)。)。这两个公式可用于任意一组观测值数据,以求这两个公式可用于任意一组观测值数据,以求出截距和斜率的出截距和斜率的OLS估计值(估计值(estimates),估计值估计值是从一组具体观测值用公式计算出的数值。是从一组具体观测值用公式计算出的数值。一般说来,好的估计量所产生的估计值将相当一般说来,好的估计量所产生的估计值将相当接近参数的真值
14、,即好的估计值。可以证明,对接近参数的真值,即好的估计值。可以证明,对于于CLR模型,普通最小二乘估计量正是这样一个模型,普通最小二乘估计量正是这样一个好估计量。好估计量。例例1 设设Y和和X的的5期观测值如下表所示,试估计方程期观测值如下表所示,试估计方程 Yt=+Xt+ut 序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:我们采用列表法计算。计算过程如下:解:我们采用列表法计算。计算过程如下:(三)(三)例子例子序号序号YtXtyt=Yt-xt=Xt-xt ytxt211410-8-2016040021820-4-10401003233
15、01000425403103010053050820160400n=5110150003901000表表3154估计方程为:估计方程为:Eviews创建工作文件,输入数据并进行回归:Create u 1 5data x yls y c xobsobsCUCUYUYUPUPUCUCUYUYUPUPU19851985673.2673.2739.1739.1100100199719974185.644185.645160.35160.3359.1359.119861986798.96798.96899.6899.6107107199819984331.614331.615425.15425.1356
16、.9356.919871987884.4884.41002.21002.2116.4116.4199919994614.914614.9158545854352.3352.3198819881103.981103.981181.41181.4140.5140.5200020004998499862806280355.1355.1198919891210.951210.951375.71375.7163.3163.3200120015309.015309.016859.66859.6357.6357.6199019901278.891278.891510.21510.2165.4165.4200
17、220026029.886029.887702.87702.8354354199119911453.811453.811700.61700.6173.8173.8200320036510.946510.948472.28472.2357.2357.2199219921671.731671.732026.62026.6188.8188.8200420047182.17182.19421.69421.6369.0015369.0015199319932110.812110.812577.42577.4219.2219.2200520057942.887942.881049310493374.888
18、2374.8882199419942851.342851.343496.23496.2274.1274.1200620068696.558696.5511759.511759.5380.4769380.4769199519953537.573537.5742834283320.1320.1200720079997.479997.4713785.813785.8397.6155397.6155199619963919.473919.474838.94838.9348.3348.3例例2 1985-2007中国城镇居民家庭人均生活消费支中国城镇居民家庭人均生活消费支出(出(cu)与人均可支配收入(
19、)与人均可支配收入(yu)Eviews创建工作文件,输入数据并进行回归:创建工作文件,输入数据并进行回归:步骤:步骤:(1)建立)建立workfileCreate a 1985 2007(2)输入和编辑数据)输入和编辑数据data cu yu puGenr cup=cu/pu*100Genr yup=yu/pu*100(3)建立cup与yup的散点图 scat yup cup(4)回归)回归 输入命令:输入命令:Ls cup c yup 查看统计结果,检验模型。查看统计结果,检验模型。对于满足统计假设条件对于满足统计假设条件(1)-(4)的线性回归模型的线性回归模型 Yt=+Xt+ut ,,普
20、通最小二乘估计量,普通最小二乘估计量 (OLS估估计量计量)是是最佳线性无偏估计量(最佳线性无偏估计量(BLUE)。或或 对于古典线性回归模型(对于古典线性回归模型(CLR模型)模型)Yt=+Xt,普通最小二乘估计量(普通最小二乘估计量(OLS估计量)是估计量)是最佳线性无最佳线性无偏估计量偏估计量(BLUE)。)。3.最小二乘估计量的特性:高斯最小二乘估计量的特性:高斯-马尔柯夫定理马尔柯夫定理(Gauss-Markov Theorem)1.无偏性无偏性(已证明)(已证明)2.线性线性 这这表表明明,是是诸诸样样本本观观测测值值Yt的的线线性性函函数数,故故 是是线线性性估估计量。计量。3.
21、最佳性最佳性 即即 的的方方差差在在所所有有线线性性无无偏偏估估计计量量中中是是最最小小的的。有有兴兴趣的同学请参见教科书(趣的同学请参见教科书(P39-40)我们在前面列出的假设条件(我们在前面列出的假设条件(5)表明,)表明,ut N(0,2),t=1,2,.,n 即各期扰动项服从均值为即各期扰动项服从均值为0、方差为、方差为 2的正态分布。的正态分布。考虑到假设条件(考虑到假设条件(4),即),即Xt为非随机量,则由前面结果:为非随机量,则由前面结果:=其中,其中,4.和和 的分布的分布 这这表表明明,是是N个个正正态态分分布布变变量量u1,u2,,un的的线线性函数,因而亦为正态分布变
22、量,即性函数,因而亦为正态分布变量,即 类似的有:类似的有:5.2 的估计的估计 实实际际上上,我我们们一一般般无无法法知知道道扰扰动动项项分分布布的的方方差差 2,而而必必须须根根据据样样本本数数据据估估计计出出 2,然然后后再再来来考考虑虑的的方方差差的的计计算算问问题。题。我们可以用残差来估计扰动项我们可以用残差来估计扰动项 ut 的方差的方差 2:可以证明,可以证明,是是 2的无偏估计量,的无偏估计量,称为误差均方。称为误差均方。为了计算为了计算 ,我们可以直接从残差的定义式,我们可以直接从残差的定义式 得到,也可以通过下面的公式求出:得到,也可以通过下面的公式求出:=34 用最小二乘
23、法得到的回归直线用最小二乘法得到的回归直线 至至少少从从残残差差平平方方和和为为最最小小这这一一意意义义上上来来说说是是所所有有可可能能直直线线中中最最佳佳的的拟拟合合线线。它它是是对对Y和和X之之间间关关系系的的一一种种描描述述,但但该该直直线线是是不不是是Y和和X之之间间关关系系的的一一种种恰恰当当的的描描述述呢呢?如如果果各各观观测测点点紧紧密密地地聚聚集集在在这这条条直直线线的的周周围围,则则表表明明该该直直线线对对Y和和X之之间间关关系系的的描描述述是是好好的的;否否则则,用用直直线线来来描描述述这这两两个个变变量量之之间间的的关关系系就就未未必必恰当,如下图所示:恰当,如下图所示:
24、四、拟合优度的测度四、拟合优度的测度1.拟合优度拟合优度(Goodness of fit)的概念的概念 (a)恰当描述)恰当描述 (b)不恰当描述)不恰当描述 图图2 应应该该指指出出,对对于于任任意意两两个个变变量量的的一一组组观观测测值值,我我们们总总是是可可以以运运用用最最小小二二乘乘法法得得到到一一条条直直线线,问问题题是是该该直直线线能能否否较较好好地地拟拟合合所所给给定定的的观观测测值值,这这就就是是拟拟合合优优度度问问题题。拟拟合合优优度度是是两两变变量量之之间间关关系系强强度度的的测测度度。在在这这里里,指指的的是是两两变变量量间间线线性性关关系系强强度度的的测测度。度。让我们
25、来考察一下让我们来考察一下Y的变差的组成情况。我们的变差的组成情况。我们有有Y的的N个观测值,个观测值,Y的总变差的一个测度是的总变差的一个测度是 ,Y的变差(的变差()中有一部分是可)中有一部分是可以由以由X的取值变动所解释的的取值变动所解释的,还有一部分是不能由还有一部分是不能由X所解释的变差所解释的变差:Y的变差自变量的变差自变量X引起引起Y的变动部分除的变动部分除X以外以外的因素引起的因素引起Y的变动部分的变动部分2.Y的变差(离差)的组成的变差(离差)的组成如下图所示:如下图所示:图图3对于第对于第t个观测值,有:个观测值,有:由于由于对于全部对于全部N项观测值平方求和,有:项观测值
26、平方求和,有:(1)决定系数)决定系数R2 决决定定系系数数是是反反映映估估计计的的回回归归曲曲线线对对观观测测的的数数据据的解释能力或者说是反映两者拟合优度的尺度。的解释能力或者说是反映两者拟合优度的尺度。我我们们将将(8)式式两两端端都都除除以以总总变变差差 ,得:得:3.拟合优度的测度拟合优度的测度用符号表示为:用符号表示为:决决定定系系数数 R2 计计量量了了Y的的总总变变差差中中可可以以归归因因于于X和和Y之之间间关关系系的的比比例例,或或者者说说Y的的变变动动中中可可以以由由X的的变变动动来来解解释释的的比比例例。它它是是回回归归线线对对各各观观测测点点拟拟合合紧紧密密程程度的测度
27、。度的测度。我们有:我们有:R2=1:完全拟合,:完全拟合,R2=0:X与与Y完全不存在线性关系,完全不存在线性关系,=R2的的值值越越高高,拟拟合合得得越越好好。但但什什么么是是高高?回回归归中中使用时间序列数据使用时间序列数据还是横截面数据有不同的标准。还是横截面数据有不同的标准。(4)相关系数相关系数 r 由由 R2 很很容容易易联联想想到到我我们们在在统统计计中中学学过过的的相相关关系系数数。相相关关系系数数r与与决决定定系系数数的的关关系系为为:R2=(r2),相相关关系系数数的的计计算算公公式为:式为:相关系数相关系数r也是拟合优度的测度,其符号取决于也是拟合优度的测度,其符号取决
28、于的符号(即的符号(即 的符号)的符号)我们有:我们有:-1 r 1 r=1:完全正相关:完全正相关 r=-1:完全负相关:完全负相关 r=0:无线性关系无线性关系 相相关关系系数数和和决决定定系系数数的的计计算算很很简简单单,事事实实上上,我我们们只只要要在在原原列列表表计计算算 的的表表格格中中加加上上一一个个计计算算 的的栏栏目目就就行行了了。对于我们前面的例子,列表计算得:对于我们前面的例子,列表计算得:=154,因此:,因此:r =R2 =(0.9938)2 =0.9876 它它表表明明,在在我我们们的的例例子子中中,X与与Y存存在在着着很很强强的的线线性性关关系系,拟拟合合甚甚佳佳
29、,但但由由于于观观测测点点很很少少(5个个),因因而而对对此此结结论论应应持谨慎态度。持谨慎态度。yt26416196415422决定系数决定系数 我们在上一节中已得出,在我们在上一节中已得出,在5条假设条件成立的情况下,有条假设条件成立的情况下,有 与与估估计计量量相相联联系系的的概概率率分分布布的的标标准准差差,通通常常称称为为标标准准误误差差,用用Se表示。表示。的标准误差为:的标准误差为:Se()=如如果果为为已已知知,则则我我们们可可以以立立即即给给出出总总体体参参数数的的95%的的置置信信区间为:区间为:1.96 或或 1.96 Se()2 双变量回归中的区间估计和假设检验双变量回
30、归中的区间估计和假设检验一、一、的置信区间的置信区间 但但实实际际上上,我我们们一一般般无无法法知知道道扰扰动动项项分分布布的的方方差差 2,而而必必须须根根据据样样本本数数据据估估计计出出 2,然然后后再再来来考考虑虑的的置置信信区区间间的的计算问题。计算问题。1.2 的估计的估计我们可以用残差来估计扰动项我们可以用残差来估计扰动项 ut 的方差的方差 2:可以证明,可以证明,是是 2的无偏估计量的无偏估计量.为了计算为了计算 ,我们可以直接从残差的定义式,我们可以直接从残差的定义式 得到,也可以通过下面的公式求出:得到,也可以通过下面的公式求出:=我们重新定义标准误差为:我们重新定义标准误
31、差为:Se()=则检验统计量则检验统计量 t=t(n-2)故故的置信区间为:的置信区间为:即即 2.的置信区间的置信区间 即为即为0.10至至1.06。也就是说,我们有。也就是说,我们有95%的把握说的把握说在在0.10至至1.06之间。之间。1.假设检验的方法假设检验的方法有了上一段的重要结果有了上一段的重要结果 t=t(n-2)我们进行有关总体参数我们进行有关总体参数的假设检验就很容易了。的假设检验就很容易了。假设检验的步骤:假设检验的步骤:(1)建立关于总体的原假设和备择假设)建立关于总体的原假设和备择假设;(2)计算检验统计量,检验原假设(是否出现小概率事件计算检验统计量,检验原假设(
32、是否出现小概率事件);(3)得出关于原假设是否合理的结论)得出关于原假设是否合理的结论.二、假设检验二、假设检验例例1:仍用上一段例中的数据,我们要检验的是:仍用上一段例中的数据,我们要检验的是:原假设:原假设:H0:=0.8 备择假设:备择假设:H1:0.8 这是一个单侧检验的问题。这是一个单侧检验的问题。我们有:我们有:t =-1.05 用用=n-2=10-2=8查查t表,截断左侧表,截断左侧5%面积的面积的 t 临界值临界值 tc =-1.86 t=-1.05 -1.86 故接受原假设故接受原假设H0,即,即=0.8图4 在在假假设设检检验验中中,有有关关是是否否为为0 的的假假设设检检
33、验验特特别别重重要要。如如果果通通过过检检验验,接接受受=0的的原原假假设设,则则表表明明X和和Y没没有有关关系系,即即X对对Y的的变变动动没没有有影影响响。在在这这种种情情况下,就应从模型中剔除况下,就应从模型中剔除X,寻找其他解释变量。,寻找其他解释变量。这类检验称为这类检验称为系数的显著性检验系数的显著性检验。2.系数的显著性检验系数的显著性检验图2-6回归参数的显著性检验回归参数的显著性检验我们已得到原假设我们已得到原假设H0:=0的的t值:值:t=2.76同样可得出原假设同样可得出原假设H0:=0的的t值:值:t=1.381.回归结果提供回归结果提供提供回归分析结果一般有两种方式:提
34、供回归分析结果一般有两种方式:(1)=6.70 +0.58X R2=0.49 (1.38)()(2.76)这里这里6.70和和0.58分别为分别为和和的估计值的估计值 和和 。括号中数字是括号中数字是H0:=0和和H0 :=0 为真时的为真时的 t 值。值。三、回归结果的提供和分析三、回归结果的提供和分析2.回归结果的分析回归结果的分析 结果的分析主要包括以下内容:结果的分析主要包括以下内容:(1)系系数数的的说说明明。首首先先是是说说明明系系数数的的符符号号是是否否正正确确,是是否否符符合合经经济济理理论论和和常常识识。其其次次是是说说明明系系数数的的含含义义,斜斜率率系系数数为为0.58,
35、表表明明X增增加加一一个个单单位位,Y增增加加0.58个个单单位位(如如收收入入X增增加加1元元,消消费费Y增增加加0.58元元);截截距距6.70的的含含义义是是X为为0时时Y的值。截距项有时有经济意义,大多数情况下无。的值。截距项有时有经济意义,大多数情况下无。(2)拟拟合合情情况况。R2不不高高,作作为为时时间间序序列列数数据据,拟拟合合不不理想。理想。(3)系系数数的的显显著著性性。斜斜率率系系数数的的t值值为为2.76,表表明明该该系系数显著异于数显著异于0,X对对Y有影响。有影响。(2)=6.70+0.58X R2 =0.49 (4.86)(0.21)括号中提供的是括号中提供的是
36、和和 的标准误差。的标准误差。1985-2007城镇居民城镇居民的消费和收入模型的消费和收入模型的标准格式的标准格式 我们用我们用OLS法对双变量模型的参数进行了估计之后,法对双变量模型的参数进行了估计之后,如果结果理想(拟合得较好,且系数估计值符合经济理论如果结果理想(拟合得较好,且系数估计值符合经济理论和常识),则可用估计好的模型进行预测。和常识),则可用估计好的模型进行预测。一、预测的概念一、预测的概念 预预测测通通常常指指利利用用现现有有信信息息预预测测未未来来。在在这这里里,预预测测指指的的是是对对自自变变量量的的某某一一具具体体值值X0,来来预预测测与与它它相相对对应应的的因因变变
37、量量值值Y0。它它既既可可以以指指对对未未来来某某个个时时期期因因变变量量值值的的预预测测,也也可可以以是是对对未未包包括括在在横横截截面面样样本本之之中中的的某某个个实实体体数数值值的的预测。预测。通通常常情情况况下下,我我们们要要预预测测的的是是与与样样本本观观测测值值范范围围之之外外的的X值值对对应应的的Y值值,如如观观测测值值为为1985-2000年年,预预测测2001,2002年的居民消费。但年的居民消费。但X0也可以在样本也可以在样本X值的范围内。值的范围内。3 预测预测 要要进进行行预预测测,有有一一个个假假设设前前提提应应当当满满足足。即即对对于于样样本本观观测测值值数数据据成
38、成立立的的X和和Y之之间间的的关关系系对对于于新新的的观测值也成立。即若双变量模型的原设定是:观测值也成立。即若双变量模型的原设定是:Yt =+Xt+ut,t=1,2,n 则要使此模型可以用来作为预测的依据,还应则要使此模型可以用来作为预测的依据,还应 有:有:Y0=+X0+u0 也成立。也成立。二、二、预测的隐含假设预测的隐含假设 我我们们可可以以得得到到两两种种类类型型的的预预测测值值:点点预预测测值值和和区区间间预预测测值值。在在实实践践中中,如如果果没没有有某某种种精精度度指指标标的的话话,点点预预测测值值是是没没有有多多大大用用处处的的。所所以以,我我们们必必须须提提供供点点预预测测
39、值值的预测误差。的预测误差。点预测值由与点预测值由与X0对应的回归值给出,即对应的回归值给出,即 而预测期的实际而预测期的实际Y值由下式给出:值由下式给出:其中其中 u0 是从预测期的扰动项分布中所取的值。是从预测期的扰动项分布中所取的值。三、三、预测的误差预测的误差 由此不难看出,预测误差产生于两个来源:由此不难看出,预测误差产生于两个来源:(1)(1)模型中包含扰动项,点预测值是假定预测期扰模型中包含扰动项,点预测值是假定预测期扰 动项动项 u0 为为 0,而实际上一般不为,而实际上一般不为0 0。(2)(2)点预测值公式中用的是点预测值公式中用的是 和和 的估计值的估计值 和和 ,样本估
40、计值和一般不等于总体参数样本估计值和一般不等于总体参数 和和。预测误差的来源预测误差的来源 预测误差的方差为:预测误差的方差为:其其它它两两项项协协方方差差等等于于0。这这是是因因为为u0独独立立于于u1,u2,un,而而 和和 均均为为 u1,u2,un,的的线线性性函数,因此它们与函数,因此它们与u0的协方差均为的协方差均为0。将将我我们们在在前前面面得得到到的的 和和 的的方方差差及及协协方方差差代代入上式,得:入上式,得:从从e 0 的定义的定义 可可看看出出,e 0为为正正态态变变量量的的线线性性函函数数,因因此此,它它本本身身也也服服从从正正态分布。故态分布。故 N(0,1)由于由
41、于 是未知的,我们用其估计值是未知的,我们用其估计值 代替它,有代替它,有四、四、Y0的置信区间的置信区间 0 X0 X Y图图5 即即15.24至至21.76,也就是说,我们有,也就是说,我们有95%的把握预测的把握预测Y0 将位于将位于15.24至至21.76之间。之间。例例2 且且 现有一对新观测值,现有一对新观测值,试问它们是否可试问它们是否可能来自产生样本数据的同一总体?能来自产生样本数据的同一总体?解:解:问题可化为问题可化为“预测误差是否显著地大?预测误差是否显著地大?”当当 时,时,预测误差预测误差 原假设原假设:H0:备择假设备择假设:H1:检验:检验:若若H0为真,则为真,
42、则 对于对于n-2=8个自由度,查表得个自由度,查表得5%显著性水平检验的显著性水平检验的t临界值为:临界值为:即即结论:结论:由于由于 故故接接受受原原假假设设,即即新新观观测测值值与与样样本本观观测测值值来来自自同一总体。同一总体。上上例例的的意意义义在在于于,我我们们可可以以通通过过从从估估计计模模型型用用的的一一组组观观测测值值中中剔剔除除最最近近期期的的一一两两对对观观测测值值,用用它它们们来来检检验验模模型型的的预预测测功功效效。如如果果我我们们在在上上述述检检验验中中拒拒绝绝了了原原假假设设,则则不不管管是是什什么么原原因因,我我们们都都要要认认真真对对待,回过头来检查模型的设定是否正确。待,回过头来检查模型的设定是否正确。例例3 教材例教材例3.7