《计量经济学-第二章--一元线性回归模型讲课教案.ppt》由会员分享,可在线阅读,更多相关《计量经济学-第二章--一元线性回归模型讲课教案.ppt(96页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机动 目录 上页 下页 返回 结束 计量经济学-第二章-一元线性回归模型 回归分析是经典计量经济学的方法论基础,线回归分析是经典计量经济学的方法论基础,线性回归分析是计量经济建模的起点,一元线性回归性回归分析是计量经济建模的起点,一元线性回归模型是最基本的计量经济学模型。本章将通过介绍模型是最基本的计量经济学模型。本章将通过介绍一元线性回归模型的建模方法,使读者逐步了解计一元线性回归模型的建模方法,使读者逐步了解计量经济学的研究思路、建模步骤和具体方法,并能量经济学的研究思路、建模步骤和具体方法,并能使用这种方法实现对某些经济问题的定量分析。使用这种方法实现对某些经济问题的定量分析。第一节第一
2、节 一元线性回归模型一元线性回归模型 对经济变量相互关系的计量,最基本的方法是回归分析。对经济变量相互关系的计量,最基本的方法是回归分析。一般认为,一般认为,“回归回归”(RegressionRegression)的概念是英国生物学)的概念是英国生物学家高尔顿在家高尔顿在18891889年出版的自然遗传一书提出的。高尔顿年出版的自然遗传一书提出的。高尔顿发现相对于一定身高的父母,子女的平均身高有朝向人类发现相对于一定身高的父母,子女的平均身高有朝向人类平均身高移动或回归的趋势。这就是平均身高移动或回归的趋势。这就是“回归回归”的古典意义。的古典意义。现在我们沿用现在我们沿用“回归回归”这个词,
3、但其意义与回归的古典意这个词,但其意义与回归的古典意义已有很大区别。现代意义的回归是关于一个变量(被解义已有很大区别。现代意义的回归是关于一个变量(被解释变量或应变量)对另一个或多个变量(解释变量)依存释变量或应变量)对另一个或多个变量(解释变量)依存关系的研究,用适当的数学模型去近似地表达或估计变量关系的研究,用适当的数学模型去近似地表达或估计变量之间的影响关系。之间的影响关系。一、总体回归函数一、总体回归函数1、回归线与回归函数、回归线与回归函数 回归分析研究的是总体中解释变量与被解释变量之回归分析研究的是总体中解释变量与被解释变量之间客观存在的协变规律性,在经济现象的研究中,这种间客观存
4、在的协变规律性,在经济现象的研究中,这种协变规律是所研究的经济总体的特征。协变规律是所研究的经济总体的特征。例如(2)某地区农业施肥量对粮食的收成有什么影响?(1)居民可支配收入水平对消费支出有什么影响?在研究这些问题时,在研究这些问题时,收入、施肥量称为收入、施肥量称为解释变量解释变量,也被称为自也被称为自变量、变量、回归元、控制变量、预测变量、协变量回归元、控制变量、预测变量、协变量;一;一般用般用x表示。表示。消费、粮食产量称为消费、粮食产量称为被解释变量被解释变量,或,或因变量、因变量、回归子、响应变量、被预测变量回归子、响应变量、被预测变量,一般用,一般用y表示。表示。在确定在确定经
5、济总经济总体中相关体中相关变变量量x和和y的的协变协变关系关系时时,要面要面临临三个三个问题问题:1.x能否来解能否来解释释y的的变变化?化?x和和y存在怎存在怎样样的关系?的关系?2.2.既然两个既然两个变变量量间间没有一个确没有一个确切的依存关系,应切的依存关系,应如何考虑如何考虑x以外的其他因素对以外的其他因素对y的影响?的影响?3.如何确定是在其他条件不变的情况下描述如何确定是在其他条件不变的情况下描述x和和y的的关系形式?关系形式?由于实际的经济总体通常难以直接观测,这里以由于实际的经济总体通常难以直接观测,这里以一个简化的例子去说明。一个简化的例子去说明。【例【例2.1】假如有一个
6、由假如有一个由100个家庭构成的总体,我们个家庭构成的总体,我们要研究的是每月家庭消费支出要研究的是每月家庭消费支出y与每月家庭可支配收入与每月家庭可支配收入x之之间的关系,并要根据已知的家庭可支配收入水平去预测该间的关系,并要根据已知的家庭可支配收入水平去预测该总体每月家庭消费支出的平均水平。为了研究的方便,把总体每月家庭消费支出的平均水平。为了研究的方便,把总体总体100个家庭按收入水平分为个家庭按收入水平分为10个组,分别考察各组中个组,分别考察各组中每个家庭的消费支出(见表每个家庭的消费支出(见表2.1)7假如已知由假如已知由100100个家庭构成的总体的数个家庭构成的总体的数据据 (
7、单位单位:元元)每每月月家家庭庭可可支支配配收收入入x1000150020002500300035004000450050005500每每月月家家庭庭消消费费支支出出y820962110813291632184220372275246428248881024120113651726187421102388258930389321121126414101786190622252426279031509601210131014321835106823192488285632011259134015201885206623212587290032881324140016151943218523652
8、65030213399144816502037221023982789306414891712207822892487285331421538177821792313251329343274160018412298239825383110170218862316242325671900238724532610201224982487271025892586900115014001650190021502400265029003150由于可支配收入由于可支配收入x与消费支出与消费支出y之间不是确定性的函数关系而是之间不是确定性的函数关系而是不确定性的相关关系,对于可支配收入不确定性的相关关系,对
9、于可支配收入x的每一个固定水平,家的每一个固定水平,家庭消费支出庭消费支出y并不确定。即有:并不确定。即有:在给定家庭可支配收入在给定家庭可支配收入 x 的条件下,家庭消费支出的条件下,家庭消费支出y形成形成一定的条件分布。一定的条件分布。当当x取某一特定值时,取某一特定值时,y 取各种值的概率,称为取各种值的概率,称为y的条件概的条件概率。率。根据根据 y 的条件分布和条件概率,可以计算出的条件分布和条件概率,可以计算出 y 的条件期望的条件期望或称条件均值(最后一行)。或称条件均值(最后一行)。对于对于x的每一个取值的每一个取值xi,都有,都有y的条件期望与之对应,根据表的条件期望与之对应
10、,根据表2.1的数据,可作家庭可支配收入的数据,可作家庭可支配收入x与家庭消费支出与家庭消费支出y的散点图,的散点图,如图如图2.2所示:所示:9消费支出的条件期望与收入关系的图形消费支出的条件期望与收入关系的图形虽然每个家庭的消费支出存在差异虽然每个家庭的消费支出存在差异,但平均来说,家庭消费支但平均来说,家庭消费支出是随家庭可支配收入的递增而递增的。出是随家庭可支配收入的递增而递增的。还可以看出,当取各种值时还可以看出,当取各种值时,y的条件均值的轨迹接近一条直的条件均值的轨迹接近一条直线线,该直线称为该直线称为y对对x的回归直线。(回归曲线)的回归直线。(回归曲线)所研究的总体被解释变量
11、家庭消费支出所研究的总体被解释变量家庭消费支出y的条件均值的条件均值 ,随解释变量随解释变量X的变化而有规律的变化,如果把的变化而有规律的变化,如果把y的条件均值表示为的条件均值表示为x的某种函数,可写为:的某种函数,可写为:如(如(2.2)式那样,将总体被解释变量)式那样,将总体被解释变量y的条件均值表现为解释的条件均值表现为解释变量变量x的函数,这个函数称为总体回归函数(的函数,这个函数称为总体回归函数(Population Regres-sion Function,简记为,简记为PRF)。)。在计量经济学中经常把总体回归函数设定为线性函数,这是因在计量经济学中经常把总体回归函数设定为线性
12、函数,这是因为线性函数是最简单的函数形式,而且线性回归函数中参数的估计为线性函数是最简单的函数形式,而且线性回归函数中参数的估计与检验相对容易,用线性模型去近似地描述总体回归函数,常能获与检验相对容易,用线性模型去近似地描述总体回归函数,常能获得较好的效果。得较好的效果。假如假如y的总体条件均值的总体条件均值 是解释变量是解释变量x的线性函数,可表的线性函数,可表示为:示为:(2.3)其中其中0和和1为两个待定参数。从几何意义上讲,为两个待定参数。从几何意义上讲,0为直线为直线的截距;的截距;1 为直线的斜率(所以称为斜率系数)。为直线的斜率(所以称为斜率系数)。在计量经济学中线性模型的在计量
13、经济学中线性模型的“线性线性“有两种解释:有两种解释:模型就变量而言是线性的模型就变量而言是线性的模型就参数而言是线性的模型就参数而言是线性的 注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线性线性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都可以用类似的方法都可以用类似的方法去估计其参数,都可以归于线性回归。去估计其参数,都可以归于线性回归。例如,模型例如,模型:就属于被解释变量与解释变量之间不为线性关系的情形就属于被解释变量与解释变量之间不为线性关系的情形如果我们令如果我们令:此时非线性函数此时非线性函数就变成线
14、性函数就变成线性函数了。了。PRF描述的是随着解释变量的变化被解释变量的平均变动。描述的是随着解释变量的变化被解释变量的平均变动。但是相对于一定的但是相对于一定的x,y的取值的取值yi并不全在代表平均值轨迹的回归并不全在代表平均值轨迹的回归线上,而是围绕回归线上下波动,也就是说线上,而是围绕回归线上下波动,也就是说y总是分布在条件均总是分布在条件均值的周围。值的周围。若令各个若令各个yi值与条件均值的偏差为值与条件均值的偏差为ui ,显然显然 ui 是个可正可负的是个可正可负的随机变量,称为随机扰动项或随机误差项。即随机变量,称为随机扰动项或随机误差项。即二、随机扰动项二、随机扰动项 u由于由
15、于 后一个式子是总体回归函数的个别值表示方式,或称随后一个式子是总体回归函数的个别值表示方式,或称随机设定形式机设定形式。二者是等价的二者是等价的。显然显然,这里暗含着这里暗含着 的假定条件,说明回归线的假定条件,说明回归线是通过是通过y的条件均值。的条件均值。在总体回归函数中引进随机扰动项,主要有以下几方面的原因:在总体回归函数中引进随机扰动项,主要有以下几方面的原因:1.作为未知影响因素的代表作为未知影响因素的代表。(理论的模糊性理论的模糊性)由于对所研究由于对所研究的经济现象的变动规律的认识并不完备,除了一些已知的主要因的经济现象的变动规律的认识并不完备,除了一些已知的主要因素以外,还有
16、一些未被认识或尚不能肯定的因素影响着被解释素以外,还有一些未被认识或尚不能肯定的因素影响着被解释15变量,因此只得用随机扰动项作为被模型省略掉的未知因素的变量,因此只得用随机扰动项作为被模型省略掉的未知因素的代表。代表。2.作为无法取得数据的已知因素的代表作为无法取得数据的已知因素的代表。有一些因素已经知。有一些因素已经知道对被解释变量有相当的影响,但可能无法获得这些变量的定量道对被解释变量有相当的影响,但可能无法获得这些变量的定量数据。例如,在研究家庭消费支出时,根据有关经济理论的分析数据。例如,在研究家庭消费支出时,根据有关经济理论的分析,认为家庭财产的数量对家庭消费支出也有影响,可是一般
17、情况,认为家庭财产的数量对家庭消费支出也有影响,可是一般情况下取得家庭财产的数据有困难,在计量经济模型中不得不把家庭下取得家庭财产的数据有困难,在计量经济模型中不得不把家庭财产略去,而这类变量的影响被归入到随机扰动项。财产略去,而这类变量的影响被归入到随机扰动项。3.作为众多细小影响因素的综合代表作为众多细小影响因素的综合代表。某些影响因素已经被。某些影响因素已经被认识到,其数据也可能获得,例如影响家庭消费支出的还可能有认识到,其数据也可能获得,例如影响家庭消费支出的还可能有子女人数、性别构成、民族习惯、受教育程度,等等,但是这些子女人数、性别构成、民族习惯、受教育程度,等等,但是这些因素或许
18、对被解释变量家庭消费支出的影响比较小,或许其影响因素或许对被解释变量家庭消费支出的影响比较小,或许其影响不很规则、有的可能不易数量化,从经济计量的成本考虑,通常不很规则、有的可能不易数量化,从经济计量的成本考虑,通常不把它们列入模型,而将它们的联合影响处理为随机扰动项。不把它们列入模型,而将它们的联合影响处理为随机扰动项。4.模型的设定误差模型的设定误差。在设定经济计量模型时,总是力图使模。在设定经济计量模型时,总是力图使模型更为简单明了,当用较少的解释变量就能说明被解释变量的实型更为简单明了,当用较少的解释变量就能说明被解释变量的实质变化时,就不应把更多的解释变量列入模型;当用较简洁的函质变
19、化时,就不应把更多的解释变量列入模型;当用较简洁的函数形式就能说明变量之间的本质联系时,就尽量不采用更为复杂数形式就能说明变量之间的本质联系时,就尽量不采用更为复杂的函数形式。这样,变量和函数形式的设定可能会引起设定误差的函数形式。这样,变量和函数形式的设定可能会引起设定误差,这种设定误差也要由随机扰动项来表示。,这种设定误差也要由随机扰动项来表示。5.变量的观测误差变量的观测误差。对社会经济现象观测所得到的统计数。对社会经济现象观测所得到的统计数据,由于主客观的原因,可能地会有一定的观测误差,这种观据,由于主客观的原因,可能地会有一定的观测误差,这种观测误差只有归入随机扰动项。测误差只有归入
20、随机扰动项。6.经济现象的内在随机性经济现象的内在随机性。即使把所有相关的影响因素全部。即使把所有相关的影响因素全部纳入模型,即使不存在观测误差,但是人所从事的一些经济行为纳入模型,即使不存在观测误差,但是人所从事的一些经济行为还是可能具有不可重复性和随机性。例如,某些涉及人们思想行还是可能具有不可重复性和随机性。例如,某些涉及人们思想行为的变量,很难完全控制,而是具有内在的随机性,这种内在的为的变量,很难完全控制,而是具有内在的随机性,这种内在的随机性也可能影响人们的经济行为。这类变量变内在的随机性的随机性也可能影响人们的经济行为。这类变量变内在的随机性的影响只能归入随机扰动项。影响只能归入
21、随机扰动项。三、样本回归函数三、样本回归函数 对于实际的经济问题,通常总体包含的单位数很对于实际的经济问题,通常总体包含的单位数很多,无法掌握所有单位的数值,总体回归函数实际上多,无法掌握所有单位的数值,总体回归函数实际上是未知的。我们可能做到的只是对应于解释变量是未知的。我们可能做到的只是对应于解释变量x的选的选定水平,对被解释变量定水平,对被解释变量y的某些样本进行观测,然后通的某些样本进行观测,然后通过对样本观测获得的信息去估计总体回归函数。过对样本观测获得的信息去估计总体回归函数。如果变量如果变量x和和y之间存在线性相关关系,对于任意抽之间存在线性相关关系,对于任意抽取的若干个观测(样
22、本)点取的若干个观测(样本)点 有我们称(我们称(2.6)为)为样本回归模型样本回归模型。它由两部分组成:。它由两部分组成:称为称为系统分量(信号)系统分量(信号),是可以被,是可以被x解释的部解释的部分,也称为分,也称为可解释分量可解释分量;是不能被解释的部分,称是不能被解释的部分,称为残差为残差,它是随机项它是随机项的代表值,也称为的代表值,也称为不可解释分不可解释分量(噪声)量(噪声)。将系统分量表示为:称为称为一元线性样本回归方程一元线性样本回归方程(Sample Regression Function,简记为,简记为SRF),简称简称样本回归方程或样本回归方程或样本回样本回归线归线。
23、又因。又因(2.7)式的建立依赖于样本观测值式的建立依赖于样本观测值 ,所以我们又称其为所以我们又称其为经验回归方程经验回归方程。为为样本回归系数样本回归系数。其中,。其中,是估计的回归直线是估计的回归直线在在y轴上的截距,是总体回归系数轴上的截距,是总体回归系数的样本估计值;的样本估计值;是直线的斜率,是总体回归系数是直线的斜率,是总体回归系数的样本估计值。的样本估计值。的实际意义为的实际意义为x每变动一个单位时,每变动一个单位时,y的平均变动的平均变动值,即值,即x的变动对的变动对y变动的边际贡献率。变动的边际贡献率。是实际观测值是实际观测值的拟合值或估计值。的拟合值或估计值。必须明确,样
24、本回归函数与总体回归函数是有区别必须明确,样本回归函数与总体回归函数是有区别的。首先,总体回归函数虽然未知,但它是确定的;而的。首先,总体回归函数虽然未知,但它是确定的;而由于从总体中每次抽样都能获得一个样本,就都可以拟由于从总体中每次抽样都能获得一个样本,就都可以拟合一条样本回归线,所以样本回归线却是随抽样波动而合一条样本回归线,所以样本回归线却是随抽样波动而变化的,可以有许多条。变化的,可以有许多条。仍然以例仍然以例2.1中中100个家庭的可支配收入与消费支出个家庭的可支配收入与消费支出为例,假设从为例,假设从100个家庭的总体中各随机抽取个家庭的总体中各随机抽取10个家庭个家庭进行观测,
25、形成了两个随机样本,如表进行观测,形成了两个随机样本,如表2.2和表和表2.3所示:所示:表2.2 随机样本(一)单位:元可支配可支配收入收入x1000150020002500300035004000450050005500消消费费支支出出y888112113401650217922102398265030213288可支可支配收配收入入x1000150020002500300035004000450050005500消消费费支出支出y888112113401650217922102398265030213288表表2.3 随机样本(二)随机样本(二)单位单位:元元SRF1SRF2 YX *图
26、图2.4 两个随机样本的样本回归函数示意图两个随机样本的样本回归函数示意图 这说明:样本回归线随抽样波动而变化;每次抽样都能获这说明:样本回归线随抽样波动而变化;每次抽样都能获得一个样本,就可以拟合一条样本回归线,得一个样本,就可以拟合一条样本回归线,(SRF不唯一,不唯一,PRF唯一唯一)所以,所以,样样本回本回归线还归线还不是不是总总体回体回归线归线,至多只是未知的,至多只是未知的总总体体回回归线归线的近似反映。其次,的近似反映。其次,总总体回体回归归函数的参数函数的参数 是确定的是确定的常数;而样本回归函数的参数常数;而样本回归函数的参数 是随抽样而变化的随机变是随抽样而变化的随机变量。
27、此外,总体回归函数中的量。此外,总体回归函数中的 是不可直接观测的;而样本回是不可直接观测的;而样本回归函数中的归函数中的 是只要估计出样本回归函数的参数就可以计算是只要估计出样本回归函数的参数就可以计算。表示总体经济活动规律的总体回归函数是未知的,在计量经表示总体经济活动规律的总体回归函数是未知的,在计量经济学中进行回归分析的目的,就是要根据有可能获得的样本回归济学中进行回归分析的目的,就是要根据有可能获得的样本回归函数去对总体回归函数作出合理的估计。然而,样本毕竟不等于函数去对总体回归函数作出合理的估计。然而,样本毕竟不等于总体,样本回归函数总体,样本回归函数SRF几乎总是与总体回归几乎总
28、是与总体回归PRF存在着差异。存在着差异。回归分析的目的是要用样本回归函数去尽可能准确的估计总体回回归分析的目的是要用样本回归函数去尽可能准确的估计总体回归函数。归函数。一、普通最小二乘估计一、普通最小二乘估计 (Ordinary Least SquaresOLS)。)。它建立在一个简单的估计准则最小二乘准则之上。它建立在一个简单的估计准则最小二乘准则之上。最小二乘准则是使全部观测值的残差平方和为最小,即最小二乘准则是使全部观测值的残差平方和为最小,即第二节第二节 一元线性回归模型的参数估计一元线性回归模型的参数估计(2.8)应满足下列方程组:应满足下列方程组:(2.8)整理得正规方程组整理得
29、正规方程组:这两个方程分别相当于这两个方程分别相当于 在后面的证明中经在后面的证明中经常用到这两个条件。常用到这两个条件。26求解得以观测值表现的求解得以观测值表现的OLS估计量:估计量:其中:其中:(2.9)由此式估计出的由此式估计出的 称为参数的最小二乘估计量称为参数的最小二乘估计量(Ordinary Least Square EstimatorsOLSE)。)。例例22 以表以表2-4所示随机样本(一)的数据,用所示随机样本(一)的数据,用OLS法法估计一元线性样本回归方程中的系数。估计一元线性样本回归方程中的系数。由表由表2.4计算知计算知:于是得样本回归函数:于是得样本回归函数:该模
30、型的经济意义是,自发消费(截距项)是该模型的经济意义是,自发消费(截距项)是352元,边际元,边际消费倾向(斜率项)是消费倾向(斜率项)是0.53,即每增加,即每增加1元收入,平均带来元收入,平均带来0.53元的消费增加。元的消费增加。由最小二乘法确定的一元线性回归方程由最小二乘法确定的一元线性回归方程有以下性质:有以下性质:1 1、它是由所选取的样本唯一决定的、它是由所选取的样本唯一决定的。即对于一个给。即对于一个给定的样本,只能估计出一个定的样本,只能估计出一个 ,但对于不同的样,但对于不同的样本,估计出的本,估计出的 和和 可能不相等,即它们是服从某可能不相等,即它们是服从某种分布的随机
31、变量。种分布的随机变量。3、残差、残差与与的大小无关,进而与的大小无关,进而与的大小无关的大小无关,即,即 4、由、由知:知:。说明回归直线。说明回归直线通过样本的平均点通过样本的平均点 。2、残差的均值为零、残差的均值为零,即,即二、拟合优度二、拟合优度 R2 样本回归函数是对样本数据的一种拟合,对于同一组样样本回归函数是对样本数据的一种拟合,对于同一组样本数据来说,用不同的方法估计回归函数的参数,可拟合出本数据来说,用不同的方法估计回归函数的参数,可拟合出不同的回归线。从散点图上看,样本回归线对样本观测值总不同的回归线。从散点图上看,样本回归线对样本观测值总是存在或正或负的偏离。所估计的样
32、本回归线对样本观测数是存在或正或负的偏离。所估计的样本回归线对样本观测数据拟合的优劣程度,称为样本回归线的拟合优度(据拟合的优劣程度,称为样本回归线的拟合优度(Goodness of Fit)。为了评价所建立的样本回归函数对样本观测值的)。为了评价所建立的样本回归函数对样本观测值的拟合程度,需要对模型的拟合优度加以度量。拟合程度,需要对模型的拟合优度加以度量。(一)总变差的分解(一)总变差的分解 在计量经济学中,度量模型拟合优度的样本决定系数建在计量经济学中,度量模型拟合优度的样本决定系数建立在对被解释变量总变差分解的基础之上。回顾样本回归模立在对被解释变量总变差分解的基础之上。回顾样本回归模
33、型型(2.6):上式两边同减去上式两边同减去 可得因变量可得因变量y总离差的分解公式:总离差的分解公式:(2.10)其中,其中,称称为总变为总变差;差;称称为为可被可被x解解释释的的变变差差 称为残差,或不可解释的变差。(称为残差,或不可解释的变差。(2.10)说明总离)说明总离差可以分为可解释离差与残差的和,如图差可以分为可解释离差与残差的和,如图2-4所示:所示:xSRF对(对(2.10)两边平方并对所有观测值加总,可以得到下式:)两边平方并对所有观测值加总,可以得到下式:(2.11)由于由于所以所以(2.12)其中,等号左边称为总离差平方和(其中,等号左边称为总离差平方和(Total S
34、um of Squares)用用TSS表示:表示:(2.13)等号右边第一项称为回归平方和或可解释平方和(等号右边第一项称为回归平方和或可解释平方和(Explaned Sum of Squares),是由样本回归线作出解释的变差,用),是由样本回归线作出解释的变差,用ESS表表示:被解释变量示:被解释变量Y的估计值与其平均值的离差平方和的估计值与其平均值的离差平方和。等号右边第二项称为残差平方和(等号右边第二项称为残差平方和(Residual Sum of Squares),),是回归线未作出解释的变差,用是回归线未作出解释的变差,用RSS表示。表示。(2.14)(2.15)这样,(这样,(2
35、.12)式也可写为)式也可写为(2.16)(二)样本决定系数(二)样本决定系数 回归平方和回归平方和ESS是由回归方程确定的,也就是由自变量是由回归方程确定的,也就是由自变量x变变动引起的,所以又称为可解释平方和;残差平方和动引起的,所以又称为可解释平方和;残差平方和RSS是由是由x之之外的随机项外的随机项u的波动引起的,所以又称不可解释平方和。不难看的波动引起的,所以又称不可解释平方和。不难看出出,差平方和差平方和RSS 在在TSS中所占比例就越小,说明回归效果就越好,中所占比例就越小,说明回归效果就越好,即回归线与样本观测值拟和的越好。为此我们把回归平方和占总即回归线与样本观测值拟和的越好
36、。为此我们把回归平方和占总平方和的比重定义为样本决定系数或可决系数(平方和的比重定义为样本决定系数或可决系数(Coefficient of determination),记为),记为回归平方和(可解释平方和)回归平方和(可解释平方和)ESS在在TSS中所占比例越大,残中所占比例越大,残(2.17)显然,显然,。越接近于越接近于1,表示回归直线与样本观测值,表示回归直线与样本观测值拟合越好,拟合越好,所以可以用所以可以用 来度量回归直线与样本观测值拟合来度量回归直线与样本观测值拟合优度。另一方面,优度。另一方面,若若 大,说明总体回归系数大,说明总体回归系数 为零的可能为零的可能性小,性小,解释
37、变量解释变量 对被解释变量对被解释变量 的解释程度就高,可以推的解释程度就高,可以推测总体线性相关关系显著。反之亦然。测总体线性相关关系显著。反之亦然。例例23 计算例计算例22中建立的回归模型的样本决定系数。中建立的回归模型的样本决定系数。在表在表2.4中已经计算出中已经计算出 样本决定系数为样本决定系数为:这说明,在被解释变量这说明,在被解释变量(消费支出消费支出)样本观测值的总变差中,样本观测值的总变差中,有有98.69%可由所估计的样本回归模型做出了解释。可由所估计的样本回归模型做出了解释。3.是样本观测值的函数,是随抽样而变动的随机变量;是样本观测值的函数,是随抽样而变动的随机变量;
38、样本决定系数样本决定系数 有如下特点:有如下特点:1.是非负的统计量是非负的统计量;2.取值范围:取值范围:;样本决定系数样本决定系数 与样本相关系数与样本相关系数r以及回归方程的斜率以及回归方程的斜率有如下关系:有如下关系:虽然样本决定系数在数值上等于简单线性相关系数的平方,虽然样本决定系数在数值上等于简单线性相关系数的平方,但是应注意二者在概念上是有明显区别的。首先,从意义上讲,但是应注意二者在概念上是有明显区别的。首先,从意义上讲,样本决定系数样本决定系数R2是就估计的回归函数而言,度量回归函数对样是就估计的回归函数而言,度量回归函数对样本观测值的拟合程度,也就是模型中解释变量对被解释变
39、量变本观测值的拟合程度,也就是模型中解释变量对被解释变量变差的解释程度;相关系数差的解释程度;相关系数r2是就两个变量而言,说明两个变量是就两个变量而言,说明两个变量的线性依存程度。其次,样本决定系数度量的是解释变量与被的线性依存程度。其次,样本决定系数度量的是解释变量与被解释变量不对称的因果关系,是在回归分析的基础上说明解释变量不对称的因果关系,是在回归分析的基础上说明x对对y的变差的解释比例,并不说明的变差的解释比例,并不说明x对对y的解释;而相关系数度量的的解释;而相关系数度量的是是x与与y对称的相关关系,不涉及对称的相关关系,不涉及x与与y具体的因果关系。而且,具体的因果关系。而且,样
40、本决定系数具有非负性,取值范围为样本决定系数具有非负性,取值范围为0,1;而相关系数可;而相关系数可正可负,取值范围为正可负,取值范围为-1,1。在计量经济学中,主要研究回归模型的估计、检验和应用,在计量经济学中,主要研究回归模型的估计、检验和应用,所以从实际应用看,样本决定系数比相关系数更有意义。所以从实际应用看,样本决定系数比相关系数更有意义。第三节第三节 OLSE的有限样本性质与古典假定的有限样本性质与古典假定 利用利用OLS得到的得到的 是总体回归模型未知参数是总体回归模型未知参数 的的估计量。回归分析的目的不仅仅是获得估计量。回归分析的目的不仅仅是获得 ,而且要对,而且要对 做出推断
41、,这就需要考虑估计值能否代表总体参数的真做出推断,这就需要考虑估计值能否代表总体参数的真值。这就意味着,研究值。这就意味着,研究 在从总体中抽取不同样本时的在从总体中抽取不同样本时的统计性质非常重要。当样本容量既定时,不同样本得到的统计性质非常重要。当样本容量既定时,不同样本得到的 的估计值并不完全一致,它们的统计性质称为样本估计的估计值并不完全一致,它们的统计性质称为样本估计量的有限样本性质(或小样本性质)。估计量的有限样本性量的有限样本性质(或小样本性质)。估计量的有限样本性质的讨论是参数区间估计和假设检验的基础。良好的有限样质的讨论是参数区间估计和假设检验的基础。良好的有限样本性质包括估
42、计量的无偏性、有效性和正态性等。本性质包括估计量的无偏性、有效性和正态性等。一、一、OLSE的无偏性及其假定的无偏性及其假定,如果参数的估如果参数的估计计量量的期望等于的期望等于总总体参数的真体参数的真实值实值,即即40。的期望值不等于参数的期望值不等于参数的真实值,则称的真实值,则称是有偏的,其偏倚为是有偏的,其偏倚为则称则称是参数是参数的无偏估计量。如果参数估计量的无偏估计量。如果参数估计量 OLSE的无偏性是建立在一组简单假定的基础上。下面首先的无偏性是建立在一组简单假定的基础上。下面首先给出相关假定。给出相关假定。假定假定SLR.1:参数线性假定:参数线性假定总体回归模型可表述为总体回
43、归模型可表述为其中,其中,是我们所关心的未知参数,而是我们所关心的未知参数,而u是无法观测的随机误是无法观测的随机误差项。回归模型对参数而言是线性的,但它对变量而言不要求一差项。回归模型对参数而言是线性的,但它对变量而言不要求一(2.18)定是线性的,因变量定是线性的,因变量y和自变量和自变量x可以是我们所关心的变量的任可以是我们所关心的变量的任意函数。意函数。假定假定SLR.2:随机抽样假定(独立同分布假定):随机抽样假定(独立同分布假定)一个包含一个包含n次次观测观测的的样样本本,是从满足是从满足SLR.1 的总体中随机抽取的,各观测值是独立同分布(的总体中随机抽取的,各观测值是独立同分布
44、(i.i.d)的。我)的。我们可以用随机形式将们可以用随机形式将(2.18)写成写成(2.19)其中,其中,xi、yi都是随机变量,都是随机变量,ui是第是第i次观测的误差或干扰项次观测的误差或干扰项,其中其中包含了第包含了第i次观测中影响次观测中影响yi的不可观测因素。的不可观测因素。这个假定又称为随机回归元假定。有的教材为了简化问题的这个假定又称为随机回归元假定。有的教材为了简化问题的分析,使用更为严格的固定回归元假定。即假定在重复抽样中分析,使用更为严格的固定回归元假定。即假定在重复抽样中,x的值是给定的,但的值是给定的,但y的值是从的值是从y的条件分布(以给定的的条件分布(以给定的x值
45、为值为条件)中随机抽取的。条件)中随机抽取的。1如例如例21中,给定中,给定x2000,y的值从的值从1108,1201,1702共共11个数值中随机产生。实际上,表个数值中随机产生。实际上,表2-2、2-3的样本就是这样产生的。固定回归元假定比随机抽样的样本就是这样产生的。固定回归元假定比随机抽样假定严格,实际上随机回归元假定就完全可以支持假定严格,实际上随机回归元假定就完全可以支持OLSE的无的无偏性。偏性。假定假定SLR.3:随机项零条件均值假定(解释变量外生性假定):随机项零条件均值假定(解释变量外生性假定)给定解释变量的任何值,随机误差项的期望值为零,记为:给定解释变量的任何值,随机
46、误差项的期望值为零,记为:这意味着这意味着u均值独立于均值独立于x。变量之间。变量之间“均值独立均值独立”的概念弱于变的概念弱于变量的量的“独立独立”,但强于变量的,但强于变量的“线性无关线性无关”。该假定实际上隐。该假定实际上隐含了以下两个假定:含了以下两个假定:第一,总体回归函数设定正确。根据重期望定理,第一,总体回归函数设定正确。根据重期望定理,所以假定所以假定SLR.3也写作也写作 统性的影响因素,既没有变量遗漏问题,解释变量也不存在系统统性的影响因素,既没有变量遗漏问题,解释变量也不存在系统的测量误差,模型函数形式设定正确,没有设定偏误。也这是在的测量误差,模型函数形式设定正确,没有
47、设定偏误。也这是在 说明说明u中不包含系中不包含系下,总体回归函数的随机形式下,总体回归函数的随机形式 和均值形式和均值形式 才能是等价的。才能是等价的。第二,解释变量第二,解释变量x外生。在固定回归元的假定下,外生。在固定回归元的假定下,自然成立,但这一假定距离现实较远;在随机回归元假定下,则自然成立,但这一假定距离现实较远;在随机回归元假定下,则要求随机误差项要求随机误差项u的取值均值独立于的取值均值独立于x(意味着(意味着u既与既与x线性无关,线性无关,也与也与x的任意函数无关)。在这一假定下,在承认的任意函数无关)。在这一假定下,在承认x随机性的特点随机性的特点的同时,又假定的同时,又
48、假定u均值独立于均值独立于x,使二者对,使二者对y的影响是可以分离开来的影响是可以分离开来,相对而言更加宽松和符合实际一些。二者实际上都意味着模型,相对而言更加宽松和符合实际一些。二者实际上都意味着模型的解释变量具有外生性。的解释变量具有外生性。均值独立一定意味着线性无关。根据重期望定理,可以证明,均值独立一定意味着线性无关。根据重期望定理,可以证明,在在下,解释变量与随机误差项一定不存在无线性相下,解释变量与随机误差项一定不存在无线性相关,即关,即 值得注意的是,反之并不成立。可见,假定值得注意的是,反之并不成立。可见,假定SLR.3强于假定强于假定“随机误差项与自变量线性无关随机误差项与自
49、变量线性无关”。当回归模型满足假定当回归模型满足假定SLR.1SLR.3时时,可以证明可以证明OLSE满足满足无偏性。证明如下:无偏性。证明如下:由于由于公式(公式(2.9)的斜率估计量)的斜率估计量可以写成可以写成其中其中且有且有(2.20)由(由(2.20)式可知)式可知的线性组合。的线性组合。由于由于,所以,所以(2.21)(2.22)该推导利用了假定该推导利用了假定SLR.3.对对 的证明就相应简单了。由(的证明就相应简单了。由(2.9)知,)知,(2.23)的线性组合。的线性组合。说明说明(2.24)由(由(2.22)式和()式和(2.24)式可知,)式可知,OLSE具有无偏性。具有
50、无偏性。综合上述分析,在假定综合上述分析,在假定SLR.1SLR.3满足时,满足时,OLS估计量估计量 是线性的和无偏的:线性的(是线性的和无偏的:线性的(Linear),即它能表示为回归),即它能表示为回归模型中因变量的一个线性函数;无偏的模型中因变量的一个线性函数;无偏的(Unbiased),即,即 也就是说,也就是说,OLSE在假定在假定SLR.1假定假定SLR.3下是总体参下是总体参数的线性无偏估计量。数的线性无偏估计量。二、二、OLSE的有效性及其假定的有效性及其假定OLSE的有效性是指在所有线性无偏估计量中,最小二乘估的有效性是指在所有线性无偏估计量中,最小二乘估计量计量具有最小方