《(精品)第二章_简单线性回归模型.ppt》由会员分享,可在线阅读,更多相关《(精品)第二章_简单线性回归模型.ppt(147页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 简单线性回归模型简单线性回归模型 本章主要讨论本章主要讨论:回归分析与回归函数回归分析与回归函数 简单线性回归模型参数的估计简单线性回归模型参数的估计 拟合优度的度量拟合优度的度量 回归系数的区间估计和假设检验回归系数的区间估计和假设检验 回归模型预测回归模型预测1第一节第一节 回归分析与回归方程回归分析与回归方程 本节基本内容本节基本内容:回归与相关回归与相关 总体回归函数总体回归函数 随机扰动项随机扰动项 样本回归函数样本回归函数 21.经济变量间的相互关系经济变量间的相互关系确定性的函数关系确定性的函数关系不确定性的统计关系不确定性的统计关系相关关系相关关系(为随机变量为随
2、机变量)没有关系没有关系一、回归与相关一、回归与相关32.2.相关关系相关关系 相关关系的描述相关关系的描述 相关关系最直观的描述方式相关关系最直观的描述方式坐标图(散布图)坐标图(散布图)4相关关系的类型相关关系的类型从涉及的变量数量看从涉及的变量数量看简单相关简单相关多重相关(复相关)多重相关(复相关)从变量相关关系的表现形式看从变量相关关系的表现形式看线性相关线性相关散布图接近一条直线散布图接近一条直线非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线从变量相关关系变化的方向看从变量相关关系变化的方向看正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减负相关负相关变量反方
3、向变化,一增一减变量反方向变化,一增一减5相关程度的度量相关程度的度量相关系数相关系数 总体线性相关系数:总体线性相关系数:其中:其中:X 的方差;的方差;Y的方差的方差 X和和Y的协方差的协方差样本线性相关系数:样本线性相关系数:其中:其中:和和分别是变量分别是变量 和和的样本观测值的样本观测值和和分别是变量分别是变量和和样本值的平均值样本值的平均值6和和都是相互对称的随机变量都是相互对称的随机变量线线性性相关系数只反映变量间的线性相关程度,不相关系数只反映变量间的线性相关程度,不能说明非能说明非线性相关关系线性相关关系样本相关系数是总体相关系数的样本估计值,由样本相关系数是总体相关系数的样
4、本估计值,由于抽样波动,样本相关系数是个随机变量,其统于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验计显著性有待检验相关系数只能反映线性相关程度,不能确定因果相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线关系,不能说明相关关系具体接近哪条直线计量经济学关心:变量间的因果关系及隐藏在随计量经济学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法机性后面的统计规律性,这有赖于回归分析方法使用相关系数时应注意使用相关系数时应注意73.3.回归分析回归分析回归的回归的古典意义古典意义:高尔顿(高尔顿(Francis Galton)遗
5、传学的普遗传学的普遍回归规律:相对于一定身高的父母,子女遍回归规律:相对于一定身高的父母,子女的平均身高有朝向人类平均身高回归的趋势。的平均身高有朝向人类平均身高回归的趋势。8图:对于给定父亲身高的图:对于给定父亲身高的子女身高分布子女身高分布子子女女身身高高父父亲亲身身高高*9回归的回归的现代意义现代意义:一个应变量对若干解释变量一个应变量对若干解释变量 依存关系依存关系 的研究的研究回归的回归的目的(实质)目的(实质):由固定的解释变量去由固定的解释变量去 估计应变量的平均值估计应变量的平均值10回归与相关的联系回归与相关的联系回归分析是在相关分析和因果关系分回归分析是在相关分析和因果关系
6、分析的基础上去研究解释变量对因变析的基础上去研究解释变量对因变量的影响。量的影响。相关分析中相关系数的确定是建立相关分析中相关系数的确定是建立在回归分析基础上的。在回归分析基础上的。11回归与相关的区别回归与相关的区别研究目的:研究目的:回归分析根据解释变量的固定回归分析根据解释变量的固定值去估计和预测因变量的平均值。值去估计和预测因变量的平均值。相关分析用一定的数量指标度量变量之相关分析用一定的数量指标度量变量之间的联系程度。间的联系程度。对变量处理:回归分析在因果关系基础上研对变量处理:回归分析在因果关系基础上研究解释变量对因变量的影响,因变量是随究解释变量对因变量的影响,因变量是随机的,
7、解释变量是固定的。机的,解释变量是固定的。相关分析中,对称地对待任何变量,因相关分析中,对称地对待任何变量,因变量和解释变量都是随机的。变量和解释变量都是随机的。12 的的条件分布条件分布当当解解释释变变量量 取取某某固固定定值值时时(条条件件),的的值值不不确确定定,的的不不同同取取值值形形成成一一定定的的分分布布,即即 的的条条件分布。件分布。的的条件期望条件期望对于对于 的每一个取值,的每一个取值,对对 所形成的分布确所形成的分布确定其期望或均值,称定其期望或均值,称为为 的条件期望或条的条件期望或条件均值件均值注意几个概念注意几个概念13回归线回归线:对于每一个对于每一个 的取值,的取
8、值,都有都有 的条件期望的条件期望与之对应,与之对应,代表这些代表这些 的条件期的条件期望的点的轨迹所形成望的点的轨迹所形成的直线或曲线,称为的直线或曲线,称为回归线。回归线。回归线与回归函数回归线与回归函数14回归函数:回归函数:应变量应变量的条件期望的条件期望随解随解释变量释变量的的变化而有规律的变化,如果把的的变化而有规律的变化,如果把的条件期望的条件期望表现为表现为的某种函数的某种函数这个函数称为回归函数。这个函数称为回归函数。回归函数分为:回归函数分为:总体回归函数和样本回归函数总体回归函数和样本回归函数举例:假如已知举例:假如已知55个专业构成的总体。个专业构成的总体。回归线与回归
9、函数回归线与回归函数15价格价格 X 单位(元)单位(元)5101520253035404550858480757672727168698685827879757472707087868482807776737271需需888786848278787474898888868379807576求求90878276918377量量Y消费者消费者数量数量755657575388868482807876747270例例:55个专业对个专业对计量经济学计量经济学教材的需求教材的需求16*散散布布图图17 1.1.总体回归函数的概念总体回归函数的概念 前前提提:假假如如已已知知所所研研究究的的经经济济现现
10、象象的的总总体体应应变变量量 和和解解释释变变量量 的的每每个个观观测测值值,可可以以计计算算出出总总体体应应变变量量 的的条条件件均均值值,并并将将其其表表现现为为解解释释变量变量 的某种函数的某种函数 这个函数称为总体回归函数(这个函数称为总体回归函数(PRF)二、总体回归函数二、总体回归函数(PRFPRF)18 (1)条件均值条件均值表现形式表现形式 假如假如 的条件均值的条件均值 是解是解 释变量释变量 的线性函数,可表示为:的线性函数,可表示为:(2)个别值个别值表现形式表现形式 对于一定的对于一定的 ,的各个别值的各个别值 分布分布 在在 的周围,若令各个的周围,若令各个 与条件与
11、条件 均值均值 的偏差为的偏差为 ,显然显然 是随机变量是随机变量,则有则有 或或 2.2.总体回归函数的表现形式总体回归函数的表现形式19实实际际的的经经济济研研究究中中总总体体回回归归函函数数通通常常是是未未知知的的,只只能能根根据据经经济济理理论论和和实实践践经经验验去去设设定定。“计计量量”的目的就是寻求的目的就是寻求PRFPRF。总总体体回回归归函函数数中中 与与 的的关关系系可可是是线线性性的的,也也可可是是非线性的。非线性的。对线性回归模型的对线性回归模型的“线性线性”有两种解释有两种解释 就变量而言是线性的就变量而言是线性的 的条件均值是的条件均值是 的线性函数的线性函数 就参
12、数而言是线性的就参数而言是线性的 的条件均值是参数的条件均值是参数 的线性函数的线性函数 3.3.如何理解总体回归函数如何理解总体回归函数20 变量、参数均为变量、参数均为变量、参数均为变量、参数均为“线性线性线性线性”参数参数参数参数“线性线性线性线性”,变量,变量,变量,变量”非线非线非线非线性性性性”变量变量变量变量“线性线性线性线性”,参数,参数,参数,参数”非线非线非线非线性性性性”计量经济学中计量经济学中:线性回归模型主要指就参数而言是线性回归模型主要指就参数而言是“线性线性”,因因为只要对参数而言是线性的为只要对参数而言是线性的,都可以用类似的方法估计都可以用类似的方法估计其参数
13、。其参数。“线性线性”的判断的判断21三、随机扰动项三、随机扰动项概念概念:各个各个值与条件均值值与条件均值的偏差的偏差代表代表排除在模型以外的所有排除在模型以外的所有因素对因素对 的影响。的影响。性质:性质:是期望为是期望为0有一定分布的随机变量有一定分布的随机变量重要性:随机扰动项的性质决定着计量经济方重要性:随机扰动项的性质决定着计量经济方法的选择法的选择22l随着家庭收入的增加,家庭消费支出平均地说也增加,随着家庭收入的增加,家庭消费支出平均地说也增加,但对某一个家庭而言,两者的关系如何?由于受随机但对某一个家庭而言,两者的关系如何?由于受随机因素的影响,对各个家庭而言因素的影响,对各
14、个家庭而言Yi变化趋势并不相同,变化趋势并不相同,消费支出围绕其条件期望上下波动消费支出围绕其条件期望上下波动l此时,此时,Yi可以表示如下可以表示如下:系统性系统性systematic或确定性成份或确定性成份deterministic随机干扰或随机误差随机干扰或随机误差项,非系统性成份项,非系统性成份nonsystematic23n例例2.1中,给定收入水平中,给定收入水平Xi,个别家庭的支出可个别家庭的支出可表示为两部分之和:(表示为两部分之和:(1)该收入水平下所有家)该收入水平下所有家庭的平均消费支出庭的平均消费支出E(Y|Xi),称为系统性或确定称为系统性或确定性部分;(性部分;(2
15、)其他随机或非确定性部分)其他随机或非确定性部分ui。称为总体回归函数(称为总体回归函数(PRF)的随机设定形式。的随机设定形式。表明被解释变量除了受解释变量的系统性影表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。由于方响外,还受其他因素的随机性影响。由于方程中引入了随机项,成为计量经济学模型,程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。因此也称为总体回归模型。24随机误差项的意义随机误差项的意义:干扰项是从模型中省略下来干扰项是从模型中省略下来的而又集体影响着的而又集体影响着Y Y的全部变量的替代物,代表除的全部变量的替代物,代表除解释变量解释变量X
16、 X以外其他所有没有列出的变量对因变量以外其他所有没有列出的变量对因变量的影响。影响的影响。影响Y Y的其他变量要么不知要么知而不确的其他变量要么不知要么知而不确.未知未知影响因素的代表影响因素的代表无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表众多细小影响因素众多细小影响因素的综合代表的综合代表模型的模型的设定误差设定误差变量的变量的观测误差观测误差变变量内在量内在随机性随机性引入随机扰动项的原因引入随机扰动项的原因25四、样本回归函数四、样本回归函数(SRFSRF)总体回归函数实际是未知的,需要通过对样本观总体回归函数实际是未知的,需要通过对样本观测获得的信息去估计总体回
17、归函数。测获得的信息去估计总体回归函数。样本回归线样本回归线:对于对于 的一定值,取得的一定值,取得 的样本观测值,可计算其条的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹称为样本回归线。件均值,样本观测值条件均值的轨迹称为样本回归线。样本回归函数:样本回归函数:如果把应变量如果把应变量的样本条件均值表示为解释变量的样本条件均值表示为解释变量 的某的某种函数,这个函数称为样本回归函数(种函数,这个函数称为样本回归函数(SRF)。26SRF的特点的特点每次抽样都能获得一个样本,就可以拟合一条每次抽样都能获得一个样本,就可以拟合一条样本回样本回归线,所以样本回归线随抽样波动而变归线,所以
18、样本回归线随抽样波动而变化,可以有许多条化,可以有许多条(SRF不唯一)。不唯一)。SRF2SRF127样本回归函数的函数形式应与设定的总体回归样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。函数的函数形式一致。样本回归线还不是总体回归线,至多只是未知样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。总体回归线的近似表现。28样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为其中:其中:是与是与相对应的相对应的的样本条件均值的样本条件均值和和分别是样本回归函数的参数分别是样本回归函数的参数应变量应变量的实际观测值的实际观测值不完全等于样本条件不完全
19、等于样本条件均值,二者之差用均值,二者之差用表示,表示,称为称为剩余项或残差项剩余项或残差项:代表了其他影响代表了其他影响的随机因素的集合的随机因素的集合样本回归函数的表现形式样本回归函数的表现形式29为样本回归函数的随机形式为样本回归函数的随机形式由由于于方方程程中中引引入入了了随随机机项项,成成为为计计量量经经济济模模型型,因因此此也也称称为为样样本本回回归归模模型型(sample regression model)。30对样本回归的理解对样本回归的理解如果能够获得如果能够获得和和的数值,显然的数值,显然:和和是对总体回归函数参数是对总体回归函数参数和和的估计的估计是对总体条件期望是对总体
20、条件期望的估计的估计在概念上类似总体回归函数中的在概念上类似总体回归函数中的,可,可视为对视为对的估计。的估计。PRF:SRF:31样本回归函数与总体回归函数的关系SRFPRFA回归分析的主要目的就是根据回归分析的主要目的就是根据样本回归函数估计总体回归函数样本回归函数估计总体回归函数32回归分析的目的回归分析的目的 用样本回归函数用样本回归函数SRF去估计总体回归函数去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF 总会过总会过 高或过低估计高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使得到的寻求一种规则和方法,使得
21、到的SRF的参数的参数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 。这样的这样的“规则和方法规则和方法”有多种,最常用是最小二乘有多种,最常用是最小二乘法法注意:这里注意:这里PRF可可能永远无法知道能永远无法知道33第二节第二节 简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计 本节基本内容本节基本内容:简单线性回归的基本假定简单线性回归的基本假定 普通最小二乘法普通最小二乘法 OLSOLS回归线的性质回归线的性质 参数估计式的统计性质参数估计式的统计性质34n回归分析的主要目的是要通过样本回归函数回归分析的主要目的是要通过样本回归函数(模型)
22、(模型)SRF尽可能准确地估计总体回归函尽可能准确地估计总体回归函数(模型)数(模型)PRF。n估计方法有多种,其中最广泛使用的是普通估计方法有多种,其中最广泛使用的是普通最小二乘法最小二乘法(ordinaryleastsquares,OLS)。)。n为保证参数估计量具有良好的性质,通常对为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。模型提出若干基本假设。n实际这些假设与所采用的估计方法紧密相关。实际这些假设与所采用的估计方法紧密相关。35 一一、简单线性回归的基本假定简单线性回归的基本假定1.为什么要作基本假定?为什么要作基本假定?模模型型中中有有随随机机扰扰动动,估估计计的的
23、参参数数是是随随机机变变量量,只有对随机扰动的分布作出假定,才能确定只有对随机扰动的分布作出假定,才能确定所估计参数的分布性质,也才可能进行假设所估计参数的分布性质,也才可能进行假设检验和区间估计。检验和区间估计。只有具备一定的假定条件,所作出的估计才只有具备一定的假定条件,所作出的估计才具有较好的统计性质。具有较好的统计性质。36 (1 1)对模型和变量的假定对模型和变量的假定如如假假定定解解释释变变量量是是非非随随机机的的,在在重重复复抽抽样样中中为为固固定定值值,或或者者虽虽然然是是随随机机的的,但但与与扰扰动动项项 是是不不相关的相关的假定解释变量假定解释变量无测量误差无测量误差假定变
24、量和模型无设定误差假定变量和模型无设定误差2、基本假定的内容、基本假定的内容37假定假定1 1:零均值假定零均值假定在在给给定定的的条条件件下下,的的条条件件期期望望为为零零假定假定2 2:同方差假定同方差假定在在给给定定的的条条件件下下,的的条条件件方方差差为为某某个常数个常数(2)对随机扰动项)对随机扰动项 的假定的假定38 假定假定3 3:无自相关假定无自相关假定 随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:随机扰动随机扰动 与解释变量与解释变量 不相关不相关 39 假定假定5 5:对随机扰动项分布的正态性假定对随机扰动项分布的正态性假定即假定即假定服从均值为
25、零、方差为服从均值为零、方差为的正态分布的正态分布(说说明明:正正态态性性假假定定不不影影响响对对参参数数的的点点估估计计,但但对对确确定定所所估估计计参参数数的的分分布布性性质质是是需需要要的的。且且根根据据中中心心极极限限定定理理,当当样样本本容容量量趋趋于于无无穷穷大大时时,的的分分布布会会趋近于正态分布。所以正态性假定是合理的)趋近于正态分布。所以正态性假定是合理的)40 以上假设是德国数学家高斯最以上假设是德国数学家高斯最早提出,称为线性回归模型的早提出,称为线性回归模型的古典古典假定假定或或高斯(高斯(Gauss)假定假定,满足以,满足以上假设的线性回归模型,也称为上假设的线性回归
26、模型,也称为古古典线性回归模型典线性回归模型(Classical Linear Regression Model,CLRM)。)。41的分布性质的分布性质由于由于的分布性质决定了的分布性质决定了的分布性质。的分布性质。对对的一些假定可以等价地表示为对的一些假定可以等价地表示为对的假定:的假定:假定假定6:零均值假定:零均值假定假定假定7:同方差假定:同方差假定假定假定8:无自相关假定:无自相关假定假定假定9:正态性假定:正态性假定42OLS的基本思想的基本思想不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不
27、同的样本回归参数和和和和,所估计的,所估计的,所估计的,所估计的也不同。也不同。也不同。也不同。理想的估计方法应使理想的估计方法应使理想的估计方法应使理想的估计方法应使与与与与的差即剩余的差即剩余的差即剩余的差即剩余越小越好越小越好越小越好越小越好普通最小二乘法给出的判断标准是:残差平方和普通最小二乘法给出的判断标准是:残差平方和最小。最小。因因因因可正可负,所以可以取可正可负,所以可以取可正可负,所以可以取可正可负,所以可以取最小最小最小最小即即即即二、普通最小二乘法二、普通最小二乘法 (rdinary Least Squares)43根据微积分中求极值的原理,根据微积分中求极值的原理,和和
28、应满足:应满足:44正规方程和估计式正规方程和估计式用克莱姆法则求解得观测值形式的用克莱姆法则求解得观测值形式的OLS估计式:估计式:取偏导数为取偏导数为0,得正规方程,得正规方程45克莱姆克莱姆(Cramer)法则法则二元二元线性方程组:线性方程组:解解为:为:46 为表达得更简洁,或者用离差形式为表达得更简洁,或者用离差形式OLS估计式估计式:注意其中:注意其中:用离差表现的用离差表现的OLSOLS估计式估计式注意:注意:在计量经济学中,往往以小写字母表示某在计量经济学中,往往以小写字母表示某变量对其均值的离差。变量对其均值的离差。474849例题:例题:对对计量经济学计量经济学教材需求教
29、材需求18952861038415482205802567930776358744097045106950合合计计501.求样本回归函数求样本回归函数2.求样本可决系数求样本可决系数r23.总体方差总体方差 2未知,未知,给定显著性水平给定显著性水平=0.05,4.对回归参数作区间估计对回归参数作区间估计5.4.进行假设检验进行假设检验51三、OLSOLS回归线的性质回归线的性质用普通最小二乘法拟合的用普通最小二乘法拟合的样本回归线有以下性质:样本回归线有以下性质:1)1)回归线通过样本均值回归线通过样本均值522 2)估计值)估计值 的均值等于实际观测值的均值等于实际观测值 的均值的均值(其
30、中(其中)533 3)剩余项剩余项的均值为零的均值为零544 4)应变量估计值)应变量估计值 与剩余项与剩余项 不相关不相关55 5 5)解释变量)解释变量 与剩余项与剩余项 不相关不相关 56残差和为零残差和为零 自变量与残差不相关自变量与残差不相关 平均数相等平均数相等 拟合值与残差不相关拟合值与残差不相关 回归直线过回归直线过 点点 57四、四、参数估计式的统计性质参数估计式的统计性质n当模型参数估计出后,需考虑参数估计值的当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。说需考察参数估计量的统
31、计性质。一个用于考察总体的估计量,可从如下几一个用于考察总体的估计量,可从如下几个方面考察其优劣性:个方面考察其优劣性:(1)线性,即它是否是另一随机变量的线性)线性,即它是否是另一随机变量的线性函数;函数;(2)无偏性,即它的均值或期望值是否等于)无偏性,即它的均值或期望值是否等于总体的真实值;总体的真实值;58无偏性无偏性(unbiased)n如果如果E()=()=成立,称成立,称为参数为参数的的无偏估计,亦称无偏估计,亦称具有无偏性。具有无偏性。n如果如果E()()不等于不等于,称,称为为的有偏的有偏估计,其偏差估计,其偏差=E()-()-n无偏性的直观意义:无偏性的直观意义:样本估计量
32、的数值在真值周围摆动,样本估计量的数值在真值周围摆动,即无系统误差。即无系统误差。59(3)有效性,即它是否在所有线性无偏估)有效性,即它是否在所有线性无偏估计量中具有最小方差。计量中具有最小方差。拥有这类性质的估计量称为最佳线性无偏拥有这类性质的估计量称为最佳线性无偏估计量(估计量(bestlinerunbiasedestimator,BLUE)。)。高高 斯斯 马马 尔尔 可可 夫夫 定定 理理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。乘估计量是具有最小方差的线性无偏估计量。60有
33、效性(最小方差性)有效性(最小方差性)n设设 和和 *都是都是的无偏估计量,若对任意的的无偏估计量,若对任意的样本容量样本容量n,总有,总有 的方差小于的方差小于 *的方差,则的方差,则称称 是比是比 *有效的估计量。有效的估计量。n 如果在如果在的一切无偏估计量中,的方差达到的一切无偏估计量中,的方差达到最小,则最小,则 称为称为的有效估计量,亦称的有效估计量,亦称 具有具有有效性。有效性。n无偏有效估计量的意义:一个无偏有效估计量无偏有效估计量的意义:一个无偏有效估计量的取值在可能范围内最密集于的取值在可能范围内最密集于附近。它以最附近。它以最大的概率保证估计量的取值在真值大的概率保证估计
34、量的取值在真值附近摆动。附近摆动。61一致性一致性 依概率收敛的定义依概率收敛的定义若存在常数若存在常数 ,有有则称则称 依概率收敛于依概率收敛于 。一致性定义一致性定义 若当若当n时,时,依概率收敛于依概率收敛于,有有 则称则称 为参数为参数的一致估计量,的一致估计量,具有一致性。具有一致性。62一致性意义一致性意义n一个一致估计量比一个方差很大的无偏估计量优一个一致估计量比一个方差很大的无偏估计量优越得多。越得多。n一致性是从概率又是极限性质来定义的,因此只一致性是从概率又是极限性质来定义的,因此只有样本容量较大时才起作用。有样本容量较大时才起作用。n一致性作为评价估计量好坏的一个标准,计
35、量经一致性作为评价估计量好坏的一个标准,计量经济学在无偏性和一致性之间更偏重选择一致性。济学在无偏性和一致性之间更偏重选择一致性。n虽然一个一致估计量可能在平均意义上与真值不虽然一个一致估计量可能在平均意义上与真值不同,但是当样本容量加大时,它会变得与真值十同,但是当样本容量加大时,它会变得与真值十分接近,即有偏的一致估计量具有大样本下的无分接近,即有偏的一致估计量具有大样本下的无偏性。根据大数定律,当偏性。根据大数定律,当增大时,方差会变得增大时,方差会变得很小,即一致估计量具有大样本下的有效性。很小,即一致估计量具有大样本下的有效性。631.1.线性,即估计量线性,即估计量 、是是 的线性
36、组合的线性组合证明:证明:64证:证:易知易知故故:同样地,容易得出同样地,容易得出:2.2.无偏性,即估计量无偏性,即估计量 、的期望等于总体真值的期望等于总体真值 、。65(1)求)求、的方差的方差3.3.有效性(最小方差性),即在所有线性无偏估计量有效性(最小方差性),即在所有线性无偏估计量中,最小二乘估计量中,最小二乘估计量 、具有最小方差。具有最小方差。6667(2)证明最小方差性)证明最小方差性假设假设 是其他估计方法得到的关于是其他估计方法得到的关于 的线性无偏估计量的线性无偏估计量其中,其中,为不全为零的常数为不全为零的常数则容易证明则容易证明 普通最小二乘估计量普通最小二乘估
37、计量(ordinary least Squares Estimators)称为称为最佳线性无偏估计量最佳线性无偏估计量(best linear unbiased estimator,BLUE)同理,可以证明同理,可以证明的的OLS估计估计具有最小方差。具有最小方差。68证明最小方差性证明最小方差性69证明最小方差性证明最小方差性70 随机误差项随机误差项 的方差的方差 2的估计的估计在估计的参数在估计的参数和和的方差表达式中,的方差表达式中,都含有随机扰动项都含有随机扰动项的方差的方差。又称又称总体方差。总体方差。由于由于实际上是未知的,因此实际上是未知的,因此和和的方差实际上无法计算,这就需
38、要对其进的方差实际上无法计算,这就需要对其进行估计。行估计。71由于随机项由于随机项不可观测,只能从不可观测,只能从的估计的估计残差残差出发,对总体方差进行估计。出发,对总体方差进行估计。可以证明,可以证明,2的最小二乘估计量为的最小二乘估计量为它是关于它是关于 2的无偏估计量。其中的无偏估计量。其中 为自由度,所谓为自由度,所谓自由度是指统计量中可自由变化的样本观测值的个数,自由度是指统计量中可自由变化的样本观测值的个数,等于样本观测值个数减去对观测值的约束个数。等于样本观测值个数减去对观测值的约束个数。上式中样本观测值个数上式中样本观测值个数 ,约束条件有两个约束条件有两个:所以自由度为所
39、以自由度为 。72在随机误差项在随机误差项的方差的方差估计出后,参数估计出后,参数和和的方差和标准差的估计量分别是:的方差和标准差的估计量分别是:73OLS估计式小结估计式小结由由OLS估计式可以看出估计式可以看出由可观测的样本值由可观测的样本值和和唯一表示。唯一表示。因存在抽样波动,因存在抽样波动,OLS估计估计是随机变量是随机变量OLS估计式是点估计式估计式是点估计式74第三节第三节 拟合优度的度量拟合优度的度量本节基本内容本节基本内容:什么是拟合优度什么是拟合优度 总变差的分解总变差的分解 可决系数可决系数75 一、什么是拟合优度一、什么是拟合优度?概念概念:样本回归线是对样本数据样本回
40、归线是对样本数据的一种拟合,不同估计方的一种拟合,不同估计方法可拟合出不同的回归线,法可拟合出不同的回归线,拟合的回归线与样本观测拟合的回归线与样本观测值总有偏离。值总有偏离。样本回归线对样本观测数据拟合的优劣程度样本回归线对样本观测数据拟合的优劣程度拟合优度拟合优度拟合优度的度量建立在对总变差分解的基础上拟合优度的度量建立在对总变差分解的基础上76二、总变差的分解二、总变差的分解分析分析Y Y 的观测值、估计值与平均值的关系的观测值、估计值与平均值的关系 (离差离差)(被解释部分)(未被解释部分)(被解释部分)(未被解释部分)将上式两边平方加总,可证得将上式两边平方加总,可证得 (TSSTS
41、S)(ESSESS)(RSSRSS)77残差平方和(残差平方和(Residual Sum of Residual Sum of SquaresSquares)总离差平方和(总离差平方和(Total Sum of SquaresTotal Sum of Squares)Y的观测值围绕其均值的总离差的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力另一部分则来自随机势力(RSS)。回归平方和(回归平方和(Explained Sum of SquaresExplained Sum of Squa
42、res)TSS=ESS+RSS78变差分解的图示变差分解的图示总离差:总离差:来自残差来自残差来自回归来自回归079 三、可决系数三、可决系数以以TSS同除总变差等式两边:同除总变差等式两边:或或定义:回归平方和(解释了的变差定义:回归平方和(解释了的变差ESS)在总变在总变差(差(TSS)中所占的比重称为可决系数,用中所占的比重称为可决系数,用表示表示:或或80作用:可决系数越大,说明在总变差中由模型作出作用:可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,了解释的部分占的比重越大,X对对Y的解释能力的解释能力越强,模型拟合优度越好。反之可决系数小,说越强,模型拟合优度越好。
43、反之可决系数小,说明模型对样本观测值的拟合程度越差。明模型对样本观测值的拟合程度越差。特点:特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数是随抽样而变随抽样波动,样本可决系数是随抽样而变动的随机变量,动的随机变量,对可决系数的统计可靠性也应进对可决系数的统计可靠性也应进行检验行检验可决系数的作用和特点可决系数的作用和特点81可决系数与相关系数的关系可决系数与相关系数的关系(1)联系)联系数值上,可决系数等于应变量与解释变量之间简数值上,可决系数等于应变量与解释变量之间简单相关系数的平方单相关系数的平方:82可决系数与相关系数的关系可决系数与相关系数的关系可决系数可决系数相关
44、系数相关系数就模型而言就模型而言就就两个变量而言两个变量而言说明解释变量对应变量说明解释变量对应变量的解释程度的解释程度度量两个变量线性依存度量两个变量线性依存程度。程度。度量不对称的因果关系度量不对称的因果关系度量不含因果关系的对度量不含因果关系的对称相关关系称相关关系取值:取值:0,1取值:取值:1,1(2)区别)区别83运用可决系数时应注意运用可决系数时应注意 可决系数只是说明列入模型的所有解释变量对可决系数只是说明列入模型的所有解释变量对 因变量的联合的影响程度,不说明模型中每个因变量的联合的影响程度,不说明模型中每个 解释变量的影响程度(在多元中)解释变量的影响程度(在多元中)回归的
45、主要目的如果是经济结构分析,不能只回归的主要目的如果是经济结构分析,不能只追求高的可决系数,而是要得到总体回归系数追求高的可决系数,而是要得到总体回归系数可信的估计量,可决系数高并不表示每个回归可信的估计量,可决系数高并不表示每个回归系数都可信任系数都可信任如果建模的目的只是为了预测因变量值,不是如果建模的目的只是为了预测因变量值,不是为了正确估计回归系数,一般可考虑有较高的为了正确估计回归系数,一般可考虑有较高的可决系数可决系数84第四节第四节 回归系数的区间估计和假设检验回归系数的区间估计和假设检验本节基本内容:本节基本内容:OLSOLS估计的分布性质估计的分布性质 回归系数的区间估计回归
46、系数的区间估计 回归系数的假设检验回归系数的假设检验85问题的提出问题的提出 为什么要作区间估计?为什么要作区间估计?OLSOLS估计只是通过样本得到的点估计,不一定等于估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并真实参数,还需要找到真实参数的可能范围,并说明其可靠性说明其可靠性为什么要作假设检验?为什么要作假设检验?OLS估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果?还有待统计检验。是否抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值区间估计和假设检验都是建立在确定参数估计值概率分布
47、性质的基础上。概率分布性质的基础上。86 一、一、OLSOLS估计的分布性质估计的分布性质基本思想基本思想是是随随机机变变量量,必必须须确确定定其其分分布布性性质质才才可可能能进行区间估计和假设检验进行区间估计和假设检验是是服服从从正正态态分分布布的的随随机机变变量量,决决定定了了也也是是服服从从正正态态分分布布的的随随机机变变量量,是是的的线线性性函函数数,决决定定了了也也是是服服从从正正态态分分布布的的随随机机变变量量,只要确定只要确定的期望和方差,即可确定的期望和方差,即可确定的分布性质的分布性质87的期望:的期望:(无偏估计)无偏估计)的方差和标准误差的方差和标准误差(标准误差是方差的
48、算术平方根标准误差是方差的算术平方根)注意:注意:以上各式中以上各式中 未知,其余均是样本观测值未知,其余均是样本观测值 的期望和方差的期望和方差88 可以证明(见教材可以证明(见教材P61附录附录2.2)的无偏估计为的无偏估计为 (n-2为自由度为自由度,即可自由变化的样本观测值个数即可自由变化的样本观测值个数)对随机扰动项方差对随机扰动项方差的估计的估计89在在 已知时已知时将将作标准化变换作标准化变换90(1)当样本为大样本时,用估计的参数标准误差对)当样本为大样本时,用估计的参数标准误差对作标准化变换,所得作标准化变换,所得Z 统计量仍可视为标准正统计量仍可视为标准正态变量(根据中心极
49、限定理)态变量(根据中心极限定理)(2)当样本为小样本时,可用)当样本为小样本时,可用代替代替,去估去估计参数的标准误差,用估计的参数标准误差对计参数的标准误差,用估计的参数标准误差对作标准化变换,所得的作标准化变换,所得的t统计量不再服从正态分布统计量不再服从正态分布(这时分母也是随机变量),而是服从(这时分母也是随机变量),而是服从t分布:分布:当当未知时未知时91 区间估计:区间估计:前面,我们讨论了参数的点估计,只要给定样本前面,我们讨论了参数的点估计,只要给定样本观察值,就能算出参数的估计值。但用点估计的方法观察值,就能算出参数的估计值。但用点估计的方法得到的估计值不一定是参数的真值
50、,总存在一些偏差,得到的估计值不一定是参数的真值,总存在一些偏差,这就要求我们给出误差范围。由点估计得到的参数估这就要求我们给出误差范围。由点估计得到的参数估计值没有给出它与真值之间的误差范围的大小以及估计值没有给出它与真值之间的误差范围的大小以及估计的可靠程度,在实际应用中往往还需要知道参数的计的可靠程度,在实际应用中往往还需要知道参数的估计值落在其真值附近的一个范围。为此我们要求由估计值落在其真值附近的一个范围。为此我们要求由样本构造一个以较大的概率包含真实参数的一个范围样本构造一个以较大的概率包含真实参数的一个范围或区间,这种带有概率的区间称为置信区间,通过构或区间,这种带有概率的区间称