二、简单回归模型.ppt

上传人:hyn****60 文档编号:70987256 上传时间:2023-01-31 格式:PPT 页数:62 大小:879KB
返回 下载 相关 举报
二、简单回归模型.ppt_第1页
第1页 / 共62页
二、简单回归模型.ppt_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《二、简单回归模型.ppt》由会员分享,可在线阅读,更多相关《二、简单回归模型.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、简单回归模型简单回归模型一、简单回归模型定义一、简单回归模型定义X:自变量、解释变量、控制变量、预测变量、回归元Y:因变量、被解释变量、响应变量、被预测变量、回归子:误差项或扰动项:斜率参数:截距参数如何刻画其他条件不变如何刻画其他条件不变例2.1大豆产出和施肥量的关系例2.2一个简单的工资方程关于简单模型的两个重要假定关于简单模型的两个重要假定E(u|x)=E(u)=0上述2个例子是否满足这样的假定总回归函数(PRF,populationregressionfunction)前提:前提:假如已知所研究的经济现象的总体的被解假如已知所研究的经济现象的总体的被解释变量释变量Y和解释变量和解释变量

2、X的每个观测值的每个观测值(通常这是不可能的!)(通常这是不可能的!)那么,可以计算出总体被解释变量那么,可以计算出总体被解释变量Y的条件期望的条件期望,并将其表现为解释变量,并将其表现为解释变量X的某种函数的某种函数这个函数称为总体回归函数(这个函数称为总体回归函数(PRF)总体回归函数表现的是该总体活动的某种规律性总体回归函数表现的是该总体活动的某种规律性 条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望 是解是解 释变量释变量X的线性函数,可表示为:的线性函数,可表示为:个别值个别值表现形式(随机设定形式)表现形式(随机设定形式)对于一定的对于一定的 ,Y的各个别值的各个别

3、值 分布分布 在在 的周围,若令各个的周围,若令各个 与条件与条件 期望期望 的偏差为的偏差为 ,显然,显然 是个随机变量是个随机变量 则有则有 总体回归函数的表现形式总体回归函数的表现形式PRF如何理解总体回归函数如何理解总体回归函数实实际际的的经经济济研研究究中中总总体体回回归归函函数数(总总体体运运动动的的规规律律性)性)通常是通常是未知未知的,只能根据经济理论和实践经验去的,只能根据经济理论和实践经验去设定设定。“计量计量”的根本目的就是要寻求总体回归函数。我们所设的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的形式。定的计量模型实际就是在设定总体回归

4、函数的形式。总总体体回回归归函函数数中中Y Y与与X X的的关关系系可可以以是是线线性性的的,也也可可以以是是非线性非线性的。的。计量经济学中计量经济学中计量经济学中计量经济学中,线性回归模型的线性回归模型的线性回归模型的线性回归模型的“线性线性线性线性”有两种解释有两种解释有两种解释有两种解释:就变量而言就变量而言就变量而言就变量而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是X X X X的线性函数的线性函数的线性函数的线性函数 就参数而言就参数而言就参数而言就参数而言是线性的是线性的是线性的是线性的 Y

5、Y Y Y的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的线性的线性的线性的线性函数函数函数函数78例如:例如:例如:例如:对变量、参数均为对变量、参数均为对变量、参数均为对变量、参数均为“线性线性线性线性”对参数对参数对参数对参数“线性线性线性线性”,对变量,对变量,对变量,对变量”非线性非线性非线性非线性”对变量对变量对变量对变量“线性线性线性线性”,对参数,对参数,对参数,对参数”非线性非线性非线性非线性”注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线性线性”的的,因为只要对参

6、数而言是线性的因为只要对参数而言是线性的,都可以用都可以用类似的方法去估计其参数,可以归于线性回归。类似的方法去估计其参数,可以归于线性回归。“线性线性”的判断的判断几种常用的线性形式几种常用的线性形式(3 3)随机扰动项)随机扰动项u概念概念在总体回归函数中,各在总体回归函数中,各个个的值与其条件期望的值与其条件期望的偏差的偏差有很有很重要的意义,它代表排除在重要的意义,它代表排除在模型以外的所有因素对模型以外的所有因素对Y的的影响。影响。性质性质是其期望为是其期望为0有一定分布的随机变量有一定分布的随机变量重重要要性性:随随机机扰扰动动项项的的性性质质决决定定着着计计量量经经济济方方法法的

7、选择的选择10引入随机扰动项引入随机扰动项的原因的原因是是未知未知影响因素影响因素的代表的代表(理论的模糊性理论的模糊性)是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表(数据欠缺数据欠缺)是是众多细小影响因素众多细小影响因素的综合代表的综合代表(非系统性影响非系统性影响)模型可能存在模型可能存在设定误差设定误差(变量、函数形式的设定)变量、函数形式的设定)模型中变量可能存在模型中变量可能存在观测误差观测误差(含不适当的替代变量含不适当的替代变量)变量可能有内在变量可能有内在随机性随机性(人类行为的内在随机性人类行为的内在随机性)11(4)样本回归函数)样本回归函数(SRF

8、)样本回归线:样本回归线:对对于于X的的一一定定值值,取取得得Y的的样样本本观观测测值值,可可计计算算其其条条件件均均值值,样样本本观观测测值值条条件件均均值值的的轨轨迹迹,称称为为样样本本回归线。回归线。样本回归函数:样本回归函数:如果把被解释变量如果把被解释变量Y的样本条件的样本条件均值均值表示为解释变量表示为解释变量X的某种的某种函数,这个函数称为样本回归函函数,这个函数称为样本回归函数(数(SRF)。)。12XYSRF13样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为其中:其中:是与是与相对应的相对应的Y的样本条件均值的样本条件均值和和分别是样本回归函数的参数

9、分别是样本回归函数的参数个别值(实际值)形式:个别值(实际值)形式:被被解解释释变变量量Y的的实实际际观观测测值值不不完完全全等等于于样样本本条条件件均均值值,二者之差用,二者之差用表示,表示,称为称为剩余项剩余项或或残差项残差项:则则或或样本回归函数的函数形式样本回归函数的函数形式条件均值形式:条件均值形式:样本回归函数样本回归函数的特点的特点样本回归线随抽样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归每次抽样都能获得一个样本,就可以拟合一条样本回归线,线,(SRF不唯一不唯一)YSRF1 SRF2 样本回归函数的函数形式样本回归函数的函数形式应与设

10、定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。X样本回归线只是样本条件均值的轨迹,还不是总体回归样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。线,它至多只是未知的总体回归线的近似表现。14样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系SRFPRF AX15对样本回归的理解对样本回归的理解如果能够获得如果能够获得和和的数值,显然的数值,显然:和和是对总体回归函数参数是对总体回归函数参数和和的估计的估计是对总体条件期望是对总体条件期望的估计的估计在概念上类似总体回归函数中的在概念上类似总体回归函数中的,可,可视为

11、对视为对的估计。的估计。16对比:对比:总体回归函数总体回归函数 样本回归函数样本回归函数17 目的:用样本回归函数用样本回归函数SRF去估计总体回归函数去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF 总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的参数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 的真实值。的真实值。这样的这样的“规则和方法规则和方法”有多种,最常用的是最小二乘法有多种,最常用的是最小二乘法回

12、归分析的目的回归分析的目的(二)二)简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计用样本去估计总体回归函数,除了样本以外,针对特定的用样本去估计总体回归函数,除了样本以外,针对特定的估计方法,还需要有一些前提条件估计方法,还需要有一些前提条件假定条件假定条件 1 1、简单线性回归的基本假定简单线性回归的基本假定为什么要作基本假定?为什么要作基本假定?(把问题简化!)(把问题简化!)只只有有具具备备一一定定的的假假定定条条件件,所所作作出出的的估估计计才才具具有有良良好好的的统统计计性质性质。因因为为模模型型中中有有随随机机扰扰动动项项,估估计计的的参参数数是是随随机机变变量量,显

13、显然然参参数数估估计计值值的的分分布布与与扰扰动动项项的的分分布布有有关关,只只有有对对随随机机扰扰动动的的分分布布作作出出假假定定,才才能能比比较较方方便便地地确确定定所所估估计计参参数数的的分分布布性性质质,也才可能进行,也才可能进行假设检验和区间估计。假设检验和区间估计。假定分为:假定分为:对模型和变量的假定对模型和变量的假定对随机扰动项的假定对随机扰动项的假定18(1 1)对模型和变量的假定)对模型和变量的假定如如假定模型设定是正确的(变量和模型假定模型设定是正确的(变量和模型无设定误差)无设定误差)假定解释变量假定解释变量X在重复抽样中取固定值在重复抽样中取固定值。假定解释变量假定解

14、释变量X是非随机是非随机的,或者虽然是随机的,的,或者虽然是随机的,但但与扰动项与扰动项u是不相关是不相关的。的。(从变量从变量X角度看角度看)有时还假定:有时还假定:回归模型对参数而言是线性的回归模型对参数而言是线性的解释变量解释变量X的值有变异性的值有变异性观测次观测次n必须大于待估计参数个数必须大于待估计参数个数(解释变量个数解释变量个数)19(2 2)对随机扰动项)对随机扰动项u u的假定的假定假定假定1 1:零均值假定零均值假定:在给定在给定X的条件下,的条件下,的条件期望为零的条件期望为零假定假定2 2:同方差假定同方差假定:在给定在给定X的条件下,的条件方差为某个常数的条件下,的

15、条件方差为某个常数2021 假定假定3 3:无自相关假定无自相关假定:随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:随机扰动随机扰动 与解释变量与解释变量 不相关不相关 (从随机扰动从随机扰动 角度看角度看)22假定假定5:对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的正态性假定正态性假定正态性假定正态性假定,即假定即假定即假定即假定 服从均值为零、方差为服从均值为零、方差为服从均值为零、方差为服从均值为零、方差为 的正态分布的正态分布的正态分布的正态分布 (说明:正态性假定不影响对参数的点估计,所以有时不列(说明:正态性假定不影响对参数的点

16、估计,所以有时不列(说明:正态性假定不影响对参数的点估计,所以有时不列(说明:正态性假定不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且入基本假定,但这对确定所估计参数的分布性质是需要的。且入基本假定,但这对确定所估计参数的分布性质是需要的。且入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,根据中心极限定理,当样本容量趋于无穷大时,根据中心极限定理,当样本容量趋于无穷大时,根据中心极限定理,当样本容量趋于无穷大时,的分布会的分布会的分布会的分布会趋近于正态分布。所以正态性假定有合理性)趋近于正态分布。所以正

17、态性假定有合理性)趋近于正态分布。所以正态性假定有合理性)趋近于正态分布。所以正态性假定有合理性)注意注意:并并不不是是参参数数估估计计的的每每一一具具体体步步骤骤都都要要用用到到所所有有的的假假定定,但但对对全全部部假假定定有有完完整整的的认认识识,对对学学习习计计量量经经济济学学是是有有益益的。的。在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质由于由于其中的其中的和和是非随机的,因此是非随机的,因此的分布性质决定了的分布性质决定了的分布性质。的分布性质。对对的一些假定可以等价地表示为对的一些假定可以等价地表示为对的假定:的假定:假定假定1:零均值假定:零均值假定假定假定2

18、:同方差假定:同方差假定假定假定3:无自相关假定:无自相关假定假定假定5:正态性假定:正态性假定232、普通最小二乘法普通最小二乘法(OLS)(rdinaryrdinary Least Squares Least Squares)(1)OLS的基本思想:的基本思想:不不同同的的估估计计方方法法可可以以得得到到不不同同的的样样本本回回归归参参数数和和,所估计的,所估计的也就不同。也就不同。理理想想的的估估计计方方法法应应使使与与的的差差即即剩剩余余越越小越好小越好因因可正可负,所以可以取可正可负,所以可以取最小最小即即在观测值在观测值Y和和X确定时,确定时,的大小决定于的大小决定于和和。24(2

19、)正规方程和估计式正规方程和估计式用克莱姆法则求解得以观测值表现的用克莱姆法则求解得以观测值表现的OLS估计式:估计式:25取偏导数并令其为取偏导数并令其为0,得正规方程,得正规方程或或即即26 为表达得更简洁,或者用离差形式为表达得更简洁,或者用离差形式OLS估计式估计式:容易证明容易证明 注意:注意:其中:其中:本课程中大写的本课程中大写的 和和 均表示观测值;均表示观测值;小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由而且由样本回归函数可用离差形式写为样本回归函数可用离差形式写为 用离差表现的用离差表现的OLSOLS估计式估计式(3)OLSOLS回归线的数学性质回归线的数

20、学性质可以证明(证明过程用到OLS的结论,但与基本假定无关)回归线通过样本均值回归线通过样本均值估计值估计值的均值等于实的均值等于实际观测值际观测值的均值的均值剩余项剩余项的均值为零的均值为零27(由OLS第一个正规方程直接得到)(由OLS正规方程 两边同除n得到)被解释变量估计值被解释变量估计值与剩余项与剩余项不不相关相关 解释变量解释变量 与剩余项与剩余项 不相关不相关 由OLS正规方程:(注意注意:红色的项为红色的项为0)(4 4)OLSOLS估计式的统计性质估计式的统计性质参数估计式的优劣需要有评价的标准参数估计式的优劣需要有评价的标准参数无法通过观测直接确定,只能通过样本估计,但因参

21、数无法通过观测直接确定,只能通过样本估计,但因存在抽样波动存在抽样波动,参数估计值不一定等于总体参数的真实值参数估计值不一定等于总体参数的真实值。参数估计方法及所确定的估计式不一定完备,不一定参数估计方法及所确定的估计式不一定完备,不一定能得到总体参数的真实值,需要对估计方法作评价与选择。能得到总体参数的真实值,需要对估计方法作评价与选择。比较不同估计方法的估计结果时,需要有一定的评价标准比较不同估计方法的估计结果时,需要有一定的评价标准基本要求:基本要求:参数估计值应尽可能地接近总体参数的真实值参数估计值应尽可能地接近总体参数的真实值估计准则:估计准则:“尽可能地接近尽可能地接近”原则原则理

22、论计量经济学主要讨论参数估计式是否符合一定的准则,理论计量经济学主要讨论参数估计式是否符合一定的准则,怎样才算怎样才算“尽可能地接近尽可能地接近”总体参数的真实值呢?这决定于总体参数的真实值呢?这决定于参数估计式的统计性质:无偏性、最小方差性、一致性等。参数估计式的统计性质:无偏性、最小方差性、一致性等。2930 无偏性 前提:前提:重复抽样中估计方法固定重复抽样中估计方法固定、样本数不变样本数不变、经、经 重复抽样的观测值重复抽样的观测值,可得一系列参数估计值可得一系列参数估计值 ,的分布称为的分布称为 的抽样分布,其密度函数记为的抽样分布,其密度函数记为 如果如果 称称 是参数是参数的无偏

23、估计式,否则的无偏估计式,否则 则称则称 是有偏的,其偏倚是有偏的,其偏倚(bias)(bias)为为 (见图2)31 概 率 密 度 估计值 偏倚偏倚图232 最小方差最小方差(有效有效)性性前提:前提:样本相同样本相同、用、用不同的方法不同的方法估计参数,可以找到若干估计参数,可以找到若干个不同的估计式个不同的估计式 目标目标:努力寻求其抽样分布具有最小方差的估计式努力寻求其抽样分布具有最小方差的估计式 最小方差准则最小方差准则 (见图(见图3 3)既是无偏的同时又具有最小方差的估计式,称为最佳既是无偏的同时又具有最小方差的估计式,称为最佳 (有效)估计式。(有效)估计式。33概率密度图

24、3估计值渐近性质渐近性质(大样本性质)(大样本性质)思想思想:有时很难找到方差最小的无偏估计,需要考虑样本扩大后有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(的性质(估计方法不变估计方法不变,样本数逐步增大样本数逐步增大)一致性:一致性:当样本容量当样本容量n趋于无穷大时,如果估计式趋于无穷大时,如果估计式依概率收敛于依概率收敛于总体参数的真实值,就称这个估计式总体参数的真实值,就称这个估计式是是 的一致估计式。的一致估计式。即即或或(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)估计式)(见图4)渐近有效性:渐近

25、有效性:当样本容量当样本容量n趋于无穷大时,在所有的一致估计趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。式中,具有最小的渐近方差。3435概率密度估计值图 4分析OLSOLS估计式的统计性质估计式的统计性质先明确几点先明确几点:由由OLS估计式可以看出估计式可以看出由可观测的样本值由可观测的样本值和和唯一表示。唯一表示。因存在抽样波动,因存在抽样波动,OLS估计估计是随机变量是随机变量OLS估计式是估计式是点估计式点估计式361、线性特征线性特征是是Y的线性函数的线性函数2、无偏特性无偏特性3、最小方差特性最小方差特性在所有的线性无偏估计中,在所有的线性无偏估计中,OLS估计估计具

26、有最小方差具有最小方差(注意(注意:无偏性和最小方差性的证明中用到基本假定无偏性和最小方差性的证明中用到基本假定1假定假定4)结论:结论:在古典假定条件下在古典假定条件下,OLSOLS估计式是最佳线性无偏估计式是最佳线性无偏 估计式(估计式(BLUEBLUE)37OLSOLS估计式的统计性质估计式的统计性质高斯定理高斯定理例:首席执行官(CEO)的薪水与净资产回报率假定模型利用CEOSAL1.RAW中的数据(单位是千美圆),EVIEWS结果如下这是SRF,我们无从得知PRF.Roe=30,salary=1518.221;例:工资和教育模型为利用Wage1.raw中数据,得到下面的OLS回归线(

27、样本回归函数)(5)过原点的回归此前所讨论的模型为此前所讨论的模型为有时根据理论判断模型可能没有截距项,例如:有时根据理论判断模型可能没有截距项,例如:弗瑞德曼永久收入假说弗瑞德曼永久收入假说:永久消费正比于永久收入。永久消费正比于永久收入。成本分析理论成本分析理论:生产的可变成本正比于产出。生产的可变成本正比于产出。货币主义理论某些假说货币主义理论某些假说:价格变化率价格变化率(通货膨胀率通货膨胀率)正比于货币供给变化率。正比于货币供给变化率。这时总体回归函数设定为这时总体回归函数设定为:这是截距项不出现或为零的回归这是截距项不出现或为零的回归模型。称为模型。称为过原点的回归过原点的回归。4

28、0没有截距项的过原点回归模型为没有截距项的过原点回归模型为:因为因为对对求偏导求偏导令其为零得令其为零得可证明可证明41对比有截距时:注意:过原点回归的特点在运用过原点回归模型时应注意以下特点:在运用过原点回归模型时应注意以下特点:在有截距的模型中,根据最小二乘原理有在有截距的模型中,根据最小二乘原理有:但在截距项不存在时,但在截距项不存在时,不一定成立,即不一定成立,即可能可能42极大似然估计的思想:极大似然估计的思想:举举例:例:对一种药物,药剂师认为对一种药物,药剂师认为:有效率为有效率为70%70%。生产的公司声称生产的公司声称:有效率为有效率为90%90%,统计学家抽取统计学家抽取1

29、010个病人,发现有个病人,发现有8 8人被治愈人被治愈 当真当真实实概率概率为为P=0.7时时:产产生生“10个病人有个病人有8个治愈个治愈”结结果的概率果的概率为为:(实验结实验结果只有果只有“治愈治愈”和和“未治愈未治愈”是二是二项项分布分布)(三)简单线性回归模型的极大似然估计43当真当真实实概率概率为为P=0.9时时,产产生生“10个病人有个病人有8个治愈个治愈”结结果的概率果的概率为为:统计学家判断:统计学家判断:有效率为有效率为0.70.7可作为真实有效率的估可作为真实有效率的估计值。计值。(为什么为什么?)?)极大似然原理:极大似然原理:“一个事件由于最近似而发生一个事件由于最

30、近似而发生”原理原理:一个事件之所以发生,是因为存在着产生这一事件概率一个事件之所以发生,是因为存在着产生这一事件概率最大的现实(总体)。最大的现实(总体)。总体的分布规律是由其总体的分布规律是由其分布性质分布性质和和参数参数决定的。决定的。样本观测值是从总体中抽取得到的,从总体中随样本观测值是从总体中抽取得到的,从总体中随机抽取容量为机抽取容量为n的样本观测值时,在任何一次抽取的样本观测值时,在任何一次抽取中样本观测值都以一定的概率出现。中样本观测值都以一定的概率出现。当从总体中随机抽取当从总体中随机抽取n组样本观测值后,要寻组样本观测值后,要寻找最可能产生该样本的那个总体的参数。找最可能产

31、生该样本的那个总体的参数。最合理的参数估计量应该最合理的参数估计量应该使得从总体中抽取该使得从总体中抽取该n组样本观测值的概率最大。组样本观测值的概率最大。44简单线性回归模型的极大似然估简单线性回归模型的极大似然估计计在满足基本假设的条件下,对一元线性回归模型在满足基本假设的条件下,对一元线性回归模型随机抽取随机抽取n组样本观测值(组样本观测值(,)(i=1,2,n)为随机变量,其概率分布依赖于参数为随机变量,其概率分布依赖于参数和和,假如模型的参数估计量已经知道,为假如模型的参数估计量已经知道,为和和假定假定服从如下的正态分布:服从如下的正态分布:于是,于是,的概率函数为的概率函数为(i=

32、1,2,n)45似然函数似然函数 (likelihoodfunction)因为各个因为各个相互独立,因此取得所有样本观测值相互独立,因此取得所有样本观测值的联合概率的联合概率(即似然函数即似然函数)为:为:将该似然函数极大化,即可求得模型参数的极大将该似然函数极大化,即可求得模型参数的极大似然估计量。似然估计量。由于似然函数的极大化与似然函数的对数的极大由于似然函数的极大化与似然函数的对数的极大化是等价的,所以,取对数似然函数如下:化是等价的,所以,取对数似然函数如下:46简单线性回归模型的极大似然估计简单线性回归模型的极大似然估计量量对对L*求极大值,等价于对求极大值,等价于对求极小值:求极

33、小值:解方程得参数估计量:解方程得参数估计量:可见,在满足基本假设的情况下,模型参数的最可见,在满足基本假设的情况下,模型参数的最大似然估计量与普通最小二乘估计量是相同的。大似然估计量与普通最小二乘估计量是相同的。47(四(四)拟合优度的度量拟合优度的度量概念概念:样本回归线是对样本数据样本回归线是对样本数据的一种拟合,不同估计方的一种拟合,不同估计方法可以拟合出不同的回归法可以拟合出不同的回归线,拟合的回归线与样本线,拟合的回归线与样本观测值总是有偏离。观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度样本回归线对样本观测数据拟合的优劣程度拟合优度拟合优度如何度量拟合优度呢?如何度量拟

34、合优度呢?拟拟合合优优度度的的度度量量建建立立在在对对Y的的总总变变差差分分解解的的基基础础上上481、总变差的分解、总变差的分解分析分析Y的观测值、估计值与平均值的关系的观测值、估计值与平均值的关系将上式两边平方加总,可证得将上式两边平方加总,可证得(提示有(提示有)(TSS)(ESS)(RSS)或者或者总总变变差差(TSS):被被解解释释变变量量Y的的观观测测值值与与其其平平均均值值的的离离差差平方和平方和(总平方和(总平方和)(说明说明Y的变动程度)的变动程度)解解释释了了的的变变差差(ESS):被被解解释释变变量量Y的的估估计计值值与与其其平平均均值的离差平方和值的离差平方和(回归平方

35、和)(回归平方和)剩剩余余平平方方和和(RSS):被被解解释释变变量量观观测测值值与与估估计计值值之之差差的的平方和平方和(未解释的平方和)(未解释的平方和)49YX50变差分解的图示变差分解的图示2、可决系数、可决系数以以TSS同除总变差等式两边:同除总变差等式两边:或或定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS)在总变在总变差(差(TSS)中所占的比重称为可决系数,用中所占的比重称为可决系数,用表示表示:51或或可决系数的作用可决系数的作用可可决决系系数数越越大大,说说明明在在总总变变差差中中由由模模型型作作出出了了解解释释的的部部分分占占的的比比重重越越大大,模模

36、型型拟拟合合优优度度越越好好。反反之之可可决决系系数数越越小小,说说明明模模型型对对样样本本观观测测值值的的拟合程度越差。拟合程度越差。可决系数的特点可决系数的特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数随抽样波动,样本可决系数是随抽样而变是随抽样而变动的随机变量动的随机变量可决系数是非负的统计量可决系数是非负的统计量52可决系数与相关系数的关系可决系数与相关系数的关系联系:联系:数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方53可决系数与相关系数的关系可决系数与相关系数的关系区别:区别:可决系数可决系数相关系数相关系数就模型而言就模型而言就两个变量而言就两

37、个变量而言说明解释变量对应变说明解释变量对应变说明两变量线性依存程度说明两变量线性依存程度量的解释程度量的解释程度度量的不对称的因果关系度量的不对称的因果关系度量的对称的相关关系度量的对称的相关关系取值取值01取值取值-1r1有非负性有非负性可正可负可正可负5455(五(五)回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计?OLS估计只是通过样本得到的点估计,不一定等估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说于真实参数,还需要找到真实参数的可能范围,并说明其可靠性明其可靠性为什么要作假设检验?为什么要作假设

38、检验?OLS 估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果?还有待统计检验。是否抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估区间估计和假设检验都是建立在确定参数估计值计值 概率分布性质的基础上。概率分布性质的基础上。56 1 1、OLSOLS估计的分布性质估计的分布性质 基本思想基本思想 是是随随机机变变量量,必必须须确确定定其其分分布布性性质质才才可可能能进进行行区区间估计和假设检验间估计和假设检验 怎样确定怎样确定 的分布性质呢的分布性质呢?是是服服从从正正态态分分布布的的随随机机变变量量,决决定定了了 也也是是服服从

39、从正正态态分分布布的的随随机机变变量量,是是 的的线线性性函函数数,决决定定了了 也也是服从正态分布的随机变量是服从正态分布的随机变量 正态正态 正态正态 正态正态 只要确定只要确定 的期望和方差,即可确定的期望和方差,即可确定 的分布性质的分布性质 57 的期望:的期望:(无偏估计)无偏估计)的方差和标准误差的方差和标准误差 (标准误差是方差的平方根标准误差是方差的平方根)注意:注意:以上各式中以上各式中 未知但是常数,其余均是已知的未知但是常数,其余均是已知的样本观测值,这时样本观测值,这时 和和 都不是随机变量。都不是随机变量。的期望和方差58 基本思想:基本思想:是是 的方差,而的方差

40、,而 不能直接观测,只能从由样本得不能直接观测,只能从由样本得到的到的 去获得有关去获得有关 的某些信息,去对的某些信息,去对 作出估计。作出估计。可以证明其无偏估计为可以证明其无偏估计为 (n-2为自由度为自由度,即可自由变化的样本观测值个数即可自由变化的样本观测值个数)注意区别:注意区别:是未知的确定的常数;是未知的确定的常数;是由样本信息估计的,是个随机变量是由样本信息估计的,是个随机变量对随机扰动项方差对随机扰动项方差 的估计的估计59对随机扰动项方差对随机扰动项方差 的极大似然估计的极大似然估计由对数似然函数由对数似然函数将该似然函数对 极大化对比无偏的OLS法估计 :可以证明 的极

41、大似然估计量不具无偏性,即是有的极大似然估计量不具无偏性,即是有偏的,但却具有一致性偏的,但却具有一致性(随着样本容量增大,二者趋于相等)。得到 的极大似然估计量:60对对 作标准化变换作标准化变换为什么要对为什么要对 作标准化变换作标准化变换?在在 正态性假定下,由前面的分析已知正态性假定下,由前面的分析已知但在对一般正态变量但在对一般正态变量 作实际分析时,要具体确作实际分析时,要具体确定定 的取值及对应的概率是很麻烦的,为了便的取值及对应的概率是很麻烦的,为了便于直接利用于直接利用“标准化正态分布的临界值标准化正态分布的临界值”,需要对,需要对 作标准化变换。作标准化变换。标准化的方式:

42、标准化的方式:61在在 已知时已知时对对 作标准化变换,所得作标准化变换,所得Z统计量为标准统计量为标准正态变量。正态变量。(1 1)已知时,对已知时,对 作标准化变换作标准化变换注意注意:这时这时 和和 都不是随机变量都不是随机变量(X、都是非随机的)都是非随机的)62条件:条件:当当 未知时未知时,可用,可用 (随机变量)代替(随机变量)代替 去估计去估计参数的标准误差参数的标准误差。这时参数估计的标准误差是个这时参数估计的标准误差是个随机变量。随机变量。样本为大样本时样本为大样本时,作标准化变换所得的统计量作标准化变换所得的统计量Z Zk k,也可以也可以 视为标准正态变量视为标准正态变量(根据中心极限定理)。(根据中心极限定理)。样本为小样本时样本为小样本时,用估计的参数标准误差对用估计的参数标准误差对 作标准化变换,所得的统作标准化变换,所得的统 计计量量用用t表表示示,这这时时t将将不不再再服服从从正正态态分分布布,而而是是服服从从 t 分布分布(注意这时分母是随机变量):(2 2)未知时,对未知时,对 作标准化变换作标准化变换

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁