《一元线性回归方程ppt课件.ppt》由会员分享,可在线阅读,更多相关《一元线性回归方程ppt课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、o 回归的含义回归的含义o 一元回归模型的建立一元回归模型的建立o 参数估计参数估计最小二乘法最小二乘法o 随机误差项的古典假定随机误差项的古典假定o 最小二乘估计量的性质最小二乘估计量的性质o 最小二乘估计量的概率分布最小二乘估计量的概率分布o 回归系数的显著性检验与置信区间回归系数的显著性检验与置信区间o 用样本可决系数检验回归方程的拟合优度用样本可决系数检验回归方程的拟合优度o 案例分析案例分析第二章第二章 一元线性回归模型一元线性回归模型 回归概念的提出回归概念的提出l Francis Galton最先使用“回归(regression)”。l 父母高,子女也高;父母矮,子女也矮。给定父
2、母的身高,子女平均身高趋向于“回归”到 全体人口的平均身高。 F. F.加尔顿是达尔文的表弟,是研究智力的先驱者之一,他非常严肃,加尔顿是达尔文的表弟,是研究智力的先驱者之一,他非常严肃,非常聪明,但也有些疯狂,他出生在一个贵格教徒家庭中,祖上是著名非常聪明,但也有些疯狂,他出生在一个贵格教徒家庭中,祖上是著名的和平主义者,有趣的是,他家的名下却有生产枪支的企业。高尔顿是的和平主义者,有趣的是,他家的名下却有生产枪支的企业。高尔顿是个申通,个申通,6 6岁便能阅读和背诵莎士比亚的作品,他在更小的时候已经会岁便能阅读和背诵莎士比亚的作品,他在更小的时候已经会说了希腊语和拉丁语。他似乎对什么事情都
3、感兴趣,成年后的高尔顿在说了希腊语和拉丁语。他似乎对什么事情都感兴趣,成年后的高尔顿在气象学、心理学、摄影学,甚至是刑事司法领域都有所建树(他倡导使气象学、心理学、摄影学,甚至是刑事司法领域都有所建树(他倡导使用指纹分析的科学方法来确定罪犯身份)。此外,他还发明了用指纹分析的科学方法来确定罪犯身份)。此外,他还发明了“标准差标准差”这一统计概念及线性回归法,并用这些数学工具来研究人类的行为。这一统计概念及线性回归法,并用这些数学工具来研究人类的行为。一、回归的含义一、回归的含义 回归的现代释义回归的现代释义回归分析回归分析用于研究一个变量关于另一个(些)变量的具用于研究一个变量关于另一个(些)
4、变量的具体依赖关系的计算方法和理论。体依赖关系的计算方法和理论。l商品需求函数:ntunemploymebainflation12)(TRbaTaxbPaQLKAQlnlnlnlnl生产函数:l菲利普斯曲线:l拉弗曲线:l 等式左边的变量被称为 被解释变量(被解释变量(explained variable) 因变量因变量 (dependent variable) 响应变量(响应变量(response variable) 被预测变量(被预测变量(predicted variable) 回归子(回归子(regressand) 回归的现代释义回归的现代释义l 等式右边的变量被称为 解释变量(解释变量
5、(explanatory variable) 自变量(自变量(independent variable) 控制变量(控制变量(control variable) 预测变量(预测变量(predictor variable) 回归元(回归元(regressor)。)。l在多数对经济理论的检验中(包括对公共政策的评价),经济在多数对经济理论的检验中(包括对公共政策的评价),经济学家的目标就是要退订一个变量(比如受教育程度)对另一个学家的目标就是要退订一个变量(比如受教育程度)对另一个变量(如犯罪率或工人的生产率)具有变量(如犯罪率或工人的生产率)具有因果效应因果效应(causal effect)。有
6、时可能会很简单就能发现两个或多个变量之间存)。有时可能会很简单就能发现两个或多个变量之间存在很强的联系,但除非能得到某种因果关系,否则这种联系很在很强的联系,但除非能得到某种因果关系,否则这种联系很难令人信服。难令人信服。l其他条件不变(其他条件不变(ceteris paribus):意味着:意味着“其他(相关因其他(相关因素保持不变)素保持不变)”的概念,它在因果分析中有重要的作用。的概念,它在因果分析中有重要的作用。l这个概念看似简单,但是除非在极为特殊的条件下,很难实现这个概念看似简单,但是除非在极为特殊的条件下,很难实现l多数经验研究中的一个关键问题是:要做出一个因果推断,是多数经验研
7、究中的一个关键问题是:要做出一个因果推断,是否能使其他足够多的因素保持不变呢?否能使其他足够多的因素保持不变呢?l只要方法得当,用计量经济方法可以模拟一个其他条件不变的只要方法得当,用计量经济方法可以模拟一个其他条件不变的实验实验通过对模型进行假定。通过对模型进行假定。 回归分析中的回归分析中的因果关系因果关系和和其他条件不变其他条件不变的概念的概念二、一元线性回归模型二、一元线性回归模型 回归分析都是从如下假设前提开始的:回归分析都是从如下假设前提开始的:Y和和X是代表某个总是代表某个总体的变量,我们感兴趣的是体的变量,我们感兴趣的是“用用X解释解释Y”或或“研究研究Y如何随如何随X而变化而
8、变化”在写出用在写出用X解释解释Y的模型时,面临三个问题的模型时,面临三个问题o Y和和X的函数关系是怎么样的?的函数关系是怎么样的?o 如何考虑其他影响如何考虑其他影响Y的因素呢?的因素呢?o 我们如何才能确信我们得到的是,是在其他条件不变情况下我们如何才能确信我们得到的是,是在其他条件不变情况下的的Y和和X之间的关系?之间的关系?Y= 0 + 1 X+ u其中:其中: Y被解释变量;被解释变量; X解释变量;解释变量; u随机误差项;表示除随机误差项;表示除X之外其他影响之外其他影响Y的因素,一元回的因素,一元回 归分析归分析 将除将除X之外的其他所有影响之外的其他所有影响Y的因素都看成了
9、无法观测的因素都看成了无法观测的因素的因素 0, 1回归系数(待定系数或待估参数)回归系数(待定系数或待估参数) 1是斜率系数,是主要的研究对象是斜率系数,是主要的研究对象 0 是常数项,也被称作截距参数,很少被当做分析的核心是常数项,也被称作截距参数,很少被当做分析的核心我们可以通过建立一个如下的关于我们可以通过建立一个如下的关于Y Y和和X X的方程来解决上述三个问的方程来解决上述三个问题题总体回归模型总体回归模型 为解决上面提到的第三个问题,及如何在忽略其他因素的同时,为解决上面提到的第三个问题,及如何在忽略其他因素的同时,又得到其他因素不变情况下又得到其他因素不变情况下X对对Y的影响呢
10、?这需要我们对无法观测的影响呢?这需要我们对无法观测的的u和和X之间的关系加以约束,并且只有如此,才能从一个随机样本之间的关系加以约束,并且只有如此,才能从一个随机样本数据中获得数据中获得0和和1的可靠估计量。的可靠估计量。 E(u)=0 即无法观测的因素的平均值为零,不会对结果产生影响即无法观测的因素的平均值为零,不会对结果产生影响 E(u|X)=0 根据根据X的不同把总体划分为若干部分,每个部分中无法的不同把总体划分为若干部分,每个部分中无法 观测的因素都具有想通的平均值,且这个共同的平均值观测的因素都具有想通的平均值,且这个共同的平均值 必然等于整个总体中必然等于整个总体中u的平均值,即
11、的平均值,即u是均值独立的。是均值独立的。根据上面的假定对原模型取期望得:根据上面的假定对原模型取期望得: E(Y|X)=E( 0+ 1X+u)|XE(Y|Xi) = 0+ 1X 总体回归函数总体回归函数E(Y|X)是是X的一的一个线性函数,它表示个线性函数,它表示Y中可以由中可以由X解释的部分解释的部分,线性意味着,线性意味着X变变化一个单位,化一个单位,Y的期望改变的期望改变1个个单位。对于任意给定的单位。对于任意给定的X值,值,Y的分布都是以的分布都是以E(Y|X)为中心的。为中心的。 = 0+ 1X+E(u|X)= 0+ 1X总体回归函数总体回归函数 (直线)(直线) XiYiY1Y2
12、Y3u1u2u3e2e3e1E(Y|Xi) = 0 + 1 XiiiXY10 通常总体回归函数通常总体回归函数E(Y) = 0+ 1X是观测不到的,利用样本得到的是是观测不到的,利用样本得到的是对它的估计,即对对它的估计,即对 0和和 1的估计。令的估计。令(Xi,Yi):i=1,n表示从总体中抽取表示从总体中抽取的一个样本容量为的一个样本容量为n的随机样本,对于每个的随机样本,对于每个i,可以写出:,可以写出:iiiuXY10其中ui是第i次观测的误差项(估计的)样本回归函数:(估计的)样本回归函数:(估计的)样本回归模型:(估计的)样本回归模型: iiieXY10iiXY10其中ei是第i
13、次观测的残差对于所研究的经济问题,通常总体回归直线对于所研究的经济问题,通常总体回归直线 E(Yi|Xi) = 0 + 1Xi 是是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。 样本回归模型:样本回归模型: iiXY10其中:其中: 为为Yi的估计值(拟合值);的估计值(拟合值);iY10,为为 0 , 1 的估计值;的估计值;iiieXY10ei为残差,可视为为残差,可视为ui的估计值。的估计值。三、参数估计三、参数估计最小二乘法最小二乘法样本回归直线:样本回归直线:406080100120140160180
14、2004080120160200240280XY如何得到一条能够较好地反映这些点变化规律的直线呢?如何得到一条能够较好地反映这些点变化规律的直线呢?对于参数的估计采用最小二乘估计法、最小二乘法的原则是以对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残残差平方和最小差平方和最小” 确定直线位置(即估计参数)。(确定直线位置(即估计参数)。(Q为残差平方和)为残差平方和)Q = niie12niiiYY12)(=niiiXY1210)(则通过则通过Q最小确定这条直线,即确定最小确定这条直线,即确定 ,以,以 为变量,为变量,把它们看作是把它们看作是Q的函数,就变成了一个求极值的问题,可以
15、通过求的函数,就变成了一个求极值的问题,可以通过求导数得到。导数得到。10,10,0101iiiiii YXeeYX 样本回归模型:样本回归模型: 则通过则通过Q最小确定这条直线,即确定最小确定这条直线,即确定 ,以,以 为变量,为变量,把它们看作是把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求的函数,就变成了一个求极值的问题,可以通过求导数得到。导数得到。10,10,求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:0Q= ) 1( )(2110niiiXY= 01Q= )( )(2110iniiiXXY= 0正规方程组正规方程组00iiiXee即即221)()(iii
16、iiixyxXXYYXXXY10根据以上两个偏导方程得以下正规方程正规方程(Normal equation) :iiXnY10210iiiiXXXY)为离差。()和(的均值,、分别为和其中YYyXXxYXYXiiii,对于对于Wage1中的数据,利用中的数据,利用EVIEWS软件,可得到一元回归模型估计结果:软件,可得到一元回归模型估计结果:01educgeaw541. 0905. 0 OLS OLS回归直线的性质回归直线的性质YnYnYYniinii11 (1)残差和等于零)残差和等于零 (2)估计的回归直线)估计的回归直线 过点过点 .iiXY10),(YX (3) Yi 的拟合值的平均数
17、等于其样本观测值的平均数的拟合值的平均数等于其样本观测值的平均数 . YY niiniiniiiniiniiYeYeYY11111)(0ie由正规方程由正规方程 可得。可得。 ) 1( )(2110niiiXY= (4)Cov(ei,Xi)= 0),(iiXeCov)XX)(ee(nii1= 01)XeXe(niii= (5)Cov(ei, )= 0),(iiYeCov)YY( )ee(nii1)YeYe(niii1iY01110iiienY)X(e(nu 利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?u 为什么要用普通最小二乘法?u 样本回归模型有无穷多个,我们仅仅得
18、到其中一个,它能反映真实的总体回归模型吗?u 样本回归模型对数据的拟合程度可以接受吗?u 如何用样本回归模型进行预测?问题结束了吗?问题结束了吗?假定假定1:零期望假定零期望假定:E(ui|Xi) = 0。四、古典线性回归模型的基本假定四、古典线性回归模型的基本假定E(Y|Xi) = 0 + 1 XiXY0假定假定2:同方差性假定同方差性假定:Var(ui) = Eui - E(ui) 2 = E(ui2) = 2。XY0同方差XY0异方差假定假定3:无序列相关无序列相关(无自相关)(无自相关)假定:假定:Cov(ui, uj) = E(ui - E(ui) ) ( uj - E(uj) )
19、= E(uiuj) = 0, (i j )。无自相关正自相关负自相关假定假定4:解释变量解释变量X与随机误差项与随机误差项u Cov(ui, Xi) = E(ui - E(ui) ) (Xi - E(Xi) ) = E(ui Xi) = 0 如果如果X为确定性变量,该假定自然满足为确定性变量,该假定自然满足假定假定5:ui 服从正态分布服从正态分布,即即ui N (0, 2 )。五、五、OLS估计量的性质估计量的性质 高斯高斯- -马尔可夫定理马尔可夫定理如果满足古典线性回归模型的基本假定(假定如果满足古典线性回归模型的基本假定(假定1-假定假定5),),则在所有的则在所有的线性估计量线性估计
20、量中,中,OLS估计量是最优线性无偏估估计量是最优线性无偏估计量(计量(BLUE)。)。线性性线性性 无偏性无偏性 有效性有效性10,都是都是Yi的线性函数。的线性函数。证明:证明:1= 2()()()iiiXXYYXX= 2()()()iiiiXX Y YXXXX2()()iiiXX YXX= 令令22()()iiiiiXXxkXXx2iiixYx代入上式,得:代入上式,得:iiYk1= 线性性线性性iiiiiYkXnYkXnYXY/110证明:证明:)(1E = = =)(iiYkE(10iiiuXkE10iiiiiukXkkE=)( )(1iiiiukEXXkE=)(1iiuEk=122
21、(-)(-)iiiiiXXxkXXx 无偏性无偏性=1)(1E1)(1E无偏估计量 有偏估计量OLS估计量的方差比其他估计量的方差比其他线性无偏估计量线性无偏估计量的方差都小。的方差都小。 最小方差性与有效性最小方差性与有效性1)(1f)(1f)(1f 一致性(了解)一致性(了解)1200),(1nf150),(1nf100),(1nf50),(1nf概率密度 OLS OLS估计量的方差估计量的方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资iieducgeaw5141. 0905. 0122111)()(iiukEEEVar差:标准2222221)(i
22、iiixkukVar,)(, )(0)(22ijiuEjiuuE211ix)(Var)( sXYnXYi1101:对于02200)()(标准误ixnXVarsei:222222)1(iixnXxXni)()(20iiiukXnuEVariiiukXnu0XuXnii110)(1Xnui)(110总体(随机误差项)真实方差总体(随机误差项)真实方差 2的估计量:的估计量:210)()()(iiiiuVaruXVarYVar222221222iiiiiiiiix)yx(yxy)YY(e22222nenuii 2 2的估计的估计2、方差、方差(1) 的期望的期望111)(E(2) 的期望的期望000
23、)(E1、期望、期望(2) 的方差的方差0221)(ixVar(1) 的方差的方差12220)(iixnXVar10服从服从N( )N( )服从服从221,ix2220,iixnXYi= 0 + 1 Xi + ui,所以,所以Yi N( 0 + 1 Xi , 2 )线性性概率分布是进行假设检验的前提六、假设检验与置信区间六、假设检验与置信区间 OLS OLS估计量的概率分布估计量的概率分布显著性检验(显著性检验(t t 检验)的基本步骤检验)的基本步骤 iiiuXY10首先,提出原假设和备择假设:首先,提出原假设和备择假设: H0: 01H1: 01其次,确定并计算统计量:其次,确定并计算统计
24、量: 111St221212)XX(nexiii最后,给定显著性水平,查自由度为最后,给定显著性水平,查自由度为 n-2 的的t分布表。则,分布表。则, 如果如果 不能拒绝不能拒绝H0: 1 1=0=0,认为,认为X X对对Y Y没有显著影响。没有显著影响。 )2(2/ntt如果如果 拒绝拒绝H0 : 1 1=0=0 ,认为,认为X X对对Y Y有显著影响。有显著影响。 )2(2/ntt同理同理, ,可对可对 0 0 进行显著性检验。进行显著性检验。 模型:模型:=2.5%t(n-2)-t0.025t0.025=2.5%95%0双侧受教育年限与每小时工资iiXY7241. 00144. 040
25、6.10070. 007241. 0111St017. 0875. 000144. 0000St070.021txS875. 02220iixnXSn=130-2.2012.201H0:1=0 H1: 10 受教育年限与每小时工资iiXY7241. 00144. 0406.10070. 007241. 0111St070.021txSn=1301.796H0:1=0 H1: 10 u 对于双变量模型,自由度总为(n-2)u 经验分析中,常用的有1%、5%和10%。 为了避免显著水平选择的随意性,通常要给 出p值。 p p值值 t(n-2)-t0.025t0.025p/20tp值0.05,接受原
26、假设t(n-2)-t0.025t0.025p/20tp值0.05,拒绝原假设双侧检验 用用 p p 值判断参数的显著性的方法(双侧)值判断参数的显著性的方法(双侧)方法:方法:将给定的显著性水平将给定的显著性水平 与与p值比较:值比较: 若若p值值 ,则在显著性水平,则在显著性水平 下拒绝原假设下拒绝原假设H0 0: : =0,=0, 即认为即认为X对对Y有显著影响;有显著影响; 若若p值值 ,则在显著性水平,则在显著性水平 下接受原假设下接受原假设H0 0: : =0=0, 即认为即认为X对对Y没有没有显著影响;显著影响;规则:规则:当当p值值 说明说明“城镇人均可支配收入城镇人均可支配收入
27、”对对“城镇人均消费支出城镇人均消费支出”有有显著显著 影响。影响。 3. 用用P值检验值检验 p=0.0000 模型检验模型检验0.05=0.025(29) = 2.045t0.025(29)2.045t0.05 = 4. 经济意义检验:经济意义检验: 估计的解释变量的系数为估计的解释变量的系数为0758511,说明城镇居民,说明城镇居民人均可支配收入每增加人均可支配收入每增加1元,人均年消费支出平均元,人均年消费支出平均将增加将增加0758511元。这符合经济理论对边际消费元。这符合经济理论对边际消费倾向的界定。倾向的界定。点预测:点预测:西部地区的城市居民人均年可支配收入第一步争取达到西部地区的城市居民人均年可支配收入第一步争取达到1000美元美元(按现有汇率即人民币按现有汇率即人民币8270元元),代入估计的模代入估计的模型得型得第二步再争取达到第二步再争取达到1500美元美元(即人民币即人民币12405元元),利用,利用所估计的模型可预测这时城市居民可能达到的人均年消费所估计的模型可预测这时城市居民可能达到的人均年消费支出水平支出水平f1282.24340.758511 82706555.132Y f2282.24340.758511 124059691.577Y 经济预测经济预测