《第二章 简单线性回归优秀课件.ppt》由会员分享,可在线阅读,更多相关《第二章 简单线性回归优秀课件.ppt(115页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 简单线性回归第1页,本讲稿共115页 何谓简单线性回归模型n只有两个变量的线性回归模型,称为简单线性回归模型,也叫做双变量模型,或者一元线性回归模型。n模型形式为:第2页,本讲稿共115页第一节 回归分析和回归方程本节主要介绍:1.1 经济变量之间的关系。1.2 相关关系:分类、度量。1.3 回归分析:概念、回归线、回归函数1.4 总体回归函数1.5 随机扰动项1.6 样本回归函数第3页,本讲稿共115页1.1 经济变量之间的关系n确定的函数关系:yf(x)n不确定性的统计关系相关关系 yf(x)u (u为随机变量)n没有关系 变量间的函数关系和相关关系在一定条件下可以互相转化。第4页
2、,本讲稿共115页1.2 相关关系1.2.1 分类:n 只有两个变量:简单相关;三个及三个以上:多重相关(复相关);n 线性相关、非线性相关;n 正相关、负相关、不相关第5页,本讲稿共115页正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982004006008001000120005001000150020002500YX第6页,本讲稿共115页负相关Y与X的相关系数:-0.9220304050607080010203040YX第7页,本讲稿共115页不相关(不排除存在曲线相关)n相关系数为:n4.24E-18-60-40-200204060-60-40-200
3、204060YX第8页,本讲稿共115页1.2.2 线性相关程度的度量 线性相关系数n总体相关系数:n样本相关系数:第9页,本讲稿共115页使用相关系数要注意:n简单线性相关包含了其他变量的影响。nX,Y都是随机变量,相关系数只说明其线性相关程度,不说明其非线性关系,也不反映他们之间的因果关系;n样本相关系数是总体相关系数的样本估计量;n相关系数具有对称性,即 ;n相关系数取值区间-1,1。第10页,本讲稿共115页1.3 回归分析和相关分析1.3.1 回归分析n是对一个应变量对若干解释变量依存关系的研究;n其目的是:由固定的解释变量去估计和预测应变量的平均值等。第11页,本讲稿共115页1.
4、3.2 回归函数、回归线n应变量Y的条件期望 随着解释变量X的变化而有规律地变化。把这种变化关系用函数表示出来,就是回归函数:n回归函数在坐标系中用图形表示出来就是回归线。它表示了应变量和解释变量之间的平均关系。第12页,本讲稿共115页回归线图示YX概率密度函数f(Yi)PRFx1xiXk第13页,本讲稿共115页注意:n一般地,在重复抽样中解释变量被假定为固定的。所以回归分析中,解释变量一般当作非随机变量处理。第14页,本讲稿共115页 由于变量间关系的随机性,回归分析回归分析关心的是根据关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值解释变量的已知或给定值,考察被解释变量的总
5、体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。例例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收入家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。1.4 总体回归函数总体回归函数 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。第15页,本讲稿共115页第16页,本讲稿共115页 (1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分
6、布是确定的,即以X的给定值为条件的Y的条件分布条件分布(Conditional distribution)是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件均值条件均值(conditional mean)或条件期望条件期望(conditional expectation):E(Y|X=Xi)该例中:E(Y|X=800)=561分析:分析:第17页,本讲稿共115页 描出散点图发现:随着收入的增加,消费“平均平均地说地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。0500100015002000250030
7、0035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)第18页,本讲稿共115页n概念概念:在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线(population regression line),或更一般地称为总体回归曲线总体回归曲线(population regression curve)。称为(双变量)总体回归函数总体回归函数(population regression function,PRF)。相应的函数:第19页,本讲稿共115页 回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释
8、变量X变化的规律。n含义:含义:函数形式:函数形式:可以是线性或非线性的。例2.1中,将居民消费支出看成是其可支配收入的线性函数时:为一线性函数。线性函数。其中,0,1是未知参数,称为回归系回归系数数(regression coefficients)。第20页,本讲稿共115页1.4.2 总体回归函数的表现形式1.条件均值形式,如2.随机设定形式。对于一定的 ,Y的各个个别值 分布在 的周围,其差令为 ,则:对上例,有 也即:第21页,本讲稿共115页1.5 随机扰动项n1、引入随机扰动项的目的n2、随机扰动项代表模型中省略了的所有次要因素的综合作用n3、根据中心极限定理随机扰动项服从正态分布
9、n4、通常模型由随机方程组成n5、随机扰动项产生的原因第22页,本讲稿共115页为什么要引入随机扰动项n模型中引入反映不确定因素影响的随机扰动项的目的在于使模型更符合客观经济活动实际。n干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物第23页,本讲稿共115页简单线性需求函数不可能包罗万象地引入全部影响变量n我们以最简单的线性需求函数为例进行分析。nQd=b0+b1X1n理论分析和实践经验表明,某种商品需求量不仅趋近于价格,而且趋近于替代商品的价格X2,消费者收入X3和消费者偏好X4等等。将所有对需求量有影响的个变量引入方程:nQd=b0+b1X1+b2X2+b3X3+b4X4+b
10、kXkn即使如此也还可能有其他次要因素影响需求量,譬如社会风尚,心理变化甚至天气等等。总之,不可能巨细无遗地全部都引入。第24页,本讲稿共115页次要因素的综合效应是不能忽视的n未引入的这些随机变量有的可以度量,有些不可以度量,在实际观测中,有时发生影响有时又不发生影响,记为随机变量Zi(i=1,2,m)。n从个别意义上,这些次要因素可能是不重要的,但所有这些的综合效应是不能忽视的。否则,模型将与实际不符。于是将它们也引入模型。第25页,本讲稿共115页必须另外寻找解决问题的思路n全部变量引入显然是不必要的。计量经济学将这些或者次要,或者偶然的,或者不可测度的变量用一个随机扰动项来概括,需求函
11、数:n这是一个随机方程。是随机变量Zj的线性组合,也是一个随机变量。它代表所有未列入模型的那些次要因素的综合影响。第26页,本讲稿共115页由中心极限定理服从正态分布n 进一步分析相当于诸随机变量Zj的均值n因此,由中心极限定理,无论因此,由中心极限定理,无论ZjZj原来的分布形式如何,只要它们相互原来的分布形式如何,只要它们相互独立,独立,m m足够大,就会有足够大,就会有趋于正态分布。趋于正态分布。n而且正态分布简单易用,且数理统计学中研究的成果很多,可以借鉴。而且正态分布简单易用,且数理统计学中研究的成果很多,可以借鉴。第27页,本讲稿共115页随机扰动项产生的原因(1)人类行为和客观现
12、象的随机性。引入的根本原因,乃是经济活动是人类参与的,而人类行为的内在随机性决定了不可能像科学实验那样精确。此外还有社会环境和自然环境的随机性。(2)模型省略了变量。被省略的变量包含在随机扰动项中。核心变量与周边变量(3)测量与归并误差。测量误差致使观察值不等于实际值,汇总也存在误差。(4)数学模型形式设定造成的误差。比如由于认识不足或者简化,将非线性设定成线性模型。第28页,本讲稿共115页(5)数据的欠缺(6)糟糕的替代变量(7)理论的含糊性随机扰动项产生的原因第29页,本讲稿共115页1.6 样本回本回归函数(函数(SRF)问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何
13、从抽样中获得总体的近似信息?问:能否从该样本估计总体回归函数PRF?回答:能 例例2.2:在例2.1的总体中有如下一个样本,总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。第30页,本讲稿共115页核样本的散点图散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线样本回归线(sample regression lines)。)。记样本回归线的函数形式为:称为样本回归函数样本回归函数(sample regression function,SRF)。第31页,本
14、讲稿共115页 这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 注意:注意:第32页,本讲稿共115页 样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型:同样地,样本回归函数也有如下的随机形式:由于方程中引入了随机项,成为计量经济模型,因此也称为样样本回归模型本回归模型(sample regression model)。第33页,本讲稿共115页 回回归归分分析析的的主主要要目目的的:根据样本回归函数SRF,估计总体回归函数PRF。注意:注意:这里PRF可能永远无法知道。即,根据 估计第34页,本讲稿共115页1.6.2 对样本回归函数的说明n每次抽样都能
15、够获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有多条。n样本回归线不是总体回归线,只是未知总体回归线的近似。SRF1SRF2XY第35页,本讲稿共115页1.6.3 残差n定义:那么有:n对上例,有:第36页,本讲稿共115页回归分析的思路 样本 样本回归函数的参数 一定方法得出总体回归函数的参数近似看成是SRF1:PRF2:(观察参数的对应估计关系)第37页,本讲稿共115页第二节 简单线性回归模型的最小二乘估计(OLS)n本节主要介绍:2.1 简单线性回归模型的基本假定 2.2 普通最小二乘法(OLS)2.3 OLS回归线的性质 2.4 最小二乘估计的统计性
16、质 第38页,本讲稿共115页2.1 简单线性回归的基本假定n2.1.1 为什么要做基本假定n参数估计量是随机变量,只有在一定的假设条件下,所作出的估计才具较好的统计性质。n只有对随机扰动项的分布作出假定,才能确定所估计参数的分布的性质,也才可能进行假设检验和区间估计。第39页,本讲稿共115页2.1.2 假定的两个方面:(1)关于变量和模型的基本假定n 是非随机的,或者虽然 是随机的,但是与 是不相关的;n 无测量误差;n 变量和函数形式设定正确。第40页,本讲稿共115页假定的两个方面:(2)关于随机扰动项也称高斯假定、古典假定n假定1 零均值:n假定2 同方差:n假定3 无自相关:n假定
17、4 随机扰动项 与 不相关。即:n假定5 服从正态分布,即:第41页,本讲稿共115页注意:n正态性假定(5)不影响对参数的点估计,所以可不列入基本假定,且根据中心极限定理,当样本容量无穷大时,的分布趋近于正态分布。但此假定对确定所估计参数的分布性质是需要的,第42页,本讲稿共115页2.1.3 Y的分布性质n由于 ,所以 的分布性质就决定了 的分布性质。n对 的一些假定可以等价地表示为对 的假定:n零均值:n同方差:n无自相关:n正态性:第43页,本讲稿共115页2.2 普通最小二乘法(OLS)n基本思想n数学过程n估计结果第44页,本讲稿共115页2.2.1 最小二乘法的基本思想n纵向距离
18、是Y的实际值与拟合值之差,称为拟合误差或残差。差异大拟合不好,差异小拟合好。n残差可正可负,为克服加总时正负相消,将其平方后相加,得残差平方和,“最好”直线就是使误差平方和最小的直线。n于是求最好拟合直线问题转换为求残差平方和最小,可以运用求极值的原理求解。第45页,本讲稿共115页三种距离YX纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点SRF返回第46页,本讲稿共115页YX0*Y7Y9Min数学形式第47页,本讲稿共115页2.2.2 最小二乘法的数学过程n详见课本第48页,本讲稿共115页2.2.3 OLS估计结果的离差形式n离差形式:nOLS估计结果的离差形式:n(样本回
19、归函数的离差形式:)第49页,本讲稿共115页2.2.4 几个有用的结果n可以用到以后计算、证明过程中:第50页,本讲稿共115页2.3 OLS 回归线的性质n1.回归线过样本均值点 n2残差和为零n3Y的真实值 和拟合值 有共同均值n4残差 与自变量 不相关n5残差 与拟合值 不相关第51页,本讲稿共115页2.3.1 回归线过样本均值n由 ,知:即样本均值点 满足回归线方程SRFYX第52页,本讲稿共115页2.3.2 残差和为零n由 OLS数学过程直接可得。且易推出残差的平均数也等于零。第53页,本讲稿共115页2.3.3 Y的真实值和拟合值有共同的均值第54页,本讲稿共115页性质4、
20、5n2.3.4 残差与自变量不相关(Residuals are unrelated with independent variable)n2.3.5 估计残差与拟合值不相关(Residuals are unrelated with fitted value of )第55页,本讲稿共115页样本回归直线性质总结样本回归直线性质总结 残差和=0 均值相等拟合值与残差不相关自变量与残差不相关过样本均值第56页,本讲稿共115页2.4最小二乘估计量的性质最小二乘估计量的性质 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估
21、计量,可从如下几个方面考察其优劣性:(1)线性性)线性性,即它是否是另一随机变量的线性函数;(2)无偏性)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性)有效性,即它是否在所有线性无偏估计量中具有最小方差。第57页,本讲稿共115页(4)渐渐近近无无偏偏性性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一一致致性性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐渐近近有有效效性性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。这三个准则也称作估计量的小样本性质。小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量最佳线性无
22、偏估计量(best liner unbiased estimator,BLUE)。当不满足小样本性质时,需进一步考察估计量的大样本大样本或或渐近性质渐近性质:第58页,本讲稿共115页2.4.1 线性:最小二乘估计量是关于Yi的线性函数注意同2.2.4第59页,本讲稿共115页2.4.2 无偏性n由2.2.4,知:第60页,本讲稿共115页2.4.3 有效性n证明太繁杂,略。n以下只给出其方差:第61页,本讲稿共115页2.4.4 参数的分布、残差方差的估计n由上,知:n扰动项 的方差通过样本估计为:其中,n为样本容量。第62页,本讲稿共115页nOLS参数估计量的有效性指的是:在一切线性、无
23、偏估计量中,OLS参数估计量的方差最小。所有参数估计量线性参数估计量无偏参数估计量最小二乘参数估计量第63页,本讲稿共115页3 3、最大似然法、最大似然法n最大似然法最大似然法(Maximum Likelihood,ML),也称,也称最大最大或然法或然法,是不同于最小二乘法的另一种参数估计方,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发展起来的其它估计方法,是从最大或然原理出发发展起来的其它估计方法的基础。法的基础。n基本原理:基本原理:当从模型总体随机抽取当从模型总体随机抽取n组样本观测值后,组样本观测值后,最合理的参数估计量应该使得从模型中抽取该最合理的参数估计量应该使
24、得从模型中抽取该n组样组样本观测值的概率最大。本观测值的概率最大。nML必须已知随机项的分布。必须已知随机项的分布。第64页,本讲稿共115页3.13.1、估、估计步步骤Yi的分布Yi的概率函数 Y的所有样本观测值的联合概率似然函数 第65页,本讲稿共115页对数似然函数 对数似然函数极大化的一阶条件结构参数的ML估计量第66页,本讲稿共115页3.23.2、讨论n在满足一系列基本假设的情况下,模型结构参数的在满足一系列基本假设的情况下,模型结构参数的最大似然估计量最大似然估计量与与普通最小二乘估计量普通最小二乘估计量是相同的。是相同的。n但是,分布参数的估计结果不同。但是,分布参数的估计结果
25、不同。第67页,本讲稿共115页第四节 回归系数的区间估计和假设检验n本节主要介绍:n简单线性回归系数的分布及其标准化。n回归系数的区间估计n回归系数的假设检验n扰动项方差的区间估计。第68页,本讲稿共115页4.1 回归系数的标准化第69页,本讲稿共115页4.2 回归系数的区间估计n区间估计n区间估计的概念、步骤n应用:1、已知扰动项方差,对 进行区间估计 2、扰动项方差未知,对 进行区间估计n大样本下/小样本下第70页,本讲稿共115页4.2.1 区间估计的概念n所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。n具体作法是找出两个统计量 1(x1,xn)与2(x1,xn
26、),使 P(1 2)=1-n(1,2)称为置信区间,1-称为置信系数(置信度),称为冒险率(测不准的概率)或者显著水平,一般取5%或1%。第71页,本讲稿共115页对区间估计的形象比喻n我们经常说某甲的成绩“大概80分左右”,可以看成一个区间估计。(某甲的成绩为被估计的参数)P(1 2)=大概的准确程度(1-)如:P(75 85)=95%=1-5%“大概大概80分左右分左右”冒险率(也叫显著水平)下限上限置信系数1 第72页,本讲稿共115页4.2.2 区间估计的步骤:1)找一个含有该参数的统计量;要求该统计量:分布已知 含待估参数 除了待估参数外,其余为已知量。2)构造一个概率为 的事件;3
27、)通过该事件解出该参数的区间估计.第73页,本讲稿共115页4.2.3 已知扰动项方差,对的区间估计第74页,本讲稿共115页4.2.4 未知扰动项方差,对的区间估计n(1)大样本下 可以用 代替 ,有 所以仍按已知方差作区间估计,只不过把区间估计中的随机扰动的方差 换成其估计值 。第75页,本讲稿共115页(2)小样本下第76页,本讲稿共115页 区间估计,统计量选择小结第77页,本讲稿共115页4.2.5 扰动项方差的区间估计n对扰动项的区间估计使用的统计量为:n其余步骤相同第78页,本讲稿共115页4.3 回归系数的假设检验n基本概念:假设检验,原假设/备择假设 置信水平n假设检验的步骤
28、n应用:n 的假设检验(方差已知/方差未知)n方差的假设检验第79页,本讲稿共115页4.3.1 假设检验的概念n定义:称对任何一个随机变量未知的分布类型或参数的假设为统计假设,简称假设。检验该假设是否正确称为假设检验。n在统计假设,如 H0:p=0.5 (称为原假设)H1:p 0.5 (称为备择假设)n 是假设检验中小概率事件发生的概率,也称为置信水平。第80页,本讲稿共115页4.3.2 假设检验的步骤:nStep1:分析问题,提出原假设和备择假设;nStep2:选择和计算统计量U:在原假设成立时,U的分布已知;含有要检验的参数;各个参数应该都是已知的、可求的。nStep3:构造小概率事件
29、:nStep4:判断小概率事件是否发生:nStep5:下结论:若小概率事件发生,拒绝原假设H0;选择备择假设H1。否则,原假设成立。第81页,本讲稿共115页假设检验的具体操作步骤(已知方差 ,检验 为例)n1、提出零假设 H0:H1:n3、确定显著水平,如=0.05,查表得相应的临界值/2n4、判断和下结论:若|U|/2 ,拒绝H0;若|U|/2,接受H0;(判断区域图示)n5、依据结论,作出经济学上的解释。第82页,本讲稿共115页4.3.3 假设检验中统计量的选择第83页,本讲稿共115页4.3.4 回归系数假设检验及意义n回归系数的假设检验,往往是检验 n检验的意义:检验该系数是否显著
30、,进而检验对应的解释变量是否对应变量有解释作用。第84页,本讲稿共115页第五节 拟合优度的度量本节主要内容:n4.1 总变差(总平方和)的分解n4.2 可决系数n4.3 可决系数和相关系数的关系n4.4 自由度的分解第85页,本讲稿共115页问题的提出n由最小二乘法所得直线确实能够对这些点之间的关系加以反映吗?n对这些点之间的关系或趋势反映到了何种程度?n于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。第86页,本讲稿共115页 5.1 总离差n1、总平方和、回归平方和、残差平方和n2、总平方和的分解第87页,本讲稿共115页5.1.1 总平方
31、和(总变差)、回归平方和、残差平方和的定义nTSS度量Y自身的差异程度;ESS度量因变量Y的拟合值自身的差异程度,是总变差中由模型解释了的变差;RSS度量实际值与拟合值之间的差异程度,是总变差中没有得到解释的变差。第88页,本讲稿共115页5.1.2 平方和分解:TSSESSRSS正交分解正交分解第89页,本讲稿共115页平方和分解的意义nTSS=ESS+RSSn被解释变量Y总的变动(差异)=解释变量X引起的变动(差异)+除X以外的因素引起的变动(差异)n如果X引起的变动在Y的总变动中占很大比例,那么X可以很好地解释了Y;否则,X不能很好地解释Y。第90页,本讲稿共115页5.2 可决系数(或
32、称判定系数)n目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣的指标。n可决系数的定义:n指标含义:可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。第91页,本讲稿共115页可决系数(续)n可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中单个解释变量的影响程度。n可决系数取值范围:0,1n对时间序列数据,可决系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。第92页,本讲稿共115页可决系数达到多少为宜?n没有一个统一的明确界限值;n若建模的目的是预测应变量值,一
33、般需考虑有较高的可决系数。n若建模的目的是结构分析,就不能只追求高的可决系数,而是要得到总体回归系数的可信任的估计量。可决系数高并不一定每个回归系数都可信任;第93页,本讲稿共115页5.3 可决系数和相关系数的联系n数值上,可决系数等于应变量与解释变量之间简单相关系数的平方:第94页,本讲稿共115页可决系数和相关系数的区别可决系数相关系数就模型而言就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值:0,1取值:1,1第95页,本讲稿共115页5.4 自由度的分解(1)什么是自由度(2)对应于平方和分解的自由度的分解第
34、96页,本讲稿共115页n自由度是指变量可以自由取值得个数,例如我们要测量学生的身高X,随机抽取10名学生,如果没有任何限制,则X可以自由取值10个值,自由度为10;但是如果我们限定10各同学的平均身高,那么随机抽取9名后,最后一名的身高则不能随意取值了,此时自由度减少一个,为10-1=9。这也是为什么我们在统计学里说修正的样本方差(除以n-1)为总体方差的无偏估计量。4.4.1 什么是自由度第97页,本讲稿共115页n模型中样本值可以自由变动的个数,称为自由度n自由度=样本个数 样本数据受约束条件(方程)的个数n例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df
35、=n-k第98页,本讲稿共115页n在计量经济学中,对于一个包含k个解释变量的回归方程而言,待估计的参数个数为k+1(包括常数项),在我们根据最小残差平方和求偏导的过程中,会得到(k+1)个方程构成的方程组,这k+1个方程实际上构成了对残差的k+1个限制条件,所以凡是涉及到残差构成的统计量,自由度就会减少k+1个,例如显著性检验中的t检验和f检验的自由度等。第99页,本讲稿共115页例:TSS、RSS、ESS的自由度第100页,本讲稿共115页4.4.2 对应于平方和分解的自由度的分解n TSS =ESS +RSS n-1 1 n-2 总自由度dfT 回归自由度dfE 残差自由度dfRn自由度
36、分解:dfT=dfE+dfR第101页,本讲稿共115页复习与提高Yi=a+bXi+uiYn Xn Y2 X2Y1 X1根据已知样本采用OLS得拟合直线 拟合直线性质:过样本均值残差和=0残差与自变量无关拟合值与残差值无关R20TSS RSS ESS R2R21用直线反映总体GoodBad第102页,本讲稿共115页第六节 回归模型预测n本节主要介绍:n回归分析结果的报告n应变量平均值的点预测、区间预测n应变量个别值的点预测、区间预测n对应变量预测结果的特点第103页,本讲稿共115页回顾:预测值、平均值、个别值的相互关系XYSRFPRF点预测值真实平均值E(YF/XF)个别值YF XF 第1
37、04页,本讲稿共115页6.1 回归分析结果的报告n经过模型估计、检验,得到一系列的数据,一般用格式规范表示。例如:第105页,本讲稿共115页6.2 应变量平均值的点预测、区间预测基本思想(1)计量经济预测是利用所估计的样本回归模型,用解释变量的已知值或预测值,对预测期或样本以外的应变量作出定量的估计。(2)计量经济预测是一种条件预测:条件:a.所估计参数不变 b.模型设定关系不变 c.解释变量在预测期的取值已作出预测第106页,本讲稿共115页Y平均值的点预测:n将解释变量预测值直接代入估计的方程:n计算的 是一个点估计值。第107页,本讲稿共115页Y平均值的区间预测 预测值的区间估计第
38、108页,本讲稿共115页Y平均值的区间预测(续)第109页,本讲稿共115页6.3 应变量个别值的点预测、区间预测n基本思想 (1)既是Y平均值的点预测,也是对Y个别值YF的点预测。(2)由于存在随机扰动 的影响,Y的平均值并不等于Y的个别值 (3)为了对Y的个别值YF作区间预测,需要寻找与预测值 和个别值YF有关的统计量,并要明确其概率分布。第110页,本讲稿共115页应变量个别值区间预测第111页,本讲稿共115页应变量个别值区间预测(续)第112页,本讲稿共115页6.4 应变量Y区间预测的特点nY平均值的预测值与真实平均值有误差,主要是受到抽样波动的影响;Y个别值的预测值与真实值的差异,不仅受到抽样波动的影响,还受到随机扰动项的影响。n平均值和个别值预测区间都是随机变量,是随着XF 的变化而变化的。n预测区间与样本容量有关,当样本容量无限增大时,个别值的预测误差只决定于随机扰动的方差。第113页,本讲稿共115页应变量Y区间预测的特点,图示如下Y的个别值的置信区间Y均值的置信区间SRFXY第114页,本讲稿共115页nEviews预测举例第115页,本讲稿共115页