《回归预测法讲稿.ppt》由会员分享,可在线阅读,更多相关《回归预测法讲稿.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、回归预测法第一页,讲稿共八十八页哦3 回回 归归 预预 测测 法法二、基本要求:回归分析方法是一种应用非常广泛地分析方法。通过本章学习,要了解一元线性回归模型估计的基本原理、多元线性回归模型预测、非线性回归模型预测以及滞后变量模型预测,掌握一元线性回归模型的建立、应用和回归参数的检验方法,并能够根据模型进行预测。三、教学重点和难点:重点:重点是一元线性回归模型预测。难点:难点是多元线性回归模型预测和非线性回归模型预测。第二页,讲稿共八十八页哦回归探源【小知识3-1】“回归”这个概念,是1877年美国遗传学家高尔顿(FGaolton)提出来的。他是在研究了人类身高的遗传性时,发现父母身高在子女身
2、高遗传上有回归现象。在在1889年发表的著作年发表的著作自然的遗传自然的遗传中,中,高尔顿发现,虽然有一个趋势,父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。此后,回归的含义被进一步扩大,回归的现代涵义与过回归的现代涵义与过去大不相同。去大不相同。现被广泛应用于变量间的数量关系分析。一般说来,一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。在于根据已知自变量来估计和预测因变量的总平均值。(资料来源:杭中茂:职
3、业教育观,中国商业出版社1999)第三页,讲稿共八十八页哦回归的现代解释回归分析是关于研究一个应(因)变量对另一个或几个解释变量(自变量)的)依赖关系,其用意在于通过后者的己知或设定值,去估计和或预测前者的(总体)均值。第四页,讲稿共八十八页哦变量间的函数关系函数关系是一一对应的确定关系函数关系是一一对应的确定关系 设有两个变量设有两个变量 x 和和 y,变量,变量 y 随变量随变量 x 一起变化,一起变化,并完全依赖于并完全依赖于 x,当变量,当变量 x 取某个数值时,取某个数值时,y 依确定依确定的关系取相应的值,则的关系取相应的值,则称称 y 是是 x 的函数,记为的函数,记为 y=f(
4、x),其中,其中 x 称为自变量,称为自变量,y 称为因变量。称为因变量。各观测点各观测点(x,y)落在一条线上落在一条线上.x xy y第五页,讲稿共八十八页哦变量间的相关关系变量间关系不能用函数关系精确表达变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定一个变量的取值不能由另一个变量唯一确定,当变量当变量 x 取某个值时,变量取某个值时,变量 y 的取值可能有几个的取值可能有几个各观测点分布在某曲线周围各观测点分布在某曲线周围 x xy y第六页,讲稿共八十八页哦回归的基本思想与回归模型具有相关关系的变量,虽然不能用函数式准确表达其关系,但可以通过大量的实验数据(或
5、调查数据等)的统计分析,找出各相关因素的内在规律,可用某一函数式近似地描述其依存关系。回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系,建立变量间的数量关系近似表达的函数方程,并进行参数估计和显著性检验以后,运用回归方程式对因变量进行估计和预测的分析方法。由由回归分析求出的关系式,回归分析求出的关系式,称为回归模型。称为回归模型。第七页,讲稿共八十八页哦回归模型回归模型 分类分类(1)根据自变量的多少:)根据自变量的多少:一元回归模型和多元回归模型一元回归模型和多元回归模型。(2)根据回归模型的形式线性与否
6、:)根据回归模型的形式线性与否:线性回归模型和非线性回归模型。线性回归模型和非线性回归模型。(3)根据回归模型所含的变量是否有虚拟变量:)根据回归模型所含的变量是否有虚拟变量:普通回归模型和带虚拟变量的回归模型。普通回归模型和带虚拟变量的回归模型。(4)根据回归模型是否用滞后的因变量作自变量:)根据回归模型是否用滞后的因变量作自变量:无自回归现象的回归模型和自回归模型。无自回归现象的回归模型和自回归模型。第八页,讲稿共八十八页哦回归分析预测法的具体步骤1、选定预测的变量及主要的影响因素(原因变量自变量);2、收集历史数据(或通过市场调查);3、分析变量间的关系建立回归模型;4、参数估计:最小二
7、乘法;5、回归预测模型的显著性检验;6、利用回归模型进行预测。第九页,讲稿共八十八页哦3.1 一元线性回归预测法一元线性回归预测法一、概念 是指成对的两个变量数据分布大体上呈直线趋 势时,运用合适的参数估计方法,求出一元线 性回归模型,然后根据自变量与因变量之间的 关系,预测因变量的趋势。回总目录回本章目录第十页,讲稿共八十八页哦 很多社会经济现象之间都存在相关关系,因 此,一元线性回归预测有很广泛的应用。进 行一元线性回归预测时,必须选用合适的统 计方法估计模型参数,并对模型及其参数进 行统计检验。回总目录回本章目录第十一页,讲稿共八十八页哦 二、一元线性回归分析预测法的基本步骤二、一元线性
8、回归分析预测法的基本步骤 全面分析影响预测对象的相关因素,确定自变量 1、首先对所有影响因素进行分析 2、比较相关因素,找出最主要的影响因素选择回归预测模型,确定模型参数检验预测模型和预测结果的可靠性程度实际预测第十二页,讲稿共八十八页哦1.一元线性回归模型:其中,是未知参数,为剩余残差项或称随机扰动项。,回总目录回本章目录三、一元线性回归模型及其误差因素与假设第十三页,讲稿共八十八页哦2.随机误差项的影响因素随机误差项的影响因素三、一元线性回归模型及其误差因素与假设随机随机随机随机误误差差差差项项的影响因素的影响因素的影响因素的影响因素回回归模型中模型中省略的省略的变量量测量量误差差建立的数
9、学模型的建立的数学模型的形式不形式不够完善完善人人们的随机行的随机行为经济变量之量之间的合的合并并误差差3421第十四页,讲稿共八十八页哦 用最小二乘法进行模型参数的估计时,要求满足一定的假设条件:(1)是一个随机变量;(2)的均值为零,即(3)在每一个时期中,的方差为常量,即(4)各个 相互独立;(5)与自变量无关。3.回归模型的五个基本假定回归模型的五个基本假定回总目录回本章目录第十五页,讲稿共八十八页哦 设已知设已知n组数据(组数据(x1 1,y1 1),(),(x2 2,y2 2)(xn,yn),),模型:模型:误差误差ui=误差的平方和误差的平方和由求得四、用最小二乘法进行参数估计第
10、十六页,讲稿共八十八页哦 用最小二乘法进行参数估计,得到的估计表达式为:回总目录回本章目录四、用最小二乘法进行参数估计进一步,第十七页,讲稿共八十八页哦回归模型检验的必要性:回归模型检验的必要性:在线性回归模型的过程中,为进一步分析回归模型所反映的在线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际变量之间的关系是否符合客观实际,引入的影响因素是否有效引入的影响因素是否有效,同样需要对回归模型进行同样需要对回归模型进行检验检验。模型估计式的检验就是利用一定的定性与定量的标准对模型估计式的检验就是利用一定的定性与定量的标准对模型的函数模型的函数形式形式,变量的选择及
11、参数估计的正确性进行评价变量的选择及参数估计的正确性进行评价。(1)模型解释变量选择的正确性需要证明(主观随意性,解释变量)模型解释变量选择的正确性需要证明(主观随意性,解释变量的种类与多少由人为主观决定)的种类与多少由人为主观决定)(2)模型函数形式的正确性需要验证。解释变量与被解释变量)模型函数形式的正确性需要验证。解释变量与被解释变量的关系选择具有唯一性,很多情况下并非线性。的关系选择具有唯一性,很多情况下并非线性。(3)模型估计的可靠性需要评价。估计式来源于样本,对)模型估计的可靠性需要评价。估计式来源于样本,对总体是否适合需要检验。(估计式的可靠性、稳定性)总体是否适合需要检验。(估
12、计式的可靠性、稳定性)五、回归模型的统计检验五、回归模型的统计检验第十八页,讲稿共八十八页哦1.标准误差:估计值与因变量值间的平方误差。其计算公式为:五、回归模型的统计检验五、回归模型的统计检验反映各实际点在直线周围的散布情况,越小越好。一般用标准差与均值之比。第十九页,讲稿共八十八页哦五、五、回归模型的统计检验回归模型的统计检验 所所谓谓拟拟合合优优度度是是指指由由回回归归直直线线拟拟合合统统计计数数据据的的优优劣劣程程度度。2.2.可决系数可决系数r2 2:是反映拟合优度的数量指标:是反映拟合优度的数量指标(1)其计算公式为:(2)可决系数含义可决系数含义由推证可得:由推证可得:即 总离差
13、平方和(TSS)=回归偏差平方和(ESS)+剩余残差平方和(RSS)第二十页,讲稿共八十八页哦TSS=ESS+RSS Y的观测值围绕其均值的总离差总离差(total variation)可分解为两部分:一部分来自回归线一部分来自回归线(ESS),另一部分则来自随机势力,另一部分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度拟合优度:回归平方和:回归平方和ESS/YESS/Y的总离差的总离差TSSTSS可决系数公式即为可决系数公式即为可决系数可决系数是衡量自变量与因变量关系密切程度的指标,表示自变量解释了因变量变动
14、的百分比。第二十一页,讲稿共八十八页哦2.可决系数公式可决系数公式(1)可决系数是回归平方和占总离差平方和的比例可决系数是回归平方和占总离差平方和的比例(2)反映回归直线的拟合程度反映回归直线的拟合程度(3)可决系数取值范围在可决系数取值范围在 0,1 之间,并取决于回归之间,并取决于回归模型所解释的模型所解释的 y 方差的百分比。方差的百分比。(4)r2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;r20,说明回,说明回归方程拟合的越差归方程拟合的越差;在预测实践中,在预测实践中,r2常用于模型常用于模型的比较,人们往往采纳的比较,人们往往采纳r2最高的模型,这是因为最高的模型,这
15、是因为r2高,就意味着该模型把高,就意味着该模型把y的变动解释得好。的变动解释得好。(5)可决系数等于相关系数的平方,即可决系数等于相关系数的平方,即r2(r)2第二十二页,讲稿共八十八页哦3.3.相关系数相关系数r相相关关系系数数r:是是另另一一个个被被广广泛泛用用来来测测定定拟拟合合优优度度的的指指标标;是是描描述述变变量量x与与y之之间间线线性性相相关关关关系系密密切切程程度度的的一一个个数数量指标。量指标。它的计算公式为:它的计算公式为:由公式可见,可决系数是相关系数的平方。相关系数越接近+1或-1,因变量与自变量的拟合程度就越好。第二十三页,讲稿共八十八页哦相关系数的取值范围第二十四
16、页,讲稿共八十八页哦和和 都都是是相相互互对对称称的的随随机机变变量量,x与与y和和y与与x的的相相关系数相等。关系数相等。线线性性相关系数只反映变量间的线性相关程度,不相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。能说明非线性相关关系。样本相关系数是总体相关系数的样本估计值,由样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验。计显著性有待检验。相关系数只能反映线性相关程度,不能确定因果相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线关系,不能说明
17、相关关系具体接近哪条直线变量间的因果关系及隐藏在随机性后面的统计规律性,变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法这有赖于回归分析方法 使用相关系数时应注意使用相关系数时应注意第二十五页,讲稿共八十八页哦 相关系数测定变量之间的密切程度,可决系数测定自变量对因变量的解释程度。相关系数有正负,可决系数只有正号。正相关系数意味着因变量与自变量以相同的方向增减。如果直线从左至右上升,则相关系数为正;如果直线从左至右下降,则相关系数为负。注:相关系数与可决系数的主要区别:回总目录回本章目录第二十六页,讲稿共八十八页哦4.4.回归方程的显著性检验回归方程的显著性检验 回归分析回
18、归分析是要判断解释变量是要判断解释变量X是否是被解释变量是否是被解释变量Y的一个显著性的影响因素。的一个显著性的影响因素。在一元线性模型中,就是要判断在一元线性模型中,就是要判断X是否对是否对Y具有显具有显著的线性性影响。这就需要进行变量的显著性检验。著的线性性影响。这就需要进行变量的显著性检验。回归系数的显著性检验有回归系数的显著性检验有t检验和检验和F检验,前者是检验检验,前者是检验单个系数是否显著的异于零,即对应的自变量的变化是否单个系数是否显著的异于零,即对应的自变量的变化是否显著地影响因变量的变化,后者是检验所有系数是否同时显著地影响因变量的变化,后者是检验所有系数是否同时为零,但是
19、对于一元线性回归有为零,但是对于一元线性回归有F(n-2)=-2)=t/2/22 2(n-2),-2),因因此只需做此只需做t检验或检验或F检验即可。检验即可。第二十七页,讲稿共八十八页哦(1)回归系数的显著性检验回归系数的显著性检验(步骤)(步骤)提出假设提出假设H0:b=0(没有线性关系没有线性关系)H1:b 0(有线性关系有线性关系)计算检验的统计量计算检验的统计量 确定显著性水平确定显著性水平确定显著性水平确定显著性水平 ,查查t分布表的分布表的t/2/2(n-2)-2),并进行决策并进行决策并进行决策并进行决策 t t t t,拒绝,拒绝,拒绝,拒绝HH0 0,即,即,即,即回归系数
20、显著回归系数显著;t t t t,接受,接受,接受,接受HH0 0,即,即,即,即回归系数不显著。回归系数不显著。其中,检验规则:给定显著性水平,若则回归系数显著。回总目录回本章目录第二十八页,讲稿共八十八页哦(2)(2)F检验及其步骤检验及其步骤:提出假设提出假设H0:b=0(线性关系不显著线性关系不显著)计算检验统计量计算检验统计量F 确定显著性水平确定显著性水平,并根据分子自由度,并根据分子自由度1和分母自由和分母自由度度n-2-2找出临界值找出临界值找出临界值找出临界值F 作出决策:若作出决策:若|F|F|F ,则回归方程显著则回归方程显著;(拒绝拒绝HH0);若若若若|F|,说明广告
21、费支出与商品销售额线性关系显著。这与决定系数检验结论一致。4)进行预测。(1)点预测。2002年的广告费支出预计为35万元。万元代入回归方程:百万元。即:2002年的商品销售额可望达到49.595百万元。第四十六页,讲稿共八十八页哦(2)区间预测。计算估计标准误差因为,df=8,查t分布表,得当广告费支出达到万元时,商品销售额的预测区间为:即:若以95%的把握程度预测,当广告费支出达到35万元时,商品的销售额在45.864-53.326百万元之间。第四十七页,讲稿共八十八页哦一元线性回归预测模型回顾 一元线性回归模型:一元线性回归模型excel求解.xls第四十八页,讲稿共八十八页哦3.2 多
22、多 元元 线线 性性 回回 归归 预预 测测 法法 社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元回归。回总目录回本章目录第四十九页,讲稿共八十八页哦 多元回归与一元回归类似,可以用最小 二乘法估计模型参数。也需对模型及模 型参数进行统计检验。选择合适的自变量是正确进行多元回归预 测的前提之一,多元回归模型自变量的选 择可以利用变量之间的相关矩阵来解决。回总目录回本章目录第五十页,讲稿共八十八页哦二元线性回归模型:类似使用最小二乘法进行参数估计。回总目录回本章目录一、建立模型(以二元线性回归模型为例)第五十一页,讲稿共八十八
23、页哦 二、拟合优度指标 标准误差:对y值与模型估计值之间的离 差的一种度量。其计算公式为:回总目录回本章目录第五十二页,讲稿共八十八页哦可决系数:意味着回归模型没有对y的变差做出任何解释;意味着回归模型对y的全部变差做出解释。回总目录回本章目录第五十三页,讲稿共八十八页哦调整的可决系数R2R2有一个缺点,即有一个缺点,即R2随着解释变量个数随着解释变量个数的增加而增加,无论增加的解释变量在的增加而增加,无论增加的解释变量在经济上是否有意义,情况总是如此。经济上是否有意义,情况总是如此。给人一种感觉,似乎在模型中增加一个解释给人一种感觉,似乎在模型中增加一个解释变量,模型的解释功能就会增强,变量
24、,模型的解释功能就会增强,R2就增就增大了大了,就会增加拟合优度。就会增加拟合优度。为了避免这个问题,需要对可决系数进行为了避免这个问题,需要对可决系数进行自由度调整自由度调整,以剔除变量个数对拟合优度,以剔除变量个数对拟合优度的影响。的影响。第五十四页,讲稿共八十八页哦则调整的可决系数可记为:则调整的可决系数可记为:或或 称为调整的可决系数称为调整的可决系数(adjusted coefficient of determination)第五十五页,讲稿共八十八页哦 三、置信范围置信区间的公式为:置信区间=统计量数值表其中 是自由度为 的是观察值的个数,在内的变量的个数。中的数值,是包括因变量回
25、总目录回本章目录第五十六页,讲稿共八十八页哦四、自相关和多重共线性问题自相关检验:其中,回总目录回本章目录第五十七页,讲稿共八十八页哦多重共线性检验:由于各个自变量所提供的是各个不同因素的信息,因此假定各自变量同其他自变量之间是无关的。但是实际上两个自变量之间可能存在相关关系,这种关系会导致建立错误的回归模型以及得出使人误解的结论。为了避免这个问题,有必要对自变量之间的相关与否进行检验。回总目录回本章目录第五十八页,讲稿共八十八页哦任何两个自变量之间的相关系数为:经验法则认为相关系数的绝对值小于0.75,或者 0.5,这两个自变量之间不存在多重共线性问题。若某两个自变量之间高度相关,就有必要把
26、其 中的一个自变量从模型中删去。回总目录回本章目录第五十九页,讲稿共八十八页哦3.3 非非 线线 性性 回回 归归 预预 测测 法法 在社会现实经济生活中,很多现象之间的关系并不是线性关系,对这种类型现象的分析预测一般要应用非线性回归预测,通过变量代换,可以将很多的非线性回归转化为线性回归。因而,可以用线性回归方法解决非线性回归预测问题。回总目录回本章目录第六十页,讲稿共八十八页哦一、配曲线问题选配曲线通常分为以下两个步骤:确定变量间函数的类型 变量间函数关系的类型有的可根据理 论或过去积累的经验事前予以确定;回总目录回本章目录第六十一页,讲稿共八十八页哦确定相关函数中的未知参数 最小二乘法是
27、确定未知参数最常用的方法。不能根据理论或过去积累的经验确定时,根 据实际资料作散点图,从其分布形状选择适 当的曲线来配合。回总目录回本章目录第六十二页,讲稿共八十八页哦二、一些常见的函数图形 选择合适的曲线类型不是一件轻而易举的工作,主要依靠专业知识和经验,也可以通过计算剩余均方差来确定。回总目录回本章目录第六十三页,讲稿共八十八页哦抛物线函数对数函数S型函数常见的函数幂函数指数函数回总目录回本章目录第六十四页,讲稿共八十八页哦 3.4 应用回归预测法时应注意的问题应用回归预测法时应注意的问题 应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预
28、测法就会得出错误的结果。回总目录回本章目录第六十五页,讲稿共八十八页哦正确应用回归分析预测时应注意:用定性分析判断现象之间的依存关系;避免回归预测的任意外推;应用合适的数据资料。回总目录回本章目录第六十六页,讲稿共八十八页哦 1.经济变量间的相互关系经济变量间的相互关系 确定性的函数关系确定性的函数关系 不确定性的统计关系不确定性的统计关系相关关系相关关系 (为随机变量为随机变量)没有关系没有关系 附录附录1:回归与相关:回归与相关 (对统计学的回顾)(对统计学的回顾)第六十七页,讲稿共八十八页哦对变量间统计依赖关系的考察主要是通过对变量间统计依赖关系的考察主要是通过相关分析相关分析(corr
29、elation analysis)或或回归回归分析分析(regression analysis)来完成的:来完成的:正相关 线性相关 不相关 相关系数:统计依赖关系 负相关 11-XYr 有因果关系 回归分析回归分析 正相关 无因果关系 相关分析相关分析 非线性相关 不相关 负相关第六十八页,讲稿共八十八页哦2.2.相关关系相关关系相关关系的描述相关关系的描述相关关系最直观的描述方式相关关系最直观的描述方式坐标图坐标图(散布图)散布图)第六十九页,讲稿共八十八页哦相关关系的类型相关关系的类型从涉及的变量数量看从涉及的变量数量看简单相关简单相关 多重相关(复相关)多重相关(复相关)从变量相关关系
30、的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线从变量相关关系变化的方向看从变量相关关系变化的方向看正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减 负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减 不相关不相关第七十页,讲稿共八十八页哦第七十一页,讲稿共八十八页哦注意注意不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;回归分析回归分析/相关分析相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析相关分析对称地对
31、待任何(两个)变量,两个变量都被看作是随机的。回归分析回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。第七十二页,讲稿共八十八页哦简单相关系数的检验 (1)直接检验(查相关系数临界值表)H0:r=0;H1:r 0 用xt和yt的样本计算相关系数r,以自由度f=T-2查临界值表。检验规则是,若|r|ra(T-2)(临界值),则xt和yt相关;若|r|ta(T-2),则xt和yt相关;若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;第八十六页,讲稿共八十八页哦 对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:在上述收入-消费支出例中,首先计算2的估计值 第八十七页,讲稿共八十八页哦t统计量的计算结果分别为:给定显著性水平=0.05,查t分布表得临界值 t 0.05/2(8)=2.306|t1|2.306,说明家庭可支配收入在家庭可支配收入在95%95%的置信度下显著,的置信度下显著,即是消费支出的主要解释变量;即是消费支出的主要解释变量;|t2|2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。第八十八页,讲稿共八十八页哦