《第二章回归分析PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第二章回归分析PPT讲稿.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章回归分析第1页,共60页,编辑于2022年,星期二v回归分析:回归分析:研研究究处处于于同同一一总总体体中中两两个个或或两两个个以以上上变变量量之间的之间的相关关系相关关系的数学工具。的数学工具。v相关关系相关关系1.确定关系(函数关系)确定关系(函数关系)如:如:U=IR2.相关关系(不确定关系)相关关系(不确定关系)如:树高与胸径,如:树高与胸径,产量产量与施肥量的关系。与施肥量的关系。第2页,共60页,编辑于2022年,星期二相关关系相关关系如给定如给定X的任一具体取值,对应的任一具体取值,对应的的Y是一随机变量是一随机变量,服从一定的概率分布;同时给定服从一定的概率分布;同时给定
2、Y的任一个具体取值时,对应的的任一个具体取值时,对应的X是一随机变量是一随机变量,服服从一定的概率分布从一定的概率分布.回归关系回归关系相关关系中,如果相关关系中,如果X容易确定容易确定或可控制,即为非随机变量,或可控制,即为非随机变量,Y是随机变量,则称是随机变量,则称Y对对X存在回归关系。存在回归关系。X:预报因子Y:预报量相关关系与回归关系相关关系与回归关系第3页,共60页,编辑于2022年,星期二2.1一元回归2.1.1回归分析概述回归分析概述第4页,共60页,编辑于2022年,星期二v回归函数回归函数(回归方程)回归方程)因变量自变量自变量:预报因子的取值因变量:预报量的期望(均值)
3、问题问题1:回归方程有何意义?:回归方程有何意义?问题问题2:如何求得回归方程?:如何求得回归方程?第5页,共60页,编辑于2022年,星期二v回归模型回归模型 第6页,共60页,编辑于2022年,星期二v回归函数回归函数散散点点图图:把把观观测测数数据据用用散散点点表表示示在平面直角坐标上在平面直角坐标上 实际中,回归函数不易得到,用如下办法确定:实际中,回归函数不易得到,用如下办法确定:(1)先确定形式:用专业知识或散点图;先确定形式:用专业知识或散点图;(2)确定系数:用最小二乘法)确定系数:用最小二乘法 X X与与与与 之之之之间间间间具具具具有有有有线线性性回回归归关关系系,散散散散
4、点点点点图图图图呈呈呈呈线线线线性性性性,回回回回归归归归函数是线性函数。函数是线性函数。函数是线性函数。函数是线性函数。第7页,共60页,编辑于2022年,星期二一元线性回归一元线性回归自变量为一个(自变量为一个(一元一元),回归函数是),回归函数是线性线性的的。设回归方程的形式为:设回归方程的形式为:常数项常数项常数项常数项回归系数回归系数回归系数回归系数一元线性回归方程模型一元线性回归方程模型关键关键:求出常数项和一次项系数(回归系数)求出常数项和一次项系数(回归系数)办法办法:由样本观测值,估计出直线方程由样本观测值,估计出直线方程。第8页,共60页,编辑于2022年,星期二一元线性回
5、归满足的前提一元线性回归满足的前提正态,独立,等方差正态,独立,等方差第9页,共60页,编辑于2022年,星期二2.1.2参数估计参数估计1.普通最小二乘法(普通最小二乘法(OLSE)第10页,共60页,编辑于2022年,星期二(1)构造残差平方和)构造残差平方和:求出常数项和回归系数求出常数项和回归系数回归值回归值实测值实测值请问:残差平方和表示什么?请问:残差平方和表示什么?第11页,共60页,编辑于2022年,星期二(2)确定系数)确定系数,使残差达到最小(最小二乘法)使残差达到最小(最小二乘法)求出常数项和回归系数求出常数项和回归系数为什么?为什么?怎么做?怎么做?求导数并令导数为零求
6、导数并令导数为零第12页,共60页,编辑于2022年,星期二解得:解得:其中:其中:预报因子预报因子平均值平均值预报量平均预报量平均值值第13页,共60页,编辑于2022年,星期二几个平方和记为:几个平方和记为:注注意意对对比比记记忆忆公公式式第14页,共60页,编辑于2022年,星期二求回归方程的例题求回归方程的例题例例设设从从某某油油松松林林地地随随机机抽抽得得10株株油油松松,测得胸径与树高如下表所示测得胸径与树高如下表所示:胸径x(cm)4.25.15.96.57.38.18.69.09.7树高y(m)5.74.66.47.87.58.49.29.59.6试求树高试求树高y对胸径对胸径
7、x的经验回归方程。的经验回归方程。第15页,共60页,编辑于2022年,星期二解:设回归方程为:解:设回归方程为:经计算得:经计算得:第一行数据之和第一行数据之和第二行数据之和第二行数据之和两行数据交叉乘两行数据交叉乘积之和积之和第16页,共60页,编辑于2022年,星期二计算平方和得:计算平方和得:X的离差平方和的离差平方和X和和Y的协方差的协方差第17页,共60页,编辑于2022年,星期二所以:所以:所求回归方程为:所求回归方程为:第18页,共60页,编辑于2022年,星期二2.1.3一元线性回归的显著性检验一元线性回归的显著性检验3种方法种方法1.方差分析法(F检验)2.样本相关系数法(
8、r检验)3.T检验第19页,共60页,编辑于2022年,星期二v1.方差分析法方差分析法(F检验检验):总的离差平方和:总的离差平方和:回归平方和回归平方和U=SSR残差平方和Q=SSE第20页,共60页,编辑于2022年,星期二构造检验统计量构造检验统计量即回归关系显著即回归关系显著第21页,共60页,编辑于2022年,星期二2.样本相关系数法样本相关系数法v样本相关系数:样本相关系数:大小能反映大小能反映X与与Y间的相关间的相关关系关系第22页,共60页,编辑于2022年,星期二v样本相关系数的特点:样本相关系数的特点:(1)|r|1(2)r0,则则X与与Y正相关;正相关;rr0.01(8
9、)线性关系极显著线性关系极显著第28页,共60页,编辑于2022年,星期二2.1.4利用回归方程预测利用回归方程预测步骤:步骤:第29页,共60页,编辑于2022年,星期二第30页,共60页,编辑于2022年,星期二2.2多元回归多元回归第40页,共60页,编辑于2022年,星期二2.2.1多元回归概述多元回归概述因变量因变量(响应变量响应变量)为为y (一个),(一个),自变量自变量(回归变量回归变量)为为xi(i1,2,k)(多个),(多个),多元线性回归模型:多元线性回归模型:其中其中0称为称为截距截距i(i1,2,k)叫做叫做偏回归系数偏回归系数,叫做叫做误差误差第41页,共60页,编
10、辑于2022年,星期二如如果果对各各自自变量量及及相相应的的因因变量量观测了了n次次,得得到到如如下下表所示的表所示的样本:本:样本本号号因因变量量回回归变量量x1x2x3xk1y1x11x12x13x1k2y2x21x22x23x2knynxn1xn2xn3xnk第42页,共60页,编辑于2022年,星期二令令则模型矩阵表示为则模型矩阵表示为第43页,共60页,编辑于2022年,星期二2.2.2参数估计参数估计利用最小二乘法,得利用最小二乘法,得第44页,共60页,编辑于2022年,星期二例、设因变量y与其有关的自变量x1,x2得下表所示的数据:样本号(年份)因变量回归变量yx1x2180.
11、56290.583120.7104110.5125130.8126171.212(7)?(1.7)(14)如果y与x1,x2的线性模型是第45页,共60页,编辑于2022年,星期二(1)求回归方程yb0b1x1b2x2(2)预测当x11.7,x214时,y的估计值(3)计算残差。由公式即可算出其中故所求回归方程为当x11.7,x214时,y的预报值为第46页,共60页,编辑于2022年,星期二我们可以通过回归方程计算出每一样点上的残差为:0.1,0.0,0.3,0.1,0.4,0.1于是残差平方和0.27第47页,共60页,编辑于2022年,星期二2.2.3方差分析与回归参数检验方差分析与回归
12、参数检验第48页,共60页,编辑于2022年,星期二(一一)方差分析法方差分析法在在讨论检验之前,先介之前,先介绍几种平方和:几种平方和:1.残差平方和残差平方和回归的显著性检验回归的显著性检验第49页,共60页,编辑于2022年,星期二2.总平方和平方和回回归平方和平方和反映模型的反映模型的贡献,称献,称为SSR第50页,共60页,编辑于2022年,星期二回归平方和的自由度,记为回归平方和的自由度,记为fRk残差平方和的自由度,残差平方和的自由度,记为fEnk进行进行F检验检验:我们就认为回归关系在我们就认为回归关系在水平上是显著的;水平上是显著的;换句话说,模型在一定程度上反映了换句话说,
13、模型在一定程度上反映了y与与之间的相关关系。之间的相关关系。第51页,共60页,编辑于2022年,星期二方差分析表方差分析表变变差差来来源源离离差差平平方方和和自由度自由度均方均方F值值临界值临界值显显著著性性回回归归SSRfR=kMSRF=MSR/MSEF(fR,fE)*-残残差差SSEfE=n-k-1MSE总总和和SSTfT=n-1第52页,共60页,编辑于2022年,星期二(二)复相关系数法(二)复相关系数法回回归平方和在平方和在总平方和中所占份平方和中所占份额,即,即可用来可用来评价模型的有效性,称价模型的有效性,称为决定系数决定系数,称称R为为复相关系数复相关系数,R越大,反映回归变
14、量与因变越大,反映回归变量与因变量之间线性关系密切。量之间线性关系密切。第53页,共60页,编辑于2022年,星期二一一般般0R1,但但R要要多多大大才才认为线性性关关系系存存在在呢呢?要要给出出临界界值(多多元元线性性回回归显著著性性检验复复相关系数相关系数临界值表临界值表)多元线性回归显著多元线性回归显著,否则不显著否则不显著第54页,共60页,编辑于2022年,星期二校正决定系数校正决定系数(Adjusteddeterminationefficient)响考虑了自变量个数的影,22RRc第55页,共60页,编辑于2022年,星期二(三)(三)t检验:检验第检验第j个自变量对个自变量对Y影
15、响是否显著影响是否显著第56页,共60页,编辑于2022年,星期二说明第说明第j个自变量对个自变量对Y影响显著,应保留,否则说明第影响显著,应保留,否则说明第j个自变量对个自变量对Y影响不显著,可以剔除;影响不显著,可以剔除;如果同时有几个预报因子经检验都不显著,则先剔除如果同时有几个预报因子经检验都不显著,则先剔除|t|值最小的预报因子,每次只能剔除一个预报因子。值最小的预报因子,每次只能剔除一个预报因子。第57页,共60页,编辑于2022年,星期二剔除和引剔除和引进变量的方法量的方法)淘汰法(向后法)淘汰法(向后法backward)这种种程程序序基基本本思思想想是是,根根据据给定定问题的的
16、实际情情况况考考虑,把把所所有有可可供供选择的的自自变量量都都放放进模模型型中中,尔后后逐逐个个剔剔除除,直直到到不不能再剔除能再剔除为止。最后即止。最后即为所所选的模型。的模型。)纳新法(向前法新法(向前法forward)与与淘淘汰汰法法相相反反,先先选少少量量自自变量量进入入模模型型,然然后后一一个个一一个个地地使使用用引引进变量量方方法法,把把新新变量量引引进到到模模型型中中来来,一直到不能引一直到不能引进为止。止。)逐逐步步回回归法法(吐吐故故纳新新法法)(有有进有有出出法法stepwise)第58页,共60页,编辑于2022年,星期二在在淘淘汰汰中中,一一旦旦变量量被被剔剔除除模模型
17、型,往往后后就就没没有有机机会会再再进入入模模型型;在在纳新新法法中中,一一旦旦变量量被被选进模模型型,往往后后就就不不会会被被淘淘汰汰出出模模型型。然然后后,由由于于变量量之之间相相关关的的复复杂性性,当当某某个个变量量被被淘淘汰汰后后,早早先先被被淘淘汰汰的的变量量可可能能就就会会显得得重重要要;或或者者当当新新的的一一个个变量量被被引引进后后,原原先先已已在在模模型型中中的的变量量或或许就就不不重重要要了了。为了了改改善善这两两种种方方法法的的各各自自缺缺点点,逐逐步步回回归法法把把两两个个方方法法结合合起起来来,交交替替使使用用做做到到了了“扬长避避短短”。逐逐步步回回归是是目目前前国
18、国内内使使用用较多多的的一一种方法。种方法。第59页,共60页,编辑于2022年,星期二在在逐逐步步回回归归中中,首首先先用用纳纳新新法法引引入入一一个个变变量量,而而后后对对早早先先已已进进入入模模型型中中的的变变量量使使用用淘淘汰汰法法,淘淘汰汰不不显显著著变量量,一一直直到到不不能能淘淘汰汰,再再用用纳新新法法,引引进新新变量量纳新新法法每每次次只只能能引引进一一个个变量量,即即转入入淘淘汰汰法法程程序序,而而淘淘汰汰法法可可连续多多次次使使用用。如如此此循循环,一一直直到到既既不不能能纳新新也也不不能能淘淘汰汰才才终止止运运算算程程序序,选出最出最终模型。模型。第60页,共60页,编辑于2022年,星期二