《11回归分析的基本思想及其初步应用(3).ppt》由会员分享,可在线阅读,更多相关《11回归分析的基本思想及其初步应用(3).ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1)1)确定解释变量和预报变量确定解释变量和预报变量; ; 2)2)画出散点图画出散点图; ; 3)3)确定回归方程类型确定回归方程类型; ; 4)4)求出回归方程求出回归方程; ; 5)5)利用相关指数或残差进行分析利用相关指数或残差进行分析. .建立回归模型的基本步骤建立回归模型的基本步骤问题:问题:一只红铃虫的产卵数一只红铃虫的产卵数y与温度与温度x有关有关,现收现收集了集了7组观测数据组观测数据,试建立试建立y与与x之间的回归方程之间的回归方程 解解:1):1)作散点图作散点图; ;从散点图中可以看出产卵数和温度之间的关系并不能从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模
2、型来很好地近似。这些散点更像是集中用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。在一条指数曲线或二次曲线的附近。解解: : 令令 则则z=bx+a,(az=bx+a,(a=lnc=lnc1 1,b=c,b=c2 2),),列出变换后数据表并画列出变换后数据表并画 出出x x与与z z 的散点图的散点图 z =lnyz =lnyx和z之间的关系可以用线性回归模型来拟合z = ax+b+ez = ax+b+e2 2c xc x1 1用用y = c e模y = c e模型型; ;1)x x2121232325252727292932323535z z1.9461.94
3、6 2.3982.398 3.0453.045 3.1783.1784.194.194.7454.745 5.7845.7842) 2) 用用 y=cy=c3 3x x2 2+c+c4 4 模型模型, ,令令 , ,则则y=cy=c3 3t+ct+c4 4 , ,列出列出变换后数据表并画出变换后数据表并画出t t与与y y 的散点图的散点图 2 2t t = = x x散点并不集中在一条直线的附近,因此用线散点并不集中在一条直线的附近,因此用线性回归模型拟合他们的效果不是最好的。性回归模型拟合他们的效果不是最好的。t t4414415295296256257297298418411024102
4、4 12251225y y7 71111212124246666115115325325( (1 1) )0 0. .2 27 72 2x x- -3 3. .8 84 43 3( (2 2) )2 2y y= = e e, ,y y= = 0 0. .3 36 67 7x x - -2 20 02 2. .5 54 4( (1 1) )( (1 1) )0 0. .2 27 72 2x x- -3 3. .8 84 43 3i ii ii i( (2 2) )( (2 2) )2 2i ii ii ie e= = y y - -y y= = y y - -e e, , ( (i i= =1
5、1, ,2 2. . . .7 7) )e e= = y y - -y y= = y y - -0 0. .3 36 67 7x x + +2 20 02 2. .5 54 4, ,残残差差表表编号编号1 12 23 34 45 56 67 7x x2121232325252727292932323535y y7 71111212124246666115115325325e(1)e(1) 0.520.52 -0.167-0.1671.761.76-9.149-9.1498.8898.889-14.153-14.15332.92832.928e(2)e(2) 47.747.7 19.39719.
6、397-5.835-5.835-41.003-41.003-40.107-40.107-58.268-58.26877.96577.965非线性回归方程非线性回归方程二次回归方程二次回归方程残差公式残差公式 在此处可以引导学生体会应用统计方法解决实际在此处可以引导学生体会应用统计方法解决实际问题需要注意的问题:问题需要注意的问题:对于同样的数据,有不对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方同的统计方法进行分析,我们要用最有效的方法分析数据。法分析数据。现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:.,212exyecyebaxyexc可以利用直
7、观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。ebxcz2ety 问题六:若两个变量呈现非线性关系,如何解决?问题六:若两个变量呈现非线性关系,如何解决?(分析例(分析例2)例例2 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关。现收集了有关。现收集了7组观测数据列于表中:组观测数据列于表中:温度温度xoC21232527293235产卵数产卵数y/个个711212466115325(1 1)试建立产卵数)试建立产卵数y y与温度与温度x x之间的回归方程;并预测温度为之间的回归方程;并预测温度为2828o oC C时产卵时产卵数目。数目。(2 2)你所建立的模型中温
8、度在多大程度上解释了产卵数的变化?)你所建立的模型中温度在多大程度上解释了产卵数的变化? 选变量选变量 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预报变量y y。画散点图画散点图假设线性回归方程为假设线性回归方程为 :=bx+a选选 模模 型型分析和预测分析和预测当当x=28时,时,y =19.8728-463.73 93估计参数估计参数由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=19.8719.87x x-463.73-463.73 相关指数相关指数R R2 2= =r r2 20.8640.8642 2=0.7464=0.7464所以,
9、一次函数模型中温度解释了所以,一次函数模型中温度解释了74.64%的产卵数变化。的产卵数变化。050100150200250300350036912151821242730333639当当x=28时,时,y =19.8728-463.73 93方法一:一元函数模型方法一:一元函数模型 y= c1 x2+c2 变换变换 y= c1 t+c2 非线性关系非线性关系 线性关系线性关系问题问题选用选用y=c1x2+c2 ,还是,还是y=c1x2+cx+c2 ?问题问题3 产卵数产卵数气温气温问题问题2如何求如何求c1、c2? t=x2方法二,二元函数模型方法二,二元函数模型平方变换平方变换:令令t=x
10、t=x2 2,产卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方温度的平方t44152962572984110241225产卵数产卵数y/个个711212466115325作散点图,并由计算器得:作散点图,并由计算器得:y y和和t t之间的线性回归方程为之间的线性回归方程为y=y=0.3670.367t t-202.54-202.54,相关指数,相关指数R R2 2= =r r2
11、 20.8960.8962 2=0.802=0.802将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得: y=y=0.3670.367x x2 2 -202.54 -202.54当当x x=28=28时时,y y=0.367=0.36728282 2- -202.5485202.5485,且,且R R2 2=0.802=0.802,所以,二次函数模型中温度解所以,二次函数模型中温度解释了释了80.2%80.2%的产卵数变化。的产卵数变化。t产卵数产卵数气温气温 变换变换 y=bx+a 非线性关系非线性关系 线性关系线性关系43c xyc e对数对数方法三:指数函数模型xccexcc
12、ecyxc43433lnlnlnlnlnln4abxzzybcac则有令,ln,ln43温度温度x/21 23 25 27Z=lny1.9462.3983.4053.178产卵数y/个711 21 242932354.1904.7455.78466115325c由计算器得:由计算器得:z关于关于x的线性回归方程的线性回归方程相关指数相关指数 因此因此y关于关于x的非线的非线性回性回归方程为归方程为98. 02R489. 3272. 0 xz当当x=28 时,时,y 44 ,指数回归模型中温度解释了,指数回归模型中温度解释了98%的产卵数的变化的产卵数的变化C489. 3272. 0 xey函数
13、模型函数模型相关指数相关指数R2线性回归模型线性回归模型0.7464二次函数模型二次函数模型0.802指数函数模型指数函数模型0.98最好的模型是哪个最好的模型是哪个?显然,指数函数模型最好!显然,指数函数模型最好!(2)20.367202.543yx(1)0.2723.849xye 利用残差计算公式:利用残差计算公式:0.2723.849(1)(1),1,2,7ixiiiieyyyei (2)(2)20.367202.543,1,2,7iiiiieyyyxi77.968-58.265-40.104-41.000-5.83219.40047.69634.675-13.3819.230-8.95
14、01.875-0.1010.557325115662421117Y35322927252321X(1)ie(2)ie由残差平方和:由残差平方和:21niiQe (1)(2)1550.538,15448.431.QQ故指数函数模型的拟合效果比二次函数的模拟效果好故指数函数模型的拟合效果比二次函数的模拟效果好.或由条件或由条件R2分别为分别为0.98和和0.80,同样可得它们的效果,同样可得它们的效果.在散点图中,样本点没有分布在某个带状区域内,在散点图中,样本点没有分布在某个带状区域内,因此两个变量不呈现线性相关关系,所以不能直接因此两个变量不呈现线性相关关系,所以不能直接利用线性回归方程来建立
15、两个变量之间的关系利用线性回归方程来建立两个变量之间的关系.令令z=lny,则变换后样本点应该分布在直线,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围)的周围.利用线性回归模型建立利用线性回归模型建立y和和x之间的非线性回归方程之间的非线性回归方程.当回归方程不是形如当回归方程不是形如y=bx+a时,我们称之为时,我们称之为非线性回非线性回归方程归方程.根据已有的函数知识,可以发现样本点分布在某一根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线条指数函数曲线 的周围,其中的周围,其中c1和和c2是是待定参数待定参数.xcecy21课堂知识延伸课堂知识延伸
16、我们知道,刑警如果能在案发现场提取到罪犯的脚印,即将获得一条重要的破我们知道,刑警如果能在案发现场提取到罪犯的脚印,即将获得一条重要的破案线索,其原因之一是人类的脚掌长度和身高存在着相关关系,可以根据一个人的案线索,其原因之一是人类的脚掌长度和身高存在着相关关系,可以根据一个人的脚掌长度来来预测他的身高脚掌长度来来预测他的身高 我们还知道,在统计史上,很早就有人收集过人们的身高、前臂长度等数据,我们还知道,在统计史上,很早就有人收集过人们的身高、前臂长度等数据,试图寻找这些数据之间的规律试图寻找这些数据之间的规律 在上述两个小故事的启发下,全班同学请分成一些小组,每组在上述两个小故事的启发下,
17、全班同学请分成一些小组,每组4-6名同学,在老名同学,在老师的指导下,开展一次数学建模活动,来亲自体验回归分析的思想方法,提高自己的师的指导下,开展一次数学建模活动,来亲自体验回归分析的思想方法,提高自己的实践能力。实践能力。 数学建模的题目是:收集一些周围人们的脚掌长度、前臂长度中的一个数据及其数学建模的题目是:收集一些周围人们的脚掌长度、前臂长度中的一个数据及其身高,来作为两个变量画散点图,如果这两个变量之间具有线性相关关系,就求出回身高,来作为两个变量画散点图,如果这两个变量之间具有线性相关关系,就求出回归直线方程,另选一个人的这两个变量的数据,作一次预测,并分析预测结果。归直线方程,另
18、选一个人的这两个变量的数据,作一次预测,并分析预测结果。 最后以小组写出数学建模报告,报告要求过程清晰,结论明确,有关数学论述准最后以小组写出数学建模报告,报告要求过程清晰,结论明确,有关数学论述准确,以下两个问题需要注意:确,以下两个问题需要注意: (1)如果脚掌长度不方便,可改量脚印的长度。)如果脚掌长度不方便,可改量脚印的长度。 (2)数据尽量取得分散一些。)数据尽量取得分散一些。小小 结结 实际问题实际问题y = f(x)y = f(x) 样本分析样本分析y = f(x)y = f(x) 回归模型回归模型y = f(x)y = f(x)抽样抽样回归分析回归分析预报精度预报精度预报预报
19、比数学3中“回归”增加的内容数学数学统计统计1. 画散点图画散点图2. 了解最小二乘法了解最小二乘法的思想的思想3. 求回归直线方程求回归直线方程ybxa4. 用回归直线方程用回归直线方程解决应用问题解决应用问题选修2-3统计案例5. 引入线性回归模型引入线性回归模型ybxae6. 了解模型中随机误差项了解模型中随机误差项e产产生的原因生的原因7. 了解相关指数了解相关指数 R2 和模型拟和模型拟合的效果之间的关系合的效果之间的关系8. 了解残差图的作用了解残差图的作用9. 利用线性回归模型解决一类利用线性回归模型解决一类非线性回归问题非线性回归问题10.正确理解分析方法与结果正确理解分析方法
20、与结果回归分析知识结构图回归分析知识结构图问题背景分析问题背景分析线性回归模型线性回归模型两个变量线性相关两个变量线性相关最小二乘法最小二乘法两个变量非线性相关两个变量非线性相关非线性回归模型非线性回归模型残差分析残差分析散点图散点图应用应用注:虚线表示高中阶段不涉及的关系2R非线性回归分析非线性回归分析对于非线性回归问题对于非线性回归问题,并且没有给出经验公并且没有给出经验公式式,这时我们可以画出已知数据的散点图这时我们可以画出已知数据的散点图,把把它与必修模块它与必修模块数学数学1中学过的各种函数中学过的各种函数(幂函数、指数函数、对数函数等)的图(幂函数、指数函数、对数函数等)的图象作比
21、较象作比较,挑选一种跟这些散点拟合得最好挑选一种跟这些散点拟合得最好的函数的函数,然后采用适当的变量代换然后采用适当的变量代换,把问题转把问题转化为线性回归问题化为线性回归问题,使其得到解决使其得到解决.例例2 一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关有关,现收现收集了集了7组观测数据列于表中:组观测数据列于表中:温度温度xoC21232527293235产卵数产卵数y/个个711212466115325试建立产卵数试建立产卵数y y与温度与温度x x之间的回归方程;之间的回归方程;选变量选变量 解:选取气温为解释变量解:选取气温为解释变量x x,产卵数,产卵数 为预报变量为预
22、报变量y y。画散点图画散点图假设线性回归方程为假设线性回归方程为 :=bx+a选选 模模 型型分析和预测分析和预测当当x=28时,时,y =19.8728-463.73 93估计参数估计参数由计算器得:线性回归方程为由计算器得:线性回归方程为y=y=19.8719.87x x-463.73-463.73所以,一次函数模型拟合效果不太好。所以,一次函数模型拟合效果不太好。050100150200250300350036912151821242730333639当当x=28时,时,y =19.8728-463.73 93方法一:一元函数模型方法一:一元函数模型 y= c1 x2+c2 变换变换
23、y= c1 t+c2 非线性关系非线性关系 线性关系线性关系问题问题选用选用y=c1x2+c2 ,还是,还是y=c1x2+cx+c2 ?问题问题3 产卵数产卵数气温气温问题问题2如何求如何求c1、c2? t=x2方法二,二元函数模型方法二,二元函数模型平方变换平方变换:令令t=xt=x2 2,产卵数,产卵数y y和温度和温度x x之间二次函数模型之间二次函数模型y=bxy=bx2 2+a+a就转化为产卵数就转化为产卵数y y和温度的平方和温度的平方t t之间线性回归模型之间线性回归模型y=bt+ay=bt+a温度温度21232527293235温度的平方温度的平方t44152962572984
24、110241225产卵数产卵数y/个个711212466115325作散点图,并由计算器得:作散点图,并由计算器得:y y和和t t之间的线性回归方程为之间的线性回归方程为y=y=0.3670.367t t-202.54-202.54将将t=xt=x2 2代入线性回归方程得:代入线性回归方程得: y=y=0.3670.367x x2 2 -202.54 -202.54当当x x=28=28时时,y y=0.367=0.36728282 2- -202.5485202.5485,所以,二次函数模型比一次函数所以,二次函数模型比一次函数模型较好。模型较好。t产卵数产卵数气温气温 变换变换 y=bx
25、+a 非线性关系非线性关系 线性关系线性关系43c xyc e对数对数方法三:指数函数模型xccexccecyxc43433lnlnlnlnlnln4abxzzybcac则有令,ln,ln43温度温度x/21232527Z=lny1.9462.3983.4053.178产卵数y/个71121242932354.1904.7455.78466115325c由计算器得:由计算器得:z关于关于x的线性回归方程的线性回归方程 因此因此y关于关于x的非线性回归方程为的非线性回归方程为849. 3272. 0 xz当当x=28 时,时,y 44 ,指数回归模型比二次函数模型更好,指数回归模型比二次函数模型更好C849. 3272. 0 xey【题后点评】作出散点图,由散点图【题后点评】作出散点图,由散点图选择合适的回归模型是解决本题的关选择合适的回归模型是解决本题的关键,在这里线性回归模型起了转化的键,在这里线性回归模型起了转化的作用作用.