《8.2.2第二课时线性回归应用 课件(共25张PPT).pptx》由会员分享,可在线阅读,更多相关《8.2.2第二课时线性回归应用 课件(共25张PPT).pptx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一元线性回归模型的应用一元线性回归模型的应用 例例 经验表明,一般树的胸径经验表明,一般树的胸径(树的主干在地面以上树的主干在地面以上1.3m处的直径处的直径)越大,越大,树就越高树就越高.由于测量树高比测量胸由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高径困难,因此研究人员希望由胸径预测树高.在研究树高在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如与胸径之间的关系时,某林场收集了某种树的一些数据如下表,试根据这些数据建立树高关于胸径的经验回归方程下表,试根据这些数据建立树高关于胸径的经验回归方程.编号编号123456胸径胸径/cm18.120.122.224.426
2、.028.3树高树高/m18.819.221.021.022.122.1编号编号789101112胸径胸径/cm29.632.433.735.738.340.2树高树高/m22.422.623.024.323.924.7 例例 根据下面数据建立树高关于胸径的经验回归方程根据下面数据建立树高关于胸径的经验回归方程.编号编号123456胸径胸径/cm18.120.122.224.426.028.3树高树高/m18.819.221.021.022.122.1编号编号789101112胸径胸径/cm29.632.433.735.738.340.2树高树高/m22.422.623.024.323.924
3、.7解解:以胸径为横坐标,树高为纵坐标作散点图如下:以胸径为横坐标,树高为纵坐标作散点图如下:在右图中,在右图中,散点大致散点大致分布在一条从左下角到右分布在一条从左下角到右上角的直线附近,表明两上角的直线附近,表明两个变量线性相关,并且是个变量线性相关,并且是正相关,因此可以用一元正相关,因此可以用一元线性回归模型刻画树高与线性回归模型刻画树高与胸径之间的关系胸径之间的关系.用用d表示胸径表示胸径,h表示树高表示树高,根据据最小二乘法根据据最小二乘法,计算可计算可得经验回归方程为得经验回归方程为相应的经验回归直线如图所示相应的经验回归直线如图所示.编号编号胸径胸径/cm树高观测值树高观测值/
4、m树高预测值树高预测值/m残差残差/m118.1 18.8 19.4-0.6 220.1 19.2 19.9-0.7 322.2 21.0 20.4 0.6 424.4 21.0 20.9 0.1 526.0 22.1 21.3 0.8 628.3 22.1 21.9 0.2 729.6 22.4 22.2 0.2 832.4 22.6 22.9-0.3 933.7 23.0 23.2-0.2 1035.7 24.3 23.7 0.6 1138.3 23.9 24.4-0.5 1240.2 24.7 24.9-0.2 根据经验回归方程,由胸径的数据可以计算出树高的根据经验回归方程,由胸径的数据
5、可以计算出树高的预测值预测值(精确到精确到0.1)以及相应的残差,如以及相应的残差,如下表所示下表所示.以胸径为横坐标以胸径为横坐标,残差为纵坐标残差为纵坐标,作残差图作残差图,得到得到下下图图.观察残差表和残差图,可以看到,残差的绝对值最大观察残差表和残差图,可以看到,残差的绝对值最大是是0.8,所有残差分布在以横轴为对称轴、宽度小于,所有残差分布在以横轴为对称轴、宽度小于2的带的带状区域内状区域内.可见经验回归方程较好地刻画了树高与胸径的可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高关系,我们可以根据经验回归方程由胸径预测树高.编号编号12345678
6、年份年份18961912192119301936195619601968记录记录/s 11.80 10.60 10.40 10.3010.2010.10 10.009.95 问题问题 人们常将男子短跑人们常将男子短跑100m的高水平运动员称为的高水平运动员称为百百米飞人米飞人.下表给出了下表给出了1968年之前男子短跑年之前男子短跑100m世界纪录产世界纪录产生的年份和世界纪录的数据生的年份和世界纪录的数据.试依据这些成对数据试依据这些成对数据,建立男建立男子短跑子短跑100m世界纪录关于纪录产生年份的经验回归方程世界纪录关于纪录产生年份的经验回归方程.以成对数据中的世界纪录产生年份为横坐标以
7、成对数据中的世界纪录产生年份为横坐标,世界纪世界纪录为纵坐标作散点图录为纵坐标作散点图,得到下图得到下图.在在上上图中,散点看上去大致分布在一条直线附近,似图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程乎可用一元线性回归模型建立经验回归方程.用用Y表示男子短跑表示男子短跑100m的世界纪录的世界纪录,t表示纪录产生的表示纪录产生的年份年份,利用一元线性回归模型来刻画世界纪录和世界纪录利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系产生年份之间的关系.根据最小二乘法根据最小二乘法,由由表中的数据得到经验回归方程为:表中的数据得到经验回归方程为:将经
8、验回归直线叠加到散点图,得到下图:将经验回归直线叠加到散点图,得到下图:观察观察!从图中可以看到从图中可以看到,经验回归方程较好地刻画了散经验回归方程较好地刻画了散点的变化趋点的变化趋,请再仔细观察图形请再仔细观察图形,你能看出其中存在的问题你能看出其中存在的问题吗吗?以经验回归直线为参照,可以发现经验回归方程的不以经验回归直线为参照,可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征足之处,以及散点的更为精细的分布特征.例如,例如,第一个第一个世界纪录所对应的散点世界纪录所对应的散点远离远离经验回归直经验回归直线,并且线,并且前后两时间段中前后两时间段中的散点都在经验回归直线的的散
9、点都在经验回归直线的上方上方,中间中间时间段的散点都在经验回归直线的时间段的散点都在经验回归直线的下方下方.这说明散点并不是随机分布在经验回归直线的周围,这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征数据呈现出明显的非线性相关的特征.思考思考?你能对模型进行修改你能对模型进行修改,以使其更好地反映散点的以使其更好地反映散点的分布特征吗分布特征吗?仔细观察右图仔细观察右图,可以可以发现散点更趋向于落在发现散点更趋向于落在中间下凸且递减的某条中间下凸且递减的某条曲线附
10、近曲线附近.回顾已有的函数知识,可以发现函数回顾已有的函数知识,可以发现函数y=-lnx的图象具有的图象具有类似的形状特征类似的形状特征.注意到注意到100m短跑的第一个世界纪录产生于短跑的第一个世界纪录产生于1896年年,因因此可以认为散点是集中在曲线此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,的周围,其中其中c1、c2为未知参数,且为未知参数,且c20.散点集中在曲线散点集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中的周围,其中c1、c2为未知参数,且为未知参数,且c20.用上述函数刻画数据变化的趋势,用上述函数刻画数据变化的趋势,这是
11、一个非线性经这是一个非线性经验回归函数,其中验回归函数,其中c1,c2是待定的参数是待定的参数,现在问题转化为,现在问题转化为如何利用成对数据估计参数如何利用成对数据估计参数c1和和c2.为了利用一元线性回归模型估计参数为了利用一元线性回归模型估计参数c1和和c2,我们引,我们引进一个中间变量进一个中间变量x,令,令x=ln(t-1895),通过,通过x=ln(t-1895),将,将年份变量数据进行变换,得到新的成对数据,如下表年份变量数据进行变换,得到新的成对数据,如下表.编号编号12345678年份年份/t18961912192119301936195619601968x0.002.833
12、.263.563.714.114.174.29记录记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.009.95 如果上表对应的散点图呈现出很强的线性相关特征,如果上表对应的散点图呈现出很强的线性相关特征,我们就可以借助一元我们就可以借助一元线性回归模型和新的成对数据,对参线性回归模型和新的成对数据,对参数数c1 和和 c2作出估计,进而可以得到作出估计,进而可以得到Y关于关于t的非线性经验回的非线性经验回归方程归方程.令令x=ln(t-1895),则则Y=c2 x+c1.在直角坐标系中画出上表中成对数据的散点图,如下在直角坐标系中画出上表中成对数据的散点
13、图,如下图所示,散点分布呈现出很强的线性相关特征图所示,散点分布呈现出很强的线性相关特征.因此,用一元线性回归模型因此,用一元线性回归模型拟合上表中的数据,得到经验回归方程拟合上表中的数据,得到经验回归方程在上图中画出经验回归直线,如图所示在上图中画出经验回归直线,如图所示.上图表明上图表明,经验回归方程对于经验回归方程对于上表中的上表中的成对数据具有成对数据具有非常好的非常好的拟合精度拟合精度.将两个回归直线进行对比将两个回归直线进行对比,可以发现可以发现x和和Y之间的线性相关程度比原始样本数据的线性相关程度之间的线性相关程度比原始样本数据的线性相关程度强得多强得多.将将x=ln(t-189
14、5)代入代入得到由创纪录年份预报世界纪录的经验回归方程得到由创纪录年份预报世界纪录的经验回归方程.在同一坐标系中画出成对数据散点图、非线性经验回归在同一坐标系中画出成对数据散点图、非线性经验回归方程方程的图像的图像(蓝色蓝色)以及经验回归方程以及经验回归方程的图像的图像(红色红色),如,如图所示图所示.我们发现,散点图中各散点都非常靠近我们发现,散点图中各散点都非常靠近的图像的图像,表明非表明非线性经验回归方程线性经验回归方程对于原始数据的拟合效果远远好于经验对于原始数据的拟合效果远远好于经验回归方程回归方程.下面通过残差来比较这两个经验回归方程对数据刻画下面通过残差来比较这两个经验回归方程对
15、数据刻画的好坏的好坏.用用ti表示编号为表示编号为i的年份数据,用的年份数据,用yi表示编号为表示编号为i的记的记录数据,则经验回归方程录数据,则经验回归方程和和的残差计算公式分别为的残差计算公式分别为 观察各项残差的绝对值,发现经验回归方程观察各项残差的绝对值,发现经验回归方程远远小远远小于于,即经验回归方程,即经验回归方程的拟合效果要远远好于的拟合效果要远远好于.编号编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.001 0.007-0.012 0.015-0
16、.018 0.052-0.021-0.022 两个经验回归方程的残差两个经验回归方程的残差(精确到精确到0.001)如下表所示如下表所示.在一般情况下,直接比较两个模型的残差比较困难,在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型因为在某些散点上一个模型的残差的绝对值比另一个模型小,而另一些散点的情况则相反小,而另一些散点的情况则相反.可以通过比较残差的平方可以通过比较残差的平方和来比较两个模型的效果和来比较两个模型的效果.由由可知可知Q2小于小于Q1,因此在残差平方和最小的标准下,因此在残差平方和最小的标准下,非线性非线性回归模型回归模型的拟
17、合效果要优于一元线性回归模型的拟合效果的拟合效果要优于一元线性回归模型的拟合效果.也可以用决定系数也可以用决定系数R2来比较两个模型的拟合效果来比较两个模型的拟合效果.R2的计算公式为的计算公式为在在R2的表达式中,的表达式中,与经验与经验回归方程无关;回归方程无关;残差平方和残差平方和 与经验与经验回归方程有关回归方程有关.因此因此R2越大,表示残差平方和越小,即模型的拟合效越大,表示残差平方和越小,即模型的拟合效果越好,果越好,R2越小,表示残差平方和越大,即模型拟合效果越小,表示残差平方和越大,即模型拟合效果越差越差.容易算出经验回归方程容易算出经验回归方程和和的的R2分别约为分别约为0
18、.7325和和0.9983,因此,经验回归方程,因此,经验回归方程的刻画效果比经验回归方的刻画效果比经验回归方程程的好得多的好得多.另外,我们还可以用新的观测数据来检验模型的拟合另外,我们还可以用新的观测数据来检验模型的拟合效果效果.事实上,我们还有事实上,我们还有1968年之后的男子短跑年之后的男子短跑100m世界世界纪录数据,如下表所示纪录数据,如下表所示.编号编号9101112131415t1983198819911991199419961999Y/s9.939.929.909.869.859.849.79编号编号161718192021t200220052007200820082009
19、Y/s9.789.779.749.729.699.58 在散点图中继续绘制上表中的散点在散点图中继续绘制上表中的散点(绿色绿色),再添加经,再添加经验回归方程验回归方程所对应的经验回归直线,以及经验回归方程所对应的经验回归直线,以及经验回归方程所对应的经验回归曲线,得到下图所对应的经验回归曲线,得到下图.显然绿色散点分布在蓝色经验回归曲线的附近,远离显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程红色经验回归直线,表明经验回归方程对于新数据的预对于新数据的预报效果远远好于报效果远远好于.思考思考?在上述问题情境中,男子短跑在上述问题情境中,男子短跑100m世界纪
20、录和世界纪录和纪录产生年份之间呈现出对数关系,能借助样本相关系数纪录产生年份之间呈现出对数关系,能借助样本相关系数刻画这种关系的强弱吗刻画这种关系的强弱吗?在使用经验回归方程进行预测时在使用经验回归方程进行预测时,需需注意以下问题注意以下问题:1.回归方程回归方程只适用只适用于我们所研究的样本的总体于我们所研究的样本的总体.例如,例如,根据我国父亲身高与儿子身高数据建立的经验回归方程根据我国父亲身高与儿子身高数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间关系不能用来描述美国父亲身高与儿子身高之间关系.同样,同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验根据生长在南方多
21、雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系的关系.3.解释变量的取值不能离样本数据的解释变量的取值不能离样本数据的范围太远范围太远.一般一般解释变量的取值在样本范围内,经验回归方程的预报效果解释变量的取值在样本范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报效果越差会比较好,超出这个范围越远,预报效果越差.4.不能期望不能期望经验经验回归方程得到的预报值就是响应变量回归方程得到的预报值就是响应变量的精确值的精确值.事实上事实上,它是它是响应响应变量的可取值的平均值变量的可取值的平均值.2.经验回归经验回归回归方程一般都有回归方程一般都有时间性时间性.例如,根据例如,根据20世纪世纪80年代父亲身高与儿子身高数据建立的经验回归方程年代父亲身高与儿子身高数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间关系不能用来描述现在的父亲身高与儿子身高之间关系.归纳小结归纳小结1.残差平方和:残差平方和:2.最小二乘法最小二乘法将将 称为称为Y 关于关于x 的的经验回归方程经验回归方程.3.判断模型拟合的效果判断模型拟合的效果:残差分析残差分析R2越大,模型的拟合效果越好越大,模型的拟合效果越好,R2越小,模型拟合效果越小,模型拟合效果越差越差.