《2011年高中数学 8《最小二乘估计》学案 北师大版必修3.pdf》由会员分享,可在线阅读,更多相关《2011年高中数学 8《最小二乘估计》学案 北师大版必修3.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、最小二乘估计最小二乘估计经历了用不同估算方法描述两个变量线性相关的过程,我们探索最科学的描述方法,有一个非常直观的想法,即一个好的线性关系要保证这条直线与所有点都近.最小二乘法就是基于这种想法.假设一条直线的方程为 y=ax+b,任意给定一个样本点(xi,yi),我们用yi(a+bxi)2 来刻画这个样本点与这条直线之间的“距离”,用它来表示二者之间的接近程度(如图191).y(x yi)i,y=a+bx(xi,a+bxi)全析提示科学合理的方案,是研究问题的基础,好的标准是直线与所有点都近.全析提示f(a)是以 a 为自变量的函数,函数方法在解决最近问题中是重要的典型方法.图 191如果有
2、3 个样本点,其坐标分别为(x1,y1),(x2,y2),(x3,y3),我们用最小二乘法推导 3 个点的线性回归方程.设有 3 个点(x1,y1),(x2,y2),(x3,y3),则由最小二乘法可知直线 y=a+bx 与这 3 个点的接近程度由下面表达式刻画:y1(a+bx1)2+y2(a+bx2)2+y3(a+bx3)2.这个表达式可以整理成关于a 的一元二次函数 f(a),如下所示:f(a)=3a22a(y1bx1)+(y2bx2)+(y3bx3)+(y1bx1)2+(y2bx2)2+(y3bx3)2.=3a22a(ybx)+(y1bx1)2+(y2bx2)2+(y3bx3)2.利用配方
3、法即得f(a)=3a(ybx)2+(y1bx1)2+(y2bx2)2+(y3bx3)23(ybx)2.从而当 a=ybx时,使得函数 f(a)达到最小值.将 a 代入第一个表达式,整理成关于 b 的一元二次函数 g(b),如下所示:g(b)=(x1x)2+(x2x)2+(x3x)2b22b(y1y)(x1x)+(y2y)(x2x)+(y3y)(x3x)+(y1y)2+(y2y)2+(y3y)2.同样使用配方法可以得到,当(y1 y)(x1 x)(y2 y)(x2 x)(y3 y)(x3 x)222Oxb=(x1 x)(x2 x)(x3 x).x1y1 x2y2 x3y3 3xy=222x1 x
4、2 x3 3x2时,使得函数 g(b)达到最小值.从而可以得到 3 个点(x1,y1),(x2,y2),(x3,y3)的线性回归方程(x1y1 x2y2 x3y3 3xy)xx1y1 x2y2 x3y3 3xy22y=y2x12x22x3 3x+2x12x22x3x 3x.同学们可以类似地讨论 5 个样本点、10 个样本点、100 个样本点的情况.如果有 n 个点(x1,y1),(x2,y2),(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx 的接近程度:y1(a+bx1)2+y2(a+bx2)2+yn(a+bxn)2.使得上式达到最小值的直线y=a+bx 就是我们所要求的直线
5、,这种方法称为最小二乘法.x1 x2 xny1 y2 ynnn如果用x表示,用y表示,则可以求得(x1 x)(y1 y)(x2 x)(y2 y)(xn x)(yn y)(x1 x)2(x2 x)2(xn x)2b=x1y2 x2y2 xnyn nxy=2x12x22xn nx2.a=ybx.(这两个公式的推导过程不在这里讨论,有兴趣的同学可以利用配方法试着进行推导)这样得到的直线方程称为线性回归方程,a、b 是线性回归方程的系数.其中,b 是回归方程的斜率,a 是截距.推导公式的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理.假设我们已经得到两个具有线性相关关系的变量的一组数据
6、(x1,y1),(x2,y2),(xn,yn),且所求回归方程是 y=bx+a,其中 a、b 是全析提示与3个点类似不难理解有n个点时,线性回归直线的求法.对于所得线性回归直线方程重在理解和应用,推导过程可以不作要求.要点提炼结合图形正确理解获得回归方程的原理.这里(x2,y2)表示第 2 个点的坐标,y2 是(x2,y2)点的纵坐标,a、b是方程中待定系数,y2对应x2 的直线上点的纵坐标.iy待定参数.当变量 x 取 xi(i=1,2,n)时,可以得到=bxi+a(i=1,2,n),它与实际收集到的 yi 之间的偏差是iyyi=yi(bxi+a)(i=1,2,n).(如图 192 所示)y
7、(x,y)iiyi-yi(x,)1y1y2(x,)2y2O图 192这样,用这 n 个偏差的和来刻画“各点与此直线的整体偏差”是比较全析提示通过求 Q 的最小值求出的直线方程,是使数据点到它距离合适的.由于(yiy)可正可负,为了避免相互抵消,可以考虑用平方和最小的方程,是最理想的直线方程.ni|yi y全析提示i1来代替,但由于它含有绝对值,运算不太方便,所以改用利用计算机可以非常方便地Q=(y1bx1a)2+(y2bx2a)2+(ynbxna)2.作散点图、趋势线、回归直线,并能求出直线的回归方程.来刻画 n 个点与回归直线在整体上的偏差.这样,问题就归结为:当a、b 取什么值时 Q 最小
8、,即总体偏差最小,经过数学上求最小值的运算,a、b 的值就是前面讲的公式.通过求 Q 的最小值,而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.根据二乘法和公式,利用计算器或计算机,可以方便地求出回归方程.以 Excel 软件为例,用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方程,具体步骤如下:1.在 Excel 中选定表示人体的脂肪含量与年龄的相关关系的散点图,全析提示在菜单中选定“图表”中的“添加趋势线”选项,弹出“添加趋势线”同学们可以根据我们给出的对话框.方法加以练习,掌握求回归直2.单击“类型”标签,选定“趋势预测/回
9、归分析类型”中的“线性”线方程的方法.选项,单击“确定”按钮,得到回归直线.3.双击回归直线,弹出“趋势线格式”对话框.单击“选项”标签,选定“显示公式”,最后单击“确定”按钮,得到回归直线的回归方程y=0.577x0.448.BCDEFHIJAG1年 龄 脂 肪 含 量2239.53脂 肪 含 量y=0.577 x-0.4482717.84403921.254125.93564527.57304926.38255028.295329.620105430.211155631.412105730.8135833.5514156035.206134.61601020304050607017年龄18
10、193图用科学计算器求这个回归方程的过程如下:全析提示我们掌握了回归直线的求法对人类有非常重大的意义.全析提示根据线性回归直线,可以对某MODE31(进 入 回 归 计 算 模 式)SHIFTCLR1 (清 除 统 计 存 储 器)23394550545760,9.521.227.528.230.230.835.2DTDTDTDTDTDTDT27414953565861,33.534.617.825.926.329.6DTDTDTDTDTDTDT些事情进行预测.要点提炼求线性回归方程的步骤:(1)作出散点图;(2)列 表 求 出x,y,i1 xi,xiyii1n2n;(3)利用公式i1nSHI
11、FT S-VAR-0.4481 (计 算 参 数a)xiyi nxyi1n所以回归方程为 y=0.577x0.448.SHIFT S-VAR2 (计 算 参 数b)正像本节开头所说的,我们从人体脂肪含量与年龄这两个变量的一组0.577随机样本数据中,找到了它们之间关系的一个规律,这个规律是由回归直线来反映的.利用回归直线,我们可以进行预测.如果我们知道了某个人的年龄,就可以利用回归方程来预测他的体内脂肪含量的百分比.例如,某人 37岁,我们预测他的体内脂肪含量在20.87%(0.576370.446=20.87%)附近的可能性比较大.不过,我们不能说他的体内脂肪含量一定是20.87%.事实上,
12、这个 20.87%是对年龄为 37 岁的人群中的大部分人的体内脂肪含量所作出的估计.从上面可看出,回归直线在现实生活中有着广泛地应用.问题 1:在上一节练习中,从散点图可以看出,某小卖部 6 天卖出热茶的杯数(y)与当天气温(x)之间是线性相关的.数据如下表:气温(xi)/26杯数20182413341038450164b=xi nx22,a=ybx;(4)写出线性回归方程.全析提示观察散点图,这些点大都集中在一条直线周围,说明它们具有线性关系,可以求线性回归方程.(1)试用最小二乘法求出线性回归方程;(2)如果某天的气温是3,请预测这天可能会卖出热茶多少杯.解:(1)从散点图 194 中可以
13、看出,上表中的两个变量是线性相关的.杯数70605040302010o-1 010 131826气温/C图 149435115先列表求出x=3,y=3,其他数据如下表:262067652018243244321334169442103810038045016200164164合计7023012861910进而可以求得35115全析提示1910 633 1.648.首先注意散点的分布,看是否35351286 6具有线性关系,然后才能用求33b=回归方程的方法求回归直线.a57.557.于是,线性回归方程为 y=57.5571.648x.(2)由上面的最小二乘法估计得出的线性回归方程知,当某天的气
14、温是3时,卖出热茶的杯数估计为 57.5571.648(3)=62.50163.根据8 北京市某中学学生女生关于一拃长之间的数据,作出散点图,全析提示身高与右手一拃长成线性关系,利用计算机 Excel 软件可以求出它们给我们一组数据,如果我们认的线性回归方程.为它有线性关系,总可以求出所求线性回归方程为 y=0.1526x6.4106.它的线性回归方程,这样处理右手一拃长/cm是否总是合理的呢?y=0.1526x-6.4106252015105图0195150160170180身高/cm根据8 北京市某中学学生男生一拃长与身高关系作出散点图,男生身高与右手一拃长成线性关系,利用计算机 Exce
15、l 软件可以求出线性回归方程.所求线性回归方程为 y=0.0068x+20.098.右手一拃长/cmy=0.0068 x+20.09860504030要点提炼20问题出在:根据数据作散点10 xiyixi22xiyi0160170180 身高/cm图 196从两个图看出女生右手一拃长受身高影响大,男生右手一拃长受身高影响小.问题 2:下面是两个变量的一组数据.图,应先看是否符合线性关系,否则容易出错.x12345678y1491625364964请用最小二乘法求出这两个变量之间的线性回归方程.y解:根据上表的数据,可以计算出x=4.5,=25.5,其他数据如下表.最小二乘法求线性回归方程xiy
16、ixi22xiyi有着广泛的应用,请同学们联1111系实际,熟练掌握.2448合计34567836916253649642049162536496420427641252163435121296进而,可以求得129684.525.59.204 84.54.5b=a=15.于是,线性回归方程为 y=15+9x.在上题中,从表中提供的数据很容易看出 y=x2,而我们用最小二乘法进行估计时得出的是线性方程.这样的估计已经失去了意义,你觉得问题出在哪儿?应当怎样去避免?y2y=x706050402010y=-15+9xO123456789 x图 197总之,根据一组数据先作散点图,然后看它们是否有线性关系,再求出线性回归直线方程,最后利用回归方程解决实际问题,这是最小二乘法的一般应用.