《2019高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用学案 新人教A版选修2-3.doc》由会员分享,可在线阅读,更多相关《2019高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用学案 新人教A版选修2-3.doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、13.13.1 回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用学习目标:1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报(重点).3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系了解判断模型拟合效果的方法(相关指数和残差分析)(难点)自 主 预 习探 新 知1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法2回归直线方程方程 x 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),yba,(xn,yn)的回归方程,其中 , 是待定参数,其最小二乘估计分别为:ab
2、其中i,i,(,)称为样本点的中心x1 nn i1xy1 nn i1yxy思考:如何求回归直线方程?提示 (1)计算:, ,iyi.xyn i1x 2in i1y 2in i1x(2)代入公式计算 , .ba(3)写出回归方程3线性回归模型(1)表达式ybxae.(2)基本概念:a和b为模型的未知参数e是y与bxa之间的误差通常e为随机变量,称为随机误差x称为解释变量,y称为预报变量4衡量回归方程的预报精度的方法(1)残差平方和法:称为相应于点(xi,yi)的残差ei2残差平方和越小,模型的拟合效果越好n i1yiyi2(2)残差图法:残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合
3、适这样的带状区域的宽度越窄,说明模型的拟合精度越高(3)利用相关指数R2刻画回归效果:其计算公式为:R21;n i1yiyi2n i1yiy2其几何意义:R2越接近于 1,表示回归的效果越好基础自测1判断(正确的打“” ,错误的打“”)(1)求线性回归方程前可以不进行相关性检验( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号( )(3)随机误差也就是残差( )解析 (1) 因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系(2) 因为由残差图的方法步骤可知,该说法正确(3) 因为随机误差e是真实值y与bx之间的误差,
4、而残差 y 是随机误差e的ey估计量答案 (1) (2) (3)2下列变量是相关关系的是( )【导学号:95032232】A正方体的棱长和体积B角的弧度数和它的正弦值C日照时间与水稻的亩产量D人的身高与视力C C A、B 均为一种确定性关系(函数关系),而 D 为互不相关的3在判断两个变量y与x是否相关时,选择了 4 个不同的模型,它们的R2分别为:模型 1 的R2为 0.98,模型 2 的R2为 0.80,模型 3 的R2为 0.50,模型 4 的R2为 0.25.其中拟合效果最好的模型是( )A模型 1 B模型 23C模型 3 D模型 4A A R2能够刻画用回归模型拟合数据的效果,R2的
5、值越接近于 1,说明回归模型拟合数据的效果越好4若y与x之间的一组数据为x01234y13556则y对x的回归直线一定经过的点是_. 【导学号:95032233】(2,4) 由表中数据得 2, 4.x01234 5y13556 5因回归直线必过样本点的中心( , ),所以y与x的回归直线一定经过的点是(2,4)xy合 作 探 究攻 重 难线性回归分析某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据:x/百万元24568y/百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为 10 百万元时的销售额解 (1)散点图如图所示:(2)列出
6、下表,并用科学计算器进行有关计算:i12345合计xi2456825yi3040605070250xiyi601603003005601 380x2i4162536641454所以,5,50,145,x25 5y250 55 i1x 2iiyi1 380.5 i1x于是可得 6.5,b5 i1xiyi5xy5 i1x2i5x21 3805 5 50 1455 52506.5517.5.aybx所以所求的线性回归方程为 6.5x17.5.y(3)根据(2)中求得的线性回归方程,当广告费用支出为 10 百万元时,6.51017.582.5(百万元),y即广告费用支出为 10 百万元时,销售额大约为
7、 82.5 百万元规律方法 (1)求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的(2)写出回归直线方程 x ,并用回归直线方程进行预测说明:当x取x0时,由yba线性回归方程可得0的值,从而可进行相应的判断y跟踪训练1下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程 x ;yba(3)已知该厂技改前 100 吨甲产
8、品的生产能耗为 90 吨标准煤试根据(2)求出的回归直线方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:32.5435464.566.5)解 (1)由题设所给数据,可得散点图如图5(2)由数据,计算得:86,4 i1x 2i4.5,x3456 43.5,y2.5344.5 4又已知iyi66.5.4 i1x所以,由最小二乘法确定的回归方程的系数为:0.7,b4 i1xiyi4x y4 i1x2i4 x266.54 4.5 3.5 864 4.523.50.74.50.35,aybx因此,所求的回归直线方程为 0.7x0.35.y(3)由(2)的回归方程及技改前生
9、产 100 吨甲产品的生产能耗,得降低的生产能耗为90(0.71000.35)19.65 吨标准煤残差分析已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x(元)1416182022y(件)1210753求y对x的回归直线方程,并说明回归模型拟合效果的好坏.【导学号:95032234】思路探究 先利用求线性回归直线方程的方法步骤求出回归直线方程,再利用相关指数R2说明拟合效果解 (1416182022)18,x1 56 (1210753)7.4,y1 5x1421621822022221 660,5i1 2iy122102725232327,5i1 2ixiyi141216
10、10187205223620,5i1 1.15.b5i1xiyi5xy5i1x2i5x26205 18 7.4 1 6605 1827.41.151828.1,aybx所求回归直线方程为 1.15x28.1.y列出残差表:yiiy00.30.40.10.2yiy4.62.60.42.44.4 (yii)20.3,(yi)253.2,5i1y5i1yR210.994,5i1 yiyi25i1 yiy2故回归模型的拟合效果很好规律方法 1该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的
11、拟合效果,在此基础上,借助回归方程对实际问题进行分析2刻画回归效果的三个方式(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适(2)残差平方和法:残差平方和 (yii)2越小,模型的拟合效果越好ni1y(3)相关指数法:R21越接近 1,表明回归的效果越好ni1 yiyi2ni1 yiy2跟踪训练72假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得 5 组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数 56.7 预报有效穗;
12、(3)计算各组残差,并计算残差平方和;(4)求R2,并说明残差变量对有效穗的影响占百分之几?解 (1)散点图如下(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系设回归方程为 x .30.36,43.5,ybaxy5 101.56,9 511.43.5 i1x 2i5 i1y 2i1 320.66,2921.729 6,xyxiyi6 746.76.5 i1x则 0.29, 34.70.b5 i1xiyi5xy5 i1x2i5x2aybx故所求的回归直线方程为 0.29x34.70.y当x56.7 时, 0.2956.7
13、34.7051.143.y估计成熟期有效穗为 51.143.(3)由于ixi ,可以算得iyii分别为10.35,20.718,30.5,ybaeyeee842.214,51.624,残差平方和:8.43.ee5 i1e2i(4)(yi)250.18,故R210.832.所以解释变量小麦基本苗数对总5 i1y8.43 50.18效应约贡献了 83.2%,残差变量贡献了约 183.2%16.8%.非线性回归分析探究问题1如果两个相关变量x,y满足回归方程yc1x2c2,那么x,y具有线性相关关系吗?如何把它化归为线性回归方程问题?提示 x,y不具有线性相关关系,但是若令zx2,则yc1x2c2可
14、变换为yc1zc2,即化归为线性回归方程问题2如果两个相关变量x,y满足非线性回归方程yc1ec2x,如何转化为线性回归方程问题?如果两个变量呈非线性相关关系,怎样求回归方程?提示 令zln y,则原回归方程可变换为zbxa(aln c1,bc2)若两个变量呈非线性相关关系可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程3若对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果?提示 有两种比较方法:(1)计算残差平方和,残差平方和小的模型拟合效果好;(2)计算相关指数R2,R2越接近于 1 的模型拟合效果越好下表为收集到的一组
15、数据:x21232527293235y711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x40 时y的值. 【导学号:95032235】思路探究 画出散点图确定是否线性相关确定函数模型转化为线性模型求回归方程进行拟合进行预报解 (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线yc1ec2x的周围,其中c1,c2为待定的参数9(2)对两边取对数把指数关系变为线性关系,令zln y,则变换后的样本点应分布在直线zbxa,aln c
16、1,bc2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x21232527293235z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为 0.272x3.849,z e0.272x3.849.y残差列表如下:yi711212466115325iy6.44311.10119.12532.95056.770128.381290.325ie0.5570.1011.8758.9509.2313.38134.675(3)当x40 时,ye0.272403.8491 131.规律方法 非线性回归问题的处理方法1指数函数型yeb
17、xa(1)函数yebxa的图象:(2)处理方法:两边取对数得 ln yln ebxa,即 ln ybxa.令zln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.2对数函数型ybln xa(1)函数ybln xa的图象:(2)处理方法:设xln x,原方程可化为ybxa,再根据线性回归模型的方法10求出a,b.3ybx2a型处理方法:设xx2,原方程可化为ybxa,再根据线性回归模型的方法求出a,b.跟踪训练3某地区六年来轻工业产品利润总额y与年次x的试验数据如下表所示:年次x123456利润总额y11.3511.8512.4413.0713.5914.41由经
18、验知,年次x与利润总额y(单位:亿元)近似有如下关系:yabxe0.其中a,b均为正数,求y关于x的回归方程解 对yabxe0两边取自然对数,得 ln yln ae0xln b,令zln y,则z与x的数据如下表:x123456z2.432.472.522.572.612.67由zln ae0xln b及最小二乘法公式,得ln b0.047 7,ln ae02.378,即 2.3780.047 7x,故 10.81.05x.zy当 堂 达 标固 双 基1在对两个变量x,y进行线性回归分析时,有下列步骤:对所求出的回归直线方程作出解释;收集数据(xi,yi),i1,2,n;求线性回归方程;求相关
19、系数;根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是( )A BC DD D 对两个变量进行回归分析时,首先收集数据(xi,yi),i1,2,n;根据所搜集的数据绘制散点图观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释故正确顺序是.2甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了 4 种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R20.980.780.500.85则建立回归模型拟合效果最好的同学是( ) 11【导学号:95032236】A甲
20、B乙 C丙 D丁A A 相关指数R2越大,表示回归模型的拟合效果越好3在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x间的线性回归方程为( )A. x1 B. x2yyC. 2x1 D. x1yyA A 因为2.5,x1234 43.5,y2345 4这组数据的样本点的中心是(2.5,3.5)回归直线过样本点的中心,只有 x1 适合y4已知某车间加工零件的个数x与花费时间y(h)之间的线性回归直线方程为0.01x0.5,则加工 600 个零件大约需要_h.y6.5 0.016000.56.5,所以加工 600 个零件大约需要 6.5 h
21、y5在一段时间内,分 5 次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为:12345价格x1.41.61.822.2需求量y1210753已知iyi62,16.6,且y与x呈线性相关5 i1x5 i1x 2i(1)求出y对x的回归方程;(2)如价格定为 1.9 万元,预测需求量大约是多少?(精确到 0.01 t). 【导学号:95032237】解 (1)因为 91.8, 377.4,x1 5y1 5iyi62,16.6,5 i1x5 i1x 2i12所以 11.5,b5 i1xiyi5xy5 i1x2i5x2625 1.8 7.4 16.65 1.827.411.51.828.1,aybx故y对x的回归方程为 28.111.5x.y(2) 28.111.51.96.25(t)y