《2019版高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用学案 新人教A版选修2-3.doc》由会员分享,可在线阅读,更多相关《2019版高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用学案 新人教A版选修2-3.doc(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、13.13.1 回归分析的基本思想及其初步应用回归分析的基本思想及其初步应用学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤知识点一 线性回归模型思考 某电脑公司有 5 名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系设所求的线性回归方程为 x ,yba则 0.5,b5 i1xix
2、yiy5 i1xix210 20 0.4.aybx所以年推销金额y关于工作年限x的线性回归方程为 0.5x0.4.y梳理 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回归直线ybxa的斜率和截距的最小二乘估计公式分别为2, ,其中( , )称为样本点的中心bn i1xixyiyn i1xix2n i1xiyinx yn i1x2inx2aybxxy(4)线性回归模型ybxae,其中a和b是模型的未知参数,e称为随机误差,自变量x称
3、为解释变量,因变量y称为预报变量知识点二 线性回归分析具有相关关系的两个变量的线性回归方程为 x .yba思考 1 预报变量 与真实值y一样吗?y答案 不一定思考 2 预报值 与真实值y之间误差大了好还是小了好?y答案 越小越好梳理 (1)残差平方和法iyiiyixi (i1,2,n)称为相应于点(xi,yi)的残差eyba残差平方和(yii)2越小,模型的拟合效果越好n i1y(2)残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高(3)利用相关指数R2刻画回归效果其计算公式为:R21,其几何意义:R2越
4、接近于 1,表示回归的效果越好n i1yiyi2n i1yiy2知识点三 建立回归模型的基本步骤1确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量2画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)3由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程)4按一定规则(如最小二乘法)估计回归方程中的参数5得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)若存在异常,则检查数据是否有误,或模型是否合适等31求线性回归方程前可以不进行相关性检验( )2在残差图中,纵坐标为残差,横坐标可以选为样本编号( )3利用线性回归方
5、程求出的值是准确值( )类型一 求线性回归方程例 1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 x ;yba(3)试根据求出的线性回归方程,预测记忆力为 9 的同学的判断力(相关公式:bn i1xiyinxyn i1x2inx2,aybx)考点 线性回归方程题点 求线性回归方程解 (1)如图:(2)iyi6283105126158,4 i1x9,x681012 44,y2356 446282102122344,4 i1x 2i0.7,b1584 9
6、4 3444 9214 20 40.792.3,aybx故线性回归方程为 0.7x2.3.y(3)由(2)中线性回归方程可知,当x9 时, 0.792.34,预测记忆力为 9 的同学的y判断力约为 4.反思与感悟 (1)求线性回归方程的基本步骤列出散点图,从直观上分析数据间是否存在线性相关关系计算: ,iyi.x yn i1x 2in i1y 2in i1x代入公式求出 x 中参数 , 的值ybaba写出线性回归方程并对实际问题作出估计(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义跟踪训练 1 假设关于某设备的使用年限x(年)和所支出的维
7、修费用y(万元)有如下的统计数据:x23456y2.23.85.56.57.0由此资料可知y对x呈线性相关关系(1)求线性回归方程;(2)求使用年限为 10 年时,该设备的维修费用为多少?考点 线性回归方程题点 求线性回归方程解 (1)由上表中的数据可得4, 5,90,iyi112.3,xy5 i1x 2i5 i1x5 b5 i1xiyi5xy5 i1x2i5x21.23,112.35 4 5 905 42 51.2340.08.aybx线性回归方程为 1.23x0.08.y(2)当x10 时, 1.23100.0812.38.y即使用年限为 10 年时,该设备的维修费用约为 12.38 万元
8、类型二 回归分析命题角度1 线性回归分析例 2 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:x1416182022y1210753求出y对x的线性回归方程,并说明拟合效果的程度考点 残差分析与相关指数题点 残差及相关指数的应用解 (1416182022)18,x1 5 (1210753)7.4.y1 51421621822022221 660,5 i1x 2iiyi14121610187205223620,5 i1x可得回归系数 b5 i1xiyi5x y5 i1x2i5x21.15,6205 18 7.4 1 6605 1826所以 7.41.151828.1,a所以线性回
9、归方程为 1.15x28.1.y列出残差表:yiiy00.30.40.10.2yiy4.62.60.42.44.4则(yii)20.3,(yi )253.2.5 i1y5 i1yR210.994.5 i1yiyi25 i1yiy2所以回归模型的拟合效果很好反思与感悟 (1)该类题属于线性回归问题,解答此类题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助线性回归方程对实际问题进行分析(2)刻画回归效果的三种方法残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适残差平方和
10、法:残差平方和(yii)2越小,模型的拟合效果越好n i1y相关指数法:R21越接近 1,表明回归的效果越好n i1yiyi2n i1yiy2跟踪训练 2 关于x与y有如下数据:x24568y3040605070有如下的两个线性模型:(1) 6.5x17.5;(2) 7x17.试比较哪一个拟合效果更好yy考点 残差分析与相关指数题点 残差及相关指数的应用7解 由(1)可得yii与yi 的关系如下表:yyyiiy0.53.5106.50.5yiy201010020(yii)2(0.5)2(3.5)2102(6.5)20.52155,5 i1y(yi )2(20)2(10)2102022021 0
11、00.5 i1yR110.845.2 15 i1yiyi25 i1yiy2155 1 000由(2)可得yii与yi 的关系如下表:yyyiiy15893yiy201010020(yii)2(1)2(5)282(9)2(3)2180,5 i1y(yi )2(20)2(10)2102022021 000.5 i1yR110.82.2 25 i1yiyi25 i1yiy2180 1 000由于R0.845,R0.82,0.8450.82,2 12 2RR.2 12 2(1)的拟合效果好于(2)的拟合效果命题角度2 非线性回归分析例 3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单
12、位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近 8 年的年宣传费xi和年销售量8yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值xyw(xi )28 i1x(wi )28 i1w(xi )8 i1x(yi )y(wi )8 i1w(yi )y46.65636.8289.81.61 469108.8表中wi, i.xiw1 88 i1w(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的x回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,
13、y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49 时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为, .n i1uiuvivn i1uiu2vu考点 非线性回归分析题点 非线性回归分析解 (1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类x型(2)令w,先建立y关于w的线性回归方程x9由于 68,d8 i1wiwyiy8 i1wiw2108.8 1.6 563686.8100.6,cydw所以y关于w的线性回归方程
14、为 100.668w,y因此y关于x的回归方程为 100.668.yx(3)由(2)知,当x49 时,年销售量y的预报值 100.668576.6,y49年利润z的预报值 576.60.24966.32.z根据(2)的结果知,年利润z的预报值0.2(100.668)xx13.620.12.zxx所以当6.8,x13.6 2即x46.24 时, 取得最大值z故年宣传费为 46.24 千元时,年利润的预报值最大反思与感悟 求非线性回归方程的步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)分析拟
15、合效果:通过计算相关指数或画残差图来判断拟合效果(5)根据相应的变换,写出非线性回归方程跟踪训练 3 在一次抽样调查中测得样本的 5 个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程考点 非线性回归分析题点 非线性回归分析解 由数值表可作散点图如图,10根据散点图可知y与x近似地呈反比例函数关系,设 ,令t ,则 kt,原数据变为:yk x1 xyt4210.50.25y1612521由置换后的数值表作散点图如下:由散点图可以看出y与t呈近似的线性相关关系,列表如下:itiyitiyit2i1416641622122443155140.5210.2550.
16、2510.250.062 57.753694.2521.312 5所以 1.55, 7.2.ty所以 4.134 4,b5 i1tiyi5t y5 i1t2i5t2 0.8.aybt所以 4.134 4t0.8.y11所以y与x之间的回归方程是 0.8.y4.134 4 x1下列两个变量之间的关系不是函数关系的是( )A角度和它的余弦值B正方形的边长和面积C正n边形的边数和内角度数和D人的年龄和身高考点 回归分析题点 回归分析的概念和意义答案 D解析 函数关系就是变量之间的一种确定性关系A,B,C 三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f()cos ,g(a)a2,
17、h(n)(n2).D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选 D.2设有一个线性回归方程 21.5x,当变量x增加 1 个单位时( )yAy平均增加 1.5 个单位By平均增加 2 个单位Cy平均减少 1.5 个单位Dy平均减少 2 个单位考点 线性回归分析题点 线性回归方程的应用答案 C解析 由回归方程中两个变量之间的关系可以得到3如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )A B C D12考点 回归分析题点 回归分析的概念和意义答案 B解析 由图易知两个图中样本点在一条直线附近,因此适合用线性回归模型4某产品在某零售摊位的零售价x(
18、单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:x16171819y50344131由上表可得回归直线方程 x 中的 5,据此模型预测当零售价为 14.5 元时,每天ybab的销售量为( )A51 个 B50 个C54 个 D48 个考点 线性回归分析题点 线性回归方程的应用答案 C解析 由题意知 17.5, 39,代入回归直线方程得 126.5,126.514.5554,故xya选 C.5已知x,y之间的一组数据如下表:x0123y1357(1)分别计算: ,x1y1x2y2x3y3x4y4,xxxx;x y2 12 22 32 4(2)已知变量x与y线性相关,求出线性回归方程考
19、点 线性回归方程题点 求线性回归方程解 (1) 1.5, 4,x0123 4y1357 4x1y1x2y2x3y3x4y40113253734,xxxx0212223214.2 12 22 32 413(2) 2,b344 1.5 4 144 1.52 421.51,aybx故线性回归方程为 2x1.y回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程 x );yba(4)按一定规则估算回归方程中的参数;(5)
20、得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等一、选择题1对于线性回归方程 x ( 0),下列说法错误的是( )ybabA当x增加一个单位时, 的值平均增加 个单位ybB点( , )一定在 x 所表示的直线上xyybaC当xt时,一定有ytbaD当xt时,y的值近似为t ba考点 线性回归分析题点 线性回归方程的应用答案 C解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上2给定x与y的一组样本数据,求得相关系数r0.690,则( )A
21、y与x的线性相关性很强By与x的相关性很强Cy与x正相关14Dy与x负相关考点 线性相关系数题点 线性相关系数的应用答案 D解析 因为r0, 0 B. 0, 0 D. 0.故 0, 0.yaab7已知某地的财政收入x与支出y满足线性回归方程ybxae(单位:亿元),其中b0.8,a2,|e|0.5,如果今年该地区的财政收入为 10 亿元,那么年支出预计不会超过( )A9 亿元 B10 亿元C9.5 亿元 D10.5 亿元考点 残差分析与相关指数题点 残差及相关指数的应用答案 D解析 y0.8102e10e10.5.8下列数据符合的函数模型为( )x12345678910y22.6933.383
22、.63.844.084.24.3A.y2x By2ex1 3Cy21 exDy2ln x考点 非线性回归分析题点 非线性回归分析答案 D解析 分别将x值代入解析式判断知满足y2ln x.9为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了 100 次和150 次试验,并且利用最小二乘法求得的回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法中正确的是( )Al1与l2有交点(s,t)Bl1与l2相交,但交点不一定是(s,t)Cl1与l2必定平行Dl1与l2必定重合考点 线性回归方程题点 样本点中心的
23、应用答案 A解析 回归直线l1,l2都过样本点的中心(s,t),但它们的斜率不确定,故选项 A 正确17二、填空题10在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1 上,则这组样本数据1 2的样本相关系数为_考点 线性相关系数题点 线性相关系数的应用答案 1解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为 1.11若一个样本的总偏差平方和为 80,残差平方和为 60,则相关指数R2为_考点 线性相关系数题点 线性相关系数的应用答案 0.25解析 R210
24、.25.60 8012已知一个线性回归方程为 1.5x45,x1,5,7,13,19,则 _.yy考点 线性回归方程题点 样本点中心的应用答案 58.5解析 9,且 1.5x45,x1571319 5y 1.594558.5.y13在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线yebxa的周围令 ln y,求得线性回归方程为 0.25x2.58,则该模型的回归方程zz为_考点 非线性回归分析题点 非线性回归分析答案 ye0.25x2.58解析 因为 0.25x2.58, ln y,zz所以ye0.25x2.58.三、解答题14某车间为了规定工时定额,需要确定加工零件所花费
25、的时间,为此作了四次试验,得到的数据如下:18零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程 x ,并在坐标系中画出回归直线;yba(3)试预测加工 10 个零件需要多少时间?(注: , )bn i1xiyinx yn i1x2inx2aybx考点 线性回归方程题点 求线性回归方程解 (1)散点图如图(2)由表中数据得iyi52.5,4 i1x3.5, 3.5,54,xy4 i1x 2i所以 0.7,bn i1xiyinx yn i1x2inx252.54 3.5 3.5 544 3.5219所以 3.
26、50.73.51.05.aybx所以 0.7x1.05.y回归直线如图中所示(3)将x10 代入回归直线方程,得 0.7101.058.05,y所以预测加工 10 个零件需要 8.05 小时四、探究与拓展15甲、乙、丙、丁 4 位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yii)2如下表:n i1y甲乙丙丁散点图残差平方和115106124103以上的试验结果体现拟合A,B两变量关系的模型拟合精度高的是( )A甲 B乙 C丙 D丁考点 残差分析与相关指数题点 残差及相关指数的应用答案 D解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于
27、已经获取的样本数据,R2的表达式中(yi )2为确定的数,则残差平方和越小,R2n i1y越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些16为了研究某种细菌随时间x变化繁殖个数y的变化情况,收集数据如下:时间x(天)123456繁殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程;(3)计算相关指数R2,并描述解释变量与预报变量之间的关系考点 非线性回归分析题点 非线性回归分析20解 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线yc1ec2x的周围,于是令zln y,则x123456z1.792.483.223.894.555.25所以 0.69x1.115,则有 e0.69x1.115.zy(3)y6.0812.1224.1748.1896.06191.52y612254995190(yi )24.816 1,6 i1e2i6 i1y(yi )26224 642.83,6 i1y6 i1y 2iyR2110.999 8,6 i1yiyi26 i1yiy24.816 1 24 642.83即时间解释了 99.98%的细菌繁殖个数的变化