《2020高中数学第三章统计案例.1回归分析的基本思想及其初步应用讲义.pdf》由会员分享,可在线阅读,更多相关《2020高中数学第三章统计案例.1回归分析的基本思想及其初步应用讲义.pdf(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学必求其心得,业必贵于专精 -1-3.1 回归分析的基本思想及其初步应用 知识点 线性回归模型(1)函数关系是一种错误!确定性关系,而相关关系是一种错误!非确定性关系(2)回归分析是对具有,03相关关系的两个变量进行统计分析的一种常用方法(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回归直线错误!错误!x错误!的斜率和截距的最小二乘估计公式分别为错误!错误!错误!错误!,错误!错误!错误!错误!错误!,其中错误!(错误!,错误!)称为样本点的中心(4)线性回归模型ybxae,其中a和b是模型的未知参数,e称为错误!随机误差,自变量x称为错误!解释变量,因变
2、量y称为错误!预报变量 知识点 线性回归分析 1残差平方和法(1)错误!i错误!错误!(i1,2,n)称为相应于点(xi,yi)学必求其心得,业必贵于专精 -2-的错误!残差(2)残差平方和错误!错误!(yi错误!i)2越小,模型拟合效果越好 2残差图法 残差点错误!比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度错误!越窄,说明模型的精确度越高 3利用相关指数R2刻画回归效果 其计算公式为:R21错误!错误!。其几何意义:错误!R2越接近于 1,表示回归效果越好 1建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出解释
3、变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等)(3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程错误!错误!x错误!)(4)按一定规则估计回归方程中的参数(如最小二乘法)学必求其心得,业必贵于专精 -3-(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等 2线性回归模型中随机误差的主要来源(1)用线性回归模型作为真实模型的近似所引起的误差可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差(2)忽略了某些因素的影响影响变量y的因素不仅有变量x,可能还包括其他许
4、多因素,例如,在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响(3)观测误差由于测量工具等原因,导致y的观测值产生误差 3残差分析的结果(1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高(2)若是有个别样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错学必求其心得,业必贵于专精 -4-误,则需要寻找其他的原因 4对R2的理解(1)预报变量的变化与解释变
5、量和随机误差的关系 预报变量的变化程度可以分解为解释变量引起的变化程度与残差变量的变化程度之和,其中这个变化与解释变量和随机误差(即残差平方和)有关的程度是由相关指数R2的值决定的在线性回归模型中,R2表示解释变量对预报变量变化的贡献率R2越接近于 1,表示解释变量和预报变量的线性相关性越强;反之,R2越小,说明随机误差对预报变量的效应越大(2)R2与r的关系 相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果;R2是相关系数的平方,其变化范围为0,1,而相关系数的变化范围为1,1;当相关系数|r|接近于 1 时说明两变量的相关性较强,当r接近于 0 时说明两
6、变量的相关性较弱,而当R2接近于 1 时,说明线性回归方程的拟合效果较好 学必求其心得,业必贵于专精 -5-1判一判(正确的打“”,错误的打“”)(1)残差平方和越小,线性回归方程的拟合效果越好()(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上()(3)R2越接近于 1,线性回归方程的拟合效果越好()答案(1)(2)(3)2做一做(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为_(2)在残差分析中,残差图的纵坐标为 _(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于_,解释变量和预报变量之间的相关系数等于_ 答案(1)正相关(
7、2)残差(3)0 1 或1 解析(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关(2)由残差图的定义知道,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为学必求其心得,业必贵于专精 -6-残差图(3)设样本点为(xi,yi),i1,2,3,n,回归直线为错误!错误!x错误!;若散点图中所有的样本点都在一条直线上,则此直线方程就是回归直线方程 所以有yiy i;残差平方和错误!(yi错误!i)20;解释变量和预报变量之间的相关系数R满足R21错误!1,所以R1.探究错误!求线性回归方程 例1 某研究机构对高三学生的
8、记忆力x和判断力y进行统计分析,得下表数据 x 6 8 10 12 y 2 3 5 6(1)请画出上表数据的散点图;(要求:点要描粗)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y,错误!x错误!;(3)试根据求出的线性回归方程,预测记忆力为9 的同学的判断力(相关公式:b,错误!,错误!错误!错误!错误!)学必求其心得,业必贵于专精 -7-解(1)如图:(2)错误!xiyi6283105126158,错误!错误!9,错误!错误!4,错误!x错误!6282102122344,错误!错误!错误!0.7,错误!错误!错误!错误!40。792.3,故线性回归方程为错误!0.7x
9、2.3。(3)由(2)中线性回归方程当x9 时,错误!0.792.34,预测记忆力为 9 的同学的判断力约为4。拓展提升 求线性回归方程的步骤(1)列出散点图从直观上分析数据间是否存在线性相关关系 学必求其心得,业必贵于专精 -8-(2)计算错误!,错误!,错误!x错误!,错误!y错误!,错误!xiyi.(3)代入公式求出错误!错误!x错误!中参数错误!,错误!的值(4)写出回归方程并对实际问题作出估计 错误!某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2 3 4 5 加工的时间y(小时)2。5 3 4 4。5(1)在给定的坐标系中
10、画出表中数据的散点图;(2)求出y关于x的线性回归方程,错误!错误!x错误!,并在坐标系中画出回归直线;(3)试预测加工 10 个零件需要多少时间?注:错误!错误!,错误!错误!错误!错误!.学必求其心得,业必贵于专精 -9-解(1)散点图如图 (2)由表中数据得i14xiyi52。5,错误!3.5,错误!3.5,错误!错误!54,所以b 错误!0。7。所以错误!错误!错误!错误!1。05.所以错误!0。7x1。05。回归直线如图中所示(3)将x10 代入回归直线方程,得错误!0.7101。058.05(小时),所以预测加工 10 个零件大约需要 8。05 小时 探究错误!线性回归分析 例 2
11、 已知某种商品的价格x(元)与需求量y(件)之间的关系学必求其心得,业必贵于专精 -10-有如下一组数据:x 14 16 18 20 22 y 12 10 7 5 3 求y对x的回归直线方程,并说明回归模型拟合效果的好坏 解 错误!错误!(1416182022)18,错误!错误!(1210753)7.4,错误!x错误!1421621822022221660,错误!xiyi14121610187205223620,所以,错误!错误!错误!1.15,错误!错误!错误!错误!7.41.151828.1,所以所求回归直线方程是错误!1.15x28.1。列出残差表:yi错误!i 0 0。3 0。4 0。
12、1 0.2 yi错误!4。6 2。6 0。4 2。4 4。4 所以,错误!(yi错误!i)20。3,错误!(yi错误!)253.2,R21错误!0.994,所以回归模型的拟合效果很好 拓展提升 学必求其心得,业必贵于专精 -11-这类题目的数据运算繁琐,通常采用分步计算的方法,由R2可以看出回归模型的拟合效果,也可以计算相关系数r,看两个变量的相关关系是否很强 错误!为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的 6 个物体进行测量,数据如下表所示:x 5 10 15 20 25 30 y 7。25 8。12 8.95 9.90 10.9 11。8(1)作出散点图并求线
13、性回归方程;(2)求出R2;(3)进行残差分析 解(1)散点图如图 错误!错误!(51015202530)17。5,错误!错误!(7.258.128。959.9010.911。8)9。487,错误!错误!2275,错误!iyi1076.2 学必求其心得,业必贵于专精 -12-计算得,错误!0。183,错误!6.285,所求线性回归方程为错误!0.183x6.285。(2)列表如下:yi错误!i 0。05 0.005 0.08 0。045 0.04 0.025 yi错误!2。24 1.37 0。54 0。41 1.41 2.31 所以错误!(yi错误!i)20.01318,错误!(yi错误!)2
14、14.6784.所以,R210。0131814。67840。9991,回归模型的拟合效果较好(3)由残差表中的数值可以看出第 3 个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过 0.15 的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系 探究错误!非线性回归分析 例 3 为了研究某种细菌随时间x变化繁殖的个数,收集数据学必求其心得,业必贵于专精 -13-如下:天数x/天 1 2 3 4 5 6 繁殖个数y/个 6 12 25 49 95
15、 190(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)描述解释变量与预报变量之间的关系;(3)计算残差、相关指数R2.解(1)由表中数据作散点图如图所示(2)由散点图看出样本点分布在一条指数函数yc1ec2x的图象的周围,其中c1和c2是待定系数于是令zln y,则zbxa(aln c1,bc2),因此变换后的样本点应该分布在直线zbxa的周围,学必求其心得,业必贵于专精 -14-因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:x 1 2 3 4 5 6 z 1.79 2.48 3.22 3.89 4。55 5。25 由表中数据得到线性回归方程错误
16、!0.69x1.115.因此细菌繁殖个数关于时间的回归方程为 错误!e0。69x1。115.(3)列出残差表:编号i 1 2 3 4 5 6 错误!i 6。08 12.12 24.17 48.18 96.06 191。52 yi 6 12 25 49 95 190 错误!i 0.08 0.12 0。83 0。82 1。06 1.52 错误!错误!错误!错误!(yi错误!i)24.8161,错误!(yi错误!i)224630.1,R21错误!0.9998.学必求其心得,业必贵于专精 -15-故解释变量天数对预报变量繁殖个数解释了 99。98,说明该回归模型拟合效果非常好 拓展提升 非线性回归方程
17、的求法(1)根据原始数据(x,y)作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)作恰当的变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应的变换,即可得非线性回归方程 错误!某电容器充电后,电压达到 100 V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式UAebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t/s 0 1 2 3 4 5 6 7 8 9 10 U/V 100 75 55 40 30 20 15 10 10 5 5 试求:电压U对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)学必求其心得,
18、业必贵于专精 -16-解 对UAebt两边取对数得 ln Uln Abt,令yln U,aln A,xt,则yabx,y与x的数据如下表:x 0 1 2 3 4 5 6 7 8 9 10 y 4。6 4.3 4.0 3.7 3。4 3.0 2.7 2.3 2。3 1.6 1.6 根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得错误!5,错误!3。045,由公式计算得错误!0。313,错误!错误!错误!错误!4。61,所以y对x的线性回归方程为错误!0.313x4。61。所以 ln 错误!0。313t4。61,即错误!e0。313t4。61,因此电压
19、U对时间t的回归方程为错误!e0。313t4.61.学必求其心得,业必贵于专精 -17-1关于回归分析,下列说法错误的是()A回归分析是研究两个具有相关关系的变量的方法 B散点图中,解释变量在x轴,预报变量在y轴 C回归模型中一定存在随机误差 D散点图能明确反映变量间的关系 答案 D 解析 用散点图反映两个变量间的关系时,存在误差 2甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4 种不同模型,计算可得它们的相关指数R2分别如下表:甲 乙 丙 丁 R2 0。98 0.78 0。50 0。85 哪位同学建立的回归模型拟合效果最好?()A甲 B乙 学必求其心得,业必贵于专精 -18
20、-C丙 D丁 答案 A 解析 相关指数R2越大,表示回归模型的拟合效果越好 3设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为错误!0.85x85.71,则下列结论中不正确的是()Ay与x具有正的线性相关关系 B回归直线过样本点的中心(错误!,错误!)C若该大学某女生身高增加1 cm,则其体重约增加 0。85 kg D若该大学某女生身高为 170 cm,则可断定其体重必为 58。79 kg 答案 D 解析 A,B,C 均正确,是回归方程的性质,D 项是错误的,线性回归方程只能预测学生的体重选项
21、D 应改为“若该大学生某女生身高为 170 cm,则估计其体重大约为 58。79 kg”4某单位为了了解用电量y度与气温x 之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表:学必求其心得,业必贵于专精 -19-气温()18 13 10 1 用电量(度)24 34 38 64 由表中数据得线性回归方程错误!bxa中b2,预测当气温为4 时,用电量的度数约为_ 答案 68 解析 错误!10,错误!40,回归方程过点(错误!,错误!),40210a.a60。错误!2x60。令x4,错误!(2)(4)6068.5假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得 5 组数据如
22、下:x 15。0 25.8 30.0 36。6 44.4 y 39.4 42。9 42.9 43。1 49。2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数 56。7 预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求相关指数R2,并说明残差变量对有效穗的影响占百分之几?学必求其心得,业必贵于专精 -20-解(1)散点图如下:(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系 设回归方程为错误!错误!x错误!,错误!30。36,错误!43.5,错误!错误!5101.56,错误!错误!9511.43.
23、错误!错误!1320.66,错误!21892。25,错误!2921。7296,错误!iyi6746。76。由错误!错误!0。29,a错误!错误!错误!43.50。2930。3634.70。故所求的线性回归方程为 错误!34。700。29x.当x56。7 时,错误!34。700.2956。751。143.估计成熟期有效穗为 51。143.(3)由于ybxae,学必求其心得,业必贵于专精 -21-可以算得错误!iyi错误!i分别为错误!10.35,错误!20.718,错误!30。5,错误!42。214,错误!51.624,残差平方和:错误!错误!8。43。(4)错误!(yi错误!)250。18,所以R21错误!0。832.所以解释变量小麦基本苗数对有效穗约贡献了 83。2%.残差变量贡献了约 183.216。8。