《2022年高考数学新增分大一轮新高考:第十一章-11.3-变量间的相关关系、统计案例 .pdf》由会员分享,可在线阅读,更多相关《2022年高考数学新增分大一轮新高考:第十一章-11.3-变量间的相关关系、统计案例 .pdf(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、11.3 变量间的相关关系、统计案例最新考纲1.通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.2.经历用不同估算方法描述两个变量线性相关的过程知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.通过对典型案例的探究,了解独立性检验的基本思想、方法及其初步应用.4.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及简单应用1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为
2、负相关(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法(2)回归方程精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 32 页方程 ybxa是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2), (xn,yn)的回归方程,其中a,b是待定参数bni1xi xyi yni1xi x2ni1xiyi n xyni1x2in x2,a y bx .3
3、回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2, y2), (xn,yn),其中 ( x , y )称为样本点的中心(3)相关系数当 r0 时,说明两个变量正相关;当 r0 时,正相关;当r0 时,正相关;当bR22;精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 32 页x,y 之间不能建立线性回归方程答案解析在散点图中, 点散布在从左上角到右下角的区域,因此 x,y 是负相关关系, 故正确;由散点图知用y21ec xc拟合比用 ybxa拟合
4、效果要好, 则 R21R22,故正确; x,y 之间可以建立线性回归方程,但拟合效果不好,故错误题型二回归分析命题点 1线性回归分析例 2 以下图是我国2011 年至 2017 年生活垃圾无害化处理量(单位:亿吨 )的折线图注:年份代码17 分别对应年份20112017.(1)由折线图看出,可用线性回归模型拟合y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程 (系数精确到0.01),预测 2019 年我国生活垃圾无害化处理量附注:参考数据:i17yi9.32,i17tiyi40.17,i17yi y20.55,72.646.精选学习资料 - - - - - - -
5、 - - 名师归纳总结 - - - - - - -第 9 页,共 32 页参考公式:相关系数ri1nti tyi yi1nti t2i1nyi y2,回归方程 yabt 中斜率和截距的最小二乘估计公式分别为:bi1nti tyi yi1nti t2,a y bt .解(1)由折线图中数据和附注中参考数据得t 4,i17 (ti t )2 28, i17yi y20.55.i17 (ti t )(yi y )i17tiyi ti17yi40.174 9.322.89,所以 r 0.99.因为 y与 t 的相关系数近似为0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合y
6、 与 t 的关系(2)由 y 1.331 及(1)得bi17ti tyi yi17ti t2 0.10,a y bt 40.93.所以 y关于 t 的回归方程为yt.精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 32 页将 2019 年对应的t9 代入回归方程得y91.83.所以预测2019 年我国生活垃圾无害化处理量约为1.83 亿吨命题点 2非线性回归例 3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元 )对年销售量 y(单位:t)和年利润 z(单位:千元 )的影响,对近 8 年的年宣传费 xi和年销售
7、量 yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值xywi18 (xi x )2i18 (wi w )2i18 (xi x ) (yi y )i18 (wi w ) (yi y )5631 469表中 wixi, w 18i18wi.(1)根据散点图判断,yabx 与 ycd x哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据 (1)的判断结果及表中数据,建立y 关于 x 的回归方程;(3)已知这种产品的年利润z 与 x,y 的关系为zyx.根据 (2)的结果答复以下问题:年宣传费x49 时,年销售量及年利润的预报值是多
8、少?精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页,共 32 页年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2), (un,vn),其回归直线 vu 的斜率和截距的最小二乘估计分别为i1nui uvi vi1nui u2, v u .解(1)由散点图可以判断,y cdx适宜作为年销售量y 关于年宣传费x 的回归方程类型(2)令 wx,先建立y 关于 w 的线性回归方程,由于di18wi w yi yi18wi w2 68,c y dw 563 686.8100.6,所以 y关于 w 的线性回归方程为
9、y100.6 68w,因此 y关于 x 的回归方程为 y100.668x.(3) 由(2)知,当 x49 时,年销售量y 的预报值 y100.66849576.6,年利润 z的预报值 z0.249 66.32.根据 (2)的结果知,年利润z 的预报值z 0.2(100.668x)x x x20.12.所以当x 6.8,即 x46.24 时, z取得最大值精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 32 页故年宣传费为46.24 千元时,年利润的预报值最大思维升华回归分析问题的类型及解题方法(1)求回归方程根据散点图判断两变量是否线
10、性相关,如不是,应通过换元构造线性相关利用公式,求出回归系数b.待定系数法:利用回归直线过样本点的中心求系数a.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1 时,两变量的线性相关性越强跟踪训练2 (2018 全国 )以下图是某地区2000 年至 2016 年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018 年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型根据2000 年至 2016 年的数据 (时间变量t 的值
11、依次为1,2, 17)建立模型:yt;根据 2010 年至 2016 年的数据 (时间变量t 的值依次为1,2, 7)建立模型:yt.(1)分别利用这两个模型,求该地区2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 13 页,共 32 页解(1)利用模型 ,可得该地区2018 年的环境基础设施投资额的预测值为y19226.1(亿元)利用模型 ,可得该地区2018 年的环境基础设施投资额的预测值为y9256.5(亿元 )(2)利用模型 得到的预测值更可靠理由
12、如下:( )从折线图可以看出, 2000年至 2016年的数据对应的点没有随机散布在直线yt 上下, 这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势 .2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型yt 可以较好地描述2010 年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠( )从计算结果看,相对于2016 年的环境基础
13、设施投资额220 亿元,由模型 得到的预测值226.1 亿元的增幅明显偏低,而利用模型 得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠题型三独立性检验例 4 (2017 全国 )海水养殖场进行某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位: kg),其频率分布直方图如下:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 14 页,共 32 页(1)记 A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖
14、方法有关:箱产量 50 kg箱产量 50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较附:P(K2 k0)k0K2n adbc2abcd a c b d.解(1)旧养殖法的箱产量低于50 kg 的频率为(0.0120.0140.024 0.0340.040)50.62.因此,事件A 的概率估计值为0.62.精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 15 页,共 32 页(2)根据箱产量的频率分布直方图得列联表如下:箱产量 6.635,故有 99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图说
15、明:新养殖法的箱产量平均值(或中位数 )在 50 kg 到 55 kg 之间,旧养殖法的箱产量平均值(或中位数 )在 45 kg 到 50 kg 之间, 且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法思维升华(1)比较几个分类变量有关联的可能性大小的方法通过计算K2的大小判断:K2越大,两变量有关联的可能性越大通过计算 |adbc|的大小判断: |adbc|越大,两变量有关联的可能性越大(2)独立性检验的一般步骤根据样本数据制成22 列联表根据公式K2n adbc2ab a c bdcd计算 K2的观测值k.比
16、较 k 与临界值的大小关系,做统计推断跟踪训练3微信是现代生活进行信息交流的重要工具,某公司200 名职工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60 人,其余的职工每天使用微信的时间在一小时以上, 假设将职工分成青年(年龄小于40 岁)和中年 (年龄不小于40 岁)两个阶段, 那么使用微信的人中75%是青年人假设规定:每天使用微信时间在一小时以上为经常使用微信,精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 16 页,共 32 页那么经常使用微信的职工中有23是青年人(1)假设要调查该公司使用微信的职工经常使用微信与年龄的关系,
17、列出22 列联表:青年人中年人总计经常使用微信不经常使用微信总计(2)根据 22 列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附: K2n adbc2ab cd ac bd.P(K2k0)k0解(1)由已知可得,该公司职工中使用微信的有20090%180(人)经常使用微信的有18060120(人),其中青年人有1202380(人),使用微信的人中青年人有18075%135(人),故 22 列联表如下:青年人中年人总计经常使用微信8040120精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 17 页,共
18、32 页不经常使用微信55560总计13545180(2)将列联表中数据代入公式可得,K2180 805 5540212060 1354513.333,由于 13.33310.828,所以有 99.9%的把握认为 “经常使用微信与年龄有关”线性回归方程及其应用数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论例 某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20062008201020122014需求量 /万吨236246257276286(1)利用所给数据求
19、年需求量与年份之间的线性回归方程ybxa;(2)利用 (1)中所求出的线性回归方程预测该地2019 年的粮食需求量解(1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.年份 201042024需求 257211101929精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 18 页,共 32 页对处理的数据,容易算得x 0, y 3.2,b4 21 2 11 2194295042 222242502260406.5,a y bx 3.2.由上述计算结果,知所求线性回归方程为y257 6.5(x2010)3.2
20、,即y6.5(x2010)260.2. 9260.2318.7(万吨 )素养提升例题中利用所给数据求回归方程的过程表达的就是数据分析素养1已知变量x和 y 满足关系 yx1,变量 y 与 z 正相关以下结论中正确的选项是()Ax 与 y 正相关, x 与 z负相关Bx 与 y 正相关, x 与 z 正相关Cx 与 y 负相关, x 与 z 负相关Dx 与 y 负相关, x 与 z正相关答案C解析因为 yx 1, 0.10),所以 zbxbab3.841,所以有 95%的把握认为选修文科与性别有关11某地区2009 年至 2015 年农村居民家庭人均纯收入y(单位:千元 )的数据如下表:精选学习
21、资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 24 页,共 32 页年份2009201020112012201320142015年份代号t1234567人均纯收入y(1)求 y 关于 t 的线性回归方程;(2)利用 (1)中的线性回归方程,分析 2009 年至 2015 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019 年农村居民家庭人均纯收入附:回归直线的斜率和截距的最小二乘估计公式分别为:bi1nti tyi yi1nti t2,a y bt .解(1)由所给数据计算得t 17(123456 7)4,y 17(2.93.33.64.44
22、.85.25.9)4.3,i17 (ti t )29410149 28,i17 (ti t )(yi y )(3)( 1.4) (2)(1)(1)(0.7)00.110.520.931.614,bi17ti tyi yi17ti t214280.5,精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 25 页,共 32 页a y bt 42.3,所求线性回归方程为yt2.3.(2)由 (1)知, b0.50,故 2009 年至 2015 年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5 千元将 2019 年的年份代号t11 代入 (1)中的线
23、性回归方程,得y112.37.8,故预测该地区2019 年农村居民家庭人均纯收入为7.8 千元12某省会城市地铁将于2019 年 6 月开始运营, 为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50 人,他们的收入与态度如下:月收入 (单位:百元 )15,25)25,35)35, 45)45,55)55,65)65,75赞成定价者人数123534认为价格偏高者人数4812521(1)假设以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2 位小数 );(2)由以上统计数据填下面22 列联表, 分析是否有
24、99%的把握认为“月收入以55 百元为分界点对地铁定价的态度有差异”月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 26 页,共 32 页总计附: K2n adbc2ab cd ac bd.P(K2k0)k0解(1)“赞成定价者 ”的月平均收入为x120130240350560370412353 450.56.“认为价格偏高者”的月平均收入为x22043084012505602701481252138.75,“ 赞成定价者” 与“ 认为价格偏高者” 的月平均收入的差距是x
25、1 x2 50.56 38.7511.81(百元 )(2)根据条件可得22 列联表如下:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 27 页,共 32 页月收入不低于55 百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计104050K250 3117292104018326.2726.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关(3)由 (2)的结论知, 该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定
26、该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好14如图是某企业2010 年至 2016 年的污水净化量(单位:吨 )的折线图注:年份代码17 分别对应年份20102016.(1)由折线图看出,可用线性回归模型拟合y 和 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程,预测2019 年该企业的污水净化量;(3)请用数据说明回归方程预报的效果参考数据:y 54,7i1(ti t )(yi y )21,14 3.74,精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 29 页,共
27、32 页7i1(yiyi)294.参考公式:相关系数rni1ti tyi yni1ti t2ni1yi y2,线性回归方程 y abt,bni1ti tyi yni1ti t2,a y bt .反映回归效果的公式为:R21ni1yiyi2ni1yi y2,其中 R2越接近于1,表示回归的效果越好解(1)由折线图中的数据得,t 4,7i1(ti t )228,7i1(yi y )2 18,所以 r2128180.94.因为 y与 t 的相关系数近似为0.94,说明 y 与 t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与 t 的关系(2)因为 y 54,b7i1ti tyi y7i1t
28、i t2212834,所以 a y bt 5434451,所以 y关于 t 的线性回归方程为ybta34t51.将 2019 年对应的t10 代入得 y3410 5158.5,所以预测2019 年该企业污水净化量约为58.5 吨精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 30 页,共 32 页(3)因为 R217i1yiyi27i1yi y2194118118780.875,所以“污水净化量的差异”有87.5%是由年份引起的, 这说明回归方程预报的效果是良好的15在一组样本数据 (x1,y1),(x2,y2),(x6,y6)的散点图中,假设所有
29、样本点 (xi,yi)(i1,2,6)都在曲线ybx212附近波动经计算6i1xi 12,6i1yi14,6i1x2i23,则实数b 的值为_答案1723解析令 tx2,则曲线的回归方程变为线性的回归方程,即ybt12,此时t 6i1x2i6236,y 6i1yi6146,代入 ybt12,得146b23612,解得 b1723.16针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的13,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.假设有 95%的把握认为是否喜欢韩剧和性别有关,则男生至少有_人 .P(K2 k0)k
30、0答案18解析设男生人数为x,由题意可得列联表如下:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 31 页,共 32 页喜欢韩剧不喜欢韩剧总计男生x65x6x女生2x9x9x3总计7x1817x184x3假设有 95%的把握认为是否喜欢韩剧和性别有关,则 k3.841,即 k4x3x6x95x62x92xx37x1817x1836x1193.841,解得 x12.697.因为各部分人数均为整数,所以假设有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有 18 人精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 32 页,共 32 页