《2022届高三数学一轮复习(原卷版)第2讲 变量间的相关关系、统计案例.doc》由会员分享,可在线阅读,更多相关《2022届高三数学一轮复习(原卷版)第2讲 变量间的相关关系、统计案例.doc(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第 2 讲 变量间的相关关系、统计案例 一、知识梳理 1变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系 2两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线 (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关 (3)回归方程为ybxa,其中bn i1xiyinxyn i1x2in x2,a ybx (4)相关系数 当 r0
2、 时,表明两个变量正相关; 当 r0 时,表明两个变量负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性越强r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系, 通常|r|大于 0.75 时, 认为两个变量有很强的线性相关性 3独立性检验 (1)22 列联表:假设有两个分类变量 X 和 Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称 22 列联表)为: y1 y2 总计 x1 a b ab x2 c d cd 总计 ac bd abcd (2)K2统计量 K2n(adbc)2(ab)(cd)(ac)(bd)(其中 nabcd 为样本容量) 常用结论 1求
3、解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点( x, y) 2根据 K2的值可以判断两个分类变量有关的可信程度,若 K2越大,则两分类变量有关的把握越大 3根据回归方程计算的y值,仅是一个预报值,不是真实发生的值 二、教材衍化 1.已知 x 与 y 之间的一组数据如表: x 0 1 2 3 y m 3 5.5 7 已求得 y 关于 x 的线性回归方程为y2.1x0.85,则 m 的值为_ 答案:0.5 2为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下 22 列联表: 理科 文科 男 13 10 女 7 20 已知 P(K23.841)
4、0.05,P(K25.024)0.025. 根据表中数据,得到 K2的观测值 k50(1320107)2232720304.844.则认为选修文科与性别有关系出错的可能性为_ 解析:K2的观测值 k4.8443.841,这表明小概率事件发生根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%. 答案:5% 一、思考辨析 判断正误(正确的打“”,错误的打“”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示( ) (3)只有两个变量有相关关系,所得到的回归模型
5、才有预测价值( ) (4)事件 X,Y 的关系越密切,由观测数据计算得到的 K2的观测值越大( ) (5)通过回归方程ybxa可以估计和观测变量的取值和变化趋势( ) 答案:(1) (2) (3) (4) (5) 二、易错纠偏 常见误区| (1)混淆相关关系与函数关系; (2)对独立性检验 K2值的意义不清楚; (3)不知道回归直线必过样本点中心 1两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是( ) A B C D 解析:选 D第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到
6、右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是. 2某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用 22 列联表进行独立性检验,经计算 K27.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”( ) 附: P(K2k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 A0.1% B1% C99% D99.9% 解析:选 C因为 7.069 与附表中的 6.635 最接近,所以得到的统计学结论是:有 10.
7、0100.9999%的把握认为“学生性别与支持该活动有关系” 3 已知 x, y 的取值如下表, 从散点图可以看出 y 与 x 线性相关, 且回归方程为y0.95xa,则a_ x 0 1 3 4 y 2.2 4.3 4.8 6.7 解析:由已知得 x2, y4.5,因为回归方程经过点( x, y),所以a4.50.9522.6. 答案:2.6 考点一 相关关系的判断(基础型) 复习指导| 通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系 核心素养:直观想象 1 已知变量x和y满足关系y0.1x1, 变量y与z正相关 下列结论中正确的是( ) Ax 与 y
8、正相关,x 与 z 负相关 Bx 与 y 正相关,x 与 z 正相关 Cx 与 y 负相关,x 与 z 负相关 Dx 与 y 负相关,x 与 z 正相关 解析:选 C因为 y0.1x1 的斜率小于 0,故 x 与 y 负相关因为 y 与 z 正相关,可设 zbya,b0,则 zbya0.1bxba,故 x 与 z 负相关 2对变量 x,y 有观测数据(xi,yi)(i1,2,10),得散点图如图,对变量 u,v有观测数据(ui,vi)(i1,2,10),得散点图如图.由这两个散点图可以判断( ) A变量 x 与 y 正相关,u 与 v 正相关 B变量 x 与 y 正相关,u 与 v 负相关 C
9、变量 x 与 y 负相关,u 与 v 正相关 D变量 x 与 y 负相关,u 与 v 负相关 解析:选 C由散点图可得两组数据均线性相关,且图的线性回归方程斜率为负,图的线性回归方程斜率为正,则由散点图可判断变量 x 与 y 负相关,u 与 v 正相关 3某公司在 2019 年上半年的月收入 x(单位:万元)与月支出 y(单位:万元)的统计资料如表所示: 月份 1 月份 2 月份 3 月份 4 月份 5 月份 6 月份 收入 x 12.3 14.5 15.0 17.0 19.8 20.6 支出 y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则( ) A月收入的中
10、位数是 15,x 与 y 有正线性相关关系 B月收入的中位数是 17,x 与 y 有负线性相关关系 C月收入的中位数是 16,x 与 y 有正线性相关关系 D月收入的中位数是 16,x 与 y 有负线性相关关系 解析:选 C月收入的中位数是1517216,收入增加,支出增加,故 x 与 y 有正线性相关关系 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关 (2)相关系数:r0 时,正相关;r0 时,负相关 (3)线性回归方程中:b0 时,正相关;b0 时,负相关 考点二 回归分析(应用型) 复习指导| 经历用不
11、同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程, 并进一步了解回归的基本思想、方法及初步应用 核心素养:数学建模、数据分析 角度一 线性回归方程及其应用 (2020 福州市第一学期抽测)随着我国中医学的发展, 药用昆虫的使用相应愈来愈多每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫已知一只药用昆虫的产卵数 y(单位:个)与一定范围内的温度 x(单位:)有关,于是科研人员在 3 月份的31 天中随机挑选了 5 天进行研究,现收集了该种药用昆虫的 5 组观测数据如下表: 日期 2 日 7 日 15 日 22 日 30
12、日 温度 x/ 10 11 13 12 8 产卵数 y/个 23 25 30 26 16 科研人员确定的研究方案是:先从这 5 组数据中任选 2 组,用剩下的 3 组数据建立 y关于 x 的线性回归方程,再对被选取的 2 组数据进行检验 (1)若选取的是 3 月 2 日与 30 日这 2 组的数据,请根据 3 月 7 日、15 日和 22 日这 3 组的数据,求出 y 关于 x 的线性回归方程; (2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠? 附: 回归直线的斜率和截距的最小二乘估计公式分
13、别为bni1 (xi x)(yi y)ni1 (xi x)2, a ybx. 【解】 (1)由已知数据得 x12, y27,3i1 (xi x)(yi y)5,3i1 (xi x)22. 所以b3i1 (xi x)(yi y)3i1 (xi x)252, a y52x2752123. 所以 y 关于 x 的线性回归方程为y52x3. (2)由(1)知,y 关于 x 的线性回归方程为y52x3. 当 x10 时,y5210322,|2223|2, 当 x8 时,y528317,|1716|2. 所以(1)中所得的线性回归方程y52x3 是可靠的 求回归直线方程的步骤 角度二 相关系数及其应用 某
14、基地蔬菜大棚采用无土栽培方式种植各类蔬菜过去 50 周的资料显示,该地周光照量 X(单位:小时)都在 30 小时以上,其中不足 50 小时的有 5 周,不低于 50 小时且不超过 70 小时的有 35 周, 超过 70 小时的有 10 周 根据统计, 该基地的西红柿增加量 y(千克)与使用某种液体肥料的质量 x(千克)之间的对应数据为如图所示的折线图 依据折线图计算相关系数 r(精确到 0.01), 并据此判断是否可用线性回归模型拟合 y 与 x的关系(若|r|0.75,则线性相关程度很高,可用线性回归模型拟合) 相关系数公式:ri1n (xi x)(yi y)i1n (xi x)2i1n (
15、yi y)2, 参考数据: 0.30.55, 0.90.95. 【解】 由已知数据可得 x2456855, y3444554. 因为i15 (xi x)(yi y)(3)(1)000316, i15 (xi x)2 (3)2(1)20212322 5, i15 (yi y)2 (1)202020212 2, 所以相关系数 ri15 (xi x)(yi y)i15 (xi x)2i15 (yi y)262 5 29100.95.因为|r|0.75,所以可用线性回归模型拟合 y 与 x 的关系 回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时,两变量的线性相关性越强 1对两个变量
16、 x,y 进行线性回归分析,计算得到相关系数 r0.996 2,则下列说法中正确的是( ) Ax 与 y 正相关 Bx 与 y 具有较强的线性相关关系 Cx 与 y 几乎不具有线性相关关系 Dx 与 y 的线性相关关系还需进一步确定 解析:选 B因为相关系数 r0.996 2,所以 x 与 y 负相关,因为|r|0.996 2,非常接近 1,所以相关性很强,故选 B 2 (2020 成都第一次诊断性检测)在 2018 年俄罗斯世界杯期间, 莫斯科的部分餐厅销售了来自中国的小龙虾, 这些小龙虾均标有等级代码为得到小龙虾等级代码数值 x 与销售单价 y(单位:元)之间的关系,经统计得到如下数据:
17、等级代码数值 x 38 48 58 68 78 88 销售单价 y/元 16.8 18.8 20.8 22.8 24 25.8 (1)已知销售单价 y 与等级代码数值 x 之间存在线性相关关系, 求 y 关于 x 的线性回归方程(系数精确到 0.1); (2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为 98,请估计该等级的中国小龙 虾销售单价为多少元? 参考公式:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线ybxa的斜率和截距的最小二乘估计分别为bni1xiyin x yni1x2in x2,a ybx. 参考数据:6i1xiyi8 440,6i1x2i25 56
18、4. 解:(1)由题意,得 x384858687888663, y16.818.820.822.82425.8621.5, b6i1xiyi6 x y6i1x2i6 x28 44066321.525 564663630.2, a ybx21.50.2638.9. 故所求线性回归方程为y0.2x8.9. (2)由(1),知当 x98 时,y0.2988.928.5. 所以估计该等级的中国小龙虾销售单价为 28.5 元 考点三 独立性检验(应用型) 复习指导| 通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求 22 列联表)的基本思想、方法及初步应用 核心素养:数学建模、数
19、据分析 (2019 高考全国卷)某商场为提高服务质量, 随机调查了 50 名男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表: 满意 不满意 男顾客 40 10 女顾客 30 20 (1)分别估计男、女顾客对该商场服务满意的概率; (2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2n(adbc)2(ab)(cd)(ac)(bd). P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为40500.8,因此男顾客对该商场服务满意的概率的
20、估计值为 0.8. 女顾客中对该商场服务满意的比率为30500.6,因此女顾客对该商场服务满意的概率的估计值为 0.6. (2)K2100(40203010)2505070304.762. 由于 4.7623.841,故有 95%的把握认为男、女顾客对该商场服务的评价有差异 (1)独立性检验的一般步骤 根据样本数据制成 22 列联表; 根据公式 K2n(adbc)2(ab)(cd)(ac)(bd)计算 K2的值; 查表比较 K2与临界值的大小关系,作出统计判断 (2)解独立性检验的应用问题的关注点 两个明确:()明确两类主体;()明确研究的两个问题; 两个准确:()准确画出 22 列联表;()
21、准确理解 K2. (2020 长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生 960 人,其中男生 560 人,从全校学生中抽取了容量为 n 的样本,得到一周参加社区服务时间的统计数据如下表: 超过 1 小时 不超过 1 小时 男 20 8 女 12 m (1)求 m,n 的值; (2)能否有 95%的把握认为该校学生一周参加社区服务时间是否超过 1 小时与性别有关? 附: P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 K2n(adbc)2(ab)(cd)(ac)(bd) 解:(1)由已知,
22、该校有女生 400 人,故12m208400560,得 m8, 从而 n20812848. (2)作出 22 列联表如下: 超过 1 小时的人数 不超过 1 小时的人数 总计 男 20 8 28 女 12 8 20 合计 32 16 48 K248(16096)22820321624350.685 73.841. 所以没有 95%的把握认为该校学生一周参加社区服务时间是否超过 1 小时与性别有关 基础题组练 1(2020 陕西西安陕师大附中等八校联考)设两个变量 x 和 y 之间具有线性相关关系,它们的相关系数为 r,y 关于 x 的回归直线方程为ykxb,则( ) Ak 与 r 的符号相同
23、Bb 与 r 的符号相同 Ck 与 r 的符号相反 Db 与 r 的符号相反 解析:选 A因为相关系数 r 为正,表示正相关,回归直线方程上升,r 为负,表示负相关,回归直线方程下降,所以 k 与 r 的符号相同故选 A 2在一次对性别与说谎是否相关的调查中,得到如下数据: 说谎 不说谎 总计 男 6 7 13 女 8 9 17 总计 14 16 30 根据表中数据,得到如下结论正确的一项是( ) A在此次调查中有 95%的把握认为是否说谎与性别有关 B在此次调查中有 99%的把握认为是否说谎与性别有关 C在此次调查中有 99.5%的把握认为是否说谎与性别有关 D在此次调查中没有充分的证据显示
24、说谎与性别有关 解析:选 D由已知得 k30(6978)2131714160.0020.455,所以在犯错误的概率不超过 50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关 3经调查某地若干户家庭的年收入 x(万元)和年饮食支出 y(万元)具有线性相关关系,并得到 y 关于 x 的回归直线方程:y0.245x0.321,由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加_万元 解析:x 变为 x1,y0.245(x1)0.3210.245x0.3210.245,因此家庭年收入每增加 1 万元,年饮食支出平均增加 0.245 万元 答案:0.
25、245 4某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体情况如下表: 专业 性别 非统计专业 统计专业 男 13 10 女 7 20 为了检验主修统计专业是否与性别有关,根据表中的数据得到 K2_(精确到0.001)若断定主修统计专业与性别有关系,这种判断出错的可能性为_ (由临界值表知P(K23.841)0.05,P(K25.024)0.025, 其中K2n(adbc)2(ab)(cd)(ac)(bd), )nabcd 解析:由题意,根据公式可得 K250(1320107)2232720304.844. 因为 5.0244.8443.841, 所以断定主修统计专业与性别有
26、关系, 这种判断出错的可能性为 0.05. 答案:4.844 0.05 5某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y%)的几组相关对应数据: x 1 2 3 4 5 y 0.02 0.05 0.1 0.15 0.18 (1)根据上表中的数据,用最小二乘法求出 y 关于 x 的线性回归方程; (2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过 0.5%(精准到月) 解:(1)根据表中数据, 计算 x15(12345)3, y15(0.020.050.10.150.18)0
27、.1, 所以b10.0220.0530.140.1550.18530.112223242525320.042, 所以a0.10.04230.026, 所以线性回归方程为y0.042x0.026. (2)由上面的回归方程可知,上市时间与市场占有率正相关, 即上市时间每增加 1 个月,市场占有率都增加 0.042 个百分点; 由y0.042x0.0260.5,解得 x13; 预计上市 13 个月时,该款旗舰机型市场占有率能超过 0.5%. 6(2020 辽宁五校模拟)进入二十一世纪以来,科技发展日新月异,工业生产更加依赖科技的发展,沈阳某企业积极进行升级,对现有设备进行改造,为了分析设备改造前后的
28、效果, 现从设备改造前后生产的大量产品中各抽取了 200 件产品作为样本, 检测一项质量指标值,若该项质量指标值落在20,40)内的产品视为合格品,否则为不合格品,图 1 是设备改造前的样本的频率分布直方图,表 1 是设备改造后的样本的频数分布表: 图 1:设备改造前的样本的频率分布直方图 表 1:设备改造后的样本的频数分布表 质量指标值 15,20) 20,25) 25,30) 30,35) 35,40) 40,45 频数 4 36 96 28 32 4 (1)完成下面的 22 列联表,并判断是否有 99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关 设备改造前 设备改造后 合计
29、 合格品 不合格品 合计 (2)根据图 1 和表 1 提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较 附 P(K2k0) 0.150 0.100 0.050 0.025 0.010 k0 2.072 2.706 3.841 5.024 6.635 K2n(adbc)2(ab)(cd)(ac)(bd),其中 nabcd. 解:(1)根据题意填写 22 列联表 设备改造前 设备改造后 合计 合格品 172 192 364 不合格品 28 8 36 合计 200 200 400 K2400(172819228)23643620020012.2106.635, 所以有 99%的把握认为该
30、企业生产的这种产品的质量指标值与设备改造有关 (2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为1722004350, 设备改造后产品为合格品的概率为19220024254350, 显然设备改造后产品合格率更高,因此设备改造后性能更优 综合题组练 1(2020 兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片, 随着全民运动健康意识的提高, 马拉松运动不仅在兰州, 而且在全国各大城市逐渐兴起, 参与马拉松训练与比赛的人数逐年增加 为此, 某市对人们参加马拉松运动的情况进行了统计调查 其中一项调查是调查人员从参
31、与马拉松运动的人中随机抽取 200 人, 对其每周参与马拉松长跑训练的天数进行统计, 得到以下统计表: 平均每周进行长跑训练天数 不大于 2 3 或 4 不少于 5 人数 30 130 40 若某人平均每周进行长跑训练天数不少于 5,则称其为“热烈参与者”,否则称为“非热烈参与者” (1)经调查,该市约有 2 万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列 22 列联表,并通过计算判断是否能在犯错误的概率不超过 0.01 的前提下认为“热烈参与马拉松”与性别有关? 热烈参与者 非热烈参与者 总计 男 140 女 55 总计 附:K2n(adbc)2(ab)
32、(cd)(ac)(bd)(n 为样本容量) P(K2k0) 0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 解:(1)以 200 人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为 20 000402004 000. (2)22 列联表为 热烈参与者 非热烈参与者 总计 男 35 105 140 女 5 55 60 总计 40 160 200 K2200(35551055)24016
33、0140607.2926.635. 故能在犯错误的概率不超过 0.01 的前提下认为“热烈参与马拉松”与性别有关 2(2020 长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近 6 个月广告投入量 x(单位:万元)和收益 y(单位:万元)的数据如下表: 月份 1 2 3 4 5 6 广告投入量/万元 2 4 6 8 10 12 收益/万元 14.21 20.31 31.8 31.18 37.83 44.67 他们用两种模型ybxa,yaebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值: x y 6i1xiyi 6i1x2i
34、7 30 1 464.24 364 (1)根据残差图,比较模型,的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于 2 的数据被认为是异常数据,需要剔除 剔除异常数据后,求出(1)中所选模型的回归方程; 广告投入量 x18 时,(1)中所选模型收益的预报值是多少? 附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线ybxa的斜率和截距的最小二乘估计分别为:bni1 (xi x)(yi y)ni1 (xi x)2ni1xiyin x yni1x2in x2,a ybx. 解:(1)应该选择模型,因为模型的残差点比较均匀地落在水平的带状区域中,且 模型的带状区域比模型的带状区域窄, 所以模型的拟合精度高, 回归方程的预报精度高 (2)剔除异常数据,即 3 月份的数据后,得 x15(766)7.2, y15(30631.8)29.64. 5i1xiyi1 464.24631.81 273.44, 5i1x2i36462328. b5i1xiyi5 x y5i1x2i5 x21 273.4457.229.6432857.27.2206.468.83, a ybx29.6437.28.04. 所以 y 关于 x 的回归方程为y3x8.04. 把 x18 代入中所求回归方程得y3188.0462.04. 故预报值为 62.04 万元