第十章,第3节,变量间相关关系与统计案例.docx

上传人:w**** 文档编号:61985494 上传时间:2022-11-22 格式:DOCX 页数:27 大小:24.65KB
返回 下载 相关 举报
第十章,第3节,变量间相关关系与统计案例.docx_第1页
第1页 / 共27页
第十章,第3节,变量间相关关系与统计案例.docx_第2页
第2页 / 共27页
点击查看更多>>
资源描述

《第十章,第3节,变量间相关关系与统计案例.docx》由会员分享,可在线阅读,更多相关《第十章,第3节,变量间相关关系与统计案例.docx(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十章,第3节,变量间相关关系与统计案例第 第 3 节 节变量间的相关关系与统计案例 最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图相识变量间的相关关系;2.了解最小二乘法的思想,能依据给出的线性回来方程系数公式建立线性回来方程(线性回来方程系数公式不要求记忆);3.了解独立性检验(只要求2×2 列联表)的基本思想、方法及其简洁应用;4.了解回来分析的基本思想、方法及其简洁应用.知 识 梳 理 1.相关关系与回来分析 回来分析是对具有相关关系的两个变量进行统计分析的一种常用方法;推断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在

2、从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)假如散点图中点的分布从整体上看大致在一条直线旁边,称两个变量具有线性相关关系. 2.线性回来方程 (1)最小二乘法:使得样本数据的点到回来直线的距离的平方和最小的方法叫做最小二乘法. (2)回来方程:两个具有线性相关关系的变量的一组数据:(x 1 ,y 1 ),(x 2 ,y 2 ),(x n ,y n ),其回来方程为y b xa_,则b∑ni 1(x i x)(y i y)∑ni 1(x i x) 2 错误!

3、! , 错误! ! 错误! !bx.其中,b是回来方程的斜率,a是在 y 轴上的截距. 回来直线肯定过样本点的中心(x,y). 3.回来分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1 ,y 1 ),(x 2 ,y 2 ),(x n ,y n ),其中(x,y)称为样本点的中心. (3)相关系数 当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量负相关. r 的肯定值越接近于 1,表明两个变量的线性相关性越强. r 的肯定值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r|

4、大于0.75 时,认为两个变量有很强的线性相关性. (4)相关指数:R 2 1∑ni 1(y i yi )2∑ni 1(y i y)2.其中∑ni 1(y i yi ) 2 是残差平方和,其值越小,则 R 2 越大(接近 1),模型的拟合效果越好. 4.独立性检验 (1)利用随机变量 K 2 来推断两个分类变量有关系的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量 X和 Y,它们的可能取值分别为x 1 ,x 2 和y 1 ,y 2 ,其样本频数列联表(2×2 列联表)为y 1y 2总计 x 1a b ab x

5、2c d cd 总计 ac bd abcd 则随机变量 K 2 n(adbc) 2(ab)(ac)(bd)(d) ,其中 nabcd 为样本容量. 微点提示 1.求解回来方程的关键是确定回来系数a,b,应充分利用回来直线过样本中心点(x,y). 2.依据 K 2 的值可以推断两个分类变量有关的可信程度,若 K 2 越大,则两分类变量有关的把握越大.3.依据回来方程计算的y 值,仅是一个预报值,不是真实发生的值. 基 础 自 测1.推断下列结论正误(在括号内打√或×) (1)名师出高徒可以说明为老师的教学水平与学生的水平成正相关关系.() (2)通过回来直线方程y b x

6、a可以估计预报变量的取值和改变趋势.() (3)因为由任何一组观测值都可以求得一个线性回来方程,所以没有必要进行相关性检验.() (4)事务 X,Y 关系越亲密,则由观测数据计算得到的 K 2 的观测值越大.() 答案 (1)√ (2)√ (3)× (4)√2.(选修 12P10 探究改编)为调查中学生近视状况,测得某校男生 150 名中有 80名近视,在 140 名女生中有 70 名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有劝服力() A.回来分析B.均值与方差 C.独立性检验D.概率 解析 近视与性别是两类变量,其是否有

7、关,应用独立性检验推断. 答案 C 3.(选修 12P5 讲解改编)两个变量 y 与 x 的回来模型中,分别选择了 4 个不同模型,它们的相关指数 R 2 如下,其中拟合效果最好的模型是() A.模型 1 的相关指数 R 2 为 0.98 B.模型 2 的相关指数 R 2 为 0.80 C.模型 3 的相关指数 R 2 为 0.50 D.模型 4 的相关指数 R 2 为 0.25 解析 在两个变量 y 与 x 的回来模型中,它们的相关指数 R 2 越近于 1,模拟效果越好,在四个选项中 A 的相关指数最大,所以拟合效果最好的是模型 1. 答案 A4.(2019焦作模拟)已知变量 x 和 y 的

8、统计数据如下表:x 3 4 5 6 7 y 2.5 3 4 4.5 6 依据上表可得回来直线方程为y b x0.25,据此可以预料当 x8 时,y () A.6.4 B.6.25 C.6.55 D.6.45 解析 由题意知x 3456755, y 2.5344.5654, 将点(5,4)代入y b x0.25,解得b0.85, 则y 0.85x0.25, 所以当 x8 时,y 0.85×80.256.55,故选 C. 答案 C 5.(2015全国卷)依据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008 年

9、削减二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈削减趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 解析 对于 A 选项,由图知从 2007 年到 2008 年二氧化硫排放量下降得最多,故A 正确.对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因此 B正确.对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年下降的,所以 C 正确.由图知 2006 年以来我国二氧化硫年排放量与年份负相关,D 不正确. 答案 D 6.(2019丹东教学质量监测)某校为

10、了探讨学生的性别和对待某一活动的看法(支持与不支持)的关系,运用 2×2 列联表进行独立性检验,经计算 K 2 6.705,则所得到的统计学结论是:有_的把握认为学生性别与支持该活动没有关系() P(K 2 ≥k 0 ) 0.100 0.050 0.025 0.010 0.001 k 02.706 3.841 5.024 6.635 10.828 A.99.9% B.99% C.1% D.0.1% 解析 因为 6.635<6.705<10.828,因此有 1%的把握认为学生性别与支持该活动没有关系,故选 C. 答案 C考点一 相关关系的推断(1)视察下列各图形,其

11、中两个变量 x,y 具有相关关系的图是() A. B. C. D. (2)甲、乙、丙、丁四位同学各自对 A,B 两变量的线性相关性做试验,并用回来分析方法分别求得相关系数 r 与残差平方和 m 如下表:甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A,B 两变量有更强的线性相关性() A.甲 B.乙 C.丙 D.丁 解析 (1)由散点图知中的点都分布在一条直线旁边.中的点都分布在一条曲线旁边,所以中的两个变量具有相关关系. (2)在验证两个变量之间的线性相关关系时,相关系数的肯定值越接近于 1,相关性越强,在四个选项中

12、只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了 A,B 两变量有更强的线性相关性. 答案 (1)C (2)D 规律方法 1.散点图中假如全部的样本点都落在某一函数的曲线旁边,变量之间就有相关关系.假如全部的样本点都落在某始终线旁边,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关. 2.利用相关系数判定,当|r|越趋近于 1 相关性越强.当残差平方和越小,相关指数R 2 越大,相关性越强.若 r>0,则正相关;r<0 时,则负相关. 3.线性回来直线方程中:b>0 时,正相关;b<0 时,负相关.

13、(1)已知变量 x 和 y 满意关系 y0.1x1,变量 y 与 z 正相关.下列结论中正确的是() A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关 (2)x 和 y 的散点图如图所示,则下列说法中全部正确命题的序号为_.x,y 是负相关关系; 在该相关关系中,若用 yc 1 ec 2 x 拟合时的相关指数为 R 2 1 ,用y b xa拟合时的相关指数为 R 2 2 ,则 R 2 1 >R 2 2 ; x,y 之间不能建立线性回来方程. 解析 (1)由 y0.

14、1x1,知 x 与 y 负相关,即 y 随 x 的增大而减小,又 y 与 z正相关,所以 z 随 y 的增大而增大,减小而减小,所以 z 随 x 的增大而减小,x与 z 负相关. (2)在散点图中,点散布在从左上角到右下角的区域,因此 x,y 是负相关关系,故正确;由散点图知用 yc 1 ec 2 x 拟合比用y b xa拟合效果要好,则 R 2 1 >R 2 2 ,故正确;x,y 之间可以建立线性回来方程,但拟合效果不好,故错误.答案 (1)C (2) 考点二 线性回来方程及应用(2018日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额)

15、,如下表 1:年份 x 2013 2014 2015 2016 2017 储蓄存款 y(千亿元) 5 6 7 8 10 表 1 为了探讨计算的便利,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表 2:时间代号 t 1 2 3 4 5 z 0 1 2 3 5 表 2 (1)求 z 关于 t 的线性回来方程; (2)通过(1)中的方程,求出 y 关于 x 的回来方程; (3)用所求回来方程预料到 2022 年年底,该地储蓄存款额可达多少? (附:对于线性回来方程y b xa, 其中b 错误! ! , 错误! ! 错误! ! 错误! ! 错误! ! ) 解 (1)t3,z2.2,&s

16、um;5i 1 t i z i 45,∑5i 1 t2i 55, b 455×3×2.2555×91.2, azbt2.23×1.21.4, 所以z 1.2t1.4. (2)将 tx2 012,zy5,代入z 1.2t1.4, 得 y51.2(x2 012)1.4,即y 1.2x2 410.8. (3)因为y 1.2×2 0222 410.815.6, 所以预料到 2022 年年底,该地储蓄存款额可达 15.6 千亿元.规律方法 1.(1)正确理解计算b,a的公式和精确的计算是求线性回来方程的关键. (2)回来直线方程y b

17、xa必过样本点中心(x,y). 2.(1)在分析两个变量的相关关系时,可依据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回来方程来估计和预料. (2)对于非线性回来分析问题,应先进行变量代换, 求出代换后的回来直线方程,再求非线性回来方程.(2018全国卷)如图是某地区 2000 年至 2016 年环境基础设施投资额y(单位:亿元)的折线图.为了预料该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回来模型.依据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,17)建立模型:y 30.413.5t;

18、依据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,7)建立模型:y 9917.5t. (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预料值; (2)你认为用哪个模型得到的预料值更牢靠?并说明理由. 解 (1)利用模型,该地区 2018 年的环境基础设施投资额的预料值为y 30.413.5×19226.1(亿元). 利用模型,该地区 2018 年的环境基础设施投资额的预料值为 y 9917.5×9256.5(亿元). (2)利用模型得到的预料值更牢靠. 理由如下:()从折线图可以看出,2000 年至 2016 年的数据对应

19、的点没有随机散布在直线 y30.413.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的旁边,这说明从 2010 年起先环境基础设施投资额的改变规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y 9917.5t 可以较好地描述 2010 年以后的环境基础设施投资额的改变趋势,因此利用模型得到的预料值更牢靠. ()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得

20、到的预料值 226.1 亿元的增幅明显偏低,而利用模型得到的预料值的增幅比较合理,说明利用模型得到的预料值更牢靠. 以上给出了 2 种理由,考生答出其中随意一种或其他合理理由均可得分. 考点三 独立性检验(2019湖南长沙雅礼中学、河南省试验中学联考)环境问题是当今世界共同关注的问题,我国环保总局依据空气污染指数 PM2.5 浓度,制定了空气质量标准:空气污染指数 (0,50 (50,100 (100,150 (150,200 (200,300 (300,∞) 空气质量等级 优 良 轻度污染 中度污染 重度污染 严峻污染 某市政府为了打造漂亮城市,节能减排,从 2010 年起先考察

21、了连续六年 11 月份的空气污染指数,绘制了频率分布直方图,经过分析探讨,确定从 2016 年 11 月1 日起在空气质量重度污染和严峻污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双 号出行(尾号是字母的,前 13 个视为单号,后 13 个视为双号).王先生有一辆车,若 11 月份被限行的概率为 0.05.(1)求频率分布直方图中 m 的值; (2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取 6 天,再从这6 天中随机抽取 2 天,求至少有一天空气质量是中度污染的概率; (3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的 1

22、1 月份共 60 天的空气质量进行统计,其结果如下表:空气质量 优 良 轻度污染 中度污染 重度污染 严峻污染 天数 11 27 11 7 3 1 依据限行前 6 年 180 天与限行后 60 天的数据,计算并填写 2×2 列联表,并回答是否有 90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良 空气质量污染 总计 限行前限行后总计参考数据:P(K 2 ≥k 0 ) 0.15 0.10 0.05 0.025 0.010 0.005 k 02.072 2.706 3.841 5.024 6.635 7.879 参考公式:K 2 n(adbc)2(ab)(cd)(

23、ac)(bd),其中 nabcd. 解 (1)因为限行分单双号,王先生的车被限行的概率为 0.05, 所以空气重度污染和严峻污染的概率应为 0.05×20.1, 由频率分布直方图可知(0.0040.0060.005m)×500.11,解得 m0.003. (2)因为空气质量良好与中度污染的天气的概率之比为 0.30.1521, 按分层抽样的方法从中抽取 6 天,则空气质量良好的天气被抽取的有 4 天,记作A 1 ,A 2 ,A 3 ,A 4 , 空气中度污染的天气被抽取的有 2 天,记作 B 1 ,B 2 , 从这 6 天中随机抽取 2 天,所包含的基本领件有(A 1

24、,A 2 ),(A 1 ,A 3 ),(A 1 ,A 4 ),(A 1 ,B 1 ),(A 1 ,B 2 ),(A 2 ,A 3 ),(A 2 ,A 4 ),(A 2 ,B 1 ),(A 2 ,B 2 ),(A 3 ,A 4 ),(A 3 ,B 1 ),(A 3 ,B 2 ),(A 4 ,B 1 ),(A 4 ,B 2 ),(B 1 ,B 2 ),共 15 个, 记事务 A 为至少有一天空气质量是中度污染,则事务 A 所包含的事务有(A 1 ,B 1 ),(A 1 ,B 2 ),(A 2 ,B 1 ),(A 2 ,B 2 ),(A 3 ,B 1 ),(A 3 ,B 2 ),(A 4 ,B 1

25、),(A 4 ,B 2 ),(B 1 ,B 2 ),共 9 个, 故 P(A)915 35 ,即至少有一天空气质量是中度污染的概率为35 . (3)2×2 列联表如下:空气质量优、良 空气质量污染 总计 限行前 90 90 180 限行后 38 22 60 总计 128 112 240 由表中数据可得,K 2 240×(90×2290×38)2180×60×128×112≈3.214>2.706,所以有 90%的把握认为空气质量的优良与汽车尾气的排放有关. 规律方法 1.在 2×2

26、 列联表中,假如两个变量没有关系,则应满意 adbc≈0.|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,肯定要根据独立性检验的步骤得出结论.独立性检验的一般步骤:(1)依据样本数据制成 2×2 列联表:(2)依据公式 K 2 n(adbc)2(ab)(ac)(bd)(cd)计算 K2 的观测值 k; (3)比较观测值 k 与临界值的大小关系,作统计推断.为了推断中学三年级学生是否选修文科与性别的关系,现随机抽取 50名学生,得到如下 2×2 列联表:理科 文科 男 13 10 女 7

27、20 已知 P(K 2 ≥3.841)≈0.05,P(K 2 ≥5.024)≈0.025.依据表中数据,得到 K 2 的观测值k 50×(13×2010×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为_.解析 K 2 的观测值 k≈4.844,这表明小概率事务发生.依据假设检验的基本原理,应当断定是否选修文科与性别之间有关系成立,并且这种推断出错的可能性约为 5%. 答案 5%思维升华 1.回来分析是处理变量相关关系的一种数学方

28、法.主要解决:(1)确定特定量之间是否有相关关系,假如有就找出它们之间贴近的数学表达式;(2)依据一组视察值,预料变量的取值及推断变量取值的改变趋势;(3)求出线性回来方程. 2.独立性检验是依据 K 2 的值推断两个分类变量有关的可信程度. 易错防范 1.求回来方程,关键在于正确求出系数 a,b ,由于 a ,b 的计算量大,计算时应细致谨慎,分步进行,避开因计算而产生错误. 2.回来分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回来方程才有实际意义,否则,求出的线性回来方程毫无意义.依据回来方程进行预报,仅是一个预报值,而不是真实发生的值. 3.独立

29、性检验中统计量 K 2 的观测值 k 0 的计算公式很困难,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组 (建议用时:40 分钟) 一、选择题 1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是() A.r 2 <r 4 <0<r 3 <r 1 B.r 4 <r 2 <0<r 1 <r 3C.r 4 <r 2 <0<r 3 <r 1 D.r 2 <r 4 <0<r 1 <r 3解析 由散点图知图(1)与图(3)是正相关,故 r 1 &g

30、t;0,r 3 >0,图(2)与图(4)是负相关,故 r 2 <0,r 4 <0,且图(1)与图(2)的样本点集中在一条直线旁边,因此 r 2 <r 4 <0<r 3 <r 1 ,故选 A. 答案 A 2.有下列说法:在残差图中,残差点比较匀称地落在水平的带状区域内,说明选用的模型比较合适.用相关指数 R 2 来刻画回来的效果,R 2 值越接近于 1,说明模型的拟合效果越好.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是() A. B. C. D. 答案 D 3.在一次对性别与说谎是否相关的调查中,得到如

31、下数据:说谎 不说谎 总计 男 6 7 13 女 8 9 17 总计 14 16 30 依据表中数据,得到如下结论正确的一项是() A.在此次调查中有 95%的把握认为是否说谎与性别有关 B.在此次调查中有 99%的把握认为是否说谎与性别有关 C.在此次调查中有 99.5%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得 k 30×(6×97×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过 50%的状况下,认为说谎与性别无关,也就是

32、说,在此调查中没有充分的证据显示说谎与性别有关. 答案 D 4.(2019衡水中学调研)已知变量 x,y 之间的线性回来方程为y 0.7x10.3,且变量 x,y 之间的一组相关数据如下表所示,则下列说法错误的是() x 6 8 10 12 y 6 m 3 2 A.变量 x,y 之间呈负相关关系 B.可以预料,当 x20 时,y 3.7 C.m4 D.该回来直线必过点(9,4) 解析 由0.7<0,得变量 x,y 之间呈负相关关系,故 A 正确;当 x20 时,y 0.7×2010.33.7,故 B 正确;由表格数据可知x 14 ×(681012)9,y 14 (

33、6m32)11m4,则 11m40.7×910.3,解得 m5,故 C 错;由m5,得y 653244,所以该回来直线必过点(9,4),故 D 正确.故选 C. 答案 C 5.通过随机询问 110 名性别不同的学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 K 2 n(adbc)2(ab)(cd)(ac)(bd)算得, K 2 110×(40×3020×20)260×50×60×50≈7.8.得到的正确结论是() A.

34、有 99%以上的把握认为爱好该项运动与性别有关 B.有 99%以上的把握认为爱好该项运动与性别无关 C.有 95%以上的把握认为爱好该项运动与性别有关 D.有 95%以上的把握认为爱好该项运动与性别无关 解析 依据独立性检验的定义,由 K 2 ≈7.8>6.635,可知我们有 99%的把握认为爱好该项运动与性别有关. 答案 A 二、填空题 6.某单位为了了解用电量 y(度)与气温 x()之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了比照表:气温() 18 13 10 1 用电量(度) 24 34 38 64 由表中数据得回来直线方程y b xa中的b2,预料当气

35、温为4 时,用电量约为_度. 解析 依据题意知x 181310(1)410,y 24343864440.所以a40(2)×1060,y 2x60.所以当 x4 时,y(2)×(4)6068,所以用电量约为 68 度. 答案 68 7.(2018赣中南五校联考)心理学家分析发觉视觉和空间想象实力与性别有关,某数学爱好小组为了验证这个结论,从所在学校中按分层抽样的方法抽取 50 名同学(男 30,女 20),给全部同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题状况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计

36、 30 20 50 依据上述数据,推断视觉和空间想象实力与性别有关系,则这种推断犯错误的概率不超过_. 附表:P(K 2 ≥k 0 ) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.072 2.706 3.841 5.024 6.635 7.879 10.828 解析 由列联表计算 K 2 的观测值 k 50(22×128×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过 0.025. 答案 0.025 8.(2019广东深中

37、、华附、省实、广雅四校联考)如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回来方程为y b x1,则b_.解析 由题图知x 013442, y 0.91.93.24.442.6, 将(2,2.6)代入y b x1 中,解得b0.8. 答案 0.8 三、解答题 9.(2018重庆调研)某厂商为了解用户对其产品是否满足,在运用该产品的用户中随机调查了 80 人,结果如下表:满足 不满足 男用户 30 10 女用户 20 20 (1)依据上表,现用分层抽样的方法抽取对产品满足的用户 5 人,在这 5 人中任选2 人,求被选中的恰好是男、女用户各 1 人的概率; (2)有多

38、大把握认为用户对该产品是否满足与用户性别有关?请说明理由. P(K 2 ≥k 0 ) 0.100 0.050 0.025 0.010k 02.706 3.841 5.024 6.635 注:K 2 n(adbc)2(ab)(cd)(ac)(bd),nabcd. 解 (1)用分层抽样的方法在满足产品的用户中抽取 5 人,则抽取比例为550 110 . 所以在满足产品的用户中应抽取女用户 20×110 2(人),男用户 30×110 3(人). 抽取的 5 人中,三名男用户记为 a,b,c,两名女用户记为 r,s,则从这 5 人中任选 2 人,共有 10 种状况:ab

39、,ac,ar,as,bc,br,bs,cr,cs,rs. 其中恰好是男、女用户各 1 人的有 6 种状况:ar,as,br,bs,cr,cs. 故所求的概率为 P610 0.6. (2)由题意,得 K 2 的观测值为 k80×(30×2020×10)2(3020)×(1020)×(3010)×(2020) 163≈5.333>5.024. 又 P(K 2 ≥5.024)0.025. 故有 97.5%的把握认为产品用户是否满足与性别有关. 10.某省级示范中学高三年级对各科考试的评价指标中,有难度系数

40、和区分度 两 个 指 标 . 其 中 , 难 度 系 数 年级总平均分满分, 区 分 度 试验班的平均分一般班的平均分满分. (1)某次数学考试(满分为 150 分),随机从试验班和一般班各抽取三人,试验班三人的成果分别为 147,142,137;一般班三人的成果分别为 97,102,113.通过样本估计本次考试的区分度(精确到 0.01); (2)以下表格是该校高三年级 6 次数学考试的统计数据:难度系数 x 0.64 0.71 0.74 0.76 0.77 0.82 区分度 y 0.18 0.23 0.24 0.24 0.22 0.15 计算相关系数 r,|r|<0.75 时,认为相

41、关性弱;|r|≥0.75 时,认为相关性强.通过计算说明,能否利用线性回来模型描述 y 与 x 的关系(精确到 0.01);t i |x i 0.74|(i1,2,6),求出 y 关于 t 的线性回来方程,并预料 x0.75时 y 的值(精确到 0.01). 附注:参考数据:∑6i 1 x i y i 0.930 9,∑6i 1 (x i x) 2 ∑6i 1 (y i y) 2 ≈0.011 2,∑6i 1 t i y i 0.048 3, ∑6i 1 (t i t) 2 ≈0.007 3. 参考公式:相关系数 r&sum

42、;ni 1(x i x)(y i y)∑ni 1(x i x) 2 ∑ni 1(y i y) 2∑ni 1 x i y i nx y∑ni 1 (x i x) 2 ∑ni 1(y i y) 2, 回来直线 ybta 的斜率和截距的最小二乘估计分别为 b∑ni 1(t i t)(y i y)∑ni 1 (t i t) 2∑ni 1 t i y i nt y∑ni 1 (t i t) 2,aybt. 解 (1)易求得试验班三人成果的平均值为 1471421373142, 一般班三人成果的平均值为 971021133104, 故

43、估计本次考试的区分度为 142104150≈0.25. (2)由题中表格知, x 0.640.710.740.760.770.8260.74, y 0.180.230.240.240.220.1560.21, 故 r∑6i 1 x i y i 6x y∑6i 1 (x i x) 2 ∑6i 1 (y i y) 2≈ 0.930 96×0.74×0.210.011 2≈0.13. 因为|r|<0.75,所以相关性弱. 故不能利用线性回来模型描述 y 与 x 的关系. y 与 t 的值如下表:t 0.10 0

44、.03 0 0.02 0.03 0.08 区分度 y 0.18 0.23 0.24 0.24 0.22 0.15因为b∑6i 1 t i y i 6t y∑6i 1(t i t)2≈0.048 36× 0.266×0.210.007 3≈0.86, 所以aybt≈0.210.86× 0.266≈0.25, 所以所求回来方程为 y0.86t0.25, 当 x0.75 时,t0.01,y≈0.24.实力提升题组 (建议用时:20 分钟) 11.(2019黄山一模)在吸烟与患肺癌这两个分类

45、变量的独立性检验的计算中,下列说法正确的是() A.若 K 2 的观测值为 k6.635,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,那么在 100 个吸烟的人中必有 99 人患有肺癌 B.由独立性检验可知,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有 99%的可能患有肺癌 C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得推断出现错误 D.以上三种说法都不正确 解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全确定一个结论,因此才出现了临界值

46、表,在分析问题时肯定要留意这点,不行对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的说明.若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得推断出现错误.故选 C. 答案 C 12.(2019承德期末)某城市收集并整理了该市 2018 年 1 月份至 10 月份各月最低气温与最高气温(单位:)的数据,绘制了下面的折线图. 已知该城市各月的最低气温与最高气温具有较好的线性关系,则依据折线图,下列结论错误的是() A.最低气温与最高气温为正相关 B.10 月的最高气温不低于 5 月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在 1 月 D.最低气温低于 0 的月份有 4 个 解析 在 A 中,最低气温与最高气温为正相关,故 A 正确; 在 B 中,10 月的最高气温不低于 5 月的最高气温,故 B 正确; 在 C 中,月温差(最高气温减最低气温)的最

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁