《考点56 变量间相关关系、统计案例-备战2021年新高考数学一轮复习考点一遍过.docx》由会员分享,可在线阅读,更多相关《考点56 变量间相关关系、统计案例-备战2021年新高考数学一轮复习考点一遍过.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、考点56变量间的相关关系、统计案例【命题解读】 变量间相关关系、统计案例是近几年高考出题率比较高的知识点,这部分知识与实际结合比较密切,常与概率相结合,出题难度适中,关键是考查对题目的阅读分析,对数据的处理,因此能力要求方面还是比较高。【命题预测】预计2021年的变量间的相关关系、统计案例一如既往的出解答题的可能性比较大,考查分析问题和处理数据的能力。【复习建议】 1.了解变量间的相关关系,掌握回归直线和独立性检验;2.会求回归直线和独立性检验。考向一回归分析1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
2、;(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线. 2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法. (2)回归方程方程是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定参数.,3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的
3、中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(x,y)称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性. 1. 【2020全国高三专题练习(理)】在一组样本数据,不全相等)的散点图中,若所有样本点,2,都在直线上,则这组样本数据的样本相关系数为( )AB0CD1【答案】A【解析】因为回归直线方
4、程是,所以这两个变量是负相关,故这组样本数据的样本相关系数为负值,又所有样本点,2,都在直线上,所以,所以相关系数故选:A2. 【2020全国高三专题练习】(多选题)下列说法正确的是( )A在回归直线方程中,当解释变量每增加1个单位时,预报变量平均减少2.3个单位B两个具有线性相关关系的变量,当相关指数的值越接近于0,则这两个变量的相关性就越强C若两个变量的相关指数,则说明预报变量的差异有88%是由解释变量引起的D在回归直线方程中,相对于样本点的残差为【答案】CD【解析】对于,根据回归直线方程,当解释变量每增加1个单位时,预报变量平均减少个单位,错误;对于,当相关指数的值越接近于,两个变量的相
5、关性就越强,错误;对于,由相关指数的意义可知正确;对于,当解释变量时,预报变量,则样本点的残差为,正确.故选:.考向二 独立性检验独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)为 2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=
6、 a+b+c+d为样本容量. (3)独立性检验利用随机变量K2来判断“两个分类变量有关系的方法称为独立性检验. 1. 【2020全国高三专题练习(理)】通过随机询问50名性别不同的大学生是否爱好某项运动,得到如下的列联表,计算得参照临界值表,得到的正确结论是( )爱好不爱好合计男生20525女生101525合计302050 0.0100.0050.001K6.6357.87910.828A有99.5%以上的把握认为“是否爱好该项运动与性别有关”B有99.5%以上的把握认为“是否爱好该项运动与性别无关”C有99.9%以上的把握认为“是否爱好该项运动与性别有关”D有99.9%以
7、上的把握认为“是否爱好该项运动与性别无关”【答案】A【解析】由,结合临界值表可得有99.5%以上的把握认为“是否爱好该项运动与性别有关”,或在犯错误的概率不超过0.5%的前提下,认为“是否爱好该项运动与性别有关”,故选:A.2. 【2020湖南长沙市长郡中学高三月考】针对当下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有( )附表:0.0500.0103.8416.635附:ABCD【答案】BC【解析】设男生的人数为,根据
8、题意列出列联表如下表所示:男生女生合计喜欢抖音不喜欢抖音合计则,由于有的把握认为是否喜欢抖音和性别有关,则,即,得,则的可能取值有、,因此,调查人数中男生人数的可能值为或.故选:BC.题组一(真题在线)1. 【2020年高考全国卷理数】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是A BCD2. 【2019年高考全国卷理数】西游记三国演义水浒传和红楼梦是中国古典文
9、学瑰宝,并称为中国古典小说四大名著某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过西游记或红楼梦的学生共有90位,阅读过红楼梦的学生共有80位,阅读过西游记且阅读过红楼梦的学生共有60位,则该校阅读过西游记的学生人数与该校学生总数比值的估计值为A0.5B0.6C0.7 D0.83. 【2019年高考全国卷理数】我国高铁发展迅速,技术先进经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为_4. 【2020年高考全国卷理数】某沙漠地区经过治理,生态
10、系统得到很大改善,野生动物数量有所增加为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi) (i=1,2,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请
11、给出一种你认为更合理的抽样方法,并说明理由附:相关系数,5. 【2020年高考全国III卷理数】某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次锻炼人次空气质量等级0,200(200,400(400,6001(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天
12、“空气质量不好”根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次400人次>400空气质量好空气质量不好附:K2=,P(K2k)0.050 0.010 0.001k3.841 6.635 10.828 6. 【2020年高考山东】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表: 3218468123710(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;(2)根据所给数据,完成下面的列联表: (3)根据(2)中的列联表
13、,判断是否有的把握认为该市一天空气中浓度与浓度有关?附:,0.050 0.010 0.0013.841 6.635 10.828题组二1. 【2020全国高三专题练习(文)】有一散点图如图所示,在5个数据中去掉后,下列说法正确的是( )A残差平方和变小B相关系数变小C相关指数变小D解释变量与预报变量的相关性变弱2. 【2020全国高三专题练习】在某个物理实验中,测得变量x和变量y的几组数据,如下表:xy则下列选项中对x,y最适合的拟合函数是( )ABCD3. 【2020全国高二课时练习】为了解某次考试中语文成绩是否优秀与性别的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
14、语文成绩优秀语文成绩非优秀总计男生102030女生201030总计303060下列说法正确的是( )A有99.5%的把握认为语文成绩是否优秀与性别有关系B有99.9%的把握认为语文成绩是否优秀与性别有关系C有99%的把握认为语文成绩是否优秀与性别有关系D没有理由认为语文成绩是否优秀与性别有关系4. 【2019湖北高二期中(理)】中小学生的智能手机使用已引发社会的广泛关注,某研究性学习小组调查学生使用智能手机对学习的影响,部分统计数据如下:使用智能手机不使用智能手机合计学习成绩优秀7555130学习成绩不优秀12545170合计200100300附表:P()0.0100.0050.0016.63
15、57.87910.828由算得,.则得到的结论中正确的是( )A在犯错误的概率不超过的前提下,认为“使用智能手机对学习有影响”B有以上的把握,认为“使用智能手机对学习有影响”C有以上的把握,认为“使用智能手机对学习有影响”D如果一个中小学生使用智能手机,那么他学习成绩不优秀的可能性高达5. 【2020全国高三专题练习】某大型电子商务平台每年都会举行“双11”商业促销狂欢活动,现统计了该平台从2011年到2019年共9年“双11”当天的销售额(单位:亿元)并作出散点图,将销售额y看成以年份序号x(2011年作为第1年)的函数.运用excel软件,分别选择回归直线和三次多项式回归曲线进行拟合,效果
16、如下图,则下列说法错误的是( )A销售额y与年份序号x呈正相关关系B根据三次多项式函数可以预测2020年“双11”当天的销售额约为8454亿元C销售额y与年份序号x线性相关不显著D三次多项式回归曲线的拟合效果好于回归直线的拟合效果6. 【2020湖南长沙市长郡中学高三月考】针对当下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有( )附表:0.0500.0103.8416.635附:ABCD 7. 【2020齐齐哈尔市第八中
17、学校高二期中(理)】如表是某位同学连续5次周考的数学、物理的成绩,结果如下:周次12345数学(x分)7981838587物理(y分)7779798283参考公式:,表示样本均值.(1)求该生5次月考数学成绩的平均分和物理成绩的方差;(2)一般来说,学生的数学成绩与物理成绩有较强的线性相关关系,根据上表提供的数据,求两个变量x、y的线性回归方程.8. 【2020江苏镇江市高三月考】为了缓解日益拥堵的交通状况,不少城市实施车牌竞价策略,以控制车辆数量.某地车牌竞价的基本规则是:“盲拍”,即所有参与竞拍的人都是网络报价,每个人不知晓其他人的报价,也不知道参与当期竞拍的总人数;竞价时间截止后,系统根
18、据当期车牌配额,按照竞拍人的出价从高到低分配名额.某人拟参加年月份的车牌竞拍,他为了预测最低成交价,根据竞拍网站的公告,统计了最近个月参与竞拍的人数(见下表)月份月份编号竞拍人数(万人)(1)由收集数据的散点图发现,可用线性回归模型拟合竞拍人数(万人)与月份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年月份参与竞拍的人数.(2)某市场调研机构对位拟参加年月份车牌竞拍人员的报价价格进行了一个抽样调查,得到如下的一份频数表:报价区间(万元)频数(i)求这位竞拍人员报价的平均值和样本方差(同一区间的报价可用该价格区间的中点值代替);(ii)假设所有参与竞价人员的报价可视为服从正态
19、分布,且与可分别由(i)中所求的样本平均数及估值.若年月份实际发放车牌数量为,请你合理预测(需说明理由)竞拍的最低成交价.参考公式及数据:回归方程,其中,;,;若随机变量服从正态分布,则,.9. 【2020全国高三专题练习(理)】垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,.(1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合;(2)求关于的
20、线性回归方程;(3)某科研机构研发了两款垃圾处理机器,其中甲款机器每台售价100万元,乙款机器每台售价80万元,下表是以往两款垃圾处理机器的使用年限统计表:1年2年3年4年合计甲款520151050乙款152010550根据以往经验可知,某县城每年可获得政府支持的垃圾处理费用为50万元,若仅考虑购买机器的成本和每台机器的使用年限(使用年限均为整年),以频率估计概率,该县城选择购买一台哪款垃圾处理机器更划算?参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为:,.10. 【2020全国高二课时练习】为了研究一种新药的疗效,选100名患者随机分成两组,每
21、组各50名,一组服药,另一组不服药一段时间后,记录两组患者的生理指标和的数据,并制成下图,其中“*”表示服药者,“+”表示未服药者(1)从服药的50名患者中随机选出一人,求此人指标的值小于1.7的概率;(2)试判断这100名患者中服药者指标的方差与未服药者指标的方差的大小;(只需写出结论)(3)若指标小于1.7且指标大于60就说总生理指标正常(例如图中两名患者的总生理指标正常),根据上图,完成下面的列联表,并判断能否有95%的把握认为总生理指标正常与服药有关,说明理由总生理指标正常总生理指标不正常总计服药不服药总计题组一1.D【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,
22、最适合作为发芽率和温度的回归方程类型的是.故选:D.2.C【解析】由题意得,阅读过西游记的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7故选C3. 【解析】由题意得,经停该高铁站的列车正点数约为,其中高铁个数为,所以该站所有高铁平均正点率约为4. 见解析【解析】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为60×200=12000(2)样本的相关系数(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关由于各地块间植物覆盖面积差异很
23、大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计5. 见解析【解析】(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为(3)根据所给数据,可得列联表:人次400人次>400空气质量好3337空气质量不好228根据列联表得由于,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关6. 见解析【解析】(1)根据抽查数据,该市
24、100天的空气中PM2.5浓度不超过75,且浓度不超过150的天数为,因此,该市一天空气中PM2.5浓度不超过75,且浓度不超过150的概率的估计值为(2)根据抽查数据,可得列联表: 64161010(3)根据(2)的列联表得由于,故有的把握认为该市一天空气中浓度与浓度有关题组二1. A【解析】从散点图可分析得出:只有点偏离直线远,去掉点,变量与变量的线性相关性变强,相关系数变大,相关指数变大,残差的平方和变小,故选A.2.D【解析】根据,代入计算,可以排除;根据,代入计算,可以排除、;将各数据代入检验,函数最接近,可知满足题意故选:3.C【解析】由列联表得:,所以有99%的把握认为语文成绩是
25、否优秀与性别有关系故选:C4. C【解析】则K的观测值:;故在犯错误的概率不超过的前提下,认为“使用智能手机对学习有影响”.即有以上的把握,认为“使用智能手机对学习有影响”.故选:C.5.BC【解析】对于A,散点从左下到右上分布,所以销售额y与年份序号x呈正相关关系,故A正确,不符合题意;对于B,令,由三次多项式函数得,所以2020年“双11”当天的销售额约为2684.54亿元,故B错误,符合题意;对于C,因为相关系数,非常接近1,故销售额y与年份序号x线性相关显著,故C错误,符合题意;对于D,用三次多项式回归曲线拟合的相关指数,而回归直线拟合的相关指数,相关指数越大,拟合效果越好,故D正确,
26、不符合题意.故选:BC.6.BC【解析】设男生的人数为,根据题意列出列联表如下表所示:男生女生合计喜欢抖音不喜欢抖音合计则,由于有的把握认为是否喜欢抖音和性别有关,则,即,得,则的可能取值有、,因此,调查人数中男生人数的可能值为或.故选:BC.7. 见解析【解析】(1)数学成绩的平均分为,因为物理成绩的平均分为,所以物理成绩的方差;(2)由已知数据得,所以,所以,所以两个变量x、y的线性回归方程为.8. 见解析【解析】(1)易知,则关于的线性回归方程为,当时,即2020年11月份参与竞拍的人数估计为2万人;(2)(i)依题意可得这人报价的平均值和样本方差分别为:,;(ii)2020年11月份实
27、际发放车牌数量为3174,根据竞价规则,报价在最低成交价以上人数占总人数比例为,根据假设,报价可视为服从正态分布,且,又,可预测2020年11月份竞拍的最低成交价为4.8万.【点睛】9. 见解析【解析】(1)由题意知相关系数,因为与的相关系数接近,所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合.(2)由题意可得,所以.(3)以频率估计概率,购买一台甲款垃圾处理机器节约政府支持的垃圾处理费用(单位:万元)的分布列为:050100(万元).购买一台乙款垃圾处理机器节约政府支持的垃圾处理费用(单位:万元)的分布列为:2070120(万元).因为,所以该县城选择购买一台甲款垃圾处理机器更划算.10. 见解析【解析】(1)由题图知,在服药的50名患者中,指标的值小于1.7的有人,所以从服药的50名患者中随机选出一人,此人指标的值小于1.7的概率(2)在这100名患者中,服药者指标的方差大于未服药者指标的方差(3)根据题中数据得到如下列联表:总生理指标正常总生理指标不正常总计服药331750不服药222850总计5545100,所以有95%的把握认为总生理指标正常与服药有关