2025版新高考版高考总复习数学专题十一概率与统计成对数据的统计分析.docx

上传人:学****享 文档编号:97446802 上传时间:2024-06-13 格式:DOCX 页数:22 大小:144.36KB
返回 下载 相关 举报
2025版新高考版高考总复习数学专题十一概率与统计成对数据的统计分析.docx_第1页
第1页 / 共22页
2025版新高考版高考总复习数学专题十一概率与统计成对数据的统计分析.docx_第2页
第2页 / 共22页
点击查看更多>>
资源描述

《2025版新高考版高考总复习数学专题十一概率与统计成对数据的统计分析.docx》由会员分享,可在线阅读,更多相关《2025版新高考版高考总复习数学专题十一概率与统计成对数据的统计分析.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2025版新高考版高考总复习数学11.5成对数据的统计分析五年高考考点1变量间的相关关系1.(2022全国乙理,19,12分,中)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i123456根部横截面积xi材积量yi0.040.250.060.400.040.220.080.540.080.510.050.34样本号i78910总和根部横截面积xi材积量yi0.050.360.070.460.070.420.060.400.63.9并计算得i=110x

2、i2=0.038,i=110yi2=1.615 8,i=110xiyi=0.247 4.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2ri=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2=,1.8961.377

3、.解析(1)估计该林区这种树木平均一棵的根部横截面积为x=0.610=0.06(m2),平均一棵的材积量为y=3.910=0.39(m3).(2)样本相关系数i=110(xix)(yiy)i=110(xix)2i=110(yiy)2ri=110(xix)(yiy)i=110(xix)2i=110(yiy)2=i=110xiyi10xy(i=110xi210x 2)(i=110yi210y 2)=0.247 4100.060.39(0.038100.062)(1.615 8100.392)=0.013 40.0020.094 8=0.013 40.011.8960.013 40.013 770.

4、97.计算相关系数i=110(xix)(yiy)i=110(xix)2i=110(yiy)2ri=110(xix)(yiy)i=110(xix)2i=110(yiy)2=时,需要将分子、分母稍加变换,采用题设中给出的数据求解即该林区这种树木的根部横截面积与材积量的样本相关系数约为0.97.(3) 设这种树木的根部横截总面积为X m2,总材积量为Y m3,则XY=xy,则Y=Xyx=1860.390.06=1 209,所以该林区这种树木的总材积量的估计值为1 209 m3.2.(2020课标理,18,12分,中)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生

5、动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=120xi=60,i=120yi=1 200,i=120(xi-x)2=80,i=120(yi-y)2=9 000,i=120(xi-x)(yi-y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(xi,yi)(i=1,2,20)的相关系数(精确到0.01);(3)根据现有

6、统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2ri=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2=,21.414.解析(1)由已知得样本平均数y=120i=120yi=60,从而该地区这种野生动物数量的估计值为60200=12 000.(2)样本(xi,yi)(i=1,2,20)的相关系数i=120(xix)(yiy)i=120(xix)2i=120(yiy)2=ri=120(xix)(yiy)i

7、=120(xix)2i=120(yiy)2=800809 000=2230.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.3.(2018课标理,18,12分,中)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资

8、额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解析(1)利用模型,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.519=226.1(亿元).利用模型,该地区2018年的环境基础设施投资额的预测值为y=99+17.59=256.5(亿元).(2)解法

9、一:利用模型得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠.(ii)从计算结

10、果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠.解法二:模型得到的预测值更可靠,因为从总体数据看,该地区从2000年到2016年的环境基础设施投资额是逐年上升的,从2000年到2009年间递增的幅度较小些,从2010年到2016年间递增的幅度较大些,所以利用模型得到的预测值更可靠.考点2列联表和独立性检验1.(2022全国甲文,17,12分,中)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到

11、下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:K2=n(adbc)2(a+b)(c+d)(a+c)(b+d),P(K2k)0.1000.0500.010k2.7063.8416.635.解析(1)根据题表中数据得A公司共有260个班次,B公司共有240个班次,设事件“A公司甲、乙两城之间的长途客车准点”为M,则P(M)=240260=1213,设事件“B公司甲、乙两城之间的长途客车准点”为N,则P(N)=210240=78,所以A

12、公司甲、乙两城之间的长途客车准点的概率为1213,B公司甲、乙两城之间的长途客车准点的概率为78.(2)22列联表如下:准点班次数未准点班次数合计A24020260B21030240合计45050500K2=n(adbc)2(a+b)(c+d)(a+c)(b+d)=500(2403020210)2260240450503.2052.706,故有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.2.(2020新高考,19,12分,中)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:g/m3),得下表:SO

13、2PM2.50,50(50,150(150,4750,3532184(35,756812(75,1153710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的22列联表:SO2PM2.50,150(150,4750,75(75,115(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=n(adbc)2(a+b)(c+d)(a+c)(b+d),P(K2k)0.0500.0100.001k3.8416.63510.828.解析(1)根据抽查数据,该市100天的空气中PM

14、2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得22列联表:SO2PM2.50,150(150,4750,756416(75,1151010(3)根据(2)的列联表得K2=100(64101610)2802074267.484.由于7.4846.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.3. (2020课标,18,12分,中)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的

15、人次,整理数据得到下表(单位:天):锻炼人次空气质量等级0,200(200,400(400,6001(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.人次400人次400空气质量好空气质

16、量不好附:K2=n(adbc)2(a+b)(c+d)(a+c)(b+d),P(K2k)0.0500.0100.001k3.8416.63510.828.解析(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为1100(10020+30035+50045)=350.(3)根据所给数据,可得22列联表:人次400人次400空气质量好3337空气质量不好228根据列联表得K2=100(3382237)2554570305.820.由于5.8203.841,故有95%的把

17、握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.4.(2023全国甲理,19,12分,中)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).(1)设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.(2)试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.23

18、7.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(i)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:mm对照组试验组(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:K2=n(adbc)2(a+b)(c+d)(a+c)(b+d),P(K2k)0.1000.0500.010k2.7063.8416.635.解析

19、(1)依题意得,X的所有可能取值为0,1,2,则P(X=0)=C200C202C402=1978,P(X=1)=C201C201C402=2039,P(X=2)=C202C200C402=1978,X的分布列为X012P197820391978E(X)=01978+12039+21978=1.(2)(i)依题意可得m=23.2+23.62=23.4.则对照组样本中小于m的数据的个数为6,试验组样本中小于m的数据的个数为14,则列联表为3.841,有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.三年模拟综合基础练1.(2024届福建宁德第一中学二模,4)5G技术在我国

20、已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如表所示:时间x12345销量y(千只)0.50.81.01.21.5若y与x线性相关,且经验回归方程为y=0.24x+a,则下列说法不正确的是()A.由题中数据可知,变量y与x正相关B.a=0.28C.可以预测x=6时该商场5G手机销量为1.72千只D.x=5时,残差为-0.02答案D2.(2023河南安阳二模,4)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相

21、关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是()A.相关指数误差平方和均方根值0.9495.4910.499B.相关指数误差平方和均方根值0.9334.1790.436C.相关指数误差平方和均方根值0.9971.7010.141D.相关指数误差平方和均方根值0.9972.8990.326答案C3.(2024届湖南名校联合体第三次联考,3)某校数学兴趣小组在某座山测得海拔高度x(单位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,6),并将其绘制成如下散点图,分析研究发现B点相关数据不符合实际,

22、删除B点后重新进行回归分析,则下列说法正确的是()A.删除点B后,样本数据的两变量x,y正相关B.删除点B后,相关系数r的绝对值更接近于1C.删除点B后,新样本的残差平方和变大D.删除点B后,解释变量x与响应变量y相关性变弱答案B4.(2024届云南曲靖第一中学第二次月考,13)为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的相关系数,求得数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是组数据.答案甲综合拔高练1.(多选)(2023广东深圳二模,9)为了研究y关于x的线性相关关系,收集了5组样本数据,如下表:x123

23、45y0.50.811.21.5假设经验回归方程为y=bx+0.28,则()A.b=0.24B.当x=8时,y的预测值为2.2C.样本数据y的40%分位数为0.8D.去掉样本点(3,1)后,x与y的样本相关系数r不变答案ABD2.(2023湖南师大附中二模,18)某高中学校开展生涯规划教育,对今年的1 200名考生(其中女生540人)进行调查,统计知:有意向报考师范专业的学生有200人(其中女生120人).(1)完成下面的列联表,并依据小概率值=0.001的独立性检验分析判断报考师范专业意向是否与性别有关;性别报考意向合计师范专业非师范专业男生女生合计(2)对有报考师范专业意向的学生按男女分层

24、随机抽样得一个容量为10的样本,从样本中任意抽取5人,记抽取到的男生人数为X,求X的分布列与期望值.附:0.150.100.050.0250.0100.0050.001x2.0722.7063.8415.0246.6357.87910.8282=n(adbc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d).解析(1)列联表如下:性别报考意向合计师范专业非师范专业男生80580660女生120420540合计2001 0001 200零假设为H0:报考师范专业意向与性别无关,2=1 200(80420120580)22001 00054066021.81810.828,依据

25、小概率值=0.001的独立性检验推断H0不成立,即认为报考师范专业意向与性别有关,此推断犯错误的概率不大于0.001.(2)据题意知,样本中男生有4人,女生有6人,则X的所有可能取值为0,1,2,3,4,P(X=0)=C40C65C105=142,P(X=1)=C41C64C105=521,P(X=2)=C42C63C105=1021,P(X=3)=C43C62C105=521,P(X=4)=C44C61C105=142.所以X的分布列为X01234P1425211021521142E(X)=0142+1521+21021+3521+4142=2.3.(2024届山东新高考质量检测联盟质检(一

26、),17)某学校研究性学习小组在学习生物遗传学的过程中,为验证高尔顿提出的关于儿子成年后身高y(单位:cm)与父亲身高x(单位:cm)之间的关系及存在的遗传规律,随机抽取了5对父子的身高数据,如下表:父亲身高x160170175185190儿子成年后身高y170174175180186(1)根据表中数据,求出y关于x的经验回归方程,并利用回归直线方程分别确定儿子比父亲高和儿子比父亲矮的条件,由此可得到怎样的遗传规律?(2)记ei=yiyi=yibxia(i=1,2,n),其中yi为观测值,yi为预测值,ei为对应(xi,yi)的残差.求(1)中儿子身高的残差的和,并探究这个结果是否对任意具有线

27、性相关关系的两个变量都成立.若成立,加以证明;若不成立,说明理由.参考数据及公式:i=15xi=880,i=15xi2=155 450,i=15yi=885,i=15xiyi=156 045,b=i=1n(xix)(yiy)i=1n(xix)2,a=ybx.解析(1)由题意得x=8805=176,y=8855=177,b=i=15xiyi5xyi=15xi25x2=156 0455176177155 45051762=285570=0.5,a=ybx=177-0.5176=89,所以经验回归方程为y=0.5x+89,令0.5x+89-x0,得x178,即x178时,儿子比父亲高;令0.5x+8

28、9-x178,即x178时,儿子比父亲矮,可得当父亲身高较高时,儿子平均身高要矮于父亲,即儿子身高有一个回归,回归到全种群平均高度的趋势.(意思对即可)(2)由y=0.5x+89可得y1=0.5160+89=169,y2=174,y3=176.5,y4=181.5,y5=184,所以i=15yi=885,又i=15yi=885,所以i=15ei=i=15(yi-yi)=i=15yii=15yi=0,结论:对任意具有线性相关关系的变量i=1nei=0,证明:i=1nei=i=1n(yi-yi)=i=1n(yi-bxia)=i=1nyibi=1nxina=nynbx-n(ybx)=0.4.(202

29、4届广东广州荔湾月考,19)某专营店统计了最近5天到该店购物的人数yi和时间第xi天之间的数据,列表如下:xi12345yi75849398100(1)由表中给出的数据,判断是否可用线性回归模型拟合人数y与时间x之间的关系?(若|r|0.75,则认为线性相关程度高,可用线性回归模型拟合;否则,不可用线性回归模型拟合.计算r时精确到0.01)(2)该专营店为了吸引顾客,推出两种促销方案:方案一,购物金额每满100元可减10元;方案二,购物金额超过800元可抽奖三次,每次中奖的概率均为13,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买一件价值1 00

30、0元的商品,请从实际付款金额的数学期望的角度分析,选哪种方案更优惠?参考数据:4 34065.88.附:相关系数r=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2.解析(1)x=1+2+3+4+55=3,y=75+84+93+98+1005=90,所以i=15(xi-x)(yi-y)=-2(-15)+(-1)(-6)+0+18+210=64,i=15(xi-x)2=4+1+0+1+4=10,i=15(yi-y)2=(-15)2+(-6)2+32+82+102=434,所以r=i=15(xix)(yiy)i=15(xix)2i=15(yiy)2=64104346465.88

31、0.970.75,所以y与x的线性相关性很强,故可用线性回归模型拟合人数y与时间x之间的关系.(2)设方案一的实际付款金额为X元,方案二的实际付款金额为Y元,由题意可知E(X)=1 0000.9=900(元),Y的可能取值有600、800、900、1 000,P(Y=600)=133=127,P(Y=800)=C3213223=29,P(Y=900)=C3113232=49,P(Y=1 000)=233=827,所以E(Y)=600127+80029+90049+1 000827=24 2002724 30027=E(X),所以方案二更优惠.5.(2024届浙江金华十校模拟,20)2023年9

32、月8日,第19届亚运会火炬传递启动仪式在杭州西湖涌金公园广场成功举行.火炬传递首日,火炬手从杭州西湖涌金公园广场出发,沿南山路湖滨路环城西路北山街西泠桥孤山路传递,在“西湖十景”之一的平湖秋月收火.杭州亚运会火炬首日传递共有106棒火炬手参与.(1)组委会从全省火炬手中随机抽取了100名火炬手进行信息分析,得到如下表格:性别年龄总计满50周岁未满50周岁男154560女53540总计2080100根据小概率值=0.1的2独立性检验,试判断全省火炬手的性别与年龄满或未满50周岁是否有关联;(2)在全省的火炬手中,男性占比72%,女性占比28%,且50%的男性火炬手和25%的女性火炬手喜欢观看足球比赛.某电视台随机选取一位喜欢足球比赛的火炬手做访谈,请问这位火炬手是男性的概率为多少?附:0.10.050.010.0050.001x2.7063.8416.6357.87910.828解析(1)零假设为H0:全省火炬手的性别与年龄满或未满50周岁没有关联,根据22列联表中的数据,得2=100(1535545)2208040602.3410.828=x0.001,所以依据 =0.001的2独立性检验,可以认为“周末在校自主学习”与“成绩进步”有关.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁