《突破2023年高考数学题型之2022年数学高考真题(全国通用)专题37 成对数据的统计问题(含详解).pdf》由会员分享,可在线阅读,更多相关《突破2023年高考数学题型之2022年数学高考真题(全国通用)专题37 成对数据的统计问题(含详解).pdf(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、专题3 7成对数据的统计问题【高考真题】1.(2 0 2 2 全国乙理)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了 1 0 棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:n P),得到如下数据:样本号i1234567891 0总和根部横截面积飞0.0 4 0.0 6 0.0 4 0.0 8 0.0 8 0.0 5 0.0 5 0.0 70.0 7 0.0 6 0.6材积量X0.2 5 0.4 0 0.2 2 0.5 4 0.5 10.3 4 0.3 6 0.4 6 0.4 2 0.4 0 3.910 10 10并计算得=0
2、.0 3 8,=1.6 1 5 8.=0.2 4 7 4 .i=l i=l i=l(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.0 1);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为1 8 6 m 2 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数1=I “曰 “,7?颉=1.3 7 7.住(玉 与 之(片-反)2V i=i i=i1.解 析(1)样本中1 0 棵这种树木的根部横截面积的平均值=需=0.
3、0 63 9样本中1 0 棵这种树木的材积量的平均值5 =子=0.3 9据此可估计该林区这种树木平均一棵的根部横截面积为0.0 6 m 2,平均一棵的材积量为Q3 9 n?10 10Z(X i-可(凶-5)际r i=l._ i=l _ _ ir v To A-刃2/斗叫停TO V_ _ _ _ _ _ _ _0.2 4 7 4-1 0 x 0.0 6 x 0.3 9 _ _ _ _ _ _ _ _ 0.0 1 3 4 0.0 1 3 4 惭7(0.0 3 8 -1 0 x 0.0 62)(1.6 1 5 8 -1 0 x 0.3 92)V0.0 0 0 1 8 9 6 0.0 1 3 7 7
4、,则 r =0.9 7(3)设该林区这种树木的总材积量的估计值为丫?,又已知树木的材积量与其根部横截面积近似成正比,可 得 耗=三,解之得y=1 2 0 9 m 3.则该林区这种树木的总材积量估计为1 2 0 9 m 3.2.(2 0 2 2新高考I)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了 1 0 0例(称为病例组),同时在未患该疾病的人群中随机调查了 1 0 0人(称为对照组),得到如下数据:不够良好良好病例组4 06 0对照组1 09 0(1)能否有9 9%的把握认为患该疾病群体与未患该疾病群体的卫生
5、习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病P(BA)P(BA)P(少少P(BA)与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(i )证明:R=P(A|8)P(N|月)P(A B)P(A B)(i i)利用该调查数据,给出P(*8),P(川 乃的估计值,并 利 用(i )的结果给出R的估计值.附 长2_ nad-be)2(a +Z?)(c +d)(a +c)S+d)P(K2 k)0.0 5 00.0 1 00.0 0 12.解析(1)由已知k3.8 4 16.6 3 51 0.8 2 8n(ad-
6、bc)2 _ 2 0 0(4 0 x 9 0 -6 0 x 1 0)2(a +)(c +4)(“+c)S +d)-50 x 1 50 x 1 0 0 x 1 0 0又 P I K?2 6.63 5)=0.0 1 ,2 4 6,63 5,所以有9 9%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)因为R =p(g i A)P(BA)_ P(A B)P(A)/(A 8)P(A)P(BA)P(A)P(A B)P(A)P(A B)所以R =P(A B)P(B)P(A B)P(B)P(B)P(A B)P(B)P(A 8)所以K =P(A|B)国)P(A By P(A B)4(),(i i
7、)由已知 P(A|B)=诉,1 0 -60 -90P(A|B)=,又 P(A|B)=,P(A|B)=,1 0 0 1 0 0 1 0 0所以R =P(AB)P(AB)_6P(A|B)P(A|B)-【知识总结】1 .变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一 般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2 .样本相关系数(
8、1)相关系数,的计算变量x和变量y的样本相关系数 的计算公式如下:n _ _Z(.X i-X)8-y )/n _ n _-A/Z(k x)吃y )2 /i=i=(2)相关系数r 的性质当r 0 时,称成对样本数据正相关;当 r 1,-y)附:经验回归直线;=:+中斜率和截距的最小二乘估计公式分别为:-,=7-Z (为 一 X)21=A _b x .3.小 区 门 口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体统计数据如下表:(1)建立y 关 于t的线性回归方程;(y 保留整数)(2)根据所求线性回归方程,预测如果希望日销售收入菜品种类r45678910日销售
9、收入y147159171184197210221超过300元,则菜品种类至少多少种?(0-t)8-y)A i=A _ 八_附:线性回归直线的斜率和截距的最小二乘估计公式分别为b=-,a=y b t,i (A-t)2Z=17 _ _ 7 _参考数据:E (ti-t)(y,y)=350,Z (/,t=28.Z=1/=14.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图是一个马拉松跑者的心率y(单位:次/分钟)和配速M单位:分钟/千米)的散点图,图是一次马拉松比赛(全程约42千米)前3 000名跑者成绩
10、(单位:分钟)的频率分布直方图.y 与 x 的关系,求 y 与x 的线性回归方程;(1)由散点图看出,可用线性回归模型拟合(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.A A A“.Xiyi-n x-y E(x,x)(y,j)参考公式:用最小二乘法求线性回归方程旷=法+4的系数:人-二-二-X jn x2 E(%,x)2A A 一a=y-b x.参考数据:=135.5.某机构为研究某种图书每册的成本费M单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.o1()15 20
11、 25 30 35 40 45 5()印刷数号工/千册XyU8 Z(XL X )2i=l8 X(即 X )i=l(yi y)8 (出一U )2/=8 一X(L U )i=l(y-y)1 5.2 53.6 30.2 6 92 0 8 5.5-2 3 0.30.7 8 77.0 4 9表中H,=7 由(1)根据散点图判断y a+b x 与 y=c+(哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立了关于x的经验回归方程(回归系数的结果精确到0.0 1).(3)若该图书每册的定价为
12、1 0 元,则至少应该印刷多少册才能使销售利润不低于7 8 8 4 0 元?(假设能够全部售出.结果精确到1)A A A附:对于一组数据(口 l,I),(幻 2,2),(叫,),其经脸回归直线9 夕 G的斜率和截距的最小E(助)(5一 D )A f=|A _ A _二乘估计分别为=-,a=JpM.n _Z(6 9,C O )2尸I6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(H I V 病毒)引起,它把人体免疫系统中最重要的 C D 4 T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;(
13、2)请用相关系数说明:能用线性回归模型拟合y 与 x 的关系;(3)建立y 关于x 的回归方程(系数精确到0.0 1),预测2024年我国艾滋病病毒累计感染人数.参考数据:痔 心 6.48;,以=449.6,x,y=2 319.5,yj(JC,7)2=42,y j(y/y)2=462s (x,x Xy,y)参考公式:相关系数/=/-(为 一 x 喀(j,y)2AAA A(Xi X)(y,y)A _ A_回归方程:y=6 x+“中,b=-二-,a=y bx.备(X L 1)27.近年来,高铁的发展逐渐改变了人们的出行方式,我国20162020年高铁运营里程的数据如下表所示.年份201620172
14、01820192020年份代码X12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若 X与y 具有线性相关关系,求 y 关于X的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用20172020年每年新增里程的频率代替之后每年新增相应里程的概率,求 2024年中国高铁运营里程大于或等于5 万千米的概率.A A A Xiyi-nx y附:线性回归方程y=“+b x 中斜率和截距的最小二乘估计公式分别为:方=号-二 ix jn x21=1a=y-b x .8.每年春天,婺源的油菜花海吸引数十万游客纷至沓来,油菜花成为“中国最美乡村”的
15、特色景观,三月,婺源篁岭油菜花海进入最佳观赏期.现统计了近七年每年(2015年用x=l 表示,2016年用x=2 表示)来篁岭旅游的人次y(单位:万人次)相关数据,如下表所示:X1234567y29333644485259A A A(1)若 y 关于x 具有较强的线性相关关系,求 y 关于x 的线性回归方程、=云+。,并预测2022年来篁岭旅游的人次;(2)为维持旅游秩序,今需A,B,C,D 四位公务员去各景区值班,已知A,B,C 去篁岭值班的概率均为2东。去篁岭值班的概率为本1 且每位公务员是否去篁岭值班不受影响,用 X 表示此4 人中去篁岭值班的人数,求X的分布列与均值.E(X L x )
16、(yi-y)A j*A _ A _参考公式:b=-,a y-b x.Z(X L x )2i=l7 7 _ _参考数据:ZB=301,Z(x,x)(j,y)=140.1=1 尸 i9.研究机构对某校学生往返校时间的统计资料表明:该校学生居住地到学校的距离x(单位:千米)和学生花费在上学路上的时间M单位:分钟)有如下的统计数据:到学校的距离x(千米)1.82.63.14.35.56.1花费的时间y(分钟)17.819.627.53 1.33 6.043.2由统计资料表明y 与 x具有线性相关关系.(1)判断y 与 X的相关程度;(相关系数 的绝对值大于0.75时,认为两个变量相关程度很强,精确到0
17、.01)(2)求线性回归方程=源+2(精确到0.01);A A A(3)将y/y,=764.3 6,Z x (第一 y)=80.3 0,Z(x )2=14.3 0,V(j;-y)2/=1 i=l i=产 ;=1=471.65,6 _ 6 _X(为-x)2X y)2=82.13.10.随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入M亿元)与科技升级直接收益M亿元)的数据统计如下:序号123456789101112X2346810132122232425y13223 142505658
18、68.56867.56666A八 L当 017时,确定y 与 x 满足的线性回归方程为丫=-0.7x+a.(1)根据下列表格中的数据,比较当0 xW17时模型、的相关指数R2的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益回归模型模型模型回归方程f=4.1x+11.8=21.35-14.47 A石 Gf)2182.479.2“八C石 8 一卅 _(附:刻画回归效果的相关指数代=1一-,7174.1)石 y y(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5 亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿
19、元时公司实际收益的大小;n _ _ n _ _AAA“百 孙 E(x,x)(y,y)(附:用 最 小 二 乘 法 求 线 性 回 归 方 程 的 系 数:-二-,田一 X 2(为 一 X)2A A a=y-b x)(3)科技升级后,“麒麟”芯片的效率X 大幅提高,经实际试验得X 大致服从正态分布M0.52,0.012).公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过5 3%,每部芯片奖励2 元;若芯片的效率超过53%,每部芯片奖励4 元,记 丫 为每部芯片获得的奖励,求 E(Y)(精确到0.01).(附:若随机变量 XN(,r)(0),则
20、P a KXW+7)=0.682 7,尸”,一27乂+2 k)0.0 500.0 1 00.0 0 12.解析(1)由已知k3.84 16.63 51 0.82 8n(ad-bc)2 _ 2 0 0(4 0 x 9 0 -60 x 1 0)2(a+)(c +4)(“+c)S+d)-50 x 1 50 x 1 0 0 x 1 0 0又 PI K?2 6.63 5)=0.0 1 ,2 4 6,63 5,所以有9 9%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)因为R=p(g i A)P(BA)_ P(A B)P(A)/(A 8)P(A)P(BA)P(A)P(A B)P(A)P(A
21、 B)所以R=P(A B)P(B)P(A B)P(B)P(B)P(A B)P(B)P(A 8)所以K =P(A|B)国)P(A By P(A B)4(),(i i)由已知 P(A|B)=诉,1 0 -60 -9 0P(A|B)=,又 P(A|B)=,P(A|B)=,1 0 0 1 0 0 1 0 0所以R=P(AB)P(AB)_6P(A|B)P(A|B)-【知识总结】1 .变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散
22、点落在一条直线附近,我们就称这两个变量线性相关.一 般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2 .样本相关系数(1)相关系数,的计算变量x和变量y的样本相关系数 的计算公式如下:n _ _Z(.X i-X)8-y )/n _ n _-A/Z(k x)吃y )2 /i=i=(2)相关系数r 的性质当r 0 时,称成对样本数据正相关;当 r 30 0,解得,1 6.2 8,所以菜品种类至少1 7 种.4 .配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图
23、是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图是一次马拉松比赛(全程约4 2千米)前3 0 0 0 名跑者成绩(单位:分钟)的频率分布直方图.图图(1)由散点图看出,可用线性回归模型拟合y与 x的关系,求 y与 x的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在16 0 左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.A A A 八 x-y E (x,x )(y,y )参考公式:用 最 小 二 乘 法 求 线 性 回 归 方 程 的 系 数:-二一=一 -二-/第一“X 2.2(X,X)2A A 一a=y-h x .参考数据:y =1
24、3 5.4.解 析(1)由散点图中数据和参考数据得三=45+5+;+7 +7,=6,=13 5,5 _ _Z(X,x)(y,y)A _一 1.5 x 3 6+(-l)x 3 0+0 x(-5)+lx(-2 6)+1.5 3 5)b=j _ =(-1.5)2+(-1)2+02+12+1.52E(k X )2d=y-f t 7 =13 5-(-2 5)x 6=2 8 5,所以y与x的线性回归方程为Q=-25X+285.(2)将 y=16 0 代入回归方程得x=5,所以该跑者跑完马拉松全程所花的时间为4 2 x 5=2 10(分钟).从马拉松比赛前3()0 0 名跑者成绩的频率分布直方图可知成绩好于
25、2 10 分钟的累计频率为0.(X)0 8 x 5 0+0.0 0 2 4 x(2 10 -2 0 0)=0.0 6 4,有 6.4%的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是0.0 6 4 x 3 0 0 0=19 2.5.某机构为研究某种图书每册的成本费),(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.05052、11o 5 10 15 20 25 30 35 40 45 50印刷数埴.r/T册Xy8 _E(Xi X)28 _Z(为一X)/=1(,一 y)8 y(W/-u)2/=18 一y(%-u)i=l 8
26、 y)15.2 53.6 30.2 6 92 0 8 5.5-2 3 0.30.7 8 77.0 4 91 1 8表中的=,ui 1(1)根据散点图判断y-a+b x 与 y=c+(哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.0 1).(3)若该图书每册的定价为10 元,则至少应该印刷多少册才能使销售利润不低于7 8 8 4 0 元?(假设能够全部售出.结果精确到1)附:对 组 数 据(。1,1),(02,。2),,(必,)
27、,其经验回归直线U=a+夕0的斜率和截距的最小Z 3 -O)v)A i=l二乘估计分别为 尸-Z 3 C D)2/=!a v p co.5.解 析(1)由散点图判断,y=c+1 更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程.(2)令=:,先建立y关于的经验回归方程,8 一 一2(,-u)8 y )A 产|7 0 4 9 A 八 一由于4=-=六元7 8.9 6,所以c=y -d u=3.63 8.9 6X 0.2 69-1.2 2,所以 y 关于8 _ U./o /(w,u)2的经验回归方程为y=1.2 2+8.9 6”,所以y关于X的非线性经验回归方程为
28、;=1.2 2+X(3)假设印刷x千册,依题意得1 0 x-(1.2 2+*|x 2 78.84 0,所以忘 1 0,所以至少印刷1 0 0 0 0 册才能使销售利润不低于78 84 0 元.6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(H I V病毒)引起,它把人体免疫系统中最重要的 CD4-T 淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计 123456789 10*(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图:(2)请用相关系数说明:能用线性回归模型拟合y与 X的关系;(3)建立y关于x的回归方程(系数精确到0.0 1),预测
29、2 0 2 4 年我国艾滋病病毒累计感染人数.参考数据:而Q 6.4 8;%=4 4 9.6,孙=2 3 1 9.5,yj(x,7)2 4 2,(y,7)2=4 6.2,n _ _ n _ _I (x,x )(y,y)A A A A 石(X i-x)8y)A参考公式:相关系数r=i “_ “_,回归方程:),=/z x+中,h=-,a士(为 一 X (yi-y)2 高(X L X )2=y-h x .6.解 析(1)所求折线图如图所示:-9(2)V%=288,y=56.2,(x,x)(y y)=y i 8 7 =296.3,8 _ 8 _(XL x)2工(y-y)2=)1/J(-7)2=V42
30、X46.2299.376,8 _ _.Z(X L x)(j,y)8 _ 8_、S99.(Xi-X)2J|(y,y)2说明y 与x 的线性相关程度相当高,从而可用线性回归模型拟合y 与x 的关系.8 _ _ N(X L X)(jL y)296 3 A _ A_(3):h=-s-Z-=p 7.0 5,a=y-h x =56.2-7.05x4.5-24.48,(X L x)2.Q=7.05X+2 4.4 8.当 x=ll 时,y=7.05xl 1 +24.48=102.03.预测2024年我国艾滋病累计感染人数为102.03万人.7.近年来,高铁的发展逐渐改变了人们的出行方式,我国20162020年
31、高铁运营里程的数据如下表所示.年份20162017201820192020年份代码X12345高铁运营里程y(万千米)1.92.22.52.93.5(1)若 X与 y 具有线性相关关系,求 y 关于X的线性回归方程;(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用20172020年每年新增里程的频率代替之后每年新增相应里程的概率,求 2024年中国高铁运营里程大于或等于5 万千米的概率.n _ _A A A 八 百 孙 一 y附:线性回归方程),=+法中斜率和截距的最小二乘估计公式分别为:b=*-自京一 X 21=1A A 一a=y b x.7.解 析(l)x=
32、1 x(l+2+3+4+5)=3,y=1x(1.9+2.2+2.5+2.9+3.5)=2.6.551x1.9+2x2.2+3x2.5+4x2.9+5x3.5=42.9,,工后=1+4+9+16+25=55,A 渺一5x y 42.9-5x3x2.6 人所以匕=-=7=301,X(x,x)(y,y)=140.i=i i-i8.解析 由表知工=3(1+2+3+4+5+6+7)=4,7=x(29+33+36+44+48+52+59)=43,(Xi X)(,y)A 厂 1140 A A 则 人=;-2-=9+4+1+0+1+4+9=5,a=y-b x=43-5x4=23,Z (Xi X)2所以=5X+
33、23,A因为2015年用x=l 表示,所以2022年时x=8,得.v=5x8+23=63(万人次).(2)X的可能取值是0,1,2,3,4,则 P(X=0)=Cx(l|彳+c!x(l _|)2x|xg=+居,P(X=3)=吸 电 号+0(1 一 券 像 后=器(*=4)=0 停),=1 7 5.4,M=7 6 4.3 6,Z(即-x )(%y )=8 0.3 0,X U x)2=1 4.3 0,()L y =4 7 1.6 5,Z(8 一 x )2X GL )2=8 2.1 3.E(为-x )(),-y)9.解 析(1)由题意得厂=E x P Z(y,),)2所以y与x相关程度很强.(2)由题
34、意得T=3.9,丁=4 Z2 2 9.2 3,(%7)6-,7)=8 0.3 0,(x,-T)2-1 4.3 0,X(为一x)0!(y)8 0.3 0 1 )八 之 5.6 2A-所以人=a=y b x 2 9.2 3-5.6 2 x3.9 7.3 1,6 _ 1H-.3UZ(X,X)2i=l所以线性回归方程为f=5.6 2 x+7.3 1.由(2)可知,当 x=3.1 时,i=2 4.73 2 2 7,所以满足12 7 的美丽数据共有3个.从 这 6个数据中任取2个共有C Z=1 5(种)情况,其中,抽取的2个数据全部为美丽数据的有G=3(种)情况,A1所以从这6个数据%中任取2个,抽取的2
35、个数据全部为美丽数据的概率为机1 0.随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x(亿元)与科技升级直接收益),(亿元)的数据统计如下:序号1234567891 01 11 2X234681 01 32 12 22 32 42 5y1 32 23 1425056586 8.56 86 7.56 66 6当 04 W17 时,建立了 y与 x 的两个回归模型:模型:=4.1X+1 1.8;模型:=2 1.3 亚 一1 4.4;A A当x 1 7时,确定y与 x 满足的线性回归方程
36、为丫=-0.7x+a.(1)根据下列表格中的数据,比较当。令=21.3-14.47A182.479.2 保一(附:刻 画 回 归 效 果 的 相 关 指 数;,7174.1)篙 8 一歹)2(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5 亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小;n _ _ n _ _AAA-lAiy,n x-y I (x,x)(y/-y)(附:用最小二乘法求线性回归方程),=6 x+a的系数:b=,-二-,,Ex?n x 2 X to x)2I II 1A A 一a=y-b x)(3)科技升级后,“麒麟”芯
37、片的效率X 大幅提高,经实际试验得X大致服从正态分布M0.52,0.012).公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过53%,每部芯片奖励2 元;若芯片的效率超过53%,每部芯片奖励4 元,记 丫 为每部芯片获得的奖励,求 E(F)(精确到0.01).(附:若随机变量 XN(,0),则 P(/,-K X W+7)=0.682 7,尸 一27XW+279.2,.182.4 79.2,182.4,79.2_ 0 _ 17时,由已知可得-21+22+23+24+25x=c=23,-68.5+68+67.5+66+66y=?-67.2,:.a
38、=7 +0.77=67.2+0.7x23=83.3,.当x17时,y 与x 满足的线性回归方程为y=-0.7x+83.3,当x=2 0 亿元,科技升级直接收益的预测值为;=-0.7x20+83.3=69.3(亿元),当x=2 0 亿元时,实际收益的预测值为69.3+5=74.3亿元72.93亿元.,技术升级投入2 0 亿元时,公司的实际收益更大.(3):-2。=050,+0=0.53,P(0.50X0.53)=P(j,i 2aXjn+。)=P 2aX/.i。)+PQi(yX0.53)=P(X邛+=-AE(Y)=0 xP(Xu-2a)+2x0.818 6+4x10.682 72=2.271 8=
39、2.27(元).考向二 概率与独立性检验综合问题11.(2021全国甲)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了 200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?2_ 建(a d-be)2_)K(白+b)(c+d)(a+c)(b+d)P(K22发)0.0500.0100.001k3.8416.63510.82811.解 析(1)根
40、据2x2列联表知:甲机床生产的产品中一级品的频率 为 爆=7 5%,乙机床生产的产品中一级品的频率 为 螺=60%.,一f (adbe)22 T 由 2x2列联表,得 K2的观测值%=,4、八,八Cc+a)(a-rc)kb-vd)400X(150X80-120X50)2 400=-=-10?566 635270X 130X200X200 39.又 P(26.635)=0.010,故有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.12.某社区管委会积极响应正在开展的“创文活动”,特制订了饲养宠物的管理规定.为了解社区住户对这个规定的态度(赞同与不赞同),工作人员随机调查了社区220户
41、住户,将他们的态度和家里是否有宠物的情况进行了统计,得到如下2 x 2 列联表(单位:户):赞同规定住户不赞同规定住户合计家里有宠物住户7 04 01 1 0家里没有宠物住户9 02 01 1 0合计1 6 06 02 2 0同时,工作人员还从上述调查的不赞同管理规定的住户中,用分层抽样的方法按家里有宠物、家里没有宠物抽取了 1 8 户组成样本T,进一步研究完善饲养宠物的管理规定.(1)根据上述列联表,能否在犯错误的概率不超过0.0 0 1 的前提下认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系”?(2)工作人员在样本T中随机抽取6户住户进行访谈,求这6户住户中,至少有1 户家
42、里没有宠物的概率 P(结果用分数表示).-n(.adbe)2 _,附:K=Q+6)(c+)(a+c)(6+()其中P g ko)0.1 00.0 1 00.0 0 12.7 0 66.6 3 51 0.8 2 8向在 2 2 0 x (7 0 x 2 0-4 0 x 9 0)2 5 5 解 析 .火的观测值2 oxi 7商X60=不 1 0-8 2 8,.在犯错误的概率不超过0.0 0 1 的前提下,不能认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系(2)在 由 1 8 户住户组成的样本7中,设家里没有宠物的住户有x户,家里有宠物的住户有),户,根据年 而,x=6,分层抽样的概
43、念得 必解方程组得-L 4 0 y=2.1 8-6 0,样本7中的住户,家里没有宠物的有6户,家里有宠物的有1 2 户.,从样本T中随机抽取6户 的 事 件 数 为,这 6户都是家里有宠物的事件数为C h ,这 6户中至少有 I 户家里没有宠物的事件数为C;8 -C?2 .C t s-C t2 =2 1 0 ,2 1 0 R-2 2 1 ,/-2 2 1 -1 3.为了了解市民对A,8运营商的5 G 通信服务的评价,分别从A,B运营商的用户中随机抽取100名用户对其进行测评,已知测评得分在70分以上的为优秀,测评结果如表:A运营商的100名用户的测评得分得分 40,50(50,60(60,70
44、(70,8 0(8 0,9 0(9 0,100频率0.180.230.30.240.030.02平均值(同一组中的数据用该组区间的中点值为代表);(2)填写下面列联表,并根据列联表判断是否有99%的把握认为测评得分是否优秀与运营商有关?优秀非优秀总计A 运营商B 运营商总计,nfadbc)1,附:K(a+b)(c+d)(a+c)(b+d)其中=+C+”0.1000.0500.0250.0100.0012.7063.8415.0246.63510.82813.解 析(1)由频率分布直方图可知8 运营商测评得分的平均值为45x0.08+55x0.16+65x0.26+75x0.3+85x0.16+
45、95x0.04=69.2.(2)由频率分布表可知A 运营商测评得分优秀的有100 x(0.24+0.03+0.02)=29(个),非优秀的有100 x(0.18+0.23+0.3)=71(个),由频率分布直方图可知B 运营商测评得分优秀的有(0.03+0.016+0.004)x10 x100=50(个),非优秀的有(0.008+0.016+0.026)x10 x100=50(个),则可得列联表如下:优秀非优秀总计A 运营商2971100B 运营商5050100总计79121200n,200 x(29x50-71 x50)2则 K 100 x100 x79x121,2276,635,所以有99%
46、的把握认为测评得分是否优秀与运营商有关.14.为了响应政府“节能减排”的号召,某知名品牌汽车厂家决定生产一款纯电动汽车.生产前,厂家进行了人们对纯电动汽车接受程度的调查.在206 0 岁的人群中随机抽取了 100人,调查数据的频率分布直方图和接受纯电动汽车的人数与年龄的统计结果如图所示:(1)由以上统计数据填2义2 列联表,并判断能否有9 5%的把握认为以4 4 岁为分界点的不同年龄人群对年龄 20,28)28,36)36,44)44,52)52,60接受的人数146152817纯电动汽车的接受程度有差异?4 4 岁以下4 4 岁及4 4 岁以上总计接受不接受总计(2)若以4 4 岁为分界点,
47、从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2 人.记抽到4 4 岁以下的人数为X,求随机变量X的分布列及数学期望.附:+葭嘉篇P(心*)0.1000.0500.0100.001ko2.7063.8 416.63510.8 2814.解 析(1)由题设及统计表格得2x 2列联表如下:4 4 岁以下4 4 岁及4 4 岁以上总计接受35458 0不接受15520总计5050100根据2x 2列联表得100 x(35x 5-45X 15)2 25 K 弱视现值 k=50 x 50 x 8 0 x 20=彳=6,25 3.8 41.有9
48、5%的把握认为以4 4 岁为分界点的不同人群对“纯电动汽车”的接受程度有差异.(2)由题意可知,抽取的8 人中4 4 岁以下的有6 人,4 4 岁及4 4 岁以上的有2 人,所以X 的可能取值有 0,1,2.3 1C,C1 3P(X=0)=Cg-28,P(X=1)=p(X=2)=荒,所以随机变量X 的分布列为71X012P1283715281 3 15 3,随机变量X的数学期望为E(X)=0 x+1XZ;+2XT-=-.Zo/Zo L15.推进垃圾分类处理,是落实绿色发展理念的必然选择,也是打赢污染防治攻坚战的重要环节.为了解居民对垃圾分类的了解程度,某社区居委会随机抽取1 000名社区居民参
49、与问卷测试,并将问卷得分绘制频率分布表如下:得分30,40)40,50)50,60)60,70)70,80)80,90)90,100男性人数40901201301106030女性人数2050801101004020(1)从该社区随机抽取一名居民参与问卷测试,试估计其得分不低于60分的概率;(2)将居民对垃圾分类的了解程度分为“比较了解”(得分不低于60分)和“不太了解”(得分低于60分)两类,完 成 2 X 2 列联表,并判断是否有95%的把握认为“居民对垃圾分类的了解程度”与“性别”有关?单位:人性别了解程度合计不太了解 比较了解男性女性合计(3)从参与问卷测试且得分不低于80分的居民中,按
50、照性别进行分层抽样,共抽取10人,连同(GN*)名男性调查员一起组成3 个环保宣传队.若从这+10中随机抽取3 人作为队长,且男性队长人数占的期望不小于2.求的最小值.,_n(ad-be辛 _附:*=m+(c+m(a+c)S+m(=+c+G临界值表:P(心 的0.150.100.050.0250.0100.0050.001ko2.0722.7063.8415.0246.6357.87910.8281 5.解析(1)由调查数据,问卷得分不低于6 0 分的频率为1 3 0+1 1 0+6 0+3 0+1 1 0+1 0 0+4 0+201 0 0 0 =06故从该社区随机抽取一名居民其得分不低于6