《新高考数学一轮复习讲义:统计与统计案例.pdf》由会员分享,可在线阅读,更多相关《新高考数学一轮复习讲义:统计与统计案例.pdf(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、新高考数学一轮复习讲义:统计与统计案例 9.1随 机抽样、用样本估计总体【考试要求)1.理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样的方法.2.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.【知识梳理】1.随机抽样(1)简单随机抽样:一般地,设一个总体含有 个个体,从中逐个不放回地抽取个个体作为 样 本 如 果 每 次 抽 取 时 总 体 内 的 各 个 个 体 被 抽 到 的 机 会 都 相 箜,就把这种抽样方法叫做简单随机抽样.(2)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然
2、后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.2.用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积的总和等于L(2)频率分布折线图和总体密度曲线频率分布折线图:连接频率分布直方图中各小长方形上端的空直,就得到频率分布折线图.总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.用样本的数字特征估计总体的数字特
3、征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:1 反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s=(5)方差:s2=U i x)+(A 2 x)2H-F(x-x)1(x是样本数据,刀是样本容量,x是样本平均数).【思考】1.三种抽样方法有什么共同点和联系?提 示(1)抽样过程中每个个体被抽取的机会均等.(2)系统抽样中在起始部分抽样时采用简单随机抽样;分层抽样中各层抽样时采用简单随机抽样或系统抽样.2.平均数、标准差与方差反映了数据的哪些特征?
4、提示平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.【基础自测】题 组 一 思考辨析1.判断下列结论是否正确(请在括号中打“或“X”)(1)简单随机抽样中,每个个体被抽到的机会不一样,与先后有关.(X)(2)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(X)(3)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.(X)(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.(V)题 组 二 教材改编2.某公司有员工500人,其中不到35岁的有125人,35
5、 49岁的有280人,50岁以上的有 95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为()A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20答 案 B解析 设在不到35岁的员工中抽取x 人,则 粤=嘘,所 以 x=2 5,同理可得这三个年龄OUU IZO段抽取人数分别为25,56,19.3.某射击小组有20人,教练将他们某次射击的数据绘制成如下表格,则这组数据的众数和中位数分别是()环数5678910人数127631A.7,7B.8,7.5C.7,7.5 D.8,6答 案 C解析 从表中数据可知7 环有7人,人数最多,
6、所以众数是7;中位数是将数据从小到大排列,第 1 0 个与第1 1 个数据的平均数,第 1 0 个数是7,第 1 1 个7-L.fi数是8,所 以 中位数是丁=7.5.4.如图是1 0 0 位居民月均用水量的频率分布直方图,则月均用水量在 2,2.5)范围内的居民有.人.答 案 2 5解析 0.5 X 0.5 X 1 0 0=2 5.题 组 三 易错自纠5 .己知一组数据的频率分布直方图如图,则众数是,平均数是答 案 6 5 6 7解析因为最高小长方形中点的横坐标为6 5,所以众数为6 5;平均数 x=(5 5 X 0.0 3 0+6 5 X 0.0 4 0+7 5 X 0.0 1 5+8 5
7、 X 0.0 1 0+9 5 X 0.0 0 5)X 1 0=6 7.6 .若数据X i,X2,照,黑的平均数x=5,方 差 s=2,则数据3 xi+l,3X2+1,3 8+1,3 四+1的 平 均 数 和 方 差 分 别 为.答 案 1 6,1 8解析x,如矛3,,x的平均数为5,.汨+质+寸-1-1 药 广 5,n网坟坟上坟+1=3 X 5+1 =1 6,n X ,%2,照,,Xn 的差2 ,3 h+1,3 照+1,3 照+1,,3 为+1的方差是3 2 义2 =1 8.题 型 一 抽样方法1.总体由编号为0 0,0 1,0 2,,4 8,4 9 的 5 0 个个体组成,利用下面的随机数表
8、选取6个个体,选取方法是从随机数表第6 行的第9 列和第1 0 列数字开始从左到右依次选取两个数字,则选出的第3个个体的编号为()附:第 6行至第9行的随机数表如下:2 6 3 57 9 0 03 3 7 09 1 6 0 1 6 2 03 8 8 27 7 5 74 9 5 03 2 1 14 9 1 97 3 0 64 9 1 67 6 7 78 7 3 39 9 7 46 7 3 22 7 4 86 1 9 87 1 6 44 1 4 87 0 8 62 8 8 88 5 1 9 1 6 2 07 4 7 70 1 1 1 1 6 3 02 4 0 42 9 7 97 9 9 19 6
9、8 35 1 2 5A.3 3 B.1 6 C.3 8 D.2 0答案D解析数字,按随机数法,从随机数表第6行的第9列和第1 0 列数字开始从左到右依次选取两个超 出 4 9 及重复的不选,则编号依次为3 3,1 6,2 0,3 8,4 9,3 2,,则选出的第3个个体的编号为2 0,故选D.2.用简单随机抽样的方法从含有1 0 个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是()1-5C1-53-10B.A DA A*1 0 1 0 1 0答 案 A解析在抽样过程中,个 体 a 每一次被抽中的概率是相等的,因为总体容量为1 0,故
10、个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性均为上.故选A.3.为 了 调 查 城 市 的 情 况,按地域把4 8 个城市分成大型、中型、小型三组,相应的城市数分别为2 4,1 6,8.若用分层抽样的方法抽取1 2 个城市,则应抽取的中型城市数为()A.3 B.4 C.5 D.6答 案 B12 1 1解析 根据分层抽样的特点可知,抽样比为菽=彳,则应抽取的中型城市数为1 6 义彳=4.思 维 升 华(1)简单随机抽样是分层抽样的基础,是一种等概率的抽样,由定义应抓住以下特点:它要求总体个数较少;它是从总体中逐个抽取的:它是一种不放回的抽样.(2)分层抽样适用于总体中个体差异较大的情
11、况.题型二统计图表及应用命题点1 扇形图例 1 某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:建设前经济收入构成比例第三产业收入种植收入137%养殖收入28%建设后经济收入构成比例悯其他收入则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答 案 A解析 设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为2a
12、.新农村建设前后,各项收入的对比如下表:新农村建设前新农村建设后新农村建设后变化情况结论种植收入6 0%a3 7%X 2a=7 4%a增加A错其他收入4%a5%X 2a=1 0%a增加了一倍以上B对养殖收入3 0%53 0%X 2a=6 0%a增加了一倍C对养殖收入+第三产业收入(3 0%+6%)a =3 6 炀(3 0%+28%)X 2a=1 1 6%a超过经济收入2a 的一半1)对故选A.命题点2折线图例 2下面两个图是20 20 年 6月 2 5 日由国家卫健委发布的全国疫情累计趋势图,每图下面横向标注日期,纵向标注累计数量.现存确诊为存量数据,计算方法为:累计确诊数一累计死亡数一累计治
13、愈数.全国疫情累计趋势图 一 确 诊 一 治 愈-死亡100 OU)_:。1.201.27 2.3 2.102.172243.2 3.9 3.163.233.30 4.64134.2042;5.45.11 5.185.25 6.1 6.8 6.15 6.24图1全国累计确诊/治愈/死亡 一累计确诊一累计治愈一累计死亡9 n00 G _ 坐 671 一 84J78 _ 84 妙7 _ 8 4,4。_ 84,9 7 85 07a B579 903 79 913 79 926 79 949 79 969 79 983 79 99960(H X)-4 645 4 645 4 645 4 645 4 6
14、45 4 646 4 64706.12 06.14()6.16 06.18 06.20()6.22 06.24图2则下列对新冠肺炎叙述错误的是()A.自 1 月 2 0 日以来一个月内,全国累计确诊病例属于快速增长时期B.自4月份以来,全国累计确诊病例增速缓慢,疫情扩散势头基本控制C.自6月 1 6 日至2 4 日以来,全国每日现存确诊病例平缓增加D.自6月 1 6 日至2 4 日以来,全国每H现存确诊病例逐步减少答 案 D解析 由图1 可知A,B均正确;由图2 数据计算得1 6 日的现存确诊病例为8 4 8 6 7-7 9 9 26-4 6 4 5=29 6,同理可计算1 8,20,22,2
15、 4 日现存确诊分别为3 4 6,3 8 3,4 4 1,4 7 3.命题点3 茎叶图例 3 如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均数也相等,则 x 和 y的值分别为()甲组乙组6592 561 7.vx 478A.3,5 B.5,5 C.3,7 D.5,7答 案 A解析 甲组数据的中位数为6 5,由甲,乙两组数据的中位数相等,得 尸 5.又甲、乙两组数据的平均数相等,.|x (5 6+6 5+6 2 +7 4+7 0 +x)=X (5 9+6 1 +6 7+6 5 +7 8),;.x=3.故选 A.5 5命题点4频率分布直方图例
16、 4 从一批零件中抽取8 0 个,测量其直径(单位:m m),将所得数据分为9组:5.31,5.33),5.33,5.35),5.45,5.47),5.47,5.49 ,并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间 5.43,5.47 内的个数为()A.1 0 B.1 8 C.2 0 D.36答 案 B解析 因为直径落在区间在43,5.47 内的频率为0.0 2 X (6.2 5+5.0 0)=0.2 2 5,所以个数为0.2 2 5 X 8 0=1 8.思 维 升 华(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.(2)折线图可以显示随时间(根据常用比例放
17、置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.(3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.(4)准确理解频率分布直方图的数据特点:频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.跟 踪 训 练(1)由于受疫情的影响,学校停课,同学们通过三种方式在家自主学
18、习,现学校想了解同学们对假期学习方式的满意程度,收集如图1 所示的数据;教务处通过分层抽样的方法抽取4%的同学进行满意度调查,得到的数据如图2.下列说法错误的是()A.样本容量为2 40B.若卬=5 0,则本次自主学习学生的满意度不低于四成C.总体中对方式二满意的学生约为300人D.样本中对方式一满意的学生为24 人答 案 B解析 选项A,样本容量为6 000X 4%=24 0,该选项正确;选项B,根据题意得自主学习的满 意 率 为+250%0.35 8 =/%5,5,所以 nh me0.5,所以中位数在第二组,设中位数为x,则中3+U-60)X 0.04=0.5,解得x=65,所以中位数为6
19、5.(2)依题意,可得平均成绩为(55X0.03+65X0.04+75X0.015+85X0.010+95X0.005)X 10=67,所以参赛学生的平均成绩为67分.【技能提分练】13.某校高二年级共有800名学生参加了数学测验(满分150分),已知这800名学生的数学成绩均不低于90分,将这800名学生的数学成绩分组为90,100),100,110),110,120),120,130),130,140),140,150),得到的频率分布直方图如图所示,则下列说法中正确的序号是.a=0.045;这 800名学生中数学成绩在110分以下的人数为160;这800名学生数学成绩的中位数约为121.
20、4;这 800名学生数学成绩的平均数为125.答 案 解析 由题意得(0.005+0.01+0.01+0.015+0.025+a)X 10=1,解得 3=0.035,错:110分以下的人数为(0.01+0.01)X10X800=160,正确;120分以下的频率是数01+x 1 2 0 0 0 0 50.0 1+0.0 2 5)X 1 0=0.4 5,设中位数为x,则一二=而 丽,4 .4,正确;平均分为9 5 X 0.1 +1 0 5 X 0.1 +1 1 5 X 0.2 5+1 2 5 X 0.3 5+1 3 5 X 0.1 5 +1 4 5 X 0.0 5 =1 2 0,错.1 4.气象意
21、义上从春季进入夏季的标志为:连续5天每天日平均温度不低于2 2 C.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数,单位:).甲地:5个数据的中位数为2 4,众数为2 2;乙地:5个数据的中位数为2 7,平均数为2 4;丙地:5个数据中有一个数据是3 2,平均数为2 6,方差为1 0.2.则肯定进入夏季的地区有 个.答 案 2解析 甲地肯定进入夏季,因为众数为2 2,所以2 2 至少出现两次,若有一天低于2 2 ,则中位数不可能为2 4;丙地肯定进入,1 0.2 X 5 (3 2 2 6 产(2 6 一犬厂,所以刑力(2 6 x)?,所以x W 2 2 不成立;乙地不一定
22、进入,如 1 3,2 3,2 7,2 8,2 9,肯定进入夏季的地区有2个.【拓展冲刺练】1 5.汽 车 的“燃油效率”是指汽车每消耗1 升汽油行驶的里程,下图描述了甲、乙、丙三辆汽车在不同速度下的燃油效率情况.下列叙述中正确的是()A.消 耗 1 升汽油,乙车最多可行驶5千米B.以相同速度行驶相同路程,三辆车中,甲车消耗汽油最多C.甲车以8 0 千米/小时的速度行驶1 小时,消 耗 1 0 升汽油D.某城市机动车最高限速8 0 千米/小时.相同条件下,在该市用丙车比用乙车更省油答 案 D解析 对于A,由图象可知当速度大于4 0 k m/h 时,乙车的燃油效率大于5 k m/L,所以当速度大于
23、4 0 k m/h 时,消 耗 1 升汽油,乙车的行驶距离大于5 k m,故 A错误;对于B,由图象可知当速度相同时,甲车的燃油效率最高,即当速度相同时,消 耗 1 升汽油,甲车的行驶路程最远,所以以相同速度行驶相同路程,三辆车中,甲车消耗汽油最少,故 B错误;对于C,由图象可知当速度为8 0 k m/h 时,甲车的燃油效率为1 0 k m/L,即甲车行驶1 0 k m 时,耗油 1 升,故行驶1 小时,路程为8 0 k m,燃油为8升,故 C错误;对 于 D,由图象可知当速度小于8 0 k m/h 时,丙车的燃油效率大于乙车的燃油效率,所以用丙车比用乙车更省油,故 D正确.1 6.某工厂甲、
24、乙两名工人参加操作技能培训.现分别从他们在培训期间参加的若干次测试成绩中随机抽取8次,数据如下(单位:分):甲9 58 28 88 19 37 98 47 8乙8 37 58 08 09 08 59 29 5(D 请你计算这两组数据的平均数、中位数;(2)现要从中选派一人参加操作技能比赛,从统计学的角度考虑,你认为选派哪名工人参加合适?请说明理由.一 1解(1)x”,=3(9 5+8 2+8 8+8 1+9 3+7 9+8 4+7 8)=8 5(分),O 1X z.=o (8 3+7 5+8 0+8 0+9 0+8 5+9 2+9 5)=8 5(分).O甲、乙两组数据的中位数分别为8 3 分,
25、8 4 分.由(1)知x甲=x乙=8 5 分,所 以 品,=%(9 5 8 5 y+(8 2 8 5 y+(7 8 8 5)与=3 5.5,Os Z=1 (8 3 8 5 尸+(7 5 8 5)?+(9 5 8 5)2 =4 1.从平均数看,甲、乙均为8 5 分,平O均水平相同;从中位数看,乙的中位数大于甲的中位数,乙的成绩好于甲;从方差来看,因为W 甲=S祝 昱,所以甲的成绩较稳定;从数据特点看,获得8 5 分以上(含8 5 分)的次数,甲有3次,而乙有4次,故乙的成绩好些;从数据的变化趋势看,乙后几次的成绩均高于甲,且呈上升趋势,因此乙更具潜力.综上分析可知,甲的成绩虽然比乙稳定,但从中位
26、数、获得好成绩的次数及发展势头等方面分析,乙具有明显优势,所以应派乙参赛更有望取得好成绩.9.2 变量间的相关关系、统计案例【考试要求】1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.|j_知识梳理1.相关关系与回归方程(1)相关关系的分类正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关
27、系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.回归方程方程y=8x+a是两个具有线性相关关系的变量的一组数据(汨,%),(及,(治,人)的回归方程,其中a,8是待定参数.n _ _ n _ _Z X L x y-y fx w i-n x y 7=1 7=1b=-=-,Jn 一 n 一Z x x 2 x n x2i-/=1a=y-b x.(4)回归分析定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
28、样本点的中心对于一组具有线性相关关系的数据(小,珀,(如 ,(无,为),其中(7,7)称为样本点的中心.相关系数当r O B寸,表明两个变量正相关;当X0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常之大于0.7 5时,认为两个变量有很强的线性相关性.2.独立性检验(1)分类变量:变量的不同 值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量才和K它们的可能取值分别为%,高 和 出,,其样本频数列联表(称为2 X 2列联表)
29、为2 X 2列联表71Y2总计Xaba_bX2Cdc+d总计a+cb+da+b+c+d构造一个随机变量*=“尸。7-,其 中=a+6+c+d为样本H+b c+d a-v c b-d容量.(3)独立性检验:利用随机变量族来判断“两个分类变量有关系”的方法称为独立性检验.【微思考】1 .变量的相关关系与变量的函数关系有什么区别?提 示 相 同 点:两者均是指两个变量的关系.不同点:函数关系是一种确定的关系,相关关系是一种非确定的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2 .线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提 示(1)不一定都有实际
30、意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.基础自测题组一思考辨析1 .判断下列结论是否正确(请在括号中打“J”或“X”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.(J )(2)回归直线y=6 x+a 至少经过点(为,/),(如),,(x%)中的一个点.(X )(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.(V )(4)若事件用 1 关系越密切,则由观测数据计算得到的片的观测值越小.(X )题组二
31、教材改编2 .下列四个散点图中,变量x 与 y 之间具有负的线性相关关系的是()答 案 D解析 观察散点图可知,只有D选项的散点图表示的是变量x 与了之间具有负的线性相关关系.3 .下面是2 义2列联表:a先总计Xa2 173X22 22 54 7总计b4 61 2 0则表中a,6 的值分别为()A.9 4,72 B.5 2,5 0C.5 2,74 D.74,5 2答 案 C解析.*+2 1 =73,;.a=5 2.又 a+2 2 =6,,0=74.4.已知x,y 的对应取值如下表,从散点图可以看出y 与 x 线性相关,且线性回归方程为y=0.9 5%+a,贝!J a 等于()X0134y2.
32、24.34.86.7A.3.2 5 B.2.6 C.2.2 D.0答 案 B解析 回归直线过点(2,4.5),A 4.5=0.9 5 X 2+&a2.6.题组三易错自纠5 .在统计中,由一组样本数据(小,%),(如),,(x,%)利用最小二乘法得到两个变量的回归方程为y=6 x+a,那么下列说法不正确的是()A.相关系数r 不可能等于1B.回 归 直 线 必 经 过 点(x,y)C.回归直线y=6 x+a 表示最接近y 与 x 之间真实关系的一条直线D.相关系数为r,且 越 接 近 1,样本数据的线性相关程度越强;1 引越接近0,样本数据的线性相关程度越弱答 案 A解析 相 关 系 数 的 取
33、 值 范 围 是 故 A错;回归直线y=6 x+a 必过样本点的中心,即点(T,J),故 B正确;回归直线y=6 x+a 是利用最小二乘法求解出的直线方程,接近真实关系,故 C正确;相关系数r 的绝对值越接近1,表示样本数据的线性相关程度越强,越接近 0,样本数据的线性相关程度越弱,故 D正确.6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了 1 0 0 位育龄妇女,结果如下表.非一线城市一线城市总计愿生4 52 065不愿生1 32 23 5总计5 84 21 0 0由*=n ad be2a+b c+d a+c b+d1
34、0 0 X 4 5 X 2 2-2 0 X 1 3何 5 8 X 4 2 X 3 5 X 65参照下表:P(沁)0.10.0 50.0 10.0 0 1ko2.70 63.8 4 16.63 51 0.8 2 8正确的结论是()A.在犯错误的概率不超过0.1%的前提下,认 为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认 为“生育意愿与城市级别无关”C.有 9 9%以上的把握认为“生育意愿与城市级别有关”D.有 9 9%以上的把握认为“生育意愿与城市级别无关”答 案 C题 型 一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份1
35、23456人均销售额658347利润率(给1 2.61 0.41 8.53.08.11 6.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答 案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和 D;其属于正相关关系,A正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()353025201.31050.5 1()15 20 25 3()35相关系数为。353()252()151050(
36、1),.5 1()15 20 25 30 35相关系数为G(2)1()15 2()25 30 35相关系数为q(3)5 10 15 20 25 3()35相关系数为人(4)A.Z 2 r i 0 Z 3 r iB.r i Z 2 0 r i 2 3C.2 i r 2 0 z r iD.r 2 n 0 r i 0,乃 0,图与图是负相关,故 0,r,0,且图与图(2)的样本点集中在一条直线附近,因此及 水 0 水力,故选A.3.在一组样本数据(小,必),(如 ,(X,%)(后 2,xi,x-i,从不全相等)的散点图中,若所有样本点(为,匕)(/=1,2,,力都在直线y=-g x+l 上,则这组样
37、本数据的样本相关系数为()A.-1 B.0答 案 A4.已知变量x和 y满足关系y=-0.l x+1,变量y与 z 正相关.下列结论中正确的是()A.x 与 y正相关,x与 z 负相关B.x 与 y正相关,*与 z 正相关C.x 与 y负相关,x 与 z负相关D.x 与 y负相关,不与z 正相关答 案 C解析 因为y=-0.l x+1,-0.1 0),所以 z=-0.16 x+6+a,0.1/K0,所以 x与 z 负相关.故选 C.思维升华判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当 r 0
38、 时,两个变量正相关;当 K 0时,两个变量负相关.(3)线性回归方程:当6 0时,两个变量正相关;当从0时,两个变量负相关.题型二回归分析命题点1线性回归分析例 1 随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:。C)有关,于是科研人员在3月份的3 1天中随机挑选了 5天进行研窕,现收集了该种药用昆虫的5 组观测数据如下表:日期2日7日1 5 日2 2 日3 0 日温度x/101113128产卵数0个2 32 53 02 616科研人员确定的研究方案是:先从这5组
39、数据中任选2 组,用剩下的3 组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(D若选取的是3月 2日与3 0 日这2组的数据,请根据3月 7日、1 5 日和2 2 日这3 组的数据,求出y关于x的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?解(1)由已知数据得了=1 2,7=2 7,3 _ _ 3 _Z(必一x)(7;y)=5,Z(M 才)2=2,/=1/=13 _ _Z Xi-x yt-y 7=1 5 一 5 一 5所以6=5,a=y-5 x=2 7 -$X
40、1 2 =3.3 乙 乙 乙Z X L X 27=1所以y关于x的 线 性 回 归 方 程 为 3.5(2)由(1)知,y关于x的 线 性 回 归 方 程 为 3.5当 x=1 0 时,y=-X 1 0-3=2 2,|2 2 2 3|2,5当 x=8 时,y=-X 8-3 =1 7,1 7-1 6|6.635.ziu x yu x i JO x loo yy又尸(*2 6.635)=0.01.所以有99%的把握认为“该校学生的每周平均体育运动时间是否 优秀与年级有关”.思维升华独立性检验的一般步骤(1)根据样本数据制成2 X 2列联表.(2)根据公式犬=-匚 厂 计 算*的 观 测 值k.a+
41、b a-r c b-d c-v d(3)比较4与临界值的大小关系,作统计推断.跟踪训练2某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等0,200(200,400(400,6001(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称 这 天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好
42、”.根据所给数据,完成下面的2 X 2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次400人次400空气质量好空气质量不好附:n a d-be 2c+d a+c b+d户(*2左)0.0500.0100.001Ab3.8 4 16.6 3 510.8 2 8解(1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+2 5=0.43;空气质量等级为2的概率为5+1 0+1 2100=0.2 7;空气质量等级为3的 概 率 为 本=0.2 1;7 +2 +0空气质量等级为4的概率为二 八 二 =0.09.由 频 数 分 布 表 可 知,
43、一 天 中 到 该 公 园 锻 炼 的 平 均 人 次 的 估 计 值 为100X 2 0+3 00X 3 5 +50 0 X45(3)2X2列联表如下:人次W 4 00人次4 00空气质量好3 33 7空气质量不好2 281 100X 3 3 X 8 3 7 X 2 2*=5 5 X 4 5 X 7 0 X 3 02-5.8 2 0 3.8 4 1,所以有9 5%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.课时精练“基础保分练1.甲、乙、丙、丁四位同学各自对4占两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和例 如下表:甲乙丙丁r0.8 20.780
44、.6 90.8 5in1 0 61 1 51 2 41 0 3则哪位同学的试验结果体现4 6两个变量有更强的线性相关性?()A.甲B.乙C.丙D.T答 案D解 析r越大,/越 小,线性相关性越强,故选D.2 .根据如下样本数据:X345678y4.02.50.50.50.40.1得到线性回归方程为尸原+a,则()A.a 0,b 0 B.a 0,仅0C.a 0 D.水0,伙0答 案 B解析 根据给出的数据可发现:整体上y与 x呈现负相关,所以乐0,由样本点(3,4.0)及(4,2.5)可知a 0.3 .某公司由于改进了经营模式,经济效益与日俱增.统计了 2 0 1 8 年 1 0 月到2 0 1
45、 9 年 4 月的纯收益y(单位:万元)的数据,如下表:月份十+-十二一二三四月份代号t3456789纯收益y6 66 9738 18 99 09 1得 到 y关 于t的线性回归方程为y=4.75 t+5 1.3 6.请预测该公司2 0 1 9 年 6月的纯收益为()A.9 4.1 1 万元 B.9 8.8 6 万元 C.1 0 3.6 1 万元 D.1 0 8.3 6 万元答 案 C解 析 将 2 0 1 9 年 6 月代号匕=1 1 带入题中的线性回归方程,得 尸 4.75 X 1 1+5 1.3 6=1 0 3.6 1.4.以下五个命题:在匀速传递的产品生产流水线上,质检员每2 0 分钟
46、从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;两个随机变量相关性越强,则相关系数的绝对值越接近于1;回归直线y=bx+a 必过点(x ,y);在线性回归方程尸0.2 x+1 2 中,当解释变量x每 增 加 1个单位时,预报变量平均增加0.2个单位;分类变量X与 K 对它们的随机变量片的观测值左来说,么越小,“X与?有关系”的把握程度越大.其中假命题为()A.B.C.D.答 案 B解析 为系统抽样;分类变量才与匕对它们的随机变量的观测值4 来说,“越大,“彳与Y有关系”的把握程度越大.5.(多选)已知变量x,y 之间的线性回归方程为y=-0.7x+10.3,且变量x,y 之间的一组相关
47、数据如下表所示,则下列说法正确的是()X681012y6m32A.变量x,y 之间成负相关关系 B.可以预测,当 x=20时,y=-3.7C.m=D.该回归直线必过点(9,4)答 案 A B D解析 由-0.7 0.7 5,则线性相关程度很高);(2)求y关于x的回归方程,并预测液体肥料每亩使用量为1 2千克时,西红柿亩产量的增加量约为多少?附:相关系数公式解.=2 +4 +?+6 +8=5,3+4+5+6+7y =5.(X L x)(y,-y )=(-3)X (-2)+(-1)X (-1)+0 X 0+1 X 1 4-3 X 2 =1 4,/=1(为一7)2=(-3)2+(-1)2+02+1
48、2+32=2 0,;=15 _Z (匕一7)2=(2/+(-l)2+02+l2+22=10./=1z Xi X yi y,、R 14(2)b=20=-7,L X L Xi=la y b x 50.7X5=1.5.y 0.7x+L 5.当 x=12 时,y=0.7X 12+1.5=9.9.,预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9 百千克.1 2.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过 1 000元的消费者中男女比例为1 :4,该店按此比例抽取了 100名消费者进行进一步分析,得到下表:女性消费情况:消费金额/元(0,200)200,
49、400)400,600)600,800)800,1 000人数51015473男性消费情况:消费金额/元(0,200)200,400)400,600)600,800)800,1000人数231032若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据列表中统计数据填写如下2X 2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是 否 为 网购达人 与性别有关”.女性男性总计“网购达人”“非网购达人”总计附-A2=-2 迎be-其 中 片 a+b+
50、c+d吐 a+b c+d a+c b+d 夬中 a 十。十 c+a0.1 00.0 50.0 2 50.0 1 00.0 0 5ko2.7 0 63.8 4 15.0 2 46.6 3 57.8 7 9解 女性消费者消费的平均数为白义(1 0 0 X 5+3 0 0 X 1 0 +5 0 0 X 1 5 +7 0 0 X 4 7 +9 0 0 X 3)O V=5 8 2.5.男性消费者消费的平均数为5X(1 0 0 X 2 +3 0 0 X 3 +5 0 0 X 1 0 +7 0 0 X 3+9 0 0 X 2)=5 0 0.“女网购达人”消 费 的 平 均 数 为(7 0 0 X 4 7 4