《9.2 用样本估计总体 -(人教A版2019选择性必修第二、三册)(教师版).docx》由会员分享,可在线阅读,更多相关《9.2 用样本估计总体 -(人教A版2019选择性必修第二、三册)(教师版).docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、用样本估计总体知识剖析1总体取值规律的估计频率直方图(1)画频率直方图的步骤求极差-决定组距与组数-将数据分组-列频率分布表-画频率分布直方图.(2)小长方形的面积=频率 (3)在直方图中,各小长方形的面积之和等于1.2总体百分位数的估计第p百分位数的概念 一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且 至少有(100 - p)%的数据大于或等于这个值.计算一组九个数据的第p百分位数 第一步:按从小到大排列原始数据;第二步:计算i = nxp%;第三步:若i不是整数,而大于i的比邻整数为则第P百分位数为第7项数据;若i是整数,则第p百分位数为
2、第i项与第。+ 1)项数据的平均数.四分位数的概念 四分位数:包含第25百分位数,第50百分位数,第75百分位数.中位数相当于第50百分位数,第25百分位数也称为第一四分位数或下四分位数,第75百分位数也称为第三 四分位数或上四分位数.3总体集中趋势的估计般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的,那么平均数和中位数应该大体 上差不多;如果直方图在右边“拖尾”,那么平均数大于中位数;如果直方图在左边“拖尾”,那么平均数小于 中位数.,中位数要平分直方图的面积,. 0.4 + 0.03(% - 70) = 0.5 解得k73.即中位数为73. 频率最大的是70,80组,则众
3、数是75; 利用组中值估算抽样学生的平均分为:45Tl + 55/2 + 65/3 + 75f4 + 85% + 95人45 x 0.1 + 55 x 0.15 + 65 x 0.15 + 75 x 0.3 + 85 x 0.25 + 95 x 0.05 = 71估计这次考试的平均分是71(分).方 差 S2 = (45 - 71)2 x 0.1 +(55 71)2 x 0.15 + (65 - 71)2 x 0.15 + (75 - 71)2 x 0.3 +(85 71)2 x 0.25 + (95 - 71)2 x 0.05 = 194.【点拨】 利用频率之和为1,得到所有矩形面积之和为1
4、;在频率直方图中 众数=最高那组的组中值;平均数=每组的组中值x每组的面积之和;方差=(每组的组中值-平均数X每组的概率之和;中位数:设中位数为小,则直线X能够把所有矩形的面积平分,即在直线 =血左边的矩形面积为05巩固练习1. ()为了 了解某种进口茶叶的质量(单位:克),从中抽取若干包进行检查,获得样本的频率分布直方图如 图所示.若已知样本中质量在1555160.5)内的茶叶有10包,则样本容量为()C. 70C. 70D. 50【答案】D【解析】,样本中质量在1555160.5)内的茶叶有10包,由频率分布直方图得质量在1555160.5)内的频率为0.04 x 5 = 0.2,.样本容
5、量几=竺=50.故选:D.0.22. ()某市高三数学抽样考试中,对90分以上(含90分)的成绩进行统计,其频率分布图如图所示,若 130140分数段的人数为90人,则90100分数段的人数为()【答案】C【解析】根据频率分布直方图,得,130140分数段的人数为90人,对应的频率是0.05,.样本容量是a=1800;.90100分数段的人数1800 X 0.40 = 720.故选:C.3.(*)某市要对辖区内的中学教师的年龄进行调查,现从中随机抽出200名教师,已知抽到的教师年龄都 在25, 50)岁之间,根据调查结果得出教师的年龄情况残缺的频率分布直方图如图所示,利用这个残缺的频 率分布直
6、方图估计该市辖区内中学教师的年龄的中位数大约是()嫉一0307060504030201。1 1 1 OOOOOOOO赢勿25 30 35 40 45 50 年机岁)A. 37.1 岁 B. 38.1 岁 C. 38.7 岁 D. 43.1 岁【答案】B【解析】根据频率和等于1,得;年龄在30,35)岁之间的频率为1 - (0.01 + 0.08 + 0.05 + 0.02) x 5 = 0.2 , 0.01 x 5 + 0.2 = 0.25 0.5, 令0.25 + 0.08xx = 0.5,解得x = 3.125; .该市辖区内中学教师的年龄的中位数大约35 + 3.125 x 38.1岁.
7、故选:B.4.()(多选)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调A.估计该地农户家庭年收入不低于8.5万元的农户比例为30%B.估计该地农户家庭年收入的第三四分位数为9万元C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地农户家庭年收入的中位数为8万元【答案】AB【解析】对于4 该地农户家庭年收入不低于8.5万元的农户比例为(0.1 X 2 + 0.04 + 0.02 x 3) x 1 = 0.3 = 30%,故人正确;对于从该地农户家庭年收入的第三四分位数为血万元,则0.02 + 0.04 + 0.1 + 0.14 + 0.20 X 2 +
8、 0,10 x (m - 8.5) = 0.75, 解得租=9.0,故8正确;对于C,该地农户家庭所收入的平均值为:3 x 0.02 + 4 x 0.04 + 5 x 0.10 + 6 x 0.14 + 7 x 0.2 + 8 x 0.2 4- 9 x 0.1 + 10 x 0.1 + 11 x 0.04 + 12 x 0.02 + 13 x 0.02 + 14 x 0.02 = 7.68,故C错误;对于D 设该地农户家庭年收入的中位数为万元,则0.02 + 0.04 + 0.10 + 0.14 + 0.2 = 0.5,即 = 7.5,则中位数为7.5,故。错误.故选:AB.5.J*)(多选)
9、习近平总书记强调,要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习 和体育锻炼协调发展.某学校对高一和高二年级每周在校体育锻炼时长进行了统计,得到数据(单位: 小时)如表:高一年级在校体育锻炼时长高二年级在校体育锻炼时长A.高一年级时长的众数比高二年级的大B.高一年级时长的平均数比高二年级的小C.高一年级时长的中位数比高二年级的大D.高一年级时长的方差比高二年级的大【答案】BD【解析】对于高一年级,由表可进行下列计算:时长众数为3.5,时长平均数为2.5 x 0.25 + 3.5 x 0.3 + 4.5 x 0.2 + 5.5 x 0.25 = 3.95,时长中位数为3+竺士”=
10、* 0.36222时长方差为(2.5 -3.95)x 0.25+(3.5 -3.95)x 0.30 +(4.5 -3.95)x 0.20/、2+(5.5 -3.95)x 0.25 = 1.2475;对于高二年级,由频率分布直方图可进行下列计算:时长众数为4.5,时长平均数为2.5 x 0.15 + 3.5 x 0.25 + 4.5 x 0.35 + 5.5 x 0.25 = 4.2,时长中位数为4 +哼萨二*222时长方差为(2.5 -4,2)x 0.15 +(3.5 -4.2)x 0.25 +(4.5 -4.2)x 0.35/、2+(5.5 -4.2)x 0.25 = 0.5693.1 Q
11、O O 由上可知:3.5V4,5, 3.95 4,2, - 0.5693, 67故选:BD.$()为对考生的月考成绩进行分析,某地区随机抽查了 10000名考生的成绩,根据所得数据画了如下的 样本频率分布直方图.求成绩在600, 650)的频率;根据频率分布直方图算出样本数据的中位数;为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在550, 600)的这段应抽多少人?:基率/的距0.0050.0040.0030.002成绩(分效)成绩(分效)0.001400 450 500 550 600 6S0 700【答案】0.15 (2)
12、 540(3) 5【解析】根据频率分布直方图,得;成绩在600,650)的频率为0.003 X (650 -600) = 0.15;.(2)因为0.002 X(450 -400)= 0.1, 0.004 X(500 -450)= 0.2, 0.005 X(550 - 500)= 0.25,且0.1 + 0.2 + 0.25 = 0.55 0.5,所以,样本数据的中位数为500 +空黑产 =500 + 40 = 540(分);U U U。(3)成绩在550,600)的频率为0.005 x (600 -550) = 0.25,所以10000名考生中成绩在550, 600)的人数为0.25 x 10
13、000 = 2500(人),再从10000人用分层抽样方法抽出20人,则成绩在550, 600)的这段应抽取20 x就舒=5人.7. ()某学校1800名学生在一次百米测试中,成绩全部介于13秒与18秒之间,抽取其中50个样本, 将测试结果按如下方式分成五组:第一组13, 14,第二组14, 15),第五组17, 18,如图是按上述分组方 法得到的频率分布直方图.若成绩小于15秒认为良好,求该样本在这次百米测试中成绩良好的人数;请估计学校1800名学生中,成绩属于第四组的人数;请根据频率分布直方图,求样本数据的众数、中位数、平均数和方差.【解析】(1)样本在这次百米测试中成绩良好的人数是:1
14、x 0.06 x 50 + 1 x 0.16 x 50 = 3 + 9 = 11(人);(2)学校1800名学生中,成绩属于第四组的人数1 x 0.32 x 1800 = 576(A);(3)由图可知众数落在第三组15,16),是竺15.5,因为数据落在第一、二组的频率=1 x 0.06 + 1 x 0.16 = 0.22 0,5,所以中位数一定落在第三组15,16)中,假设中位数是,所以 1 x 0.06 + 1 x 0.16 + (% - 15) x 0.38 = 0.5,解得中位数 = 15.7368 x 15.74.19一般地,对数值型数据(如用水量,身高,收入,产量等)集中趋势的描述
15、,可以用平均数、中位数;而对分 类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.4总体离散程度的估计 方差,标准差的概念假设一组数据是与/2Xn,用元表示这组数据的平均数,我们称nS2 = - VCXj - X)2九乙1=1这组数据的方差,为了计算方便也可以用3?忆1必-32标准差是S = 飙=式/一元)2方差,标准差的意义方差越大,表明数据波动越大,越不稳定;方差越小,表明数据波动越小,越稳定.经典例题【题型一】常见统计数据【典题1】 某地一年之内12个月的月降水量从小到大分别为:46, 51, 48, 53, 56, 53, 56, 64, 58,56, 66, 7
16、1,则该地区的月降水量20%分位数和75%分位数为()A. 51, 58B. 51, 61C. 52, 58D. 52, 61【解析】该组数据从小到大排列为:46, 48, 51, 53, 53, 56, 56, 56, 58, 64, 66, 71因为20% x 12 = 2.4,计算结果不是整数,所以20%分位数为第3项数据,即51;因为75% x 12 = 9,计算结果是整数,所以75%分位数为第9项和第10项数据的平均数,即二丝=61.【点拨】计算一组几个数据的第P百分位数的步骤:(1)按从小到大排列原始数据;(2)计算i = n x p%;若i不是整数,而大于i的比邻整数为j,则第P
17、百分位数为第/项数据;若i是整数,则第p百分位数为第i项与第(i + 1)项数据的平均数.【典题2】甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:下列说法错误的是()环数甲A.从平均数和方差相结合看,甲波动比较大,乙相对比较稳定B.从折线统计图上两人射击命中环数走势看,甲更有潜力C.从平均数和命中9环及9环以上的次数相结合看,甲成绩较好D.从平均数和中位数相结合看,乙成绩较好【解析】由图可知,甲打靶的成绩为2, 4, 6, 8, 7, 7, 8, 9, 9, 10,所以甲的平均数为而=7,甲方差 S* 二卷(2 - 7)2 + (4- 7)2 + (6 7尸 + 2 X (7
18、 7)2 + 2 x (8 7)2 + 2 X (9 7)2 + (10 一7)2 = 54;乙打靶的成绩分别为9, 5, 7, 8, 7, 6, 8, 6, 7, 7,乙的平均数为万=7,乙方差=-(9- 7)2 + (5 7)2 + 4 x (7 7)2 + 2 x (8 7)2 + 2 x (6 7)2 = 1.2; 乙 10所以从平均数和方差相结合看,甲波动比较大,乙波动比较小,故A正确,(不求方差,看图也可知道甲的波动比乙的要打些)从折线统计图看,在后半部分,甲呈上升趋势,而乙呈下降趋势,甲更有潜力,故B正确,甲打靶的成绩为2, 4, 6, 7, 7, 8, 8, 9, 9, 10,
19、中位数为75乙打靶的成绩为5, 6, 6, 7, 7, 7, 7, 8, 8, 9,中位数为7,甲9环以及9环以上的次数为3次,乙9环以及9环以上的次数为1次,而二人的平均数相同,故甲成绩更好点,故C正确,甲乙的平均数相同,而甲的中位数大于乙的中位数,故甲的成绩比较好,故。错误,故选:【典题3】已知%的平均数为10,标准差为2,则2%1-1,2%2-1,2%九-1的平均数和标准差分 别为.【解析】的平均数为10,标准差为2,2%1 - 1,2%2 1,2%九一1的平均数为:2义10 1 = 19,标准差为:V22 x 22 = 4.【点拨】若原有的数据,马平均数为租,方差为九,在原数据基础上进
20、行线性变化即=R则新 的平均数为GH + b,新的方差为(Gt)?.【典题4】为了解本市居民的生活成本,甲、乙、内三名同学利用假期分别对三个社区进行了“家庭每月日 常消费额”的调查.他们将调查所得到的数据分别绘制成频率分布直方图(如图所示),甲、乙、丙所调查数据的标准差分别为S1,S2, S3,则它们的大小关系为()甲乙丙BS1 s3 s2BS1 s3 s2c. s3 s2 SiD S3 Si s2【解析】根据三个频率分步直方图知, 甲数据的两端数字较多,绝大部分数字都处在两端数据偏离平均数远,最分散,其方差、标准差最大;丙数据是单峰的每一个小长方形的差别比较小,数字分布均匀,数据不如第一组偏
21、离平均数大,方差比第一组中数据中的方差、标准差小, 而乙数据绝大部分数字都在平均数左右,数据最集中,故其方差、标准差最小,总上可知S S3 S?,故选:B.【点拨】根据方差的意义就可以判断方差的大小.数据波动越大,方差越大;数据波动越小,方差越小.【典题5】在发生某公共卫生事件期间,有专业机构认为该事件在一段事时间内没有发生大规模群体感染的 标志是“连续10日,每天新增疑似病例不超过7人L过去10日,甲、乙、丙、丁四地新增疑似病例数据信 息如下:甲地:中位数为2,众数为3;乙地:总体平均数为2,总体方差为3;丙地:总体平均数为1,总体方差大于0;丁地:总体平均数为3,中位数为4.则甲、乙、丙、
22、丁四地中,一定没有发生大规模群体感染的是 地【解析】(要每天军不超过7人方能确定没发生大规模群体感染,即10个数不出现极端数值) 根据题意,依次分析选项: 对于甲地:中位数为2,众数为3,则从小排到大的数据形式是a,b,c,d22333e;有可能出现超过7人的情况,如数据0, 0, 1, 1, 2, 2, 3, 3, 3, 8,出现了每天新增疑似病例超过7人的情况,可能发生大规模群体感染; 对于丙地,若要满足题意,则总和是10,且不能10个数都是1,对于数据8, 1, 1, 0, 0, 0, 0, 0, 0, 0,总体平均数为1,总体方差大于0,而出现了每天新增疑似病例超过7人的情况,可能发生
23、大规模群体感染; 对于丁地,平均数与中位数不能限制极端值的出现,则有可能出现超过7人的情况,可能发生大规模群体感染,比如 0, 0, 0, 0, 4, 4, 4, 4, 4, 10;(甲丙丁都排除了,那如何证明乙地是一定没有发生大规模群体感染?用反证法)对于乙地,假设过去10天新增疑似病例数据存在一个数据,% 8,而总体平均数为2,则总体方差S2V(%-2)2之36 故不成立,故假设不成立,故符合没有发生大规模群体感染的标志,一定没有发生大规模群体感染; 故答案为:乙.【点拨】先明确众数、平均数、众数对极端数值的出现影响较小,了解满足各项的要求的数据形式,再通过举反例进行排除.(2)当证明含“
24、一定”“唯一” “至多”“至少”等字眼的命题或从正面较难求解的,可尝试间接证明方法-反证法.【典题6(多选)气象意义上从春季进入夏季的标志为“当且仅当连续5天每天日平均温度不低于22。.现 有甲、乙、丙三地连续5天日平均温度的记录数据(数据均为正整数,单位。C)且满足以下条件: 甲地:5个数据的中位数是24,众数是22;乙地:5个数据的中位数是27,平均数是24;丙地:5个数据有1个是30,平均数是24,方差是96根据以上数据,下列统计结论正确的是()A.甲地进入了夏季B.乙地进入了夏季C.不能确定丙地进入了夏季D.恰有2地确定进入了夏季【解析】甲地:5个数据由小到大排,则22, 22, 24
25、, a, b,其中24VaVb,满足进入夏季的标志;乙地:将5个数据由小到大排,则见仇27,c,d,其中W27 WcWd,则27 + c + d 之 81 而a + b + 27 + c + d = 120,故a + bW39,其中必有一个小于22,故不满足一定进入夏季的标志;丙地:设5个数据为a,30,且c,deZ,由方差公式可知:(a - 24)2 + (b - 24)2 +_ 24)2 + (d - 24)2 + (30 - 24)2 = 9,6 x 5 = 48,贝ij(a - 24)2 + (b 24/ +_ 24)2 + (d 24)2 = 12 = 9 + 1 + 1 + 1,不
26、妨设|a 24| = 3, b - 24| = c - 24| = d - 24| = 1,则均大于22,但a不确定是否大于22,故不能确定丙地进入夏天.故选:AC.巩固练习1()以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78, 70, 72, 86, 88, 79, 80, 81, 94, 84, 56, 98, 83, 90, 91.则这15人成绩的第80百分位数是.【答案】90.5【解析】该组数据从小到大排列为:56, 70, 72, 78, 79, 80, 81, 83, 84, 86, 88, 90, 91, 94, 98. 且 15 x 80% = 12,所以这15人成
27、绩的第80百分位数是其90 + 91) = 90.5.故答案为:90.5.2 .(巧已知甲、乙两组数据(已按从小到大的顺序排列):甲组:27、28、39、40、m. 50;乙组:24、九、34、43、48、52.若这两组数据的30百分位数、80百分位数分别相等,则诙等于 n【答案】蔡【解析】因为6 x 30% = 1.8, 6 x 80% = 4.8,所以乙组的30百分位数为九=28,甲组的80百分位数为租=48,.(十)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来 得到频率分布折线图(如图所示),据此估计此次考试成绩的众数是()A. 100 B.
28、110 C. 115 D. 120【答案】C【解析】根据频率分布折线图,得;折线的最高点对应的值是115, 据此估计此次考试成绩的众数是115.故选:C.3 . ()在某次测量中得到E的样本数据如下:80, 82, 82, 84, 84, 84, 84, 86, 86, 86, 86.若产的样本数据恰好是E的样本数据都减去2后得到的数据,则关于E,尸两样本数据特征的下列说法中,正确的是()A.瓦F样本数据的众数为84B.瓦F样本数据的方差相同C.瓦F样本数据的平均数相同D. E,尸样本数据的中位数相同【答案】B【解析】在某次测量中得到E的样本数据如下:80,82,82,84,84,84,84,
29、86,86,86,86.若尸的样本数据恰好是E的样本数据都减去2后得到的数据,.1样本数据的众数是84和86,产样本数据的众数是82和84,故人错误;民尸样本数据的方差相同,故B正确;E样本数据的平均数比F样本数据的平均数大2,故C错误;E样本数据的中位数比F样本数据的中位数大2,故D错误.故选:B.4 .(支巧下列命题中不正确的是()A. 一组数据1, 2, 3, 3, 4, 5的众数大于中位数B.数据 6, 5, 4, 3, 3, 3, 2, 2, 2, 1 的 85%分位数为 5C.若甲组数据的方差为5,乙组数据为5, 6, 9, 10, 5,则这两组数据中较稳定的是乙D.为调查学生每天
30、平均阅读时间,某中学从在校学生中,利用分层抽样的方法抽取初中生20人,高中生 10人.经调查,这20名初中生每天平均阅读时间为60分钟,这10名高中生每天平均阅读时间为90分钟, 那么被抽中的30名学生每天平均阅读时间为70分钟【答案】4【解析】选项A: 1, 2, 3, 3, 4, 5的众数为3,中位数为学=3,故相等,所以4错误,选项B: 6将数据从小到大排列为:1, 2, 2, 2, 3, 3, 3, 4, 5, 6,则它们的85%分位数为10 X 85% = 8.5, 即为5,故B正确,选项C:乙组数据的平均值为5+6+?1。+5 = 7,所以方差为京(5 - 7)2 + (6- 7)
31、2 + (9- 7)2 + (10 - 7)2 + (5 7)2 = 4.4 2,。4 +。55,矛盾,故8错误;若出现了 6,则其它四次和为4,即数据为1, 1, 1, 1, 6,方差为(1 - 2)2 + (1 - 2)2 + (1 - 2)2 + (1 - 2)2 + (6 - 2)2 = 4 g 1.2,2.4,矛盾,故 C 正确; 若出现3次2,则其它2次和为4,这两次为1, 4,方差为:(1 2尸 +(2-2/+ (2 2/ +(2-2尸 + (4- 2)2 = 0.41.224,矛盾,故。正确. 故选:ACD.【题型二】频率直方图的运用【典题1】某校从参加高一年级期末考试的学生中
32、抽出60名学生,将其成绩(均为整数)分成六段40,50)/50,60)/60,70)/70,80)/80,90)/90,100后,画出如图所示部分频率分布直方图.观察图形,回答下列问题:(1)求第四小组的频率,并补全这个频率分布直方图;(2)估计这次考试成绩的中位数(结果取整数值);(3)估计这次考试的众数、平均分、方差.【解析】(1)因为各组的频率和等于1,故第四组的频率:4 = 1 - (0.025 + 0.015 x 2 + 0.01 + 0.005) x 10 = 0.3,直方图如右所示.(2)成绩在40,70)的频率为(0.01 + 0.015 + 0.015) x 10 = 0.4,成绩在40,80)的频率为:0.4 + 0.03 x 10 = 0.7,中位数在70,80)内,设中位数为工,