《统计与概率——2023届高考数学一轮复习学案.docx》由会员分享,可在线阅读,更多相关《统计与概率——2023届高考数学一轮复习学案.docx(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高考数学一轮复习统计与概率统计与概率【知识点讲解】一、随机抽样1.样本、样本量我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本容量,简称样本量。调查样本获得的变量值称为样本的观测数据,简称样本数据。例1下列调查中,调查方式选择合理的是()A了解某市高一年级学生的身高情况,选择普查B了解长征运载火箭的设备零件质量情况,选择抽样调查C了解一批待售袋装牛奶的细菌数是否达标,选择普查D了解病人血液中血脂的含量,选择抽样调查【答案】D【详解】AC的总量太大,不适合普查,AC不正确;火箭的设备零件质量情况应该选择普查,B不正确;病人血液中血脂的含量应选择抽样调查,D正确.2.简单随机抽样
2、(1)定义一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1nN)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(2)常用方法:抽签法、随机数法。例2对50件样品进行编号01,02,50,在如下随机数表中,指定从2行第3组第一个数开始,从左往右抽取两个数字,抽取5个编号,则抽到的第3个编号是()4862850089381556988
3、22776173903536660891248395326163490563640006207961329901923643865964526A48B24C26D49【答案】C【详解】按随机数表法,从随机数表从2行第3组第一个数开始,从左往右抽取两个数字,则编号依次为48,39,26,16,34,则抽到的第3个编号是26,故选:C3.分层随机抽样(1)定义一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。在分层随机抽样中,如果每
4、层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配。(2)总体平均数比例分配的分层随机抽样中,总体平均数W=MM+Nx+NM+Ny=mm+nx+nm+ny=w 。例3某区域大型城市中型城市小型城市的数量之比为,为了解该区域城市的空气质量情况,现用比例分配的分层抽样方法抽取一个容量为的样本.在样本中,中型城市比大型城市多4个,比小型城市多8个,则()A24B28C32D36【答案】A【详解】根据分成抽样等比例关系可设抽取的大中小型城市的数量分别为,则,解得,所以.二、常用统计图表1.频率分布直方图(1)画法第一步:求极差,决定组数和组距,组距=极差组数 ;第二步:分组,通常对组内数
5、值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表。(2)特点纵轴表示,即小长方形的高;小长方形的面积组距频率;各小长方形的面积的总和等于1例4某品牌家电公司从其全部200名销售员工中随机抽出50名调查销售情况,销售额都在区间(单位:百万元)内,将其分成5组:,并整理得到如下的频率分布直方图,下列说法正确的是()A频率分布直方图中a的值为0.07B估计全部销售员工销售额的众数与中位数均为15C估计全部销售员工中销售额在17百万元以上的有12人D估计全部销售员工销售额的第20百分位数约为10.5【答案】D【详解】由频率分布直方图可知,解得,所以A错误,由频率分
6、布直方图可知众数为15,因为前2组的频率和为,前3组的频率和为,所以中位数在第3组,设中位数为,则,解得,所以B错误,由频率分布直方图可知销售额在17百万元以上的频率为,所以全部销售员工中销售额在17百万元以上的约有人,所以C错误,因为第1组的频率为,前2组的频率和为,所以第20百分位数在第2组,设第20百分位数为,则,解得,所以全部销售员工销售额的第20百分位数约为10.5,所以D正确,2条形图建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样
7、一种表达和分析数据的统计图称为条形图;3.折线图建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图;例5如图是民航部门统计的2021年春运期间12个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是()A深圳的变化幅度最小,北京的平均价格最高B天津和重庆的春运期间往返机票价格同去年相比有所上升C平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门D平均价格从高到低居于前三
8、位的城市为北京、深圳、广州【答案】C【详解】从折线图看,深圳的涨幅最接近,从条形图看,北京的平均价格最高,故A正确;从折线图看,天津和重庆的的涨幅均为正值,故B正确;从折线图看,平均价格的涨幅从高到低居于前三位的城市为天津、西安、南京,故C错误;从条形图看,平均价格从高到低居于前三位的城市为北京、深圳、广州,故D正确.4.扇形图用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图例6南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔(Florence Nightingale 1820-1910)
9、设计的,图中每个扇形圆心角都是相等的,半径长短表示数量大小某机构统计了近几年中国知识付费用户数量(单位:亿人次),并绘制成南丁格尔玫瑰图如下,根据此图,下列说法错误的是()A2015年至2022年,知识付费用户数量逐年增加B2016年至2022年,知识付费用户数量逐年增加量2018年最多C2022年知识付费用户数量超过2015年知识付费用户数量的10倍D2016年至2022年,知识付费用户数量的逐年增加量逐年递增【答案】D【详解】对于A,由图可知,2015年至2022年,知识付费用户数量逐年增加,故A正确;对于BD,知识付费用户数量的逐年增加量分别为:2016年,;2017年,;2018年,;
10、2019年,;2020年,; 2021年,;2022年,可知知识付费用户数量逐年增加量2018年最多,故B正确,D错误;对于C,由,即2022年知识付费用户数量超过2015年知识付费用户数量的10倍,故C正确;三、用样本的数字特征估计总体1.百分位数(1)一般地,一组数据的第p 百分位数是这样一个值,它使得这组数据中至少有p% 的数据小于或等于这个值,且至少有100p% 的数据大于或等于这个值。例7某校从参加高一年级期中考试的学生中随机抽取10名学生,统计他们的数学成绩如下:(满分:100分)学生ABCDEFGHIJ成绩(分)82816578687596908872由此可知,这10名学生期中考
11、试数学成绩的分位数是()分.A81B82C85D88【答案】D【详解】10名学生期中考试数学成绩由小到大排列为,因为,故这10名学生期中考试数学成绩的分位数为88,(2)四分位数常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数。这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数。其中第25百分位数也称为第一四分位数或下四分位数,第75百分位数也称为第三四分位数或上四分位数。例8按从小到大顺序排列的9个数据:10,16,25,33,39,43,m,65,70,若这组数据的第一四分位数与第三四分位数的和是73,则m等于()A40B48C50D57【答案】B【
12、详解】对于已知个数据:,第一四分位数为,第三四分位数为,解得.2.总体集中趋势的估计(1)中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数(2)众数:一组数据中出现次数最多的数据叫做这组数据的众数(3)平均数:一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,xn的平均数 (x1x2xn)4.总体离散程度的估计(1)假设一组数据是x1 ,x2 , ,xn ,用x 表示这组数据的平均数,则我们称1ni=1nxix2 为这组数据的方差。有时为了计算方差的方便,我们还把方差写成1ni=1nxi2x2 的形式。我们对方差开平方,取它
13、的算术平方根1ni=1nxix2 ,称为这组数据的标准差。(2)方差和标准差反映了数据波动程度的大小。方差:s2=1nx1x2+x2x2+xnx2 。标准差:s=1nx1x2+x2x2+xnx2 。补充:若数据x1,x2,xn的平均数为,则mx1a,mx2a,mx3a,mxna的平均数是ma;若数据x1,x2,xn的方差为s2,则数据ax1b,ax2b,axnb的方差为a2s2四、变量的相关关系及回归模型1.变量的相关关系(1)定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系。(2)散点图每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由
14、这些点组成了统计图。我们把这样的统计图叫做散点图。(3)正相关、负相关、线性相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关。一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关。一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关。2.样本相关系数(1)定义:r= i=1nxixyiyi=1nxix2i=1nyiy2 ,我们称r 为变量x 和变量y 的样本相关系数。当r0 时
15、,称成对样本数据正相关。这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。当r0 ,我们称PB|A= PABPA 为在事件A 发生的条件下,事件B 发生的条件概率,简称条件概率。(2)条件概率公式PB|A= nABnA 。PB|A= PABPA ,PAB 表示事件A 与B 积事件的概率。(3)条件概率的性质0PB|A1 ,P|A= 1 。如果B 和C 是两个互斥事件,则PBC|A= PB|A+PC|A 。设B 和B 互为对立事件,则PB|A= 1PB|A 。概率的乘法公式:对任意两个事件A 与B ,若PA0 ,则PAB= PAPB|A
16、 例14一个箱子中有大小形状完全相同的3个黑球和5个白球,从中取出2个球,下列几个命题中正确的是()A若是不放回地抽取,则取出2个黑球和取出2个白球是对立事件B若是不放回地抽取,则第2次取出黑球的概率小于第1次取出黑球的概率C若是有放回地抽取,则取出1个黑球1个白球的概率为D若是有放回地抽取,则在至少取出1个白球的条件下,第2次取出白球的概率是【答案】CD【详解】对于A,不放回地抽取两个球,包括两个都是黑球、两个都是白球和一个黑球一个白球,共3种情况,所以取出两个黑球和取出两个白球不是对立事件,所以A错误;对于B,不放回地抽取,第2次取到黑球的概率为,第1次取得黑球的概率为,所以第2次取到黑球
17、的概率等于第1次取到黑球的概率,所以B错误;对于C,有放回地抽取,取出1个黑球1个白球包括第1次为黑球第2次为白球、第1次为白球第2次为黑球,所以所求概率为,所以C正确,对于D,有放回地抽取,至少取出一个白球的条件下,第2次取出白球包括第1次黑球第2次白球、第1次白球第2次白球,所以所求概率为,4.全概率公式一般地,设A1 ,A2 , ,An 是一组两两互斥的事件,A1A2An= ,且PAi0 ,i=1 ,2 , ,n ,则对任意的事件B ,有PB=i=1nPAiPB|Ai 。我们称其为全概率公式。八、离散型随机变量及其分布列1.随机变量(1)定义式:一般地,对于随机试验样本空间 中的每个样本
18、点 ,都有唯一的实数X 与之对应,我们称X 为随机变量。(2)性质:取值依赖于样本点;所有可能取值是明确的。(3)离散型随机变量变量可能取值为有限个或可以一一列举的随机变量,我们称为离散型随机变量。通常用大写英文字母表示随机变量,例如X ,Y ,Z ;用小写英文字母表示随机变量的取值,例如x ,y ,z 。2.离散型随机变量的分布列(1)一般地,设离散型随机变量X 的可能取值为x1 ,x2 , ,xn ,我们称X 取每一个值xi 的概率PX=xi= pi ,i=1 ,2 , ,n 为X 的概率分布列,简称分布列。(2)表示方法:公式法;列表法;图形法。3.离散型随机变量的均值(1)随机变量的数
19、字特征类似于研究一组数据的均值和方差,我们也可以研究离散型随机变量的均值和方差,它们统称为随机变量的数字特征。(2)随机变量的均值(期望)称EX=x1p1+x2p2+xnpn= i=1nxipi 为随机变量X 的均值或数学期望,数学期望简称期望。一般地,如果随机变量X 服从两点分布(01 分布),那么EX= p 。(3)均值的性质设X 的分布列为PX=xi=pi ,i=1 ,2 , ,n 。EX+b= EX+b 。 EaX= aEX 。EaX+b= aEX+b 。4.离散型随机变量的方差(1)方差、标准差DX=x1EX2p1+x2EX2p2+xnEX2pn =i=1nxiEX2pi 为随机变量
20、X 的方差,有时也记为VarX ,并称DX 为随机变量X 的标准差,记为X 。公式:DX= i=1nxi2piEX2 。(2)方差的性质:DaX+b= a2DX 。例15已知两组数据,第一组,和第二组,其中,第一组数据不全相同,则这两组数据相比,下列说法正确的是()A平均数一定相等 B中位数一定相等C极差一定相等 D第一组数据的方差大于第二组数据的方差【答案】ACD【详解】对于A,因为,所以,所以,所以,所以,所以A正确,对于B,因为第一组数的中位数为,第二组数的中位数为,但不一定等于,所以两组数的中位数不一定相等,所以B错误,对于C,由选项A的计算可知,所以第一组数据的最大值和最小值与第二组
21、数据的最大值和最小值分别相等,所以两组数据有极差相等,所以C正确,对于D,第一组数据的方差为,第二组数据的方差为,所以,即第一组数据的方差大于第二组数据的方差,所以D正确九、二项分布、超几何分布与正态分布1.二项分布(1)n 重伯努利试验我们把只包含两个可能结果的试验叫做伯努利试验。我们将一个伯努利试验独立地重复进行n 次所组成的随机试验称为n 重伯努利试验。显然,n 重伯努利试验具有如下共同特征:同一个伯努利试验重复做n 次;各次试验的结果相互独立。(2)二项分布一般地,在n 重伯努利试验中,设每次试验中事件A 发生的概率为p0p0 为参数,则称随机变量X 服从正态分布,记为XN,2 。特别
22、地,当=0 ,=1 时,称随机变量X 服从标准正态分布。(2)正态曲线的特点曲线是单峰的,它关于直线x= 对称。曲线在x= 处达到峰值12 。当x 无限增大时,曲线无限接近x 轴。(3)3 原则PX+0.6827 ;P2X+20.9545 ;P3X+30.9973 。(4)正态分布的均值与方差若XN,2 ,则EX= ,DX= 2 。例16随机变量服从正态分布,则标准差为()A2B4C10D14【答案】A【详解】因为服从正态分布可知:方差为4,故标准差为2,【对点训练】一、单选题1中国古典乐器一般按“八音”分类,这是我国最早按乐器的制造材料来对乐器进行分类的方法,最早见于周礼春官大师.八音分为“
23、金、石、七、革、丝、木、匏、竹”,其中“金、石、木、革”为打击乐器,“土、匏、竹”为吹奏乐器,“丝”为弹拨乐器.现从“金、石、土、革、丝”中任取“两音”,则“两音”中含“丝”的概率为()ABCD2已知,从以上四个函数中任意取两个函数相乘得到新函数,那么所得新函数为偶函数的概率为()ABCD3孪生素数猜想是希尔伯特在1900年国际数学家大会的报告上第8个问题中提出的,其可以描述为:存在无穷多个素数p使得是素数,素数p、称为孪生素数2013年5月,华人数学家张益唐证明了这一猜想的一个弱化形式,在孪生素数猜想的证明道路上前进了一大步若从20以内的素数中任取两个,则其中能构成孪生素数的概率为()ABC
24、D4某兴趣小组有男生20人,女生10人,从中抽取一个容量为5的样本,恰好抽到2名男生和3名女生,则该抽样可能是系统抽样;该抽样可能是随机抽样:该抽样一定不是分层抽样;本次抽样中每个人被抽到的概率都是其中说法正确的为ABCD5某种产品的广告费支出与销售额(单位:万元)之间有如表关系,与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为245683040605070A10B20C30D406某市期末教学质量检测,甲、乙、丙三科考试成绩近似服从正态分布,则由如图曲线可得下列说法中正确的是()A甲学科总体的均值最小B乙学科总体的方差及均值都居中C丙学科总体的方差最大D甲、乙、丙的总体的均值
25、不相同7甲、乙两人玩说“数字游戏”如果甲说的数字记为,乙说的数字记为,且,若,差的绝对值不超过1,则称甲、乙“心有灵犀”那么甲、乙“心有灵犀”的概率是()ABCD8从集合中随机选取一个元素,中随机选取一个元素,则事件“”的概率是()ABCD9现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵不严重的城市和交通拥堵严重的城市分别随机调查了20名市民,得到如下列联表:总计认可13518不认可71522总计202040附:.0.10.050.0100.0052.7063.8416.6357.879根据表中的数据,下列说法中正确的是()A没有
26、95%以上的把握认为“是否认可与城市的拥堵情况有关”B有99%以上的把握认为“是否认可与城市的拥堵情况有关”C可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”D可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”10甲袋里有5只白球,7只红球,乙袋里有4只白球,2只红球,从两个袋中任取一袋,然后从所取到的袋中任取一球,则取到的球是白球的概率为()ABCD11某轮船公司的质检部要对一批轮胎的宽度(单位:)进行质检,若从这批轮胎中随机选取个,至少有个轮胎的宽度在内,则称这批轮胎基本合格已知这批轮胎的宽度分别为、,则这批轮胎基本合格的概率为()AB
27、CD12设离散型随机变量的概率分布列如下,则下列各式中成立的是-10123P0.100.100.200.40ABCD13甲乙两艘轮船都要在某个泊位停靠6小时,假定他们在一昼夜的时间段中随机地到达,试求这两艘船中至少有一艘在停泊位时必须等待的概率ABCD14某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;从平均值分析,男生每天锻炼的时间比女生多;男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是()ABCD二、多选题15下列说法中正确的有()A将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;B设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;C设具有相