《人教A版2020届高考数学一轮复习讲义:统计.docx》由会员分享,可在线阅读,更多相关《人教A版2020届高考数学一轮复习讲义:统计.docx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计知识讲解一、简单的随机抽样、分层抽样、系统抽样1.简单随机抽样定义:设一个总体有个个体,从中逐个不放回地抽取个个体作为样本(),如果,每次抽取时,总体内的各个个体被抽到的机会都相等,称这种抽样方法为简单随机抽样特点: 被抽样的个体是有限个 它是从总体中逐个地进行抽取 不放回地抽取 它每次抽取时,总体中各个个体有相同的可能性被抽到2.系统抽样定义:当总体元素个数很多时,可将总体分成均衡的若干部分,然后按照预先制定的规定,从每一部分抽取一个个体得到所需的样本,这种抽样方法叫做系统抽样3.分层抽样定义:当总体由有明显差别的几部分组成时,按某种特征将总体中的个体分成互补交叉的层,然后按照一定的比例
2、从各层独立的层中抽取一定数量的个体,将各抽取出来的个体和在一起作为样本,这种抽样的方法叫做分层抽样4.三种抽样方式的区别类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽取的可能性相同从总体中逐个抽取总体中的个体数较少系统抽样将总体均匀分成几部分,按事先确定的规则在各部分抽取在起始部分和剔除部分抽样时采用简单随机抽样总体中的个体数较多分层抽样将总体分成几层,分层进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成二、用样本估计总体1.众数:出现次数最多的数(若有两个或几个数据出现的最多,且出现的次数一样多,这些数据都是这组数据的众数;若一组数据中每一个数据出
3、现的次数一样多,则认为这组数据没有众数)在样本的频率直方图中,就是最高矩形中点的横坐标2.中位数:如果将一组数据重小到大的顺序依次排列,当数据有个奇数时,处在最中间的一个数是这组数据的中位数;当这组数据有偶数个时,处在最中间的两个数的平均数是这组数据的中位数频率直方图中,中位数左右两边的直方图面积相等3.平均数:一组数据的总和除以数据的个数所得的商就是平均数,平均数的估计值等于频率分布直方图每个小矩形面积乘以小矩形底边中点的横坐标之和4.样本方差:标准差的平方有时代替标准差测量标准差的离散程度方差公式是: 5.样本标准差:反应样本数据的分散程度的大小,最常用的统计量是标准差,一般用表示标准差的
4、公式是:,标准差越大离散程度越大,数据较分散;标准差越小,数据较集中在平均数周围三、变量间的相关关系1.函数关系定义:函数是研究两个变量之间的依存关系的一种数量形式,对于两个变量,如果当一个变量的取值一定时,另一个变量的取值被唯一确定,则这两个变量之间的关系就是一个函数关系2.相关关系定义:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系3.正相关定义:从散点图可以看出各点散步的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称正相关4.负相关定义:如果两个变量的散点图中散步的位置是从左上角到右下角的区域,即一个变量的值由
5、大变小时,另一个变量值由小变大,这种相关称负相关5.散点图定义:在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形称为散点图6.回归直线方程定义:如果散点图中的点的分布,从总体地上看大约在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线7.最小二乘法,其中,由此得到的直线就称为回归直线,此直线方程即为线性回归方程其中,分别为,的估计值,称为回归截距,称为回归系数,称为回归值典型例题一选择题(共1小题)1某班有50名学生,男女人数不等随机询问了该班5名男生和5名女生的某次数学测试成绩,用茎叶图记录如下:则下列说法一定正确的是()A这种抽样方法是一种分层抽样B这5名
6、男生成绩的中位数大于5名女生成绩的中位数C该班男生成绩的平均数小于该班女生成绩的平均数D这5名男生成绩的标准差大于5名女生成绩的标准差【解答】解:根据抽样方法的特点,抽样比例不等,不是分层抽样,A错误;这5名男生的中位数是90,小于女生成绩的中位数是93,B错误;无法判断该班男生成绩的平均数与该班女生成绩的平均数大小,C错误;根据公式,求得五名男生成绩的方差为s12=15×(8690)2+(8890)2+(9090)2+(9290)2+(9490)2=8,标准差为s1=22;五名女生成绩的方差为s22=15×(8891)2×2+(9391)2×3=6,标
7、准差为s2=6;这五名男生成绩的标准差大于这五名女生成绩的标准差,D正确故选:D二填空题(共3小题)2甲同学在“附中好声音“歌唱选拔赛中,5位评委评分情况分别为76,77,88,90,94,则甲同学得分的方差为52【解答】解:根据题意,5位评委评分情况分别为76,77,88,90,94,其平均数x=76+77+88+90+945=85;则其方差s2=15(7685)2+(7785)2+(8885)2+(9085)2+(9485)2=52;故答案为:523某班运动队由足球队员18人、篮球运动员12人、乒乓球运动员6人组成(每人只参加一项),现从这些运动员中抽取一个容量为n的样本,若分别采用系统抽
8、样和分层抽样法,则都不用剔除个体;当样本容量为n+1时,若采用系统抽样法,则需要剔除1个个体,那么样本容量n为6【解答】解:由题意知采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,总体容量为6+12+18=36当样本容量是n时,由题意知,系统抽样的间隔为36n,分层抽样的比例是n36,抽取的乒乓球运动员人数为n366=n6,篮球运动员人数为n3612=n3,足球运动员人数为n3618=n2,n应是6的倍数,36的约数,即n=6,12,18当样本容量为(n+1)时,总体容量是35人,系统抽样的间隔为35n+1,35n+1必须是整
9、数,n只能取6即样本容量n=6故答案为:64已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程y=bx+a,其中b=7,据此估计,当投入10万元广告费时,销售额为85万元;【解答】解:由题意可得:x=2+4+5+6+85=5,y=30+40+50+60+705=50,线性回归方程过样本中心点,则:50=7×5+a,a=15,线性回归方程为:y=7x+15,据此估计,当投入10万元广告费时,销售额为y=7×10+15=85 万元故答案为:85三解答题(共8小题)5为了解春季昼夜温差大小与种
10、子发芽多少之间的关系,现从4月的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如表格:日期4月1日4月7日4月15日4月21日4月30日温差x/°C101113128发芽数y/颗2325302616(1)从这5天中任选2天,记发芽的种子数分别为m,n,求事件“m,n均不小于25”的概率;(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y关于x的线性回归方程y=bx+a参考公式:b=i=1nxiyi-nxyi=1nxi2-nx2,a=ybx【解答】解:(1)用数组(m,n)表示选出2
11、天的发芽情况,m,n的所有取值情况有(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(30,26),共有10个设“m,n均不小于25”为事件A,则包含的基本事件有(25,30),(25,26),(30,26),所以P(A)=310,即事件A的概率为310;(2)由表中数据得,x=13×(11+13+12)=12,y=13×(25+30+26)=27,且3xy=972,i=13xiyi=977,i=13xi2=434,3x2=432;由公式得b=i=1nxiyi-nxyi=1nxi
12、2-nx2=977-972434-432=52,a=ybx=2752×12=3,所以y关于x的线性回归方程为y=52x36哈市某单位为了提高员工的业务水平,举办了一次“岗位技能”大赛,从参赛的青年技师(35岁及35岁以下的技师)和中老年技师(35岁以上的技师)的成绩中各抽取20个进行研究,满分为100分,且均保留到小数点后一位,如95.3具体成绩如茎叶图所示(以成绩的整数部分为茎,小数部分为叶),并将这40个成绩分成四组,第一组95,96);第二组96,97);第三组97,98);第四组98,99)()根据以上数据写出抽取的20名青年技师的中位数,并补全上面的频率分布直方图;()从成
13、绩在95,97)之间的技师中随机抽取2个,求其中2人成绩在95,96)之间的概率;()研究发现从业时间与岗位技能水平之间具有线性相关关系,从上述抽取的40名技师中抽取5名技师的成绩,数据如表其中,x=15,y=97.1用最小二乘法求得的回归方程为y=0.16x+a,请完成下表根据下表判断该线性回归模型对该组数据的拟合效果(通常相关指数R20.80)时认为线性回归模型对该组数据是有效的) 教龄x年5101525成绩y分95.296.497.898.5残差e0.30.10.2附:R2=1i=1n(yi-yi)2i=1n(yi-y)2【解答】解:()从小到大排列第10个和第11个的成绩分别为97.2
14、、97.4,计算它们的中位数为12×(97.2+97.4)=97.3,补全频率分布直方图,如图所示;()设所求事件为A,由已知成绩在95,97)之间的技师有12人,成绩在95,96)之间的技师有4人,从中任取2人,所求的概率为P=C42C122=111;()根据x=15,y=97.1,代入回归方程y=0.16x+a中,求得a=97.10.16×15=94.7,y=0.16x+94.7,完成下表,教龄x年510152025成绩y分95.296.497.697.898.5残差e0.30.10.50.10.2计算相关指数R2=1i=1n(yi-yi)2i=1n(yi-y)210.
15、06=0.940.8;所以认为线性回归模型对该组数据是有效的7甲、乙两家销售公司拟各招聘一名产品推销员,日工资方案如下:甲公司规定底薪80元,每销售一件产品提成1元;乙公司规定底薪120元,日销售量不超过45件没有提成,超过45件的部分每件提成8元(I)请将两家公司各一名推销员的日工资y(单位:元)分别表示为日销售件数n的函数关系式;(II)从两家公司各随机选取一名推销员,对他们过去100天的销售情况进行统计,得到如下条形图若将该频率视为概率,分别求甲、乙两家公司一名推销员的日工资超过125元的概率【解答】解:(I)由题意得,甲公司一名推销员的日工资y(单位:元) 与销售件数n的关系式为:y=
16、80+n,nN乙公司一名推销员的日工资y(单位:元) 与销售件数n的关系式为:y=&120,(n45,nN)&8n-240,(n45,nN)()甲公司一名推销员的日工资超过125 元,则80+n125,解得n45,甲公司一名推销员的日工资超过125 元的概率P1=0.2+0.1+0.1=0.4乙公司一名推销员的日工资超过125 元,则8n240125,解得n45,乙公司一名推销员的日工资超过125 元的概率P2=0.3+0.4+0.1=0.8,甲、乙两家公司一名推销员的日工资超过125 元的概率分别为0.4 与0.88随着科技发展,手机成了人们日常生活中必不可少的通信工具,现在
17、的中学生几乎都拥有了属于自己的手机了为了调查某地区高中生一周使用手机的频率,某机构随机调查了该地区100名高中生某一周使用手机的时间(单位:小时),所取样本数据分组区间为0,2)、2,4)、4,6)、6,8)、8,10)、10,12)、12,14,由此得到如图所示的频率分布直方图(1)求a的值并估计该地区高中生一周使用手机时间的平均值;(2)从使用手机时间在6,8)、8,10)、10,12)、12,14的四组学生中,用分层抽样方法抽取13人,则每层各应抽取多少人?【解答】解:(1)由于小矩形的面积之和为1,则(a+0.075+4a+0.15+5a+0.05+0.025)×2=1,由此
18、可得a=0.02该地区高中生一周使用手机时间的平均值为(1×0.02+3×0.075+5×0.08+7×0.15+9×0.1+11×0.05+13×0.025)×2=6.94(2)使用手机时间在6,8)的学生有0.15×2×100=30人,使用手机时间在8,10)的学生有0.02×5×2×100=20人,使用手机时间在10,12)的学生有0.05×2×100=10人,使用手机时间在12,14的学生有0.025×2×100=5人
19、,故用分层抽样法从使用手机时间在6,8),8,10),10,12),12,14的四组学生中抽样,抽取人数分别为13×3030+20+10+5=6,13×2030+20+10+5=4,13×1030+20+10+5=2,13×530+20+10+5=19为了鼓励市民节约用电,某市实行“阶梯式”电价,将每户居民的月用电量分为二档,月用电量不超过200度的部分按0.5元/度收费,超过200度的部分按0.8元/度收费某小区共有居民1000户,为了解居民的用电情况,通过抽样,获得了今年7月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图()求a的
20、值;()试估计该小区今年7月份用电费用不超过260元的户数;()估计7月份该市居民用户的平均用电费用(同一组中的数据用该组区间的中点值作代表)【解答】解:()由频率分布直方图得:(0.003+0.004+a+0.001)×100=1,解得a=0.002(3分)()当用电量为400度时,用电费用为200×0.5+200×0.8=260元,所以此100户居民中用电费用超过260元的户数为0.0001×100×100=10户,所以此100户居民中用电费用不超过260元的户数为90户,(7分)所以该小区1000户居民中用电费用不超过260元的户数为90
21、0户(8分)()该市居民平均用电费用为:(150×0.3+200×0.7)×0.5+(50×0.4+150×0.2+250×0.1)×0.8=152.5元(13分)10历史数据显示:某城市在每年的3月11日3月15日的每天平均气温只可能是5,6,7,8中的一个,且等可能出现()求该城市在3月11日3月15日这5天中,恰好出现两次5,一次8的概率;()若该城市的某热饮店,随平均气温的变化所售热饮杯数如表平均气温t5678所售杯数y19222427根据以上数据,求y关于t的线性回归直线方程(参考公式:b=i=1n(ti-t)(y
22、i-y)i=1n(ti-t)2,a=ybt)【解答】解:(1)记事件A为“这5天中,恰好出现两次5,一次8”,则P(A)=C52(14)2C31(14)(12)2=15128; (6分)(或P(A)=C52C312×245=15128也可)(2)根据表中数据,计算t=-6.5,y=23;(8分)i=14(ti-t)(yi-y)=1.5×(-4)+0.5×(-1)+(-0.5)×1+(-1.5)×4=-13,i=14(ti-t)2=1.52+0.52+0.52+1.52=5,b=i=1n(ti-t)(yi-y)i=1n(ti-t)2=135,(1
23、0分)a=yb=23+135×(6.5)=6.1,(11分)y关于t的线性回归直线方程为y=135x+6.1(12分)11某校组织的古典诗词大赛中,高一一班、二班各有9名学生参加,得分情况如茎叶图所示:该活动规定:学生成绩、获奖等次与班级量化管理加分情况如表 成绩70,79)80,89)90,100奖次三二一加分123(I)在一班获奖的学生中随机抽取2人,求能够为班级量化管理加4分的概率;()已知一班和二班学生的平均成绩相同,求x的值,并比较哪个班的成绩更稳定【解答】(本题满分为12分)解:(I)一班获奖的学生共6位,随机抽取2人的情况有:(77,82),(77,83),(77,86
24、),(77,93),(77,9x),(82,83),(82,86),(82,93),(82,9x),(83,86),(83,93),(83,9x),(86,93),(86,9x),(93,9x),共15种情形2分能够为班级量化管理加4分的情形有:(77,93),(77,9x),(82,83),(82,86),(83,86)共5种情形4分所以,能够为班级量化管理加4分的概率为515=136分()由已知19(93+9x+82+83+86+77+67+68+69)=19(90+94+97+84+72+76+76+63+68),解得:x=57分一班成绩的方差S12=19(132+152+22+32+6
25、2+32+132+122+112)=8869,9分二班成绩的方差S22=19(102+142+172+42+82+42+42+172+122)=11309S12,11分故一班更稳定12分12共享单车是指由企业在校园、公交站点、商业区、公共服务区等场所提供的自行车单车共享服务,由于其依托“互联网+”,符合“低碳出行”的理念,已越来越多地引起了人们的关注某部门为了对该城市共享单车加强监管,随机选取了50人就该城市共享单车的推行情况进行问卷调查,并将问卷中的这50人根据其满意度评分值(百分制)按照50,60),60,70),90,100分成5组,请根据下面尚未完成并有局部污损的频率分布表和频率分布直
26、方图(如图所示)解决下列问题:频率分布表组别分组频数频率 第1组50,60) 8 0.16 第2组60,70) a 第3组70,80) 20 0.40 第4组80,90) 0.08 第5组90,100 2 b 合计 (1)求出a,b,x,y的值;(2)若在满意度评分值为80,100的人中随机抽取2人进行座谈,求2人中至少一人来自第5组的概率【解答】解:(1)由题意可知,b=250=0.04;80,90)内的频数为2×0.080.04=4,样本容量n=50,a=5082042=16,又60,70)内的频率为1650=0.32,x=0.3210=0.032,90,100内的频率为0.04
27、,y=0.0410=0.004(4分)(2)由题意可知,第4组共有4人,第5组共有2人,设第4组的4人分别为a1,a2,a3,a4,第5组的2人分别为b1,b2,则从中任取2人,所有基本事件为:(a1,a2)、(a1,a3)、(a1,a4)、(a1,b1)、(a1,b2)、(a2,a3)、(a2,a4)、(a2,b1)、(a2,b2)、(a3,a4)、(a3,b1)、(a3,b2)、(a4,b1)、(a4,b2)、(b1,b2),共15个(7分)又至少一人来自第5组的基本事件有:(a1,b1)、(a1,b2)、(a4,b1)、(a4,b2)、(b1,b2)、(a2,b2)、(a3,b1)、(a3,b2)、(a2,b1)共9个,(9分)P=915=35故所抽取2人中至少一人来自第5组的概率为 35(12分)