《高考数学二轮复习讲义专题四统计、统计案例.docx》由会员分享,可在线阅读,更多相关《高考数学二轮复习讲义专题四统计、统计案例.docx(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、专题四统计与概率第1讲统计、统计案例全国卷3年考情分析年份全国卷全国卷全国卷2019系统抽样T6样本平均数T14随机抽样、用样本估计总体T4独立性检验T17(2)用样本的频率分布估计总体分布样本的数字特征T19由频率分布直方图求参数平均值T172018统计图的识别与分析T3折线图、线性回归模型问题T18抽样方法T14茎叶图的应用及独立性检验T182017用样本的数字特征估计总体的数字特征T2折线图的识别与分析T3(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在24题的位置.(2)统计与统计案例在解答题中多出现在第17
2、、18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主. 抽样方法例1(1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢4 8007 2006 4001 600电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为()A.25,25,25,25B.48,72,64,16C.20,40,30,10 D.24,36,32,8(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为
3、1,2,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间1,450的人做问卷A,编号落入区间451,750的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为()A.7 B.9C.10 D.15解析(1)因为抽样比为,所以每类人中应抽选的人数分别为4 80024,7 20036,6 40032,1 6008.故选D.(2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k9(k0,1,31).由45130k9750,解得k,又kN,故k15,16,24,共10人.答案(1)D(2)C解题方略系统抽样和分层抽样中的计算(1)
4、系统抽样总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k,k(n1).(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比总体中各层的数量之比.跟踪训练1.(2019全国卷)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生 B.200号学生C.616号学生 D.815号学生解析:选C根据题意,系统抽样是等距抽样,所以抽样间隔为10.因为46除以1
5、0余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.2.某中学有高中生3 000人,初中生2 000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是()A.12 B.15C.20 D.21解析:选A因为抽样比为,所以从初中生中抽取的男生人数为2 00060%12.故选A. 用样本估计总体例2(2019全国卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组0.20
6、,0)0,0.20)0.20,0.40)0.40,0.60)0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:8.602.解(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为0.21.产值负增长的企业频率为0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y(0.1020.10240.30530.
7、50140.707)0.30,s2i(yiy)2(0.40)22(0.20)22402530.202140.40270.029 6,s0.020.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.解题方略1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.2.从频率分布直方图中得出有关数据的方法频率频率分布直方图中横轴表示组数,纵轴表示,频率组距频率比频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比众数最高小长方形底边中点的横坐标
8、中位数平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标平均数频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和跟踪训练1.(2019石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是()A.23,22 B.23,22.5C.21,22 D.21,22.5解析:选D由茎叶图可得甲的成绩的平均数为21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为22.5.2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照27.5,32.5),32.5,37
9、.5),37.5,42.5),42.5,47.5),47.5,52.5分为5组,其频率分布直方图如图所示.(1)求图中a的值;(2)估计这种植物果实重量的平均数x和方差s2(同一组中的数据用该组区间的中点值作代表).解:(1)由5(0.0200.0400.075a0.015)1,得a0.050.(2)各组中点值和相应的频率依次为中点值3035404550频率0.10.20.3750.250.075x300.1350.2400.375450.25500.07540,s2(10)20.1(5)20.2020.375520.251020.07528.75. 统计案例题型一回归分析在实际问题中的应用例
10、3某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(单位:cm)的情况如表1:M900700300100y0.53.56.59.5该省某市2019年11月份AQI指数频数分布如表2:M0,200)200,400)400,600)600,800)800,1 000频数(天)361263(1)设x,若x与y之间是线性关系,试根据表1的数据求出y关于x的线性回归方程.(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI指数存在相关关系如表3:M0,200)200,400)400,600)600,800)800,1 000日均收入(元)2 0001 0002 000
11、6 0008 000根据表3估计小李的洗车店2019年11月份每天的平均收入.附参考公式:x,其中,yx.解(1)x(9731)5,y(0.53.56.59.5)5,4,i1xiyi90.573.536.519.558.4,i1x92723212140,所以,55,所以y关于x的线性回归方程为x.(2)根据表3可知,该月30天中有3天每天亏损2 000元,有6天每天亏损1 000元,有12天每天收入2 000元,有6天每天收入6 000元,有3天每天收入8 000元,估计小李洗车店2019年11月份每天的平均收入为(2 00031 00062 000126 00068 0003)2 400(元
12、).解题方略求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线x必经过样本点的中心(x,y)快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二独立性检验在实际问题中的应用例4(2019全国卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2.P(K2k)0.0500.0100.001k3.8416.6351
13、0.828解(1)由调查数据,男顾客中对该商场服务满意的比率为0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2的观测值k4.762.由于4.7623.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.解题方略独立性检验的一般步骤(1)根据样本数据制成22列联表;(2)根据公式K2(其中nabcd)计算出K2的观测值;(3)比较K2的观测值与临界值的大小,作出统计推断.跟踪训练1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷
14、调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:同意限定区域停车不同意限定区域停车总计男20525女101525总计302050则认为“是否同意限定区域停车与家长的性别有关”的把握约为()A.0.1% B.0.5%C.99.5% D.99.9%附:K2,其中nabcd.P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828解析:选C因为K28.3337.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.2.2019年秋新学期开始,某市对全市中小学学生进行健
15、康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y的数据如下表:年级号x12345近视率y0.050.090.160.200.25根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率.附:回归直线x的斜率和截距的最小二乘法估计公式分别为得0.051,0.150.05130.003,得线性回归方程为0.051x0.003.当x6时,代入得0.05160.0030.303,所以六年级学生的近视率在0.303左右.数学建模回归分析问题的求解典例(2019合肥市第二次质量检测)为了了解A地区足球特色学校的发展状况,某调查机构统计得到如下数据:年份x2
16、0142015201620172018足球特色学校数y/百个0.300.601.001.401.70(1)根据表中数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.75|r|1,则认为y与x线性相关性很强;0.3|r|0.75,则认为y与x线性相关性一般;|r|0.25,则认为y与x线性相关性较弱);(2)求y关于x的线性回归方程,并预测A地区2019年足球特色学校的个数(精确到个).解(1)x2 016,y1,r0.998 40.75,y与x线性相关性很强.yx10.362 016724.76,y关于x的线性回归方程是0.36x724.76.当x2 019时,0.362
17、019724.762.08,即A地区2019年足球特色学校约有208个.素养通路本题是典型的回归分析问题,在实际问题中收集数据,画散点图,用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.专题过关检测 A组“633”考点落实练一、选择题1.利用系统抽样法从编号分别为1,2,3,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为()A.73B.78C.77 D.76解析:选B样本的分段间隔为5,所以13号在第三组,则最大的编号为13(163)578.故选B.2.(201
18、9全国卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数 B.平均数C.方差 D.极差解析:选A中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.3.(2019广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y(单位:kWh)与气温x(单位:)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表
19、:x(单位:)1714101y(单位:kWh)243438a由表中数据得线性回归方程:2x60,则a的值为()A.48 B.62C.64 D.68解析:选C由题意,得x10,y.样本点的中心(x,y)在回归直线2x60上,代入线性回归方程可得2060,解得a64,故选C.4.如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是()A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于
20、前三位的城市为天津、西安、厦门解析:选D由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列an,若a38,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是()A.13,12 B.13,13C.12,13 D.13,14解析:选B设等差数列
21、an的公差为d(d0),a38,a1a7a64,(82d)(84d)64,即2dd20,又d0,故d2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为13,中位数为13.6.(2019成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数;甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数;从最近五场比赛的得分看,乙比甲更稳定;从最近五场比赛的得分看,甲比乙更稳定.其中所有正确结论的编号为()A. B.C. D.解析:选C对
22、于,甲得分的中位数为29,乙得分的中位数为30,错误;对于,甲得分的平均数为(2528293132)29,乙得分的平均数为(2829303132)30,正确;对于,甲得分的方差为(2529)2(2829)2(2929)2(3129)2(3229)2(161049)6,乙得分的方差为(2830)2(2930)2(3030)2(3130)2(3230)2(41014)2,所以乙比甲更稳定,正确,错误.所以正确结论的编号为.二、填空题7.(2019全国卷)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为
23、0.99,则经停该站高铁列车所有车次的平均正点率的估计值为_.解析:x0.98.则经停该站高铁列车所有车次的平均正点率的估计值为0.98.答案:0.988.(2019安徽五校联盟第二次质检)数据a1,a2,a3,an的方差为2,则数据2a1,2a2,2a3,2an的方差为_.解析:设a1,a2,a3,an的平均数为a,则2a1,2a2,2a3,2an的平均数为2a,2.则2a1,2a2,2a3,2an的方差为442.答案:429.某新闻媒体为了了解观众对央视开门大吉节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:女男总计喜爱402060不喜爱203050总计6
24、050110试根据样本估计总体的思想,估计在犯错误的概率不超过_的前提下(约有_的把握)认为“喜爱该节目与否和性别有关”.参考附表:P(K2k0)0.0500.0100.001k03.8416.63510.828解析:分析列联表中数据,可得K2的观测值k7.8226.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.0199%三、解答题10.(2019全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积
25、相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70a0.200.15,故a0.35.b10.050.150.700.10.(2)甲离子残留百分比的平均值的估计值为20.1530.2040.3050.2060.1070.054.05,乙离子残留百分比的平均值的估计值为30.0540.1
26、050.1560.3570.2080.156.00.11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:40,50),50,60),60,70),90,100,得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?解:(1)由频率分布直方图可知,(0.0100.0150.015a0.0250.005)101,所以a0.03.所以参加高中数学竞赛的考生的成绩的平均数
27、为450.1550.15650.15750.3850.25950.0571,成绩的众数为75.设参加高中数学竞赛的考生的成绩的中位数为x,则0.10.150.15(x70)0.030.5,解得x73.3,所以中位数为73.3.(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为,所以各分数段抽取人数依次为2,3,3,6,5,1.12.(2019沈阳市质量监测(一)某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了
28、10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差.(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14.5;平均得分为15;方差为(815)2(915)2(1215)2(1415)2(1415)2(1515)2(1615)2(1815)2(2115)2(2315)220.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的
29、表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.B组大题专攻强化练1.(2019武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:x1.081.121.191.281.361.481.591.681.801.87y2.252.372.402.552.642.752.923.033.143.26(1)通过画散点图,发现可用线性回归模型拟合y与x的关系,请用相关系数加以说明.(2)建立月总成本y与月产量x之间的回归方程;通过建立的y关于x的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)附注:
30、参考数据:i27.31,0.850,1.042,1.223.参考公式:相关系数回归直线x中斜率和截距的最小二乘估计公式分别为:解:(1)由已知条件得,r,r1.2230.998,这说明y与x正相关,且相关性很强.(2)由已知求得x1.445,y2.731,yx2.7311.2231.4450.964,所求回归直线方程为1.223x0.964.当x1.98时,y1.2231.980.9643.386(万元),此时产品的总成本约为3.386万元.2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)
31、估计旧养殖法的箱产量低于50 kg的概率并估计新养殖法的箱产量的平均值;(2)填写下面的22列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.箱产量50 kg箱产量50 kg总计旧养殖法新养殖法总计附:K2,其中nabcd.P(K2k0)0.0500.0100.001k03.8416.63510.828解:(1)旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,所以旧养殖法的箱产量低于50 kg的概率估计值为0.62;新养殖法的箱产量的平均值为37.50.004542.50.020547.50.044552.50.0685
32、57.50.046562.50.010567.50.008552.35.(2)根据箱产量的频率分布直方图得22列联表如下:箱产量6.635,故有99%的把握认为箱产量与养殖方法有关.3.(2019长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:月份123456广告投入量/万元24681012收益/万元14.2120.3131.831.1837.8344.67他们用两种模型ybxa,yaebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:xy7301 464.2
33、4364(1)根据残差图,比较模型,的拟合效果,应选择哪个模型?并说明理由.(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:()剔除异常数据后,求出(1)中所选模型的回归方程;()广告投入量x18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线x的斜率和截距的最小二乘估计分别为:解:(1)应该选择模型,因为模型的残差点比较均匀地落在水平的带状区域中,且模型的带状区域比模型的带状区域窄,所以模型的拟合精度高,回归方程的预报精度高.(2)()剔除异常数据,即3月份的数据后,得x(766)7.2,y(30631.8)29.64
34、.()把x18代入()中所求回归方程得3188.0462.04,故预报值为62.04万元.4.每年10月中上旬是小麦的最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技兴趣小组为了解昼夜温差的大小与小麦发芽的多少之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:温差x()810111312发芽数y(颗)7981859086(1)请根据统计的最后三组数据,求出y关于x的线性回归方程x;(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;(3)若100颗小麦种子的发芽数为n颗,则记n%的发芽率,当发芽率为n%时,平均每亩地的收益为10n元,某农场有土地10万亩,小麦种植期间昼夜温差大约为9 ,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.附:在线性回归方程x中,解:(1)x12,y87,由xy,即1287,得57,线性回归方程为x57.(2)当x8时,85777,与实际值79比较,误差没有超过两颗;当x10时,105782,与实际值81比较,误差也没有超过两颗.所以(1)中得到的线性回归方程x57是可靠的.(3)由x57得,当x9时,79.5,即每亩地的收益大约为795元,所以该农场种植小麦所获得的收益大约为7 950万元.