《2022统计与统计案例.docx》由会员分享,可在线阅读,更多相关《2022统计与统计案例.docx(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2022统计与统计案例篇一:统计与统计案例 统计与统计案例 一、 完全解读考纲 考点整合 1、几个基本概念:(1)总体:;(2)个体:;(3)样本:;(4)样本容量:。 2、简单随机抽样:(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n?N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样;(2)最常用的简单随机抽样的方法: 3、系统抽样:(1)定义:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样);(2)步骤:假设要从容量为
2、N的总体中抽取容量为n的样本,先将总体的N个个体编号;确定分段间隔k,对编号进行分段,当 NN 是整数时,取k?;nn 在第1段用确定第一个个体编号l(l?k);按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号l?k,再加k得到第3个个体编号l?2k,依次进行下去,第 n 个个体编号为,直到获取整个样本。 4、分层抽样:(1)定义:在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样;(2)分层抽样的应用范围:当总体是由差异明显的几部分组成时,往往选用分层抽样。 例1、某次考试有7000
3、0名学生参加,为了了解这70000名考生的数学成绩,从中抽取1010名考生的数学成绩进行统计分析,在这个问题中,有以下四种说法:1010名考生是总体的一个样本;可用1010名考生数学成绩的平均数区估计总体平均数;70000名考生的数学成绩是总体;样本容量是1010。其中正确的说法有( ) A、1种;B、2种;C、3种;D、4种 例2、一个总体中有101个个体,随机编号为0,1,2,?,99,依编号顺序平均分成10个小组,组号依次为1,2,3,?,10。现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k小组中抽取的号码个位数字与m?k的个位数字相同,若m?6
4、,则在第7组中的抽取的号码是。 例3、某中学高中部有三个年级,其中高三年级有600人,采用分层抽样的方法抽取一个容量为45的样本,已知高一年级抽取15人,高二年级抽取10人,则高中部一共有多少人? 5、用样本的数字特征估计总体的数字特征: (1)众数、中位数:在一组数据中出现的数据叫做这组数据的众数;将一组数据按从大到小(或从小到大)排列,处在上的一个数据(或中间两个数据的平均数)叫做这组数据的中位数; (2)平均数和方差:如果这n个数据是x1,x2,?,xn,那么 叫做这n个数据平均数;如果这n个数据是x1,x2,?,xn,那么叫做这n个数据方差,同时,叫做这n个数据标准差。 6、频率分布直
5、方图、折线图与茎叶图: 样本中所有数据(或数据组)的频率和样本容量的比,就是该数据的频率;所有数据(或数据组)的频率的分布变化规律叫做频率分布,可以用频率分布直方图、折线图、茎叶图来表示。频率分布直方图,具体作法如下 求(即一组数据中最大值与最小值的差);决定; 将数据 ;列 ;画 。 注:频率分布直方图中小长方形的面积组距 频率 频率。 组距 例4 为了了解初三学生女生身高情况,某中学对初三女生身高进行了一次测量,所得数据整理后列出了频率分布表如下: 例5 有关部门从甲、乙两个城市所有的自动售货机中分别随机抽取了16台,记录下一上午各自的销售情况:(单位:元) 甲:18,8,10,43,5,
6、30,10,22,6,27,25,58,14,18,30,41; (1)求出表中m,n,M,N表示的数分别是多少? (2)画出频率分布直方图; (3)全体女生中身高在哪组范围内的人数最多? 乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23。 (1)请写出这两组数据的茎叶图; (2)将这两组数据进行比较分析,你能得到什么结论? 7、线性回归方程与回归直线 1、线性相关:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,称这两个变量之间具有线性相关关系,这条直线叫回归直线 2、最小二乘法:使得样本数据的点到回归直线的距离之和最小的方法: ?
7、bx?a,b,a叫回归系3、回归方程:两个具有线性相关关系的的变量,其线性回归方程y 数.其中b? ?xy ii?1 n n i ?nxy ,a?y?bx.点(x,y)叫回归直线的样本中心点. ?x i?1 2i ?nx 2 注意:回归直线一定经过样本的中心点。 8、独立性检验: (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量,例如:是否吸烟,宗教信仰,国籍等; (2)列出两个变量的频数表,称为列联表; (3)一般地,假设有两个分类变量X和Y,它们的值域分别是x1,x2和y1,y2,其样本频数列联表(称为22列联表)为: n(ad?bc)2 K?(其中n?a? (a?b)
8、(c?d)(a?c)(b?d) 2 2 ,这种用K来确定在多大程度上可以认为“两个分类变量有关系”b?c?d为样本容量) 的方法称为两个分类变量的独立性检验。 当K2?3.841时,有95%的把握说事件A与B有关;当K2?6.635时,有99%的把握说 事件A与B有关;当K2?3.841时,认为事件A与B无关。 例6 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据。 (1)请画出上表数据的散点图; ?a?; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y?bx (3)已知该厂技改前101吨甲产品的生产能耗为9
9、0吨标准煤,试根据(2)求出的线性回归方程,预测生产101吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3?2.5?4?3?5?4?6?4.5?66.5) 例7 有甲乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表: 已知在全部105人中随机抽取1人为优秀的概率为(1)请完成上面的列联表; 。 7 (2)根据列联表的数据,若按95的可靠性要求,能否认为“成绩与班级有关系”? 二、把握命题规律 题型考查 题型1以实际问题为背景,对抽样方法、统计图表、样本的数字特征进行考查 1、用系统抽样法(按等距离的规则),要从160名学生中抽取容量为
10、20的样本,将160名学生从1160编号按编号顺序平均分成20组(18号,916号,?,153160号),若第16组应抽出的号码为125,则第一组中按此抽签方法确定的号码是( ) A7 B5 C4 D3 2、某校共有学生2 000名,各年级男、女学生人数如下表已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19,现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为( ) A.24 B18 C3、(2022合肥模拟)A,B两名同学在5次数学考试中的成绩统计茎叶图如图947所示,若A,B两人的平均成绩分别是XA,XB,则下列结论正确的是( ) AXAXB,B比A成绩稳定 B
11、XAXB,B比A成绩稳定 CXAXB,A比B成绩稳定 DXAXB,A比B成绩稳定 4、某校101名学生的数学测试成绩分布直方图如图948所示,分数不低于a即为优秀,如果优秀的人数为20人,则a的估计值是( ) 图948 A130 B140 C134 D137 题型2 统计与概率综合考查 5、(2022郑州质检)某中学共有1010名学生参加了该地区高三第一次质量检测的数学考试,数学成绩如下表所示: 篇二:高中数学知识点之统计及统计案例分析 统计概率 新泰一中 闫辉 例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组
12、统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为234641,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件? (3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)依题意知第三组的频率为 4 2?3?4?6?4?1 = 15 , 又因为第三组的频数为12, 本次活动的参评作品数为 121=60. 5 (2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60 6 2?3?4?6?4?1 =18(件). (3)第四组的获奖率是10=518 9 , 第六组上交
13、的作品数量为 60 1 2?3?4?6?4?1 =3(件), 第六组的获奖率为2=63 9 ,显然第六组的获奖率高. 例2(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115, 90, 85, 75, 115, 110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示; (3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. (2)茎叶图如下: 选校网 专业大全 历年分数线 上万张大学图
14、片 大学视频 院校库 2分 5分 (3)甲车间: 平均值: 1= 17 (102+101+99+98+103+98+99)=101, 17 7分 9分 方差:s12=乙车间: (102-101)2+(101-101)2+?+(99-101)23.428 6. 平均值:2=方差:s2= 2 17 (110+115+90+85+75+115+110)=101, 2 2 2 11分 13分 14分 17 (110-101)+(115-101)+?+(110-101)228.571 4. 1=2 ,s12s22,甲车间产品稳定. 1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将
15、所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5. (1)求第四小组的频率; (2)参加这次测试的学生人数是多少? (3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n= 第一小组频数第一小组频率 =50.1=50(人). (3)因为0.150=5,0.350=15,0.450=20,0.250=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.
16、 2.从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分) 40,50),2;50,60),3;60,70),10;70,80),15; 80,90),12;90,101,8. (1)列出样本的频率分布表; (2)画出频率分布直方图; (3)估计成绩在60,90)分的学生比例; (4)估计成绩在85分以下的学生比例. 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库 解 (1)频率分布表如下: (2)频率分布直方图如图所示. (3)成绩在60,90)的学生比例即为学生成绩在60,90)的频率,即为(0.20+0.30+0.24)101%=74%. (4
17、)成绩在85分以下的学生比例即为学生成绩不足85分的频率. 设相应的频率为b. 由 b?0.600.84?0.6085?80 = 90?80 ,故b=0.72. 估计成绩在85分以下的学生约占72%. 一、填空题 1.下列关于频率分布直方图的说法中不正确的是 . 直方图的高表示取某数的频率 直方图的高表示该组上的个体在样本中出现的频率 直方图的高表示该组上的个体数与组距的比值 直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 2.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分 成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于
18、等于14秒且小于15秒;?第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图. 设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学 生人数为y,则从频率分布直方图中可分析出x和y分别为 . 答案 0.9,35 3.(2022启东质检)为了解某校高三学生的视力情况,随机地抽查了该校101名高三学生的视力率分布直方图如图所示,由于不慎,部分数据丢失,但知道前四组的频数成等比数列,后六组数列,设最大频率为a,视 力在4.6到5.0之间的学生数为b,则a,b的值分别为 . 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校
19、库 情况,得到频的频数成等差 答案 0.27,78 4.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩 分别是x甲、x乙,则x甲x乙, 比 稳定. 答案 乙 甲 二、解答题 5.在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整小组的频数是40. 理后分成五 组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二 (1)求第二小组的频率,并补全这个频率分布直方图; (2)求这两个班参赛的学生人数是多少? (3)这两个班参赛学生的成绩的中位数应落在第几
20、小组内?(不必说明理由) 解 (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别是0.30,0.15,0.10,0.05. 第二小组的频率为: 1.00-( 0.30+0.15+0.10+0.05)=0.40. 落在59.569.5的第二小组的小长方形的高= 频率组距 = 0.4010 =0.04.则补全的直方图如图所示. (2)设九年级两个班参赛的学生人数为x人. 第二小组的频数为40人,频率为0.40, 40x =0.40,解得x=101(人). 所以九年级两个班参赛的学生人数为101人. (3)因为0.3101=30,0.4101=40,0.15101=15,0.10101
21、=10,0.05101=5, 即第一、第二、第三、第四、第五小组的频数分别为30,40,15, 10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内. 6.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为24171593,第二小组频数为12. 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库 (1)第二小组的频率是多少?样本容量是多少? (2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在
22、哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为: 4 2?4?17?15?9?3 =0.08. , 120.08 又因为频率= 第二小组频数样本容量第二小组频数第二小组频率 所以样本容量=150. (2)由图可估计该学校高一学生的达标率约为 17?15?9?32?4?17?15?9?3 101%=88%. (3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内. 7.某赛季甲、乙两名篮球运动员每场比赛得分情况如下: 甲的
23、得分:12,15,24,25,31,31,36,36,37,39,44,49,50; 乙的得分:8,13,14,16,23,26,28,33,38,39,59. (1)制作茎叶图,并对两名运动员的成绩进行比较; (2)计算上述两组数据的平均数和方差,并比较两名运动员的成绩和稳定性; (3)能否说明甲的成绩一定比乙好,为什么? 解 (1)制作茎叶图如下: 从茎叶图上可看出,甲运动员发挥比较稳定,总体得分情况比乙好. 选校网 专业大全 历年分数线 上万张大学图片 大学视频 院校库 篇三:统计与统计案例 第4讲 统计与统计案例 1随机抽样 (1)简单随机抽样特点是从总体中逐个抽取适用范围:总体中的个
24、体较少 (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取适用范围:总体中的个体数较多 (3)分层抽样特点是将总体分成几层,分层进行抽取适用范围:总体由差异明显的几部分组成 2常用的统计图表 (1)频率分布直方图 小长方形的面积组距 频率 频率; 组距 各小长方形的面积之和等于1; 频率1 小长方形的高,所有小长方形的高的和为组距组距(2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好 3用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数 (2)方差:s2(x1x)2(x2x)2?(xnx)2 n标准差: s ?x1x?2?x2x?2?xnx?2. n 4
25、变量的相关性与最小二乘法 (1)相关关系的概念、正相关和负相关、相关系数 (2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),?,(xn,yn),通过求Q? (yi i1 2 n abxi)最小时,得到线性回归方程ybxa的方法叫做最小二乘法 5独立性检验 对于取值分别是x1,x2和y1,y2的分类变量X和Y,其样本频数列联表是 2 2 n ?adbc?2 则K()其中nabcd为样本容量) ?ab?cd?ac?bd? 热点一 抽样方法 例1 (1)(2022陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,?,840随机编号,则抽取的
26、42 人中,编号落入区间481,720的人数为( ) A11 B12 C13 D14 (2)(2022石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是_ (1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法, 抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,?,1 470编号,若第1组由简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为( ) A15 B16 C17D18 (2)(2022广东)已知某地区中小学生人数和近视情况分
27、别如图和图所示为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( ) A200,20 B101,20 C200,10 D101,10 热点二 用样本估计总体 例2 (1)(2022山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为12,13),13,14),14,15),15,16),16,17,将其按从左到右的顺序分别编号为第一组,第二组,?,第五组,如图是根据试验数据制成的频率分布直方图已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为(
28、 ) A6B8 C12 D 18 (1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频 率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为_万元 (2)(2022陕西)设样本数据x1,x2,?,x10的均值和方差分别为1和4,若yixia(a为非零常数,i1,2,?,10),则y1,y2,?,y10的均值和方差分别为( ) A1a,4C1,4 热点三 统计案例 例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y和房屋的面积x的数据. B1a,4a D1,4a 根据上表可得线性回归方程ybxa中的b0.196 2,则面积为150
29、m2的房屋的销售价格约为_万元 (2)(2022江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1 表4 A.成绩 B视力 (1)已知x、y取值如下表: 从所得的散点图分析可知:y与x线性相关,且y0.95xa,则a等于( ) A1.30 B1.45 C1.65 D1.80 (2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为
30、“非大脚”得以下22列联表: 则在犯错误的概率不超过 (附: P(K2>k) k ) 1随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例” 2用样本估计总体 (1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量 (3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分
31、布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布 1n1n 总体期望的估计,计算样本平均值xx.总体方差(标准差)的估计:方差 (x ni1ini1ix)2方差,方差(标准差)较小者较稳定 0.05 3.841 0.01 6.635 0.001 10.828 3线性回归方程y b xa 过样本点中心(x,y),这为求线性回归方程带来很多方便 4独立性检验 (1)作出22列联表(2)计算随机变量K2(2)的值(3)查临界值,检验作答 真题感悟 1(2022江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间80,130上,其频率分布直方图如图所示,则在抽测的60株树木中,有_株树木的底部周长小于101 cm. 统计与统计案例出自:百味书屋链接地址: 转载请保留,谢谢!本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!第28页 共28页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页第 28 页 共 28 页