《4用样本频率分布估计总体分布.ppt》由会员分享,可在线阅读,更多相关《4用样本频率分布估计总体分布.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2.2.1 2.2.1 用样本的频率分用样本的频率分布估计总体分布布估计总体分布1、用样本去估计总体,是研究统计问题的一个基本思想、用样本去估计总体,是研究统计问题的一个基本思想2、前面我们学过的抽样方法有、前面我们学过的抽样方法有:简单随机抽样、系统抽样、简单随机抽样、系统抽样、分层抽样。要注意这几种抽样方法的联系与区别。分层抽样。要注意这几种抽样方法的联系与区别。 3、 初中时我们学习过样本的频率分布,包括频数、初中时我们学习过样本的频率分布,包括频数、频率的概念,频数分布表和频数分布直方图的制作。频率的概念,频数分布表和频数分布直方图的制作。频率分布频率分布 样本中所有数据(或数据组)的
2、频数和样本中所有数据(或数据组)的频数和样本容量的比,叫做该数据的样本容量的比,叫做该数据的频率频率。频率分布的表示形式有:频率分布的表示形式有:样本频率分布表样本频率分布表样本频率分布图样本频率分布图 样本频率分布样本频率分布条形图条形图 样本频率分布样本频率分布直方图直方图样本频率分布折线图样本频率分布折线图 所有数据(或数据组)的频数的分布所有数据(或数据组)的频数的分布变化规律叫做变化规律叫做样本的频率分布。样本的频率分布。1 1、抛掷硬币的大量重复试验的结果:、抛掷硬币的大量重复试验的结果:35 964反面向上反面向上36 124正面向上正面向上频率频率频数频数实验结果实验结果0.5
3、01 1 0.498 9样本容量为样本容量为72 088频率分布条形图频率分布条形图0.10.20.30.40.50.60.701试验结果试验结果频率频率“正面向上正面向上”记记为为0“反面向上反面向上”记为记为1频率分布表频率分布表: 注意:注意: 各长方形长条的宽度要相同。各长方形长条的宽度要相同。相邻长条的间距要适当。相邻长条的间距要适当。 结论:当试验次数结论:当试验次数无限增大时,两种试验无限增大时,两种试验结果的频率大致相等。结果的频率大致相等。长方形长条的高度长方形长条的高度表示取各值的频率。表示取各值的频率。 归纳归纳1 1:当总体中的个体所取的不同数值较少:当总体中的个体所取
4、的不同数值较少时,其随机变量是离散型。则样本的频率分布表时,其随机变量是离散型。则样本的频率分布表示形式有:示形式有:0.10.20.30.40.50.60.701试验结果试验结果频率频率(2)频率分布条形图)频率分布条形图试验结果试验结果频数频数频率频率(1)样本频率分布表)样本频率分布表 例例1. 为检测某种产品的质量,抽取了一个容量为为检测某种产品的质量,抽取了一个容量为30的样本,的样本,检测结果为一级品检测结果为一级品5件,二级品件,二级品8件,三级品件,三级品13件,次品件,次品4件件 (1) 列出样本的频率分布表;列出样本的频率分布表; (2) 画出表示样本频率分布的条形图;画出
5、表示样本频率分布的条形图; (3) (3)根据上述结果,估计此种产品为二级品或三级品的概率根据上述结果,估计此种产品为二级品或三级品的概率约是多少约是多少 解:解:(1)样本的频率分布表为:)样本的频率分布表为: 0.134次品次品0.4313三级品三级品0.278二级品二级品0.175一级品一级品频率频率频数频数产品产品解:解:(2)样本频率分布)样本频率分布 的条形图为:的条形图为: 0.10.20.30.40.50.60.7一级品一级品 二级品二级品产品产品频率频率三级品三级品 次品次品(3)此种产品为二级品或三级品的概率约为此种产品为二级品或三级品的概率约为0.270.430.7 知识
6、探究(一):频率分布表知识探究(一):频率分布表【问题问题】 我国是世界上严重缺水的国我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个行居民生活用水定额管理,即确定一个居民月用水量标准居民月用水量标准a a,用水量不超过,用水量不超过a a的的部分按平价收费,超出部分按平价收费,超出a a的部分按议价的部分按议价收费收费. .通过抽样调查,获得通过抽样调查,获得100100位居民位居民20072007年的月均用水量如下表(单位:年的月均用水量如下表(
7、单位:t t):):3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.4 2.6 2.2 2.2 1.5 1.2 3.4 2.6 2.2 2.2 1.5 1.2 0.20.2 0.4 0.3 0.4 0.4 0.3 0.43.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.83.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.83.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.13.3 2.8 2.3 2.2 1
8、.7 1.3 3.6 1.7 0.6 4.13.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.34.33.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.03.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.02.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.6 2
9、.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.22.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2显然:这个例子与前面抛掷硬币的问题是不同的,这显然:这个例子与前面抛掷硬币的问题是不同的,这里的总体可以在一个实数区间取值,称为连续型总体。里的总体可以在一个实数区间取值,称为连续型总体。样本的频率分布表示形式有:样本的
10、频率分布表示形式有: 频率分布表频率分布表和和频率分布直方图频率分布直方图1.1.极差:极差:样本数据中的最大值和最样本数据中的最大值和最小值的差称为极差小值的差称为极差2.2.确定组距,组数:确定组距,组数:. .如果将上述如果将上述100100个数据按组距为个数据按组距为0.50.5进行分组,进行分组,那么这些数据共分为多少组?那么这些数据共分为多少组? 0.20.24.34.3(4.3-0.24.3-0.2)0.5=8.20.5=8.2 3 3 将数据分组,决定分点:将数据分组,决定分点:以组距为以组距为0.50.5进行分组,上述进行分组,上述100100个数据共分为个数据共分为9 9组
11、,组,各组数据的取值范围可以如何设定?各组数据的取值范围可以如何设定?4 4 画频率分布表:画频率分布表:如何统计上述如何统计上述100100个数个数据在各组中的频数?如何计算样本数据据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表在各组中的频率?你能将这些数据用表格反映出来吗?格反映出来吗?00,0.50.5),),0.50.5,1 1),),11,1.51.5),),44,4.5.4.5. 分分 组组 频数累计频数累计 频数频数 频率频率 00,0.50.5) 4 0.044 0.04 0.5 0.5,1 1) 正正 8 0.088 0.08 1 1,1.51.5) 正
12、正 正正 正正 15 0.1515 0.15 1.5 1.5,2 2) 正正 正正 正正 正正 22 0.2222 0.22 2 2,2.52.5) 正正 正正 正正 正正 正正 25 0.2525 0.25 2.5 2.5,3 3) 正正 正正 14 0.1414 0.14 3 3,3.53.5) 正正 一一 6 0.066 0.06 3.5 3.5,4 4) 4 0.044 0.04 4 4,4.5 2 0.024.5 2 0.02 合计合计 100 1.00100 1.00知识探究(二):频率分布直方图知识探究(二):频率分布直方图 5 5 画频率分布直方图画频率分布直方图 为了直观反映
13、样本为了直观反映样本数据在各组中的分布情况,我们将上述数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形频率分布表中的有关信息用下面的图形表示:表示: 月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O上图称为上图称为频率分布直方图频率分布直方图,其中横轴,其中横轴表示月均用水量,纵轴表示频率表示月均用水量,纵轴表示频率/ /组距组距. . 频率分布直方图中各小长方形的宽度频率分布直方图中各小长方形的宽度和高度在数
14、量上有何特点?和高度在数量上有何特点?月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O宽度:宽度:组距组距高度:高度:频率频率组距组距图形的意义:图形的意义:频率分布直方图中各小长频率分布直方图中各小长方形的面积表示什么?各小长方形的面方形的面积表示什么?各小长方形的面积之和为多少?积之和为多少?各小长方形的面积各小长方形的面积= =频率频率各小长方形的面积之和各小长方形的面积之和= =1 1月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5
15、 O宽度:宽度:组距组距高度:高度:频率频率组距组距3 3 分析例题:分析例题:频率分布直方图非常直观频率分布直方图非常直观地表明了样本数据的分布情况,使我们地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出据模式,但原始数据不能在图中表示出来来. .你能根据上述频率分布直方图指出居你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?民月均用水量的一些数据特点吗?月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O(1 1)
16、居民月均用水量的分布是)居民月均用水量的分布是“山峰山峰”状的,而状的,而且是且是“单峰单峰”的;的;(2 2)大部分居民的月均用水量集中在一个中间值)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;附近,只有少数居民的月均用水量很多或很少;(3 3)居民月均用水量的分布有一定的对称性等)居民月均用水量的分布有一定的对称性等. .月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O思考:思考:对一组给定的样本数据,频率分对一组给定的样本数据,频率分布直方图的外观形状与哪些因素有关?布直方
17、图的外观形状与哪些因素有关?在居民月均用水量样本中,你能以在居民月均用水量样本中,你能以1 1为组为组距画频率分布直方图吗?距画频率分布直方图吗? 与分组数(或组距)及坐标系的单位长与分组数(或组距)及坐标系的单位长度有关度有关. .月均用水量月均用水量/t频率频率组距组距0.40.40.30.30.20.20.10.11 2 3 4 51 2 3 4 5 O1、求极差、求极差(即一组数据中最大值与最小值的差即一组数据中最大值与最小值的差) 知道这组数据的变动范围知道这组数据的变动范围4.3-0.2=4.12、决定组距与组数(将数据分组)、决定组距与组数(将数据分组)3、 将数据分组将数据分组
18、(8.2取整取整,分为分为9组组)画频率分布直方图的步骤画频率分布直方图的步骤4、列出、列出频率分布表频率分布表.(填写频率填写频率/组距一栏组距一栏)5、画出、画出频率分布直方图频率分布直方图。组距组距:指每个小组的两个端点的距离,组距指每个小组的两个端点的距离,组距组数组数:将数据分组,当数据在将数据分组,当数据在100个以内时,个以内时, 按数据多少常分按数据多少常分5-12组。组。4.18.20.5 极极差差组组数数= =组组距距 小结小结频率分布的条形图和频率分布直方图的区别频率分布的条形图和频率分布直方图的区别 两者是不同的概念;两者是不同的概念;横轴:两者表示内容横轴:两者表示内
19、容相同相同思考:思考: 频率分布条形图和频率分布直方图是两个频率分布条形图和频率分布直方图是两个相同的概念吗?相同的概念吗? 有什么区别?有什么区别?纵轴:两者表示的内容纵轴:两者表示的内容不相同不相同频率分布条形图频率分布条形图的纵轴(长方形的高)表示频率的纵轴(长方形的高)表示频率 频率分布直方图频率分布直方图的纵轴(长方形的高)表示的纵轴(长方形的高)表示频率与组距的比值,频率与组距的比值,其相应组距上的频率等于该组距上长方形的面积。其相应组距上的频率等于该组距上长方形的面积。 =频率长方形的面积组距频率组距理论迁移理论迁移 例例 某地区为了了解知识分子的年龄结构,某地区为了了解知识分子
20、的年龄结构,随机抽样随机抽样5050名,其年龄分别如下:名,其年龄分别如下: 4242,3838,2929,3636,4141,4343,5454,4343,3434,4444, 4040,5959,3939,4242,4444,5050,3737,4444,4545,2929, 4848,4545,5353,4848,3737,2828,4646,5050,3737,4444, 4242,3939,5151,5252,6262,4747,5959,4646,4545,6767, 5353,4949,6565,4747,5454,6363,5757,4343,4646,58.58.(1)(1)
21、列出样本频率分布表;列出样本频率分布表; (2)(2)画出频率分布直方图;画出频率分布直方图;(3)(3)估计年龄在估计年龄在32325252岁的知识分子所占的比例岁的知识分子所占的比例约是多少约是多少. .(1)(1)极差为极差为67-28=3967-28=39,取组距为,取组距为5 5,分为,分为8 8组组. . 分分 组组 频数频数 频率频率 2727,3232) 3 0.063 0.06 32 32,3737) 3 0.063 0.06 37 37,4242) 9 0.189 0.18 42 42,4747) 16 0.3216 0.32 47 47,5252) 7 0.147 0.1
22、4 52 52,5757) 5 0.105 0.10 57 57,6262) 4 0.084 0.08 62 62,6767) 3 0.063 0.06 合合 计计 50 1.0050 1.00样本频率分布表:样本频率分布表:(2 2)样本频率分布直方图:)样本频率分布直方图:年龄年龄0.060.060.050.050.040.040.030.030.020.020.010.0127 32 37 42 47 52 57 62 6727 32 37 42 47 52 57 62 67频率频率组距组距O(3 3)因为)因为0.06+0.18+0.32+0.14=0.70.06+0.18+0.32+
23、0.14=0.7, 故年龄在故年龄在32325252岁的知识分子约占岁的知识分子约占70%.70%.9090100100110110120120130130140140150150次数次数o o0.0040.0040.0080.0080.0120.0120.0160.0160.0200.0200.0240.0240.0280.028频率频率/ /组距组距0.0320.0320.0360.036例例2 2:为了了解高一学生的体能:为了了解高一学生的体能情况情况, ,某校抽取部分学生进行一分钟某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理跳绳次数次测试,将所得数据整理后,画出频率分布直方
24、图后,画出频率分布直方图( (如图如图) ),图中从左到右各小长方形面积之比图中从左到右各小长方形面积之比为为2 2:4 4:1717:1515:9 9:3 3,第二小组,第二小组频数为频数为12.12.第二小组的频率是多少?样本容量第二小组的频率是多少?样本容量是多少?是多少?若次数在若次数在110110以上(含以上(含110110次)为达次)为达标,试估计该学校全体高一学生的标,试估计该学校全体高一学生的达标率是多少?达标率是多少?频率分布直方图如下频率分布直方图如下:月均用水量月均用水量/t频率频率组距组距0.100.200.300.400.500.511.5 22.533.544.5连
25、接频率分布直方图连接频率分布直方图中各小长方形上端的中各小长方形上端的中点中点,得到得到频率分布折频率分布折线图线图利用样本频分布对总体分布进行相应估计利用样本频分布对总体分布进行相应估计(2)样本容量越大,这种估计越精确。)样本容量越大,这种估计越精确。(1)上例的样本容量为)上例的样本容量为100,如果增至,如果增至1000,其频率分布直方图的情况会有什么变化?假如增其频率分布直方图的情况会有什么变化?假如增至至10000呢?呢?总体密度曲线总体密度曲线频率频率组距组距月均用月均用水量水量/tab (图中阴影部分的面积,表示总体在(图中阴影部分的面积,表示总体在某个区间某个区间 (a, b
26、) 内取值的百分比)。内取值的百分比)。 当样本容量无限增大,分组的组距无限缩小,那么当样本容量无限增大,分组的组距无限缩小,那么频率分布折线图就会无限接近一条光滑曲线频率分布折线图就会无限接近一条光滑曲线总体密总体密度曲线度曲线总体密度曲线总体密度曲线 用样本分布直方图去估计相应的总体分布时,用样本分布直方图去估计相应的总体分布时,一般样本容量越大,一般样本容量越大,频率分布直方图频率分布直方图就会无限接就会无限接近近总体密度曲线总体密度曲线,就越精确地反映了总体的分布,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值规律,即越精确地反映了总体在各个范围内取值百分比。百分
27、比。 总体密度曲线反映了总体在各个范围内取值的总体密度曲线反映了总体在各个范围内取值的百分比百分比,精确地反映了总体的分布规律。是研究总精确地反映了总体的分布规律。是研究总体分布的工具体分布的工具.总体密度曲线总体密度曲线茎茎 叶叶 图图 某赛季甲、乙两名篮球运动员每场比赛得分的某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:原始记录如下:(1)甲运动员得分甲运动员得分:13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39(2)乙运动员得分乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39 甲甲 乙乙 8 0 4 6
28、 3 1 2 5 3 6 8 2 5 4 3 8 9 3 1 6 1 6 7 9 4 4 9 1 5 0 注:注:中间中间的数字表示得分的的数字表示得分的十十位数字。位数字。 旁边旁边的数字分别表示两个人得分的的数字分别表示两个人得分的个位个位数。数。茎叶图茎叶图 当样本数据当样本数据较少较少时,用茎叶时,用茎叶图表示数据的效果较好,它不但图表示数据的效果较好,它不但可以可以保留保留所有的信息,而且所有的信息,而且 可以可以随时随时记录记录,给数据的记录和表示,给数据的记录和表示都方便。都方便。练习:练习:某中学高一(某中学高一(2)班甲,乙两)班甲,乙两名同学自高中以来每场数学考试成名同学自
29、高中以来每场数学考试成绩情况如下:绩情况如下:甲的得分:甲的得分:95,81,75,91,86,89,71,65,76,88,94乙的得分:乙的得分:83,86,93,99,88,96,98,98,79,85,97画出两人数学成绩茎叶图,请根据画出两人数学成绩茎叶图,请根据茎叶图对两人的成绩进行比较。茎叶图对两人的成绩进行比较。 小小 结结 图形图形 优点优点 缺点缺点频率分布频率分布 1)易表示)易表示大量数据大量数据 丢失一些丢失一些直方图直方图 2)直观直观地表明分布地地表明分布地 情况情况 信息信息 1)无信息损失无信息损失 只能处理样本只能处理样本 茎页图茎页图 2)随时记录方便记录
30、和表示)随时记录方便记录和表示 容量较小数据容量较小数据课堂小结课堂小结表示样本分布的方法:表示样本分布的方法:(1)频率分布表)频率分布表(2)频率分布图(包括直方图和条形图)频率分布图(包括直方图和条形图)(3)频率分布折线图)频率分布折线图(4)茎叶图)茎叶图1.频率分布表频率分布表 表示样本的分布的方法:表示样本的分布的方法:分组分组个数累计个数累计频数频数频率频率频率频率/组距组距产品尺寸产品尺寸(mm)2.频率分布直方图频率分布直方图样本频率分布中,样本频率分布中,当样本容量无限增当样本容量无限增大,组距无限缩小大,组距无限缩小样本频率分布直方图样本频率分布直方图接近接近于一条光滑
31、曲线于一条光滑曲线总体总体密度曲线密度曲线,反映了总体分,反映了总体分布。布。3.频率分布折线图频率分布折线图 1.总体分布指的是总体取值的频率分布规律,总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布。的频率分布去估计总体的分布。 2.总体的分布分两种情况:当总体中的个体取总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图。频率分布表或频率分布直方图。 小结小结