《《用样本的频率分布估计总体分布》.ppt》由会员分享,可在线阅读,更多相关《《用样本的频率分布估计总体分布》.ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2.2.1 用样本的频率分布估计总体分布复习引入:简单随机抽样简单随机抽样 系统抽样系统抽样 分层抽样分层抽样(2 2)通过抽样方法收集数据的目的是什么?)通过抽样方法收集数据的目的是什么?从中寻找所包含的信息,用样本去估计总体从中寻找所包含的信息,用样本去估计总体(1)(1)随机抽样的几种常用方法随机抽样的几种常用方法 :我国是世界上严重缺水我国是世界上严重缺水的国家之一,城市缺水的国家之一,城市缺水问题较为突出,某市政问题较为突出,某市政府为了节约生活用水,府为了节约生活用水,计划在本市试行居民生计划在本市试行居民生活用水定额管理,即确活用水定额管理,即确定一个居民月用水量标定一个居民月用
2、水量标准准a a,用水量不超过,用水量不超过a a的的部分按平价收费,超出部分按平价收费,超出a a的部分按议价收费。的部分按议价收费。如果希望大部分居民的如果希望大部分居民的日常生活不受影响,那日常生活不受影响,那么标准么标准a a定为多少比较定为多少比较合理呢合理呢?探究探究:你认为,为了较为你认为,为了较为合理地确定出这个合理地确定出这个标准,需要做哪些标准,需要做哪些工作?工作?我国是世界上严重缺水我国是世界上严重缺水的国家之一,城市缺水的国家之一,城市缺水问题较为突出,某市政问题较为突出,某市政府为了节约生活用水,府为了节约生活用水,计划在本市试行居民生计划在本市试行居民生活用水定额
3、管理,即确活用水定额管理,即确定一个居民月用水量标定一个居民月用水量标准准a a,用水量不超过,用水量不超过a a的的部分按平价收费,超出部分按平价收费,超出a a的部分按议价收费。的部分按议价收费。如果希望大部分居民的如果希望大部分居民的日常生活不受影响,那日常生活不受影响,那么标准么标准a a定为多少比较定为多少比较合理呢合理呢?探究探究:采用抽样调查的方采用抽样调查的方式获得样本数据式获得样本数据分析样本数据来估分析样本数据来估计全市居民用水量的计全市居民用水量的分布情况分布情况下表给出下表给出100100位居民的月均用水量表位居民的月均用水量表 分析数据的一种基本方法是用图将它们画出来
4、,或者分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式供解释数据的新方式讨论:如何分讨论:如何分析数据?析数据?根据这些数据根据这些数据你能得出用水你能得出用水量其他信息吗量其他信息吗?为此我们要对这些数据进行整理与分析为此我们要对这些数据进行整理与分析一一频率分布的概念:频率分布的概念:频率分布频率分布是
5、指一个样本数据在各个小范围内所是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样占比例的大小。一般用频率分布直方图反映样本的频率分布本的频率分布 二二画画频率分布直方图频率分布直方图其其一般步骤一般步骤为:为:(1 1)计算一组数据中最大值与最小值的差,即求极)计算一组数据中最大值与最小值的差,即求极差差(2 2)决定组距与组数)决定组距与组数(3 3)将数据分组)将数据分组(4 4)列频率分布表)列频率分布表(5 5)画频率分布直方图)画频率分布直方图第一步第一步:求极差求极差:(数据组中最大值与最小值的差距数据组中最大值与最小值的差距)最大值最大值=4.3 =4.3
6、最小值最小值=0.2 =0.2 所以极差所以极差=4.3-0.2=4.1=4.3-0.2=4.1第二步第二步:决定组距与组数决定组距与组数:(强调取整)(强调取整)当样本容量不超过当样本容量不超过100100时时,按照数据的多少按照数据的多少,常常分成分成512512组组.为方便组距的选择应力求为方便组距的选择应力求“取整取整”.本题如果组距为本题如果组距为0.5(t).0.5(t).则则 第三步第三步:将数据分组:将数据分组:(给出组的界限给出组的界限)所以将数据分成所以将数据分成9 9组较合适组较合适.0,0.5),0.5,1),1,1.5),4,4.5)共共9组组.分分 组组 频频数累数
7、累计计 频频数数 频频率率 00,0.50.5)4 0.044 0.04 0.5 0.5,1 1)正正 8 0.088 0.08 1 1,1.51.5)正正 正正 正正 15 0.1515 0.15 1.5 1.5,2 2)正正 正正 正正 正正 22 0.2222 0.22 2 2,2.52.5)正正 正正 正正 正正 正正 25 0.2525 0.25 2.5 2.5,3 3)正正 正正 14 0.1414 0.14 3 3,3.53.5)正正 一一 6 0.066 0.06 3.5 3.5,4 4)4 0.044 0.04 4 4,4.5 2 0.024.5 2 0.02 合合计计 10
8、0 1.00100 1.00第四步第四步:列频率分布表列频率分布表.00.10.20.30.40.50.6 0.5 1 1.5 2 2.5 3 3.5 4 4.5第第五五步步:画画出出频频率率分分布布直直方方图图.频率频率/组距组距 月均用水量月均用水量/t/t (组距组距=0.5)=0.5)0.080.160.30.440.50.30.10.080.04小长方形的面小长方形的面积积=?=?小长方形的面小长方形的面积总和积总和=?=?月均用水量最月均用水量最多的在哪个区多的在哪个区间间?请大家阅读第请大家阅读第6868页页,直方图有直方图有哪些优点和缺哪些优点和缺点点?频率分布直方图的特征:频
9、率分布直方图的特征:从频率分布直方图可以清楚的看出数据分布的总体从频率分布直方图可以清楚的看出数据分布的总体趋势。趋势。从频率分布直方图得不出原始的数据内容,把数据从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。表示成直方图后,原有的具体数据信息就被抹掉了。思考思考:1.频率分布表与频率分布直方图的区别?频率分布表与频率分布直方图的区别?频率分布表频率分布表列出的是在各个不同区间内取值的频率。列出的是在各个不同区间内取值的频率。频率分布直方图频率分布直方图是用小长方形面积的大小来表示在各个是用小长方形面积的大小来表示在各个区间内取值的频率。区间内取值的
10、频率。2.如果当地政府希望使如果当地政府希望使85%以上的居民每月的用水以上的居民每月的用水量不超出标准,根据频率分布表量不超出标准,根据频率分布表2-2和频率分布直方和频率分布直方图图2.2-1,你能对制定月用水量标准提出建议吗,你能对制定月用水量标准提出建议吗?你?你认为这个标准一定能够保证认为这个标准一定能够保证85%以上的居民用水不以上的居民用水不超标吗?如果不一定,那么哪些环节可能导致结论超标吗?如果不一定,那么哪些环节可能导致结论的差异呢?的差异呢?3.将组距确定为将组距确定为1,作出教材,作出教材P66页页 居民月均用水居民月均用水量的频率分布直方图量的频率分布直方图 月均用水量
11、/t频率组距0.40.30.20.11 2 3 4 5 O4.谈谈两种组距下,你对图的印象?同一个样本数据,谈谈两种组距下,你对图的印象?同一个样本数据,绘制出来的分布图是唯一的吗?对一组给定的样本数绘制出来的分布图是唯一的吗?对一组给定的样本数据,频率分布直方图的外观形状与哪些因素有关?据,频率分布直方图的外观形状与哪些因素有关?(同样一组数据,如果组距不同,横轴、纵轴的单(同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同。不同的形状给位不同,得到的图和形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体人以不同的印象,这种印象有时会影响我们对总体的
12、判断的判断 )月均用水量/t频率组距0.100.200.300.400.500.511.522.533.544.5连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图三三 频率分布折线图频率分布折线图四四总体密度曲线总体密度曲线频率组距月均用水量/tab (图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比)。当样本容量无限增大,分组的组距无限缩小,那么频率分布折线图就会无限接近一条光滑曲线总体密度曲线总体密度曲线思考思考:1.可以用样本的频率分布折线图得到准确的总可以用样本的频率分布折线图得到准确的总体密度曲线吗?体密度曲线吗?由于样本是随机的,不同的样本得到的频率由于样
13、本是随机的,不同的样本得到的频率分布折线图不同;即使对于同一样本,不同分布折线图不同;即使对于同一样本,不同的分组情况得到的频率分布折线图也不同,的分组情况得到的频率分布折线图也不同,频率分布折线图是随着样本的容量和分组情频率分布折线图是随着样本的容量和分组情况的变化而变化的,因此不能由样本的频率况的变化而变化的,因此不能由样本的频率分布折线图得到准确的总体密度曲线。分布折线图得到准确的总体密度曲线。2.2.总体密度曲线一定存在吗?总体密度曲线一定存在吗?不一定存在,例如总体是投掷骰子实验的所有可能不一定存在,例如总体是投掷骰子实验的所有可能出现的结果。出现的结果。五五茎 叶 图 某赛季甲、乙
14、两名篮球运动员每场比赛得分的原始记录如下:(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39(2)乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39 甲 乙 8 0 4 6 3 1 2 5 3 6 8 2 5 4 3 8 9 3 1 6 1 6 7 9 4 4 9 1 5 0 注:中间的数字表示得分的十位数字。旁边的数字分别表示两个人得分的个位数。茎叶图的特征的特征 当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有的信息,而且 可以随时记录,给数据的记录和表示都方便。图形图形 优点优点 缺点缺点频率分布频率
15、分布 1)易表示)易表示大量数据大量数据 丢失一些丢失一些直方图直方图 2)直观直观地表明分布地地表明分布地 情况情况 信息信息 1)无信息损失无信息损失 只能处理样本只能处理样本 茎叶图茎叶图 2)随时记录方便记录和表示)随时记录方便记录和表示 容量较小数据容量较小数据课堂练习课堂练习练习练习1 1 :(2006年全国卷年全国卷II)一个社会调查机构就某一个社会调查机构就某地居民的月收入调查了地居民的月收入调查了10 000人,并根据所得数画人,并根据所得数画了样本的频率分布直方图了样本的频率分布直方图(如下图如下图).为了分析居民的为了分析居民的收入与年龄、学历、职业等方面的关系,要从这收
16、入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出人中再用分层抽样方法抽出100人作进一步调人作进一步调查,则在查,则在2500,3000(元元)月收入段应抽出月收入段应抽出_人人.0.00010.00020.00030.00040.00051000 1500 2000 2500 3000 3500 4000月收入月收入(元元)频率频率/组距组距练习练习2.2.某化肥厂甲某化肥厂甲 乙两个车间包装肥料乙两个车间包装肥料,在自动包在自动包装传送带上每装传送带上每隔隔3030分钟抽取一包产品分钟抽取一包产品,称其重量称其重量,分别记录如下分别记录如下:甲甲:52,51,4
17、9,48,53,48,49:52,51,49,48,53,48,49乙乙:60,65,40,35,25,65,60:60,65,40,35,25,65,60(1)(1)这种抽样方法是哪一种抽样方法这种抽样方法是哪一种抽样方法?(2)(2)画出茎叶图画出茎叶图,并说明哪个车间的产品比较稳定并说明哪个车间的产品比较稳定.解解:(1)该抽样方法为系统抽样法该抽样方法为系统抽样法.(2)茎叶如图所示茎叶如图所示:由图可以看出甲车间的产品由图可以看出甲车间的产品重量较集中重量较集中,而乙车间的产品重量而乙车间的产品重量较分散较分散,所以甲车间的产品较稳定所以甲车间的产品较稳定.练习3:某中学高一(2)班
18、甲,乙两名同学自高中以来每场数学考试成绩情况如下:甲的得分:95,81,75,91,86,89,71,65,76,88,94乙的得分:83,86,93,99,88,96,98,98,79,85,97画出两人数学成绩茎叶图,请根据茎叶图对两人的成绩进行比较。练习练习4 4:有一个容量为有一个容量为5050的样本数据的分组的频数如的样本数据的分组的频数如下:下:12.5,15.512.5,15.5)3 315.5,18.515.5,18.5)8 818.5,21.518.5,21.5)9 921.5,24.521.5,24.5)111124.5,27.524.5,27.5)101027.5,30.
19、527.5,30.5)5 530.5,33.530.5,33.5)4 4(1)(1)列出样本的频率分布表列出样本的频率分布表;(2)(2)画出频率分布直方图画出频率分布直方图;(3)(3)根据频率分布直方图估计根据频率分布直方图估计,数据落在数据落在15.5,15.5,24.524.5)的百分比是多少)的百分比是多少?解解:组距为组距为3 3 分组分组 频数频数 频率频率 频率频率/组距组距12.5,15.5)315.5,18.5)818.5,21.5)921.5,24.5)1124.5,27.5)1027.5,30.5)530.5,33.5)40.060.160.180.220.200.10
20、0.080.0200.0530.0600.0730.0670.0330.027频率分布直方图如下:频率分布直方图如下:频率频率组距组距0.0100.0200.0300.0400.05012.5 15.50.0600.070课堂小结课堂小结表示样本分布的方法:表示样本分布的方法:(1 1)频率分布表)频率分布表(2 2)频率分布图)频率分布图(3 3)频率分布折线图)频率分布折线图(4 4)茎叶图)茎叶图小结小结:画频率分布直方图的步骤画频率分布直方图的步骤:第一步第一步:求极差求极差:(数据组中最大值与最小值的差距数据组中最大值与最小值的差距)第二步第二步:决定组距与组数决定组距与组数:(强调取整)(强调取整)第三步第三步:将数据分组将数据分组 (给出组的界限给出组的界限)第四步第四步:列频率分布表列频率分布表.(包括分组、频数累计、(包括分组、频数累计、频数、频率)频数、频率)第五步第五步:画频率分布直方图画频率分布直方图(在频率分布表的基础上(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率绘制,横坐标为样本数据尺寸,纵坐标为频率/组距组距.)组距组距:指每个小组的两个端点的距离,组距指每个小组的两个端点的距离,组距组数组数:将数据分组,当数据在将数据分组,当数据在100个以内时,个以内时,按数据多少常分按数据多少常分5-12组。组。