《《总体分布的估计》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《总体分布的估计》PPT课件.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计的基本思想方法:根据样本的情况去估计总体的相应情况根据样本的情况去估计总体的相应情况. .统计的核心问题:一类是如何从总体中抽取样本? 另一类是如何根据对样本的整理、计算、分另一类是如何根据对样本的整理、计算、分析析, ,对总体的情况作出推断对总体的情况作出推断.国际奥委会国际奥委会2003年年6月月29日决定,日决定,2008年北京年北京奥运会举办的日期比原定日期推迟两周,改在奥运会举办的日期比原定日期推迟两周,改在8月月8日至日至8月月24日举行原因是日举行原因是7月末月末8月初北京地区月初北京地区得气温高于得气温高于8月中下旬月中下旬下表是随机抽取的近年来北京地区下表是随机抽取的近年
2、来北京地区7月月25日至日至8月月24日的日最高气温,得到如下样本日的日最高气温,得到如下样本(单位:单位: C)7月月25日日至至8月月10日日41.9 37.5 35.7 35.4 37.2 38.1 34.7 33.7 33.332.5 34.6 33.0 30.8 31.0 28.6 31.5 28.88月月8日至日至8月月24日日28.6 31.5 28.8 33.2 32.5 30.3 30.2 29.8 33.132.8 29.4 25.6 24.7 30.0 30.1 29.5 30.3l怎样通过上表中的数据,分析比较两时间段的高温(怎样通过上表中的数据,分析比较两时间段的高温
3、(33)状)状况呢?况呢?问题引入:问题引入:1.频数与频率频数与频率 频数频数是指一组数据中,某范围内的数据出现是指一组数据中,某范围内的数据出现的次数;把频数除以数据的总个数,就得到的次数;把频数除以数据的总个数,就得到频率频率.2.频率分布表频率分布表 当总体很大或不便于获得时,可以用样本的当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布频率分布估计总体的频率分布.我们把反映总体我们把反映总体频率分布的表格称为频率分布的表格称为频率分布表频率分布表.7月月25日日至至8月月10日日41.9 37.5 35.7 35.4 37.2 38.1 34.7 33.7 33.332
4、.5 34.6 33.0 30.8 31.0 28.6 31.5 28.88月月8日至日至8月月24日日28.6 31.5 28.8 33.2 32.5 30.3 30.2 29.8 33.132.8 29.4 25.6 24.7 30.0 30.1 29.5 30.3时间时间总天数总天数高温天数高温天数频率频率7月月25日至日至8月月10日日17110.6478月月8日至日至8月月24日日1720.118频率分布表频率分布表:3.频率分布条形图频率分布条形图时间时间总天数总天数高温天数高温天数频率频率7月月25日至日至8月月10日日17110.6478月月8日至日至8月月24日日1720.1
5、18 各长方形长条的宽度要相同各长方形长条的宽度要相同. .相邻长条的间距要适当相邻长条的间距要适当.长方形长条的高度表示取各长方形长条的高度表示取各值的频率值的频率.0.10.20.30.40.50.60.77/25-8/10时间时间频率频率8/8-8/24由此可得:近年来北京地区由此可得:近年来北京地区7月月25日至日至8月月10日日的高温天气的的高温天气的频率明显高于频率明显高于8月月8日至日至8月月24日日.我国是世界上严重缺水的国我国是世界上严重缺水的国家之一,城市缺水问题较为家之一,城市缺水问题较为突出,某市政府为了节约生突出,某市政府为了节约生活用水,计划在本市试行居活用水,计划
6、在本市试行居民生活用水定额管理,即确民生活用水定额管理,即确定一个居民月用水量标准定一个居民月用水量标准a a,用水量不超过用水量不超过a a的部分按平的部分按平价收费,超出价收费,超出a a的部分按议的部分按议价收费。如果希望大部分居价收费。如果希望大部分居民的日常生活不受影响,那民的日常生活不受影响,那么标准么标准a a定为多少比较合理定为多少比较合理呢呢 ?探究探究:你认为,为了较为你认为,为了较为合理地确定出这个合理地确定出这个标准,需要做哪些标准,需要做哪些工作?工作? 我国是世界上严重缺水的国我国是世界上严重缺水的国家之一,城市缺水问题较为家之一,城市缺水问题较为突出,某市政府为了
7、节约生突出,某市政府为了节约生活用水,计划在本市试行居活用水,计划在本市试行居民生活用水定额管理,即确民生活用水定额管理,即确定一个居民月用水量标准定一个居民月用水量标准a a,用水量不超过用水量不超过a a的部分按平的部分按平价收费,超出价收费,超出a a的部分按议的部分按议价收费。如果希望大部分居价收费。如果希望大部分居民的日常生活不受影响,那民的日常生活不受影响,那么标准么标准a a定为多少比较合理定为多少比较合理呢呢 ?探究探究:采用抽样调查的方采用抽样调查的方式获得样本数据式获得样本数据分析样本数据来估分析样本数据来估计全市居民用水量的计全市居民用水量的分布情况分布情况下表给出下表给
8、出100100位居民的月均用水量表位居民的月均用水量表 分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式据的新方式讨论:如何分讨论:如何分析数据?析数据?根据这些数据根据这些数据你能得出用水你能得出用水量其他信息吗量其他信息吗? ?为此我们要对这些数据进
9、行整理与分析为此我们要对这些数据进行整理与分析一频率分布的概念:一频率分布的概念:频率分布频率分布是指一个样本数据在各个小范围内是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反所占比例的大小。一般用频率分布直方图反映样本的频率分布映样本的频率分布 二画二画频率分布直方图频率分布直方图其其一般步骤一般步骤为为(1 1)计算一组数据中最大值与最小值的差,即求极差)计算一组数据中最大值与最小值的差,即求极差(2 2)决定组距与组数)决定组距与组数(3 3)将数据分组)将数据分组(4 4)列频率分布表)列频率分布表(5 5)画频率分布直方图)画频率分布直方图第一步第一步: : 求极
10、差求极差: ( (数据组中最大值与最小值的差距数据组中最大值与最小值的差距) ) 最大值最大值= 4.3 = 4.3 最小值最小值= 0.2 = 0.2 所以极差所以极差= 4.3-0.2 = 4.1= 4.3-0.2 = 4.1第二步第二步: : 决定组距与组数决定组距与组数: : (强调取整)(强调取整) 当样本容量不超过当样本容量不超过100100时时, , 按照数据的多少按照数据的多少, , 常分成常分成512512组组. .为方便组距的选择应力求为方便组距的选择应力求”取整取整”. . 本题如果组距为本题如果组距为0.5(t). 0.5(t). 则则 4.18.20.5极差组数=组距
11、第三步第三步: : 将数据分组:将数据分组:( ( 给出组的界限给出组的界限) ) 所以将数据分成所以将数据分成9 9组较合适组较合适. . 0, 0.5), 0.5, 1), 1, 1.5),4, 4.5) 共共9组组. 第四步第四步: : 列频率分布表列频率分布表. . 分组分组频数频数频率频率频率频率/组距组距0-0.5)40.5-1)8 1-1.5)15 1.5-2)22 2-2.5)25 2.5-3)15 3-3.5)5 3.5-4)4 4-4.5)2合计合计100组距组距=0.5=0.5 0.040.080.080.160.30.150.440.220.250.512.000.02
12、0.040.040.080.10.30.150.0500.10.20.30.40.50.6 0.5 1 1.5 2 2.5 3 3.5 4 4.5第第五五步步: : 画画出出频频率率分分布布直直方方图图. 频率频率/ /组距组距 月均用水量月均用水量/t/t ( (组距组距=0.5)=0.5) 0.080.160.30.440.50.30.10.080.04小长方形的面小长方形的面积积=?=?小长方形的面小长方形的面积总和积总和=?=?月均用水量最月均用水量最多的在哪个区多的在哪个区间间? ?探究:探究:同样一组数据同样一组数据, ,如果组距不同如果组距不同, ,横轴、纵轴横轴、纵轴的单位不同
13、的单位不同, ,得到的图的形状也会不同得到的图的形状也会不同. .不同的形不同的形状给人以不同的印象状给人以不同的印象, ,这种印象有时会影响我们这种印象有时会影响我们对总体的判断对总体的判断. .分别以分别以1和和0.1为组距重新作图为组距重新作图, ,然然后谈谈你对图的印象后谈谈你对图的印象.从图中我们可以看到从图中我们可以看到,月均月均用水量在区间用水量在区间2,2.5)内内的居民最多,在的居民最多,在1.5,2)内次之,大部分居民的月内次之,大部分居民的月均用水量都在均用水量都在1,3)之间之间. 直方图能够很容易地表示大量数据,非常直观地直方图能够很容易地表示大量数据,非常直观地表明
14、分布的形状,使我们能够看到分布表中看不清楚表明分布的形状,使我们能够看到分布表中看不清楚的数据模式,但是直观图也丢失了一些信息,例如,的数据模式,但是直观图也丢失了一些信息,例如,原始数据不能在图中表示出了原始数据不能在图中表示出了.频率分布的条形图和频率分布直方图的区别频率分布的条形图和频率分布直方图的区别 两者是不同的概念;两者是不同的概念;横轴:两者表示内容横轴:两者表示内容相同相同.思考:思考: 频率分布条形图和频率分布直方图是两个相同的概念吗?频率分布条形图和频率分布直方图是两个相同的概念吗? 有什么区别?有什么区别?纵轴:两者表示的内容纵轴:两者表示的内容不相同不相同.频率分布条形
15、图频率分布条形图的纵轴(长方形的高)表示频率的纵轴(长方形的高)表示频率; 频率分布直方图频率分布直方图的纵轴(长方形的高)表示频率与组距的纵轴(长方形的高)表示频率与组距的比值的比值.其相应组距上的频率等于该组距上长方形的面积其相应组距上的频率等于该组距上长方形的面积. =频率长方形的面积组距频率组距S1 计算数据中最大值与最小值的差计算数据中最大值与最小值的差(极差),确定(极差),确定全全距距(指整个取值区间的长度指整个取值区间的长度) S2 根据全距,决定组数和组距根据全距,决定组数和组距(分成的区间的长度分成的区间的长度).S3 分组:通常对组内数据所在区间取左闭右开区间,分组:通常
16、对组内数据所在区间取左闭右开区间,最后一组取闭区间最后一组取闭区间.S4 登记频数,计算频率,列出频率分布表登记频数,计算频率,列出频率分布表.算法算法:1.频率分布表频率分布表S1 作出频率分布表,然后作直角坐标系,以横轴表示数据,纵作出频率分布表,然后作直角坐标系,以横轴表示数据,纵 轴表示轴表示“频率组距频率组距”;S2 把横轴分为若干段,每一线段对应一个组的组距,把横轴分为若干段,每一线段对应一个组的组距,S3 以此线段为底作一矩形,它的高等于该组的频率以此线段为底作一矩形,它的高等于该组的频率/组距组距,这样得这样得 出一系列的矩形,每个矩形的面积恰好是该组上的频率出一系列的矩形,每
17、个矩形的面积恰好是该组上的频率这些矩形就构成了频率分布直方图这些矩形就构成了频率分布直方图 所有矩形的面积和为所有矩形的面积和为1 算法算法:2.频率分布直方图频率分布直方图图形的意义:图形的意义:频率分布直方图中各小长频率分布直方图中各小长方形的面积表示什么?各小长方形的面方形的面积表示什么?各小长方形的面积之和为多少?积之和为多少?各小长方形的面积各小长方形的面积= =频率频率各小长方形的面积之和各小长方形的面积之和= =1 1月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O宽度:宽度:组距组距高度:高度:频率
18、频率组距组距频率分布折线图频率分布折线图 如果将频率分布直方图中各相邻的矩形的如果将频率分布直方图中各相邻的矩形的上底边上底边的中点的中点顺次连结起来,就得到一条折线,我们称这条顺次连结起来,就得到一条折线,我们称这条折线为本组数据的折线为本组数据的频率折线图频率折线图练习练习: :投掷一枚均匀骰子投掷一枚均匀骰子44次的记录是次的记录是:32415134565425313414516331242634661622526543现对这些数据进行整理,试画出频数分布直方图现对这些数据进行整理,试画出频数分布直方图第一步:写出样本可能出现的一切数值,即:第一步:写出样本可能出现的一切数值,即:1,2
19、,3,4,5,6 1,2,3,4,5,6 共共6 6个数个数( (数据分组数据分组) )第二步:列出频率分布表:第二步:列出频率分布表:样本样本频数频数7 77 78 88 87 77 7频率频率0.160.160.160.160.180.180.180.180.160.160.160.16组距组距=1=1第三步第三步: : 画频率分布直方图画频率分布直方图小结小结: : 画频率分布直方图的步骤画频率分布直方图的步骤: : 第一步第一步: 求极差求极差: (数据组中最大值与最小值的差距数据组中最大值与最小值的差距) 第二步第二步: 决定组距与组数决定组距与组数: (强调取整)(强调取整) 第三
20、步第三步: 将数据分组将数据分组 ( 给出组的界限给出组的界限) 第四步第四步: 列频率分布表列频率分布表. (包括分组、频数、频率(包括分组、频数、频率、频率、频率/组距组距) 第五步第五步: 画频率分布直方图画频率分布直方图(在频率分布表的基础上绘制,横(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率坐标为样本数据尺寸,纵坐标为频率/组距组距.) 组距组距:指每个小组的两个端点的距离,组距指每个小组的两个端点的距离,组距组数组数:将数据分组,当数据在将数据分组,当数据在100个以内时,个以内时, 按数据多少常分按数据多少常分5-12组。组。4.18.20.5极差组数=组距频率
21、折线图的优点是它反映了数据的变化趋势如果频率折线图的优点是它反映了数据的变化趋势如果将样本容量取得足够大,分组的组距取得足够小,则将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为这条折线将趋于一条曲线,我们称这一曲线为总体分总体分布的密度曲线布的密度曲线总体密度曲线总体密度曲线总体在区间总体在区间 内取值的概率内取值的概率),(ba 某篮球运动员在某赛季各场比赛的得分情况如下:某篮球运动员在某赛季各场比赛的得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,5012345叶:表示个位数字叶:表示个位数字茎:表示十位数字茎:
22、表示十位数字茎叶图茎叶图2545166794901从这张图可以粗从这张图可以粗略地看出,该运略地看出,该运动员平均得分及动员平均得分及中位数、众数都中位数、众数都在在20到到40之间,之间,且分布较对称,且分布较对称,集中程度高,说集中程度高,说明其发挥比较稳明其发挥比较稳定定茎叶图的画法:茎叶图的画法:将所有的两位数的十位数字作为将所有的两位数的十位数字作为“茎茎”,个,个位数字作为位数字作为“叶叶”,茎相同者共用一个茎,茎按,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出从大到小(或从小到大)
23、的顺序同行列出茎叶图的优缺点:茎叶图的优缺点:优点是所有的信息都可以从茎叶图中得到,优点是所有的信息都可以从茎叶图中得到,便于记录和表示但茎叶图表示三位或三位以上便于记录和表示但茎叶图表示三位或三位以上的数据时不够方便的数据时不够方便 例例甲、乙两篮球运动员在上赛季甲、乙两篮球运动员在上赛季每场比赛的得分如下,试比较这两位每场比赛的得分如下,试比较这两位运动员的得分水平运动员的得分水平甲甲 12,15,24,25,31,31,36,36,37,39,44,49,50乙乙 8,13,14,16,23,26,28,33,38,39,51解:画出两人得分的茎叶图;解:画出两人得分的茎叶图;从这个茎叶
24、图可以看出甲运动员的得从这个茎叶图可以看出甲运动员的得分大致对称,平均得分及中位数、众分大致对称,平均得分及中位数、众数都是多分;乙运动员的得分除数都是多分;乙运动员的得分除一个外,也大致对称,平均得分一个外,也大致对称,平均得分及中位数、众数都是多分,因此及中位数、众数都是多分,因此甲运动员发挥比较稳定,总体得分情甲运动员发挥比较稳定,总体得分情况比乙好况比乙好 练习:练习: 1.1.右面是甲、右面是甲、乙两名运动员乙两名运动员某赛季一些场某赛季一些场次得分的茎叶次得分的茎叶图,据图可知图,据图可知 ( )甲甲012345乙乙824719936250328754219441AA甲运动员的成绩好于乙运动员甲运动员的成绩好于乙运动员B乙运动员的成绩好于甲运动员乙运动员的成绩好于甲运动员C甲、乙两名运动员的成绩没有明显的差异甲、乙两名运动员的成绩没有明显的差异D甲运动员的最低得分为甲运动员的最低得分为0分分 从一个养鱼池中捕得从一个养鱼池中捕得m条条鱼,做上记号后放入池中鱼,做上记号后放入池中, 数日数日后又捕得后又捕得n条鱼,其中条鱼,其中k条有记条有记号,估计池中有鱼多少条?号,估计池中有鱼多少条?kmnm,N.nNk令得