《【高中数学】总体取值规律的估计 第1课时 高一数学同步教学课件(人教A版2019必修第二册).pptx》由会员分享,可在线阅读,更多相关《【高中数学】总体取值规律的估计 第1课时 高一数学同步教学课件(人教A版2019必修第二册).pptx(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、9.2用样本估计总体 收集数据是为了寻找数据中蕴含所包含的信息.因为实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律,所以需要根据问题背景的特点,选择合适的统计图表对数据进行整理和直观描述.在此基础上,通过数据分析,找出数据从中蕴含的信息,就可以利用这些信息来解决实际问题了.下面我们讨论对随机抽样获取的数据的处理方法.9.2.1 总体取值规律的估计第1课时 面对一个统计问题,在随机抽样获得观测数据的基础上,需要根据数据分析的需要,选择适当的统计图表描述和表示数据,获得样本的规律,并利用样本的规律估计总体的规律,解决相应的实际问题.请看下面的问题.问题1 我国是世界上严重缺水的国家之一
2、,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作?每户居民月均用水量标准如果定得太低,会影响很多居民的日常生活;如果标准太高,则不利于节水.为了确定一个较为合理的用水标准a,必须先了解在全市所有居民用户中,月均用水量在不同范围内的居民用户所占的比例情况.如果经费、时间等条件允许,我们可以通过全面调查获得过去一年全市所有居民用户的月均用水量数据,进而得到月均用水量在不同范围
3、内的居民用户所占的比例.由于全市居民用户很多,通常采用抽样调查的方式,通过分析样本观测数据,来估计全市居民用户月均用水量的分布情况.在这个问题中,总体是该市的全体居民用户,个体是每户居民用户,调查的变量是居民用户的月均用水量.假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t):从这组数据我们能发现什么信息呢?如果将这组数据从小到大排序,很容易发现,这组数据的最小值是1.3t,最大值是28.0t,其他在1.3t至28.0t之间.为了更深入地挖掘数据蕴含的信息,需要对数据进行整理与分析.为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观的表示出来.在
4、初中,我们曾用频数分布表和频数分布图来整理和表示这种数字型数据,由此能使我们清楚地知道数据分布在各个小组的个数.用图表示数据不仅有利于从数据中提取信息,还可以利用图形传递信息.用表格整理数据是通过改变数据的组织方式,为数据解释提供新方式.在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表和频率分布直方图,来整理和分析数据.与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.1.求极差极差为一组数据中最大值与最小值的差.2.确定组距与组数这说明样本观测数据的变化范围是26.7t.合适的组距与组数对发现数据的分布规律有重
5、要意义.组数太多或太少,都会影响我们了解数据的分布情况.组距与组数的确定没有固定的标准,常常需要一个尝试和选择过程.数据分组的组数与数据的个数有关,一般数据的个数越多,所分的组数也越多.当样本量不超过100时,常分成512组.为方便起见,一般取等长组距,并且组距应力求“取整”.3.将数据分组 分组时可以先确定组距,也可以先确定组数,如果我们取所有组距为3,则 由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值.即可以将数据分成9组,这也说明这个组距是比较合适的.3.将数据分组 例如,可以取区间为1.2,28.2按如下方式把样
6、本观测数据以组距3分为9组.1.2,4.2),4.2,7.2),25.2,28.2.4.列频率分布表计算各小组的频率,例如第一小组的频率是 作出频率分布表5.画频数分布直方图能够清楚地知道数据分布在各个小组的个数用横轴表示月均用水量,6.画频率分布直方图根据右表可以得到如图所示的频率分布直方图 频率分布直方图与频数分布直方图有什么区别?各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小.容易知道,在频率分布直方图中,各小长方体的面积的总和等于1,即样本数据落在整个区间的频率为1.频率分布直方图把样本数据落在各个区间的比例大小直观化,更有利于
7、我们从整体上把握数据的分布特点.观察!观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?从频率分布表中可以清楚地看出,样本观测数据落在各个小组的比例大小.月均用水量在区间4.2,7.2)内的居民用户最多,在区间1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等.从频率分布直方图中容易看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”.这表明大部分居民用户月均用水量集中在一个较低值区域,尤其在区间1.2,7.2)最为集
8、中,少数居民用户的月均用水量 偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.有了样本观测数据的频率分布,我们可以用它估计总体的取值规律.根据100户居民用户月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户的月均用水量集中在较低值区域.这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水目的 需要注意的是,由于样本的随机性,这种估计可能会存在一定的误差,但这一误差一般不会影响我们对总体分布情况的大致了解.探究!分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直方图如下图
9、.观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?探究!分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直方图如下图.观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?图(1)中直方图的数少、组距大,从图中容易看出,数据分布的整体规律是随着月均用水量的增加,居民用户数的频率在降低。从上图可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同。月均用水量在区间1.2,10.2)内的居民用户数的频率,远大于在另两个区间10.2,19.2)和19.2,28.2)内的频率,这说明大部分居民用户的月均用水量都少于10.2t。图(2)中直
10、方图的组数多、组距小,从图中可以看出,数据主要集中在低值区,尤其在区间5.2,6.2)内最为集中,从总体上看,随着月均用水量的增加,居民用户数的频率呈下降趋势,但存在个别区间频率变大或者缺少的现象.从上述分析可见,当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点。对于同一组数据,因为组距、组数不同而得到不同形状的直方图,会给人以不同的频率分布印象,这种印象有时会影响人们对总体
11、的判断.因此,我们要注意积累数据分组、合理使用图表的经验.(1)求极差,即数据中最大值与最小值的差(2)决定组距与组数:组数=极差/组距(3)分组,通常对组内数值所在区间,取左闭右 开区间,最后一组取闭区间(4)登记频数,计算频率,列出频率分布表画频率分布直方图的步骤:(5)画出频率分布直方图(纵轴表示频率组距)归纳小结频率分布直方图应用步骤1.求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图1.有一个容量为50的样本数据的分组的频数如下:12.5,15.5)315.5,18.5)818.5,21.5)921.5,24.5)1124.5,27.5)1027.5,30.
12、5)530.5,33.5)4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在15.5,24.5)的百 分比是多少?分组 频数 频率频率/组距12.5,15.5)315.5,18.5)818.5,21.5)921.5,24.5)1124.5,27.5)1027.5,30.5)530.5,33.5 40.060.160.180.220.200.100.080.0200.0530.0600.0730.0670.0330.027频率分布直方图如下:频率组距0.0100.0200.0300.0400.0500.0600.07012.515.5 18.521.5
13、24.527.530.533.5(3)根据频率分布直方图估计,数据落在15.5,24.5)的百 分比是多少?2.在某种产品中,抽取了一个容量为30的样本,检测结果 为一级品5件,二级品8件,三级品13件,次品4件(1)列出样本的频率分布表,画出频率分布条形图;(2)根据上述结果,估计此种产品为二级品或三级品的概 率约是多少 解:(1)样本的频率分布表为:0.13 4 次品0.43 13 三级品0.27 8 二级品0.17 5 一级品频率 频数 产品(2)样本频率分布的条形图为:0.10.20.30.40.50.60.7一级品 二级品产品频率三级品 次品(3)此种产品为二级品或三级品的概率约为0.270.430.7 3.一个容量为100的样本,数据的分组和各组的相关信 息如下表,试完成表中每一行的两个空格.分组 频数 频率 频率累计12,15)615,18)0.0818,21)0.3021,24)2124,27)0.6927,30)1630,33)0.1033,36 1.00合计 100 1.00