《22用样本估计总体.ppt》由会员分享,可在线阅读,更多相关《22用样本估计总体.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、用样本估计总体用样本估计总体2.22.2前面我们研究了通过抽样来收集数据的方法前面我们研究了通过抽样来收集数据的方法, ,了解了提高样本代表性的一些具体方法了解了提高样本代表性的一些具体方法, ,数据数据被收集后被收集后, ,必须从中寻找所包含的讯息必须从中寻找所包含的讯息, ,以便我以便我们能通过们能通过样本样本来估计来估计总体总体。样本的特征直接反映了总体的特征样本的特征直接反映了总体的特征, ,我们通常我们通常用样本的用样本的频率频率和和数字特征数字特征来评估总体的特征。来评估总体的特征。复习回顾复习回顾主要内容2.2.1 用样本的频率分布估计总体分布2.2.2 用样本的数字特征估计总体
2、的数字特征用样本的频率分用样本的频率分布估计总体分布布估计总体分布2.2.1【探究探究】我国是世界上严重缺水的国家之一,我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生城市缺水问题较为突出。某市政府为了节约生活用水,计划在本市试行居民生活用水定额管活用水,计划在本市试行居民生活用水定额管理,即确定一个居民用水量标准理,即确定一个居民用水量标准a a,用水量不超,用水量不超过过a a的部分按平价收费,超出的部分按平价收费,超出a a的部分按议价收的部分按议价收费,如果希望大部分居民的日常生活不受影响,费,如果希望大部分居民的日常生活不受影响,那么标准那么标准a a定为多少
3、比较合理呢?你认为,为了定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做那些工作?较为合理地确定出这个标准,需要做那些工作? 很明显,如果水价太高很明显,如果水价太高, ,影响居民日常生活影响居民日常生活, ,水价太低水价太低, ,不利于节约用水不利于节约用水. . 为了确定一个较为合理的标准为了确定一个较为合理的标准a a,必须先,必须先了解全市居民日常用水量的分布情况,比如月了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等等居民的百分比情况等等. .由于城市住户较多由于城市住户较多,因
4、此我们采用抽查的方式进行因此我们采用抽查的方式进行,下面下面是对是对100户进行抽查的结果户进行抽查的结果:样本容量可以根据实际情况适样本容量可以根据实际情况适当选择当选择,并不一定越大越好并不一定越大越好.这这100100户用水量在户用水量在0.24.30.24.3之间之间, ,除此之外除此之外, ,我们很难得我们很难得到其他信息到其他信息, ,一次我们必须对数据的一次我们必须对数据的潜在信息潜在信息进行分析进行分析在初中在初中, ,我们学习了哪些分析数据的方法我们学习了哪些分析数据的方法? ?人类辨识影像的能力要优於辨识文字与数字人类辨识影像的能力要优於辨识文字与数字的能力的能力 ,因此我
5、们采用图形的方式来展现数,因此我们采用图形的方式来展现数据时,常常不我们直接观察数据要来的快。据时,常常不我们直接观察数据要来的快。一幅好的图胜一幅好的图胜过一千个字过一千个字频数分布图频数分布图频数分布表频数分布表下面我们将要学习到的是下面我们将要学习到的是频率分布表频率分布表和和频率分布图频率分布图从比例的角度从比例的角度来分析数据来分析数据频率分布频率分布的基本步骤是的基本步骤是: :1.1.求求极差极差: :最大数与最小数的差最大数与最小数的差, ,反反映了数据的映了数据的变化范围变化范围4.3-0.2=4.14.3-0.2=4.12.2.决定决定组距组距和和组数组数组距和组数没有固定
6、的标准组距和组数没有固定的标准, ,常常需要尝试和选择的常常需要尝试和选择的过程过程, ,一般数据较少一般数据较少(100(100以内以内) )时时, ,分成分成512512组组3.3.数据分组数据分组: :数据的分组也不是越多越好数据的分组也不是越多越好, ,为了方便为了方便, ,我们力求我们力求“取整取整”2 . 85 . 01 . 4组距极差组数因此,分成因此,分成9 9组较合适组较合适以以0.50.5为组距分组时。可以分成为组距分组时。可以分成9 9组:组:0,0.5),0.5,1.0),0,0.5),0.5,1.0),4,4.5),4,4.5)当样本容量当样本容量n n很大时,分组数
7、很大时,分组数k k应该在(应该在(1+3.3l1+3.3lg gn n)附近)附近4.4.列频率分布表列频率分布表利用利用 计算出各组数据的频率计算出各组数据的频率样本容量频数频率5.5.作频率分布直方图作频率分布直方图频率分布直方图就是以面积的形式反映了数据落在频率分布直方图就是以面积的形式反映了数据落在各个小组的频率的大小,所有小长方形的面积和为各个小组的频率的大小,所有小长方形的面积和为1 1月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.
8、5 4 4.5 O(1 1)居民月均用水量的分布是)居民月均用水量的分布是“山峰山峰”状的,而且是状的,而且是“单峰单峰”的;的;(2 2)大部分居民的月均用水量集中在一个中间值附近,只有少)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;数居民的月均用水量很多或很少;(3 3)居民月均用水量的分布有一定的对称性等)居民月均用水量的分布有一定的对称性等. .月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.
9、5 O 频率分布直方图的特征:频率分布直方图的特征:(1 1)从频率分布直方图可以清楚的看出数据分布)从频率分布直方图可以清楚的看出数据分布的总体趋势;的总体趋势;(2 2)从频率分布直方图得不出原始的数据内容,)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就把数据表示成直方图后,原有的具体数据信息就被抹掉了。被抹掉了。 如右图,我们如右图,我们连接频率分布直方连接频率分布直方图中各小长方形上图中各小长方形上端的中点,就得到端的中点,就得到频率分布折线图频率分布折线图. . 一般的一般的, ,随着样本容量的增加随着样本容量的增加, ,作图时组数作图时组数也相应
10、的变大也相应的变大, ,相应的频率分布折线图会越来越相应的频率分布折线图会越来越接近一条光滑曲线接近一条光滑曲线总体密度曲线总体密度曲线. . 总体密度曲线总体密度曲线反映反映了总体在各个范围内取了总体在各个范围内取值的百分比值的百分比, ,它比频率分它比频率分布直方图提供更加精细布直方图提供更加精细的信息。的信息。例如:图中阴影部分的面积就表示总体在例如:图中阴影部分的面积就表示总体在a ,ba ,b内的百分比。内的百分比。注意点:注意点:由于样本是由于样本是随机随机的,不同的样本得到的频率的,不同的样本得到的频率分布折线图不同;即使对于同一样本,不同的分组情况分布折线图不同;即使对于同一样
11、本,不同的分组情况得到的频率分布折线图也不同,频率分布折线图是随着得到的频率分布折线图也不同,频率分布折线图是随着样本的容量和分组情况的变化而变化的,因此样本的容量和分组情况的变化而变化的,因此不能不能由样由样本的频率分布折线图得到本的频率分布折线图得到准确准确的总体密度曲线。的总体密度曲线。除了上面的几种处理方式外除了上面的几种处理方式外, ,我们还有一种用我们还有一种用来表示数据的图来表示数据的图茎叶图茎叶图例例 某赛季甲、乙两名篮球运动员每场比赛得分的原某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:始记录如下:甲的得分:甲的得分:12,15,24,25,31,31,36,36,3
12、7,39,44,49,50。乙的得分:乙的得分:8,13,14,16,23,26,28,33,38,39,51。 上述的数据可以用下图来表示,中间数字表示得上述的数据可以用下图来表示,中间数字表示得分的十位数,两边数字分别表示两个人各场比赛得分的十位数,两边数字分别表示两个人各场比赛得分的个位数分的个位数.012345834636838915254976611940甲乙通过此图即可看通过此图即可看出甲运动员的得出甲运动员的得分大致对称,发分大致对称,发挥比较稳定!挥比较稳定!用茎叶图表示有两个突出的优点用茎叶图表示有两个突出的优点: :但茎叶图只能表示两位的整数,虽然可以表示但茎叶图只能表示两
13、位的整数,虽然可以表示两个人的比赛结果(或两个以上的记录),但两个人的比赛结果(或两个以上的记录),但没有直方图那么直观、清晰。没有直方图那么直观、清晰。2.2.茎叶图可以在比赛时随时记录,方便茎叶图可以在比赛时随时记录,方便记录与表示记录与表示1.1.从统计图上没有信息的损失,所有的从统计图上没有信息的损失,所有的信息都可以从这个茎叶图中得到信息都可以从这个茎叶图中得到用样本的数字特征估用样本的数字特征估计总体的数字特征计总体的数字特征2.2.2 频率分布直方图和频率分布折线图频率分布直方图和频率分布折线图虽然能够很好的反映总体的分布情况虽然能够很好的反映总体的分布情况, ,但但为了更好的把
14、握总体为了更好的把握总体, ,我们还需要通过样我们还需要通过样本的数据对总体的数字特征进行研究。本的数据对总体的数字特征进行研究。知识探究(一):众数、中位数和平均数知识探究(一):众数、中位数和平均数 思考思考1 1:在初中我们学过众数、中位数和平均在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位字特征,对一组样本数据如何求众数、中位数和平均数?数和平均数? 思考思考2 2:在城市居民月均用水量样本数据的频在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩率分布直方图中,你认
15、为众数应在哪个小矩形内?由此估计总体的众数是什么?形内?由此估计总体的众数是什么? 中位数中位数:将一组数据按大小依次排列,把处在:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数平均数)叫做这组数据的中位数平均数平均数: : 一组数据的算术平均数一组数据的算术平均数 众数众数:在一组数据中,出现次数最多的数据叫:在一组数据中,出现次数最多的数据叫做这组数据的众数做这组数据的众数 众数、中位数、平均数都是描述一组数据的集众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中中趋
16、势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛以平均数的应用最为广泛. .月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O思考思考3 3:在频率分布直方图中,每个小矩形的面积在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有表示什么?中位数左右两侧的直方图的面积应有什么关系?什么关系?取最高矩形下端取最高矩形下端中点的横坐标中点的横坐标2.252.25作为众数作为众数. . 思考思考4 4:
17、在城市居民月均用水量样本数据的频率分布直方在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是图中,从左至右各个小矩形的面积分别是0.040.04,0.080.08,0.150.15,0.220.22,0.250.25,0.140.14,0.060.06,0.040.04,0.02.0.02.由此估计由此估计总体的中位数是什么?总体的中位数是什么? 月均用水量月均用水量/t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O O0.
18、5-0.04-0.08-0.15-0.22=0.010.5-0.04-0.08-0.15-0.22=0.01,0.010.010.5=0.020.5=0.02,中位数是中位数是2.02.2.02. 说明说明: : 2.02 2.02这个中位数的估计值这个中位数的估计值, ,与样本与样本的中位数值的中位数值2.02.0不一样不一样, ,这是因为样本这是因为样本数据的频率分布直方图数据的频率分布直方图, ,只是直观地表只是直观地表明分布的形状明分布的形状, ,但是从直方图本身得不但是从直方图本身得不出原始的数据内容出原始的数据内容, ,所以由频率分布直所以由频率分布直方图得到的中位数估计值往往与样
19、本方图得到的中位数估计值往往与样本的实际中位数值不一致的实际中位数值不一致. .思考思考5 5:平均数是频率分布直方图的平均数是频率分布直方图的“重心重心”,在城市居,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?分别为多少?0.25,0.75,1.25,1.75,2.25,2.75,3.25,3.75,4.250.25,0.75,1.25,1.75,2.25,2.75,3.25,3.75,4.25 月均用水量月均用水量/
20、t频率频率组距组距0.50.50.40.40.30.30.20.20.10.10.5 1 1.5 2 2.5 3 3.5 4 4.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O O思考思考6 6:根据统计学中数学期望原理,将频率分布根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数横坐标之积相加,就是样本数据的估值平均数. . 由此估计总体的平均数是什么?由此估计总体的平均数是什么?0.250.250.04+0.750.04+0.750.08+1.250.08+1.25
21、0.15+1.750.15+1.750.220.22+2.25+2.250.25+2.750.25+2.750.14+3.250.14+3.25 0.06+3.750.06+3.750.04+4.250.04+4.250.02=2.020.02=2.02(t t). . 平均数是平均数是2.02.2.02. 思考思考7 7:从居民月均用水量样本数据可知,该样本从居民月均用水量样本数据可知,该样本的众数是的众数是2.32.3,中位数是,中位数是2.02.0,平均数是,平均数是1.9731.973,这,这与我们从样本频率分布直方图得出的结论有偏差,与我们从样本频率分布直方图得出的结论有偏差,你能解
22、释一下原因吗?你能解释一下原因吗? 频率分布直方图损失了一些样本数据,得到的频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关是一个估计值,且所得估值与数据分组有关. .注注: :在只有样本频率分布直方图的情况下,我们可在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由以按上述方法估计众数、中位数和平均数,并由此估计总体特征此估计总体特征. .思考思考8 8:一组数据的中位数一般不受少数几个极端一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会
23、成为缺点,你能举例说极端值的不敏感有时也会成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解说明什么问题?你怎样理解“我们单位的收入水我们单位的收入水平比别的单位高平比别的单位高”这句话的含义?这句话的含义? 如:样本数据收集有个别差错不影响中位数;大学毕业生如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低凭工资中位数找单位可能收入较低. . 平均数大于(或小于)中位数,说明样本数据中存在平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值许多较大(或较小)的极端值
24、. . 这句话具有模糊性甚至蒙骗性,其中收入水平是员工这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数工资的某个中心点,它可以是众数、中位数或平均数. .三种数字特征的优缺点三种数字特征的优缺点1 1、众数体现了样本数据的最大集中点,但它对其它、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征数据信息的忽视使得无法客观地反映总体特征. .如上如上例中众数是例中众数是2.25t,2.25t,它告诉我们它告诉我们, ,月均用水量为月均用水量为2.25t2.25t的居民数比月均用水量为其它数值的居民数多的居民数比月均用水量
25、为其它数值的居民数多, ,但它但它并没有告诉我们多多少并没有告诉我们多多少. .2 2、中位数是样本数据所占频率的等分线,它不、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为如上例中假设有某一用户月均用水量为10t10t,那,那么它所占频率为么它所占频率为0.01,0.01,几乎不影响中位数几乎不影响中位数, ,但显然但显然这一极端值是不能忽视的。这一极端值是不能忽视的。3 3、由于平均数与每一个样本的
26、数据有关,所以任何一个、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此数都不具有的性质。也正因如此 ,与众数、中位数比较,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。时可靠性降低。 知识探究(二):标准差知识探究(二):标准差 样本的众数、中位数和平均数常用来表示样本数据的样本的
27、众数、中位数和平均数常用来表示样本数据的“中心值中心值”,其中众数和中位数容易计算,不受少数几个,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息极端值的影响,但只能表达样本数据中的少量信息. . 平均平均数代表了数据更多的信息,但受样本中每个数据的影响,数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大越极端的数据对平均数的影响也越大. .当样本数据质量比当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实可能
28、与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离际状况,因此,我们需要一个统计数字刻画样本数据的离散程度散程度. . 思考思考1 1:在一次射击选拔赛中,甲、乙两名运动员在一次射击选拔赛中,甲、乙两名运动员各射击各射击1010次,每次命中的环数如下:次,每次命中的环数如下:甲:甲:7 8 7 9 5 4 9 10 7 47 8 7 9 5 4 9 10 7 4乙:乙:9 5 7 8 7 6 8 6 7 79 5 7 8 7 6 8 6 7 7 甲、乙两人本次射击的平均成绩分别为多少环?甲、乙两人本次射击的平均成绩分别为多少环?77xx乙甲, 思考
29、思考2 2:甲、乙两人射击的平均成绩相等,观察两:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异人成绩的频率分布条形图,你能说明其水平差异在那里吗?在那里吗?环数环数频率频率0.40.40.30.30.20.20.10.14 5 6 7 8 9 10 4 5 6 7 8 9 10 O O(甲)(甲)环数环数频率频率0.40.40.30.30.20.20.10.14 5 6 7 8 9 10 4 5 6 7 8 9 10 O O(乙)(乙)甲的成绩比较分散,极差较大,乙的成绩相对集甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定中,比较稳定. .思考思考3
30、3:对于样本数据对于样本数据x x1 1,x x2 2,x xn n,设想,设想通过各数据到其平均数的平均距离来反映样通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何本数据的分散程度,那么这个平均距离如何计算?计算? 12| |nxxxxxxn-+-+-L思考思考4 4:反映样本数据的分散程度的大小,最常用反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用的统计量是标准差,一般用s s表示表示. .假设样本数据假设样本数据x x1 1,x x2 2,x xn n的平均数为的平均数为 ,则标准差的计算公式,则标准差的计算公式是:是:22212()()()nx
31、xxxxxsn-+-+-=L那么标准差的取值范围是什么?标准差为那么标准差的取值范围是什么?标准差为0 0的样本的样本数据有何特点?数据有何特点? S=0S=0,标准差为,标准差为0 0的样本数据都相等的样本数据都相等. . x思考思考5 5:对于一个容量为对于一个容量为2 2的样本:的样本:x x1 1,x x2 2(x(x1 1x x2 2) ),则,则 , , 在数轴上,这两个统计数据有什么几何意义?由在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?此说明标准差的大小对数据的离散程度有何影响? 122xxx+=212xxs-=标准差越大离散程度越大,
32、数据较分散;标准差标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围越小离散程度越小,数据较集中在平均数周围. . 标准差标准差标准差标准差是样本数据到平均数的一种平均距离。它是样本数据到平均数的一种平均距离。它用来描述样本数据的离散程度。在实际应用中,用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。标准差常被理解为稳定性。规律:标准差越大,规律:标准差越大,则则a越大,数据的越大,数据的离散程度越大;反离散程度越大;反之,数据的离散程之,数据的离散程度越小。度越小。1.1.用样本的数字特征估计总体的数字特征,是指用样本的数字特征估计总体的数字特征,是指用样本的众数、中位数、平均数和标准差等统计用样本的众数、中位数、平均数和标准差等统计数据,估计总体相应的统计数据数据,估计总体相应的统计数据. .2.2.平均数对数据有平均数对数据有“取齐取齐”的作用,代表一组数的作用,代表一组数据的平均水平据的平均水平. .标准差描述一组数据围绕平均数波标准差描述一组数据围绕平均数波动的幅度动的幅度. .在实际应用中,我们常综合样本的多个在实际应用中,我们常综合样本的多个统计数据,对总体进行估计,为解决问题作出决统计数据,对总体进行估计,为解决问题作出决策策. . 知识小结知识小结