《用样本数字特征估计总体数字特征ppt课件.ppt》由会员分享,可在线阅读,更多相关《用样本数字特征估计总体数字特征ppt课件.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Youyou课堂Http:/2014年韩国仁川亚运会正在如火如荼的进行着,年韩国仁川亚运会正在如火如荼的进行着,在一次射击比赛中,甲、乙两名运动员各射击了在一次射击比赛中,甲、乙两名运动员各射击了10次,命中环数如下:次,命中环数如下:甲:甲:7,8,6,8,6,5,8,10,7,4乙:乙:9,5,7,8,7,6,8,6,7,7观察上述样本数据,你能判断哪个运动员发挥的更观察上述样本数据,你能判断哪个运动员发挥的更稳定些吗?稳定些吗?课题引入课题引入三数概念三数概念1、众数众数 在一组数据中,出现次数最多在一组数据中,出现次数最多的数据叫做这一组数据的众数。的数据叫做这一组数据的众数。2、中位
2、数中位数 将一组数据按大小依次排列,将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。据的平均数)叫做这组数据的中位数。3、平均数平均数 一组数据的总和除以数据的个一组数据的总和除以数据的个数所得的值。数所得的值。求下面这组数据的众数、中位数、平均数求下面这组数据的众数、中位数、平均数众数为众数为6 中位数为中位数为6 平均数平均数6810361044103108886666444x也可以说平均数为各个不同数字乘以相应频率之和。也可以说平均数为各个不同数字乘以相应频率之和。4、4、4、6、6、6、6、8、8、8月
3、均用水量月均用水量/t频率频率/组距组距o4.543.532.521.510.50.500.400.300.200.10如何从频率分布直方图中估计众数?如图:如何从频率分布直方图中估计众数?如图:2.25 众数在样本数据的频率分布直方图中,众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。就是最高矩形的中点的横坐标。思考:思考:频率分布直方图中估计的众数与原始频率分布直方图中估计的众数与原始数据中的众数数据中的众数2.32.3不同,为什么?不同,为什么? 在频率分布直方图,我们只能直观地看出在频率分布直方图,我们只能直观地看出数据的大概分布情况,从直方图本身得不出数据的大概分布情况
4、,从直方图本身得不出原始的数据内容,直方图已经损失一些样本原始的数据内容,直方图已经损失一些样本信息。信息。讨论:讨论:众数估计总体情况有什么优缺点?众数估计总体情况有什么优缺点? 能够体现样本数据的最大集中点,但它能够体现样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映对其它数据信息的忽视使得无法客观地反映总体特征。总体特征。如何从频率分布直方图中估计中位数?如何从频率分布直方图中估计中位数? 0.020.040.060.140.250.220.150.080.04月均用水量月均用水量/t频率频率/组距组距o4.543.532.521.510.50.500.400.300.2
5、00.10前四个小矩形的面积前四个小矩形的面积和和=0.492.02后四个小矩形的后四个小矩形的面积和面积和=0.26分析:分析:在样本数据中,有在样本数据中,有50%50%的个体小于或等于中位数,也有的个体小于或等于中位数,也有50%50%的个体大的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。的面积应该相等。 总结:总结:在频率分布直方图中,把频率分布直方图划分左右两在频率分布直方图中,把频率分布直方图划分左右两个面积相等的分界线与个面积相等的分界线与x轴交点的横坐标称为中位数。轴交
6、点的横坐标称为中位数。 注注:图中的数据是小矩形的面积即频率图中的数据是小矩形的面积即频率上图中,设中位数为上图中,设中位数为x,则,则 02. 25 . 05 . 0) 2(22. 015. 008. 004. 0 xx思考:思考:2.022.02这个中位数的估计值,与样本数据的中这个中位数的估计值,与样本数据的中位数位数2.02.0不同,为什么?不同,为什么? 从频率分布直方图本身得不出原始的数据内容,从频率分布直方图本身得不出原始的数据内容,频率分布直方图已经损失一些样本信息。频率分布直方图已经损失一些样本信息。思考:思考:中位数不受少数极端值的影响,这在某些情中位数不受少数极端值的影响
7、,这在某些情 况下是一个优点,但它对极端值的不敏感有时也会成况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?为缺点,你能举例说明吗? 考察考察100位居民的月均用水量表中的数据,如果把位居民的月均用水量表中的数据,如果把最后一个数据错写成最后一个数据错写成22,并不会对样本中位数产生影,并不会对样本中位数产生影响也就是说对极端数据不敏感的方法能够有效地预防响也就是说对极端数据不敏感的方法能够有效地预防错误数据的影响,而在实际应用中人为操作的失误经错误数据的影响,而在实际应用中人为操作的失误经常造成错误数据。常造成错误数据。对极端值不敏感有利的例子对极端值不敏感有利的例子:
8、 某人具有初级计算机专业技术水平,某人具有初级计算机专业技术水平,想找一份收入好的工作。这时如果采用各个想找一份收入好的工作。这时如果采用各个公司计算机专业技术人员收入的中位数作为公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:很选择工作的参考指标就会冒这样的风险:很可能所选择公司的初级计算机专业技术水平可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的人员的收入很低,其原因是中位数对极小的数据不敏感。数据不敏感。这里更好的方法是同时用平均这里更好的方法是同时用平均数和中位数来作为参考指标,选择平均数较数和中位数来作为参考指标,选择平均数较大
9、且中位数较大的公司就业。大且中位数较大的公司就业。对极端值不敏感有弊的例子:对极端值不敏感有弊的例子: 如何从频率分布直方图中估计平均数如何从频率分布直方图中估计平均数 ? 注注:图中的数据是小矩形的面积即频率图中的数据是小矩形的面积即频率0.020.040.060.140.250.220.150.080.04月均用水量月均用水量/t频率频率/组距组距o4.543.532.521.510.50.500.400.300.200.10.0.250.751.251.752.25.2.753.253.754.25 平均数等于频率分布直方图中每个小矩形平均数等于频率分布直方图中每个小矩形的面积乘以小矩形
10、底边中点的横坐标之和。的面积乘以小矩形底边中点的横坐标之和。2.02思考:思考:平均数估计总体情况有什么优缺点?平均数估计总体情况有什么优缺点? 平均数与每一个样本的数据有关,与众数、中平均数与每一个样本的数据有关,与众数、中位数比较起来,平均数可以反映出更多的关于样本位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。响较大,使平均数在估计时可靠性降低。想一想:想一想:某次数学期中考试,毛毛同学得了某次数学期中考试,毛毛同学得了7878分。分。全班共全班共3030人,其他同学的
11、成绩为人,其他同学的成绩为1 1个个100100分,分, 4 4个个9090分,分, 2222个个8080分分, , 以及一个以及一个2 2分和一个分和一个1010分。毛毛计分。毛毛计算出全班的平均分为算出全班的平均分为7777分,所以毛毛回家告诉妈妈分,所以毛毛回家告诉妈妈说,他这次成绩处于班级说,他这次成绩处于班级“中上水平中上水平”。这种说法。这种说法对吗?对吗?2.标准差标准差 平均数向我们提供了样本数据的重要平均数向我们提供了样本数据的重要信息信息,但是平均有时也会使我们作出对总但是平均有时也会使我们作出对总体的片面判断因为这个平均数掩盖了一体的片面判断因为这个平均数掩盖了一些极端的
12、情况,而这些极端情况显然是不些极端的情况,而这些极端情况显然是不能忽的因此,只有平均数还难以概括样能忽的因此,只有平均数还难以概括样本数据的实际状态本数据的实际状态 例如:有两位射击运动员在一次射击测试中各射靶例如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:次,每次命中的环数如下:甲:甲:乙:乙: 如果你是教练如果你是教练,你应当如何对这次射击作出评价你应当如何对这次射击作出评价?如果看两人本次射击的平均成绩如果看两人本次射击的平均成绩,由于由于 两人射击两人射击 的平均成绩是一样的的平均成绩是一样的.那么两个人的水那么两个人的水平就没有什么差异吗平就没有什么差异吗?
13、有两位射击运动员在一次射击测试中各射靶十次,每次命中的环数如下:有两位射击运动员在一次射击测试中各射靶十次,每次命中的环数如下: 如果你是教练,你应当如何对这次射击情况作出评价?如果这是一次选拔性如果你是教练,你应当如何对这次射击情况作出评价?如果这是一次选拔性考核,你应当如何作出选择?考核,你应当如何作出选择? 直观上看直观上看, ,还是有差异的还是有差异的. .如如: :甲成绩比较分散甲成绩比较分散, ,乙乙成绩相对集中成绩相对集中. .频率频率甲乙环数环数 考察样本数据的分散程度的大小,最常用的统计考察样本数据的分散程度的大小,最常用的统计量是量是标准差标准差标准差是样本平均数的一种平均
14、距离,标准差是样本平均数的一种平均距离,一般用一般用s表示表示.)()()(122221xxxxxxnsn 一个样本中的个体与平均数之间的距离关系可一个样本中的个体与平均数之间的距离关系可用下图表示用下图表示: 例题例题1:1:画出下列四组样本数据的直方图画出下列四组样本数据的直方图, ,说明它说明它们的异同点们的异同点. .(1) 5, 5, 5, 5, 5, 5, 5, 5, 5;(2) 4, 4, 4, 5 , 5, 5, 6, 6, 6;(3) 3 , 3 , 4 , 4 , 5, 6 , 6, 7 , 7;(4) 2 , 2 , 2 , 2, 5 , 8 , 8 , 8 , 8 ;解
15、解:四组样本数据的直方图是四组样本数据的直方图是:0.10.20.30.40.50.60.70.80.91.0(2)频率o1 2 3 4 56 7 85xS=0.82频率o1 2 3 4 56 7 80.10.20.30.40.50.60.70.80.91.05xS=0.00(1)1 2 3 4 56 7 8频率o0.10.20.30.40.50.60.70.80.91.05xS=1.49(3)频率o1 2 3 456 7 80.10.20.30.40.50.60.70.80.91.05xS=2.83(4)四组数据的平均数都是四组数据的平均数都是5.0,5.0,标准差分别是标准差分别是0.00
16、,0.82,1.49,2.83.0.00,0.82,1.49,2.83.虽然它们有相同的平均数虽然它们有相同的平均数, ,但但是它们有不同的标准差是它们有不同的标准差, ,说明数据的分散程度是不一说明数据的分散程度是不一样的样的. .:2度的工具量样本数据分散程方差来代替标准作为测方人们有时用标准差的平从数学的角度考虑s,.)()()(1222212xxxxxxnsn 例例2 2、甲乙两人同时生产内径为、甲乙两人同时生产内径为25.40mm25.40mm的一种零件的一种零件. .为了对两人的生产质量进为了对两人的生产质量进行评比行评比, ,从他们生产的零件中各抽出从他们生产的零件中各抽出202
17、0件件, ,量得其内径尺寸如下量得其内径尺寸如下( (单位单位:mm):mm)甲 25.46, 25.32, 25.45, 25.39, 25.36 25.34, 25.42, 25.45, 25.38, 25.42 25.39, 25.43, 25.39, 25.40, 25.44 25.40, 25.42, 25.35, 25.41, 25.39乙 25.40, 25.43, 25.44, 25.48, 25.48 25.47, 25.49, 25.49, 25.36, 25.34 25.33, 25.43, 25.43, 25.32, 25.47 25.31, 25.32, 25.32,
18、 25.32, 25.48 从生产的零件内径的尺寸看从生产的零件内径的尺寸看, ,谁生产的质量较高谁生产的质量较高? ?分析 每一个工人生产的所有零件的内径尺寸组成一个总体每一个工人生产的所有零件的内径尺寸组成一个总体, ,由于零件由于零件的生产标准已经给出的生产标准已经给出( (内径内径25.40mm),25.40mm),生产质量可以从总体的平均数生产质量可以从总体的平均数与标准差两个角度来衡量与标准差两个角度来衡量. .总体的平均数与内径标准尺寸总体的平均数与内径标准尺寸25.00mm25.00mm的的差异在时质量低差异在时质量低, ,差异小时质量高差异小时质量高; ;当总体的平均数与标准
19、尺寸很接当总体的平均数与标准尺寸很接近时近时, ,总体的标准差小的时候质量高总体的标准差小的时候质量高, ,标准差大的时候质量低标准差大的时候质量低. .这样比这样比较两人的生产质量只要比较他们所生产的零件内径尺寸所组成的两较两人的生产质量只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可个总体的平均数与标准差的大小即可. .但是这两个总体的平均数与标但是这两个总体的平均数与标准差都是不知道的准差都是不知道的, ,根据用样本估计总体的思想根据用样本估计总体的思想, ,我们可以通过抽样我们可以通过抽样分别获得相应的样体数据分别获得相应的样体数据, ,然后比较这两个样本的平
20、均数然后比较这两个样本的平均数, ,标准差标准差, ,以以此作为两个总体之间的估计值此作为两个总体之间的估计值. .解解:用计算器计算可得用计算器计算可得:074.0,038.0;4008,25,4005.25乙甲乙甲ssxx 1.农场种植的甲乙两种水稻,在面积相等的两块稻农场种植的甲乙两种水稻,在面积相等的两块稻田中连续田中连续6年的平均产量如下(单位是:年的平均产量如下(单位是:500g):):品种 第1年 第2 年 第3年 第四年 第5年 第6年甲 900 920 900 850 910 910乙 890 960 950 850 860 890解解: 依题意计算可得依题意计算可得 =90
21、0 =900 s123.8 s2 42.6甲乙两种水稻甲乙两种水稻6年平均产量的平均数相同年平均产量的平均数相同,但甲的标准但甲的标准差比乙的小差比乙的小,所以甲的生产比较稳定所以甲的生产比较稳定.1X2X解解 : (1) 平均重量约为平均重量约为496.86 g , 标准差约为标准差约为6.55 (2)重量位于重量位于(x-s , x+s)之间有之间有14袋白糖袋白糖,所占所占百分比为百分比为66.67%. 2.一个小商店从一家食品有限公司购进一个小商店从一家食品有限公司购进21袋白糖,袋白糖,每袋的标准重量是每袋的标准重量是500g,为了了解这些白糖的重量情,为了了解这些白糖的重量情况,称
22、出各袋白糖的重量(单位:况,称出各袋白糖的重量(单位:g)如下:)如下:486486495495496496498498499499496496493493498498484484497497504504489489495495503503499499503503509509498498487487500500508508 解解: :平均数平均数x x 19.25, 19.25, 中位数为中位数为15.2, 15.2, 标准差标准差s12.50.s12.50.这些数据表明这些国家男性患该病的平均死亡率约为这些数据表明这些国家男性患该病的平均死亡率约为19.25, 19.25, 有一半国家的死亡
23、率不超过有一半国家的死亡率不超过15.2, 15.2, x x 15.2 15.2 说明存在大的异说明存在大的异常数据常数据, , 这些异常数据使得标准差增大这些异常数据使得标准差增大. . 3.下列数据是下列数据是30个不同国家中每个不同国家中每100000名男性名男性患某种疾病的死亡率:患某种疾病的死亡率:27.0 23.9 41.6 33.1 40.6 18.8 13.7 28.9 13.2 14.527.0 34.8 28.9 3.250.1 5.68.715.2 7.15.216.5 13.8 19.2 11.215.7 10.0 5.61.533.8 9.2 请由这些数据计算平均数、中位数、标准差,并对它们的请由这些数据计算平均数、中位数、标准差,并对它们的含义进行解释。含义进行解释。