《用样本数字特征估计总体.ppt》由会员分享,可在线阅读,更多相关《用样本数字特征估计总体.ppt(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2.2.2 用样本的数字特征估计用样本的数字特征估计总体的数字特征(一)总体的数字特征(一)一一 众数、中位数、平均数的概念众数、中位数、平均数的概念中位数中位数:将一组数据按大小依次排列,把处在最中间:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数这组数据的中位数 众数众数:在一组数据中,出现次数最多的数据叫做这组:在一组数据中,出现次数最多的数据叫做这组数据的众数数据的众数 众数、中位数、平均数都是描述一组数据的集中众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,
2、其中以平均数趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛的应用最为广泛.平均数平均数:一组数据的算术平均数一组数据的算术平均数,即即 x=练习练习:在一次中学生田径运动会上,参加男子跳高的在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:名运动员的成绩如下表所示:成成绩绩(单单位:位:米米)150160165170175180185190人数人数23234111分别求这些运动员成绩的众数,中位数与平均数分别求这些运动员成绩的众数,中位数与平均数 解:在解:在17个数据中,个数据中,1.75出现了出现了4次,出现的次数最多,次,出现的次数最多,即这组数据的众数
3、是即这组数据的众数是1.75上面表里的上面表里的17个数据可看成是按从小到大的顺序排个数据可看成是按从小到大的顺序排列的,其中第列的,其中第9个数据个数据1.70是最中间的一个数据,即这组是最中间的一个数据,即这组数据的中位数是数据的中位数是1.701、众数在样本数据的频率分布直方图中,、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。就是最高矩形的中点的横坐标。例如,在调查的例如,在调查的100位居民的月均用水量的位居民的月均用水量的问题中,从样本数据的频率分布直方图可以问题中,从样本数据的频率分布直方图可以看出,月均用水量的众数是看出,月均用水量的众数是2.25t.如图所示:
4、如图所示:1.众数与样本数据的频率分布直方图关系众数与样本数据的频率分布直方图关系频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)直方图本身得直方图本身得不出原始的数不出原始的数据内容据内容,所以由所以由频率分布直方频率分布直方图得到的众数图得到的众数估计值往往与估计值往往与样本的实际众样本的实际众数值不一致数值不一致.众数众数 2、在样本中,有在样本中,有50的个体小于或等于的个体小于或等于中位数,也有中位数,也有50的个体大于或等于中位的个体大于或等于中位数数,因此,在频率分布直方图中,中位数左,因此,在频率分布直
5、方图中,中位数左边和右边的直方图的面积应该相等,由此可边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为均用水量的中位数的估计值,此数据值为2.03t.2.中位数与频率分布直方图关系中位数与频率分布直方图关系频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)中位数中位数说明说明:2.03这个中位数的估计值这个中位数的估计值,与样本与样本的中位数值的中位数值2.0不一样不一样,这是因为样本数这是因为样本数据的频率分布直方图据
6、的频率分布直方图,只是直观地表明只是直观地表明分布的形状分布的形状,但是从直方图本身得不出但是从直方图本身得不出原始的数据内容原始的数据内容,所以由频率分布直方所以由频率分布直方图得到的中位数估计值往往与样本的图得到的中位数估计值往往与样本的实际中位数值不一致实际中位数值不一致.则有则有nx=x1+x2+xn.也就是把每个也就是把每个xi(i=1,2,3,n)都用都用x代替代替后,数据总和保持不变。后,数据总和保持不变。所以平均数所以平均数x对数据有对数据有“取齐取齐”的作用,的作用,代表一组数据的数值平均水平。代表一组数据的数值平均水平。在频率分布直方图中,平均数是直方图在频率分布直方图中,
7、平均数是直方图的平衡点,假设横轴是一块放置直方图的的平衡点,假设横轴是一块放置直方图的跷跷板,则支点取在平均数处时跷跷板达跷跷板,则支点取在平均数处时跷跷板达到平衡。到平衡。3.平均数与频率分布直方图关系平均数与频率分布直方图关系 下面我们用来看样本平均数与样本频下面我们用来看样本平均数与样本频率直方图的联系。率直方图的联系。我们知道我们知道,n个样本数据的平均数个样本数据的平均数 三种数字特征的优缺点三种数字特征的优缺点 1、众数体现了样本数据的最大集中、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无点,但它对其它数据信息的忽视使得无法客观地反映总体特征法客观地反映总体特征.
8、如上例中众数是如上例中众数是2.25t,它告诉我们它告诉我们,月均用水量为月均用水量为2.25t的的居民数比月均用水量为其它数值的居民居民数比月均用水量为其它数值的居民数多数多,但它并没有告诉我们多多少但它并没有告诉我们多多少.2、中位数是样本数据所占频率、中位数是样本数据所占频率的等分线,它不受少数几个极端值的的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量如上例中假设有某一用户月均用水量为为10t,那么它所占频率为,那么它所占频率为0.01,几
9、乎几乎不影响中位数不影响中位数,但显然这一极端值是不但显然这一极端值是不能忽视的。能忽视的。3、由于平均数与每一个样本的、由于平均数与每一个样本的数据有关,所以任何一个样本数据的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因数、中位数都不具有的性质。也正因如此如此,与众数、中位数比较起来,平,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时端值的影响较大,使平均数在估计时可靠性
10、降低。可靠性降低。例例1.从某大型企业全体员工某月的月工资表中随机抽从某大型企业全体员工某月的月工资表中随机抽取取50名员工工资资料如下:名员工工资资料如下:800 800 800 800 800 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1200 1500 1500 1500 1500 1500 1500 1500 2000 2000 2000 2
11、000 2000 2500 2500 2500计算这计算这50个数据的众数,中位数和平均数,并估计这个数据的众数,中位数和平均数,并估计这个企业员工的平均工资。个企业员工的平均工资。解:众数是解:众数是1200,中位数是,中位数是1200,平均数是这,平均数是这50个数个数值的和除以值的和除以50得得1320.估计这个企业员工的平均工资是估计这个企业员工的平均工资是1320元元.例例2.某工厂人员及工资构成如下:某工厂人员及工资构成如下:人人员员经经理理管理人管理人员员高高级级技工技工 工人工人学徒学徒合合计计周工周工资资2200250220200100人数人数16510123合合计计2200
12、1500110020001006900(1)指出这个问题中的众数、中位数、平均数;)指出这个问题中的众数、中位数、平均数;(2)这个问题中,平均数能客观地反映该工厂的工资水平吗?为)这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?什么?解解:(:(1)由表格可知:众数为由表格可知:众数为200,中位数为,中位数为220。平均数为。平均数为300(元(元/周)。周)。(2)虽然平均数为)虽然平均数为300元元/周,但由表格中所列出的数据可见,只周,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不有经理在平均数以上,其余的人都在平均数以下,故用平均数
13、不能客观真实地反映该工厂的工资水平能客观真实地反映该工厂的工资水平.例例3.右面是某校学生日睡右面是某校学生日睡眠时间的抽样频率分布表眠时间的抽样频率分布表(单位:(单位:h),试估计该),试估计该校学生的日平均睡眠时间。校学生的日平均睡眠时间。睡眠时间睡眠时间人数人数频率频率6,6.5)50.056.5,7)170.177,7.5)330.337.5,8)370.378,8.5)60.068.5,920.021001解解1:总睡眠时时间:总睡眠时时间6.255+6.7517+7.2533+7.7537+8.256+8.752=739(h)故平均睡眠时间约为故平均睡眠时间约为7.39h解解2:
14、求各组:求各组中值与对应频率之积中值与对应频率之积的和,的和,6.250.05+6.750.17+7.250.33+7.7537+8.250.06+8.750.02=7.39(h)估计该校学生的日平均睡眠时间约为估计该校学生的日平均睡眠时间约为7.39h例例4.某单位年收入在某单位年收入在10000到到15000、15000到到20000、20000到到25000、25000到到30000、30000到到35000、35000到到40000及及40000到到50000元之间的职工所占的比分别为元之间的职工所占的比分别为10%,15%,20%,25%,15%,10%和和5%,试估计,试估计该单位职工的平均年收入。该单位职工的平均年收入。解:估计该单位职工的平均年收入为解:估计该单位职工的平均年收入为 1250010%+1750015%+2250020%+2750025%+3250015%+3750010%+450005%=26125(元元)答:估计该单位人均年收入约为答:估计该单位人均年收入约为26125元元.练习题:练习题:1.若若M个数的平均数是个数的平均数是x,N个数的平均数个数的平均数是是y,则这,则这M+N个数的平均数是个数的平均数是 .,和和的样本平均数分别是的样本平均数分别是 x 和和 y,那么一组数那么一组数的平均数是的平均数是2.如果两组数如果两组数 .