《集中趋势和离散趋势优秀PPT.ppt》由会员分享,可在线阅读,更多相关《集中趋势和离散趋势优秀PPT.ppt(95页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、集中趋势和离散趋势第一页,本课件共有95页观察:一个平均工资掩盖了多少差异3 3月月2525日,北京市统计局宣布,日,北京市统计局宣布,20082008年,北京市职工年平均工资为年,北京市职工年平均工资为4471544715元,折合每月元,折合每月37263726元,比元,比20072007年增长了年增长了1212。与往年一样,。与往年一样,这样的数据又是引来一片质疑声。因为它和太多市民对实际收入的感受差距很大,也解释不了为什么大家的收入逐年增长,而消费这样的数据又是引来一片质疑声。因为它和太多市民对实际收入的感受差距很大,也解释不了为什么大家的收入逐年增长,而消费却总是无法提振的尴尬。却总是
2、无法提振的尴尬。有关部门对上述职工平均工资的统计给出了一些解释,使得社会对这一数据在统计意义上的正确性没有多少疑问,却对它的代有关部门对上述职工平均工资的统计给出了一些解释,使得社会对这一数据在统计意义上的正确性没有多少疑问,却对它的代表性和实际意义产生了更多的怀疑。按照相关解释,目前的职工平均工资统计,所涉及的统计对象还只是企事业单位、机关与社会表性和实际意义产生了更多的怀疑。按照相关解释,目前的职工平均工资统计,所涉及的统计对象还只是企事业单位、机关与社会团体,并没有将社会中小企业纳入。而且职工工资总额计算方法不是按实际发到职工手里的现金计算,还包括单位代扣代缴的社会团体,并没有将社会中小
3、企业纳入。而且职工工资总额计算方法不是按实际发到职工手里的现金计算,还包括单位代扣代缴的社会保险、住房公积金等。保险、住房公积金等。这样一解释,大家有些明白了,原来北京市职工年平均工资统计里的这样一解释,大家有些明白了,原来北京市职工年平均工资统计里的“职工职工”只是你我中间的一部分人群,这部分只是你我中间的一部分人群,这部分人群的收入可能是比较高而且稳定的,自然平均工资也相对偏高一些。但这种人群的收入可能是比较高而且稳定的,自然平均工资也相对偏高一些。但这种“有你没我有你没我”的统计,如何能反映整个城的统计,如何能反映整个城市的收入全貌呢?再从收入本身来说,按照市的收入全貌呢?再从收入本身来
4、说,按照中国保险报中国保险报人士的统计,北京地区养老保险单位缴费比例人士的统计,北京地区养老保险单位缴费比例2020,个人缴费比例,个人缴费比例8 8;医疗;医疗保险单位缴费比例保险单位缴费比例7.57.5,个人缴费比例,个人缴费比例 2 2;生育保险缴费比例为;生育保险缴费比例为0.60.6,单位承担;失业保险单位缴费比例,单位承担;失业保险单位缴费比例2 2,个人缴费比例,个人缴费比例1 1;工伤保险按行业性质分为工伤保险按行业性质分为0.60.6、1.21.2、2 2三档基准费率,只由单位承担。以上合计,社保总负担至少已占个人工资总额的三档基准费率,只由单位承担。以上合计,社保总负担至少
5、已占个人工资总额的4242左右,外加单位和左右,外加单位和个人各缴个人各缴(扣扣)12)12以内的住房公积金,以内的住房公积金,“职工工资职工工资”里面将有可能高达里面将有可能高达6666的份额并不在市民的腰包里。而剩下的份额并不在市民的腰包里。而剩下3434的的“职工工资职工工资”,也还只是税前收入。难怪与大家的实际感受有如此大的差异。也还只是税前收入。难怪与大家的实际感受有如此大的差异。统计的口径是这样,再回到平均的概念上来。很多年来,我们的职工平均工资统计数据只有平均数,而没有覆盖社会不同群体(如国企高管、公务员、教统计的口径是这样,再回到平均的概念上来。很多年来,我们的职工平均工资统计
6、数据只有平均数,而没有覆盖社会不同群体(如国企高管、公务员、教师、农民工)以及不同行业(如金融、电信、私企、电力、石油)的具体分布数据。这样的统计无法显示不同行业以及同一行业内职工与管理人员巨大的收入师、农民工)以及不同行业(如金融、电信、私企、电力、石油)的具体分布数据。这样的统计无法显示不同行业以及同一行业内职工与管理人员巨大的收入差异,网民将这样的统计形象地概括为:差异,网民将这样的统计形象地概括为:“张家有财一千万,十个邻居穷光蛋,平均下来算一算,个个都有上百万张家有财一千万,十个邻居穷光蛋,平均下来算一算,个个都有上百万”。一个与太多市民收入真实情况不相符的。一个与太多市民收入真实情
7、况不相符的统计层面的工资增长,自然无法得到大家在幸福感上的共鸣。可见,一个统计层面的工资增长,自然无法得到大家在幸福感上的共鸣。可见,一个“平均平均”,掩盖了多少差异;一个,掩盖了多少差异;一个“增长增长”,隐藏了多少问题。,隐藏了多少问题。当然,并不是说平均值的统计方法是不需要的。当然,并不是说平均值的统计方法是不需要的。GDPGDP的人均值在分析一个国家经济增长阶段时有很大的价值,历史地看,平均值的变化也总是的人均值在分析一个国家经济增长阶段时有很大的价值,历史地看,平均值的变化也总是有其时代意义的。但是,平均值的统计方法也是有缺陷的,因为它反映不了贫富分化和财富流向的变动。有其时代意义的
8、。但是,平均值的统计方法也是有缺陷的,因为它反映不了贫富分化和财富流向的变动。在统计数字与社会现实的差异面前,我们是应该为了统计数字的在统计数字与社会现实的差异面前,我们是应该为了统计数字的“喜人增长喜人增长”而无视社会现实,还是应该为了真实地反映社会现实,修正而无视社会现实,还是应该为了真实地反映社会现实,修正统计部门的计算口径和方法?答案是明摆着的,只有真实的数据才能让大家了解目前社会存在的真正问题,也才能为正确的决策提供有价值的统计部门的计算口径和方法?答案是明摆着的,只有真实的数据才能让大家了解目前社会存在的真正问题,也才能为正确的决策提供有价值的参考。这样真实的统计也许很难,但在失真
9、和真实之间,统计部门其实没有选择。参考。这样真实的统计也许很难,但在失真和真实之间,统计部门其实没有选择。【作者:陈联科作者:陈联科 来源:京华时报来源:京华时报】第二页,本课件共有95页数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)离散趋势离散趋势离散趋势离散趋势 (分散程度分散程度分散程度分散程度)偏态和峰度偏态和峰度偏态和峰度偏态和峰度(形状)(形状)(形状)(形状)第三页,本课件共有95页数据分布的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均
10、 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 度度度度度度KurtosisKurtosisKurtosis四分位差四分位差四分位差四分位差四分位差四分位差极差极差极差极差极差极差偏偏偏偏偏偏 态态态态态态SkewnessSkewnessSkewnessModeMedianMeanRangeQuartilesVariance and Standard Deviation第四页,本课件共有95页集中趋势的测度集中趋势集中趋势是对频数分布资料的集中状况和平均水平的综合测度。而离散趋势离散趋势是对频数
11、分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测度的代表性,或者反映变量值的稳定性和均匀性。常用来表达数列集中趋势的测度有算术平均数、调和平均数、几何平均数、中位数和众数。这些测度在统计学中也称为平均指标或平均数,可以用来反映标志值的典型水平和标志值分布的中心位置或集中趋势。第五页,本课件共有95页集中趋势(Central tendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5.
12、选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第六页,本课件共有95页均值(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据第七页,本课件共有95页均值(计算公式)设一组数据为:设一组数据为:X X1 1,X X2 2,X XN N 简单均值简单均值简单均值简单均值的计算公式为的计算公式为设分组后的数据为:设分组后的数据为:X X1 1,X X2 2,X XK K 相应的频数为:相应的频数为:F F1 1,F F2 2,F FK K加权均值加权均值加权均值加权均值的计算公式为的计
13、算公式为第八页,本课件共有95页简单均值(算例)原始数据:10591368第九页,本课件共有95页加权均值(算例)表表表表4-1 4-1 某车间某车间某车间某车间5050名工人日加工零件均值计算表名工人日加工零件均值计算表名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组按零件数分组按零件数分组组中值(组中值(组中值(组中值(X Xi i)频数(频数(频数(频数(F Fi i)X Xi iF Fi i105105 110110110110 115115115115 120120120120125125125125 130130130130 135135135135 1
14、40140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 4322.5322.5562.5562.5940.0940.01715.01715.01275.01275.0795.0795.0550.0550.0合计合计合计合计50506160.06160.0计算计算50 50 名工人日加工零件数的均值名工人日加工零件数的均值第十页,本课件共有95页加权均值(权数对均值的影响)甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布数据如下名学生,他们的考试
15、成绩及其分布数据如下 甲组:甲组:甲组:甲组:考试成绩(考试成绩(考试成绩(考试成绩(X X):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(F F):):):):1 1 81 1 8 乙组:乙组:乙组:乙组:考试成绩(考试成绩(考试成绩(考试成绩(X X):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(F F):):):):8 1 18 1 1第十一页,本课件共有95页均值(数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小第十二页,本课件共有95页2.调和平均数调和平均数调和平均数又称“倒数平均数”,
16、它是根据各标志值的倒数来计算的平均数,即各个标志值倒数的算术平均数的倒数。调和平均数也分简单调和平均数和加权调和平均数。简单调和平均数的计算公式为:即设m为权数,则加权调和平均数的计算公式为:则第十三页,本课件共有95页调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计原来只是计算时使用了算时使用了不同的数据不同的数据!第十四页,本课件共有95页调和平均数(算例)表表表表 某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜蔬
17、菜蔬菜名称名称名称名称批发价格批发价格批发价格批发价格(元元元元)X Xi i成交额成交额成交额成交额(元元元元)X Xi iF Fi i成交量成交量成交量成交量(公斤公斤公斤公斤)F Fi i甲甲甲甲乙乙乙乙丙丙丙丙1.201.200.500.500.800.8018000180001250012500640064001500015000250002500080008000合计合计合计合计36900369004800048000【例例例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种种蔬菜该日的平均批发价格蔬菜该日的平均批发价格第十五页,本课件
18、共有95页3.几何平均数几何平均数几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数有简单几何平均数和加权几何平均数之分。简单几何平均数是次方根。个标志值连乘积的其计算公式为:在用几何平均数法计算平均数时,如果大于2,可采用对数法计算。计算公式为:第十六页,本课件共有95页几何平均数(概念要点)1.1.集中趋势的测度值之一集中趋势的测度值之一2.N N 个变量值乘积的个变量值乘积的 N N 次方根次方根3.3.适用于特殊的数据适用于特殊的数据4.4.主要用于计算平均发展速度5.5.计算公式为6.6.可看作是均值的一种变形第十七页,本课件共有95页几何平均数(算例)一一位位投投资资者
19、者持持有有一一种种股股票票,19961996年年、19971997年年、19981998年年和和19991999年年收收益益率率分分别别为为4.5%4.5%、2.0%2.0%、3.5%3.5%、5.4%5.4%。计计算算该该投投资资者者在在这这四年内的平均收益率。四年内的平均收益率。平均收益率平均收益率103.84%-1=3.84%第十八页,本课件共有95页需要指出的是,当把几何平均数应用于经济现象时,必须注意经济现象本身的特点。只有当标志总量表现为各个标志值的连乘积时,才适合采用几何平均数方法来计算平均标志值。一般来说,计算社会经济现象在各个时期的平均发展速度时,要采用几何平均数。例如,工农
20、业总产值年平均发展速度、全国人口年平均发展速度等。第十九页,本课件共有95页4.中位数中位数中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。要求得中位数,首先要确定中位数的位次。未分未分组资组资料料时时,中位数位次 当总体位数 为奇数时,中位数就是中位数位次上的那个数据;当 为偶数时,中位数是中位数位次上2项数据的算术平均数。第二十页,本课件共有95页分分组资组资料料时时,中位数位次可以利用中位数所在组的下限来测算
21、中位数,即中位数的下限公式为:中位数中位数所在组的下限中位数所在组的次数总次数即各组次数总和小于中位数组的各组次数之和中位数所在组的组距式中:第二十一页,本课件共有95页也可以利用中位数所在组的上限来测算中位数,即中位数的上限公式为:式中:中位数所在组的上限大于中位数组的各组次数之和中位数最大的特点是:它是序列中间1项或2项的平均数,不受极端值的影响,所以在当一个变量数列中含有特大值与特小值的情况下,采用中位数较为适宜。正式由于中位数的这一特点,在统计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得的算术平均数偏大或偏小,就可利用中位数来表示现
22、象的一般水平。第二十二页,本课件共有95页中位数(概念要点)1.1.集中趋势的测度值之一集中趋势的测度值之一2.2.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%3.3.不受极端值的影响不受极端值的影响4.4.主要用于定序数据,也可用数值型数据,但不能用于定类数主要用于定序数据,也可用数值型数据,但不能用于定类数据据5.5.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即第二十三页,本课件共有95页中位数(位置的确定)未分组数据:未分组数据:组距分组数据:组距分组数据:第二十四页,本课件共有95页未分组数据的中位数(计算公式)第二十五页,
23、本课件共有95页定序数据的中位数(算例)【例例例例】计计算算甲甲城城市市家家庭庭对对住住房房满满意意状况评价的中位数状况评价的中位数解:解:解:解:中位数的位置为:中位数的位置为:300/2300/2150150从从累累计计频频数数看看,中中位位数数的的在在“一一般般”这这一一组组别别中。因此中。因此 MMe e一般一般一般一般表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常
24、不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300第二十六页,本课件共有95页数值型未分组数据的中位数(5个数据的算例)原始数据原始数据:24 22 21 26 20排排 序序:20 21 22 24 26位位 置置:1 2 3 4 5中位数中位数 22第二十七页,本课件共有95页数值型未分组数据的中位数(6个数据的算例)原始数据原始数据:10 5 9 12 6 8排排 序序:5 6 8
25、 9 10 12位位 置置:1 2 3 4 5 6位置位置N+126+123.5中位数中位数 8+928.5第二十八页,本课件共有95页1.1.根据位置公式确定中位数所在的组2.2.采用下列近似公式计算:4.该公式假定中位数组的频数在该组内均匀分布数值型分组数据的中位数(要点及计算公式)第二十九页,本课件共有95页数值型分组数据的中位数(算例)表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积
26、频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43 38 816163030404046465050合计合计合计合计5050【例例例例】计计算算50 50 名名 工工人人日日加加工工零零件件数数的的中中位位数数第三十页,本课件共有95页5.众数众数众数是一种位置平均数。众数是总体单位中,标志值出现次数最多的那个数值。为了确定众数的具体数值,可以利用下限公式或上限公式加以计算。计算众数的下限公式为:式中:众数众数组
27、的下限众数组次数与上一组次数之差众数组次数与下一组次数之差众数组的组距第三十一页,本课件共有95页计算众数的上限公式为:式中:众数组的上限众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则,计算众数时没有意义的。第三十二页,本课件共有95页众数(概念要点)1.1.集中趋势的测度值之一2.2.出现次数最多的变量值3.3.不受极端值的影响4.4.可能没有众数或有几个众数5.5.主要用于定类数据,也可用于定序数据和数值型数据第三十三页,本课件共有95页众数(众数的不唯一性)无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个
28、众数原始数据:25 28 28 36 42 42第三十四页,本课件共有95页定类数据的众数(算例)表表表表 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型广告类型广告类型人数人数人数人数(人人人人)比例比例比例比例频率频率频率频率(%)(%)商品广告商品广告商品广告商品广告 服务广告服务广告服务广告服务广告 金融广告金融广告金融广告金融广告 房地产广告房地产广告房地产广告房地产广告 招生招聘广告招生招聘广告招生招聘广告招生招聘广告 其他广告其他广告其他广告其他广告11211251519 9161
29、610102 20.5600.5600.2550.2550.0450.0450.0800.0800.0500.0500.0100.01056.056.025.525.54.54.58.08.05.05.01.01.0合计合计合计合计2002001 1100100【例例例例】根根据据第第三三章章表表3-13-1中中的的数数据据,计算众数计算众数解解解解:这这里里的的变变量量为为“广广告告类类型型”,这这是是个个定定类类变变量量,不不同同类类型型的的广广告告就就是是变变量量值值。我我们们看看到到,在在所所调调查查的的200200人人当当中中,关关注注商商品品广广告告的的人人数数最最多多,为为112
30、112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“商商品品广广告告”这这一类别,即一类别,即 MMo o商品广告商品广告商品广告商品广告第三十五页,本课件共有95页定序数据的众数(算例)【例例例例】根根据据第第三三章章表表3-23-2中中的的数数据据,计算众数计算众数解解解解:这这里里的的数数据据为为定定序序数数据据。变变量量为为“回回答答类类别别”。甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不满意不满意”这一类别,即这一类别,即 MMo o不满意不满意不满意不满意表表表表3-2 3-2 甲城
31、市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)百分比百分比百分比百分比 (%)(%)非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530308 83636313115151010合计合计合计合计300300100.0100.0第三十六页,本课件共有95页数值型分组数据的众数(要点及计算公式)1.1.众数
32、的值与相邻两组频数的分布有关众数的值与相邻两组频数的分布有关4.4.该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2.2.2.相邻两组的频数相等时,众数组的组中值即相邻两组的频数相等时,众数组的组中值即相邻两组的频数相等时,众数组的组中值即为众数为众数为众数M MMooo3.3.相邻两组的频数不相等时,众数采用下相邻两组的频数不相等时,众数采用下列近似公式计算列近似公式计算M MMoooM MMooo第三十七页,本课件共有95页数值型分组数据的众数(算例)表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件
33、数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43 38 816163030404046465050合计合计合计合计5050【例例例例】计计算算 5050名名 工工人人 日日 加加 工工零零 件件 数数 的的众数众数第三十八页,本课件共有95页四分位数(概念要点)1.
34、集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%第三十九页,本课件共有95页四分位数(位置的确定)未分组数据:未分组数据:组距分组数据:组距分组数据:下四分位数下四分位数(QQL L)位置位置 =N+N+1 14 4上四分位数上四分位数(QQU U)位置位置 =3(3(N+N+1)1)4 4下四分位数下四分位数(QQL L)位置位置 =N N4 4上四分位数上四分位数(QQL L)位置位置 =3N3N4 4第四十页,本课件共有95页定序数据的四分位数(算例)【例例例例】
35、计算甲城市家庭对住房满意状况评价的四分位数计算甲城市家庭对住房满意状况评价的四分位数解:解:解:解:下四分位数下四分位数(Q QL L)的位置为:的位置为:Q QL L位置位置(300)/4(300)/47575 上四分位数上四分位数(Q QL L)的位置为:的位置为:Q QU U位置位置(3300)/4(3300)/4225225从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一一般般”这这一一组别中。因此组别中。因此 Q QL L 不满意不满意不满意不满意 Q QU U 一般一般一般一般表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭
36、对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300第四十一页,本课件共有95页数值型未分组数据的四分位数(7个数据的算例)原始数据原始数据原始数据原始数据:23 2123 2
37、1 30 32 30 32 28 25 2628 25 26排排排排 序序序序:21 21 23 25 26 28 25 26 28 3030 32 32位位 置置:1 1 2 3 2 3 4 5 6 7 4 5 6 7 N+N+1 1QL=237+7+1 1QQL L位置位置 =4 4=4 4=2=2QQU U位置位置 =3(3(N+N+1)1)4 43(73(7+1)1)4 4 =6=6QU=30第四十二页,本课件共有95页数值型未分组数据的四分位数(6个数据的算例)原始数据原始数据原始数据原始数据:23 2123 21 30 30 28 25 2628 25 26排排排排 序序序序:21
38、 23 25 26 28 30 21 23 25 26 28 30位位 置置:1 1 2 2 3 34 4 5 6 5 6QQL L=21+0.75(23-21)=21+0.75(23-21)=22.522.5QQL L位置位置 =N+N+1 14 4=6+6+1 14 4=1.75=1.75QQU U位置位置 =3(3(N+N+1)1)4 43(63(6+1)1)4 4=5.25=5.25QQU U=28+0.25(30-28)=28+0.25(30-28)=28.528.5第四十三页,本课件共有95页数值型分组数据的四分位数(计算公式)上四分位数上四分位数上四分位数上四分位数:下四分位数下
39、四分位数下四分位数下四分位数:第四十四页,本课件共有95页数值型分组数据的四分位数(计算示例)QQL L位置位置位置位置50/450/412.512.5QQUU位置位置位置位置350/4350/437.537.5表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130
40、130130 135135135135 1401403 35 58 8141410106 64 43 38 816163030404046465050合计合计合计合计5050【例例例例】计计算算50 50 名名工工人人日日加加工工零零件件数数的的四四分位数分位数第四十五页,本课件共有95页第四十六页,本课件共有95页离散趋势的测度离散趋势的测度,在统计学中也称为指标变异指标,是用来描述数列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、平均差和标准差等。1.极差极差极差是指一个数列中两个极端值即最大值与最小值之间的差异。根据极差的大小能说明标志值变动范围的大小。其计算公式为:极差最大
41、标志值最小标志值根据组距数列求极差的计算公式为:极差最高组上限最低组下限在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测定结果往往不能反映数据的实际离散程度。第四十七页,本课件共有95页甲、乙二人射击,结果如下:甲:9.0,9.1,9.1,9.0,9.2,9.1,9.0,9.1乙:8.0,9.8,9.5,8.6,9.7,9.2,7.8,10他们成绩的平均数是:第四十八页,本课件共有95页极差(概念要点及计算公式)1.一组数据的最大值与最小值之差一组数据的
42、最大值与最小值之差2.2.离散程度的最简单测度值3.3.易受极端值影响易受极端值影响4.4.未考虑数据的分布7 8 9 107 8 9 10未分组数据未分组数据 R =max(=max(X Xi i)-min()-min(Xi i).=组距分组数据组距分组数据 R 最高组上限-最低组下限5.5.计算公式为第四十九页,本课件共有95页例子1,3,4,7,8,9,10求极差R=10-1=9第五十页,本课件共有95页极差是离散程度的最简单测度值,它只利用了一组数据的两个极端值,易受极端值的影响,且不能反映中间数据的分散状况。比如:1,6,6,6,6,6,10这一组数据,极差是?R10-19和上一组极
43、差值相同,都是9,如果以此断言两组数据离散程度相同,恐怕很不合适,直觉告诉我们后一组数据的差异比前一组数据大的多。返回返回第五十一页,本课件共有95页2.四分位差四分位差四分位差是根据四分位数计算的。首先把变量各单位标志值从小到大排序,再将数列四等分,处于四分位点位次的标志值就是四分位数,记作 ,为第一四分位数(也称为下四分位数),为第二四分位数,就是中位数 ,为第三四分位数。四分位差的计算公式为:四分位差的计算步骤为:先寻找四分位数四分位数四分位数四分位数,然后根据四分位差的计算公式计算。第五十二页,本课件共有95页四分位差(定序数据的算例)【例例例例】计计算算甲甲城城市市家家庭庭对对住住房
44、房满满意意状状况况评评价的四分位差价的四分位差解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意意为为5 5 已已知知 MM1 1=不满意不满意 =2 2,MM3 3 =一般一般 =3 3四分位差:四分位差:=MM3 3 -MM1 1 =3 2 3 2 =1 1表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频
45、数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300第五十三页,本课件共有95页四分位差是对极差的一种改进。与极差相比,四分位差因不受极值的影响,在反映数据的离散程度方面比极差准确,具有较高的稳定性;同时,对于存在开口的组距数列,不能计算极差,但可以计算四分位差。四分位差与极差相比较:四分位差与极差相比较:四分位差和极差一样,不能充分利用数据的全部信息,也无法反映标志值的一般变动。
46、第五十四页,本课件共有95页3.平均差平均差平均差是各单位标志值对平均数的离差绝对值的平均数。平均差仅反映总体各单位标志值对其平均数的平均离差量。平均差越大,表明标志变异程度越大;反之,则表明标志变异程度越小。平均差通常用字母 表示。未分组资料时未分组资料时,其计算公式为:分组资料时分组资料时,其计算公式为:第五十五页,本课件共有95页因为一组数据中各变量值与其均值之差有正号也有负号,正负加起来抵销正好等于零。第五十六页,本课件共有95页例:1,3,4,7,8,9,10各个离差如果不加绝对值的加起来:(16)(36)(46)(76)(86)(96)(106)532123410100第五十七页,
47、本课件共有95页求两组数据的平均差:例一:例一:1,3,4,7,8,9,10 例二:例二:1,6,6,6,6,6,10第五十八页,本课件共有95页平均差(计算过程及结果)表表表表 某车间某车间某车间某车间5050名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组按零件数分组按零件数分组组中值组中值组中值组中值(X Xi i)频数频数频数频数(F Fi i)|X Xi i-X X|X Xi i-X X|F Fi i105105 110110110110 115115115115 1201201201201251
48、25125125 130130130130 135135135135 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 415.715.710.710.75.75.70.70.74.34.39.39.314.314.347.147.153.553.545.645.69.89.843.043.055.855.857.257.2合计合计合计合计5050312312【例例例例】计算工人日加工零件数的平均差计算工人日加工零件数的平均差第五十九页,本课件共有9
49、5页4.方差和标准差方差和标准差未分组资料时未分组资料时,方差的公式为:标准差的公式为:分组资料时分组资料时,方差的公式为:标准差的公式为:式中:算术平均数总体单位数 各组次数方差标准差变量值 第六十页,本课件共有95页需要指出的是,是总体标准差,而样本标准差为 。当样本较大时,由于 几乎等于 ,因此常用公式 代替公式 来计算样本标准差S,并用于估计总体标准差 。在小样本的情况下,较 为总体标准差 的更优良的估计量。第六十一页,本课件共有95页方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.4.反映了各变量值与均值的平均差异5.5.根据总体数据计算的,
50、称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 12X=8.3第六十二页,本课件共有95页总体方差和标准差(计算公式)未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式第六十三页,本课件共有95页总体标准差(计算过程及结果)表表表表 某车间某车间某车间某车间5050名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零