《第四章数据的概括性度量优秀课件.ppt》由会员分享,可在线阅读,更多相关《第四章数据的概括性度量优秀课件.ppt(80页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章数据的概括性度量第1页,本讲稿共80页第 4 章 数据的概括性度量4.1 集中趋势的度量集中趋势的度量 4.2 离散程度的度量离散程度的度量4.3 偏态与峰态的度量偏态与峰态的度量第2页,本讲稿共80页学习目标l1.掌握集中趋势各测度值的计算方法掌握集中趋势各测度值的计算方法l2.掌握离散程度各测度值的计算方法掌握离散程度各测度值的计算方法l3.理解偏态与峰态的测度方法理解偏态与峰态的测度方法l4.能熟练运用能熟练运用Excel计算描述统计量并进行计算描述统计量并进行分析分析第3页,本讲稿共80页4.1 集中趋势的度量一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数
2、据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较第4页,本讲稿共80页集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和组数据向其中心值靠拢的倾向和程度程度2.2.测度集中趋势就是寻找数据水平的测度集中趋势就是寻找数据水平的代表值或中心值代表值或中心值3.3.不同类型的数据用不同的集中不同类型的数据用不同的集中趋势测度值趋势测度值4.4.低层次数据的测度值适用于高层低层次数据的测度值适用于高层次的测量数据,但高层次数据的次的测量数据,但高层次数据的测度值并不适用于低层次的测量测度值并不适用于低层次的
3、测量数据数据第5页,本讲稿共80页一、分类数据:众数一、分类数据:众数第6页,本讲稿共80页众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.不唯一性:一组数据可能没有众数或有几个众数4.主要应用于分类数据,也可以应用于顺序数据和数值型数据第7页,本讲稿共80页众数(不唯一性)l无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 5 55 5多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据:25 28 28 36 36 42 4242 42第8页,本讲稿共80页分类数据的众数(例题分析)不同品
4、牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100解解解解:这这里里的的变变量量为为“饮饮料料品品牌牌”,这这是是个个分分类类变变量量,不不同同类类型型的的饮饮料料就就是是变变量量值值 在在所所调调查查的的5050人人中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占总总被被调调查查人人数数的的30%30%,因因此此众众数数为为“可可口可乐口可乐”这一品牌
5、,即这一品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐第9页,本讲稿共80页顺序数据的众数(例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“回回答答类类别别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一一类类别,即别,即 MMo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893
6、4530836311510合计合计300100.0第10页,本讲稿共80页二、顺序数据:中位数和分位数第11页,本讲稿共80页中位数(median)1.排序后处于中间位置上的值MMe e50%50%2.2.不受极端值的影响不受极端值的影响3.3.主要用于顺序数据,也可用数值型数据,但不能用于分主要用于顺序数据,也可用数值型数据,但不能用于分类数据类数据第12页,本讲稿共80页中位数(位置的确定)第13页,本讲稿共80页中位数的确定l设一组数据为l按从小到大排序后为,则中位数为:第14页,本讲稿共80页顺序数据的中位数(例题分析)解解解解:中中 位位 数数 的的 位位 置置 为为 (300+13
7、00+1)/2/2150.5150.5 从从累累计计频频数数看看,中中位位数数在在“一一般般”这这一一组组别中。因此别中。因此 Me e=一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第15页,本讲稿共80页数值型数据的中位数(9个数据的算例)l【例例】:9个家庭的人均月收入数据l原始数据原始数据:1500 750 780 1080 850 960 2000
8、1250 1630l排排 序序:750 780 850 960 1080 1250 1500 1630 2000l位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 1080第16页,本讲稿共80页数值型数据的中位数(10个数据的算例)l【例例】:10个家庭的人均月收入数据l排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000l位位 置置:1 2 3 4 5 6 7 8 9 10 第17页,本讲稿共80页四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.3.主主要要用用于于顺顺序序数数据据,也也可可
9、用用于于数数值值型型数数据据,但但不不能用于分类数据能用于分类数据QQL LQQMMQQU U25%25%25%25%第18页,本讲稿共80页四分位数(位置的确定)第19页,本讲稿共80页顺序数据的四分位数(例题分析)解:解:解:解:Q QL L位置位置=(300)/4 (300)/4=7575 Q QU U位置位置 =(3300)/4(3300)/4 =225225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一一般般”这一组别中。因此这一组别中。因此 Q QL L =不满意不满意不满意不满意 Q QU U =一般一般一般一般甲城市家庭对
10、住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第20页,本讲稿共80页数值型数据的四分位数(9个数据的算例)l【例例】:9个家庭的人均月收入数据l原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630l排排 序序:750 780 850 960 1080 1250 1500 1630 2000l位位 置置:1 2 3 4 5 6 7 8 9第2
11、1页,本讲稿共80页三、数值型数据:均值第22页,本讲稿共80页均值(mean)1.集中趋势的最常用测度值2.易受极端值的影响3.用于数值型数据,不能用于分类数据和顺序数据第23页,本讲稿共80页简单均值与加权均值(simple mean/weighted mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n各组的组中值为:各组的组中值为:MM1 1,MM2 2,MMk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k简单均值简单均值简单均值简单均值加权均值加权均值加权均值加权均值第24页,本讲稿共80页已改至此!已改至此!某电脑公司销售量数据
12、分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计合计12022200加权均值加权均值 (例题分析例题分析)第25页,本讲稿共80页加权均值(权数对均值的影响)l 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下l 甲组:甲组:考试成绩(考试成绩(x
13、):0 20 100l 人数分布(人数分布(f):):1 1 8l 乙组:乙组:考试成绩(考试成绩(x):0 20 100l 人数分布(人数分布(f):):8 1 1第26页,本讲稿共80页均值(数学性质)l1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小第27页,本讲稿共80页调和平均数(harmonic mean)1.均值的另一种表现形式2.易受极端值的影响3.计算公式为原来只是计算原来只是计算时使用了不同时使用了不同的数据!的数据!第28页,本讲稿共80页调和平均数(例题分析)某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元
14、)Mi成交额成交额(元元)Mi fi成交量成交量(公斤公斤)fi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计3690048000【例例例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种种蔬菜该日的平均批发价格蔬菜该日的平均批发价格 平均批发价格平均批发价格=成交额成交额/成交量成交量第29页,本讲稿共80页几何平均数(geometric mean)1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.5.可看作是均值的一种变形可看作是均值的一
15、种变形第30页,本讲稿共80页几何平均数(例题分析)l 【例例】某水泥生产企业2001年的水泥产量为100万吨,2002年与2001年相比增长率为9%,2003年与2002年相比增长率为16%,2004年与2003年相比增长率为20%。求各年的年平均增长率。年平均增长率年平均增长率114.91%-1=114.91%-1=14.91%14.91%第31页,本讲稿共80页四、众数、中位数和均值的比较第32页,本讲稿共80页众数、中位数和均值的关系(分布角度)左偏分布左偏分布左偏分布左偏分布均值均值均值均值 中位数中位数中位数中位数 众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布
16、均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值第33页,本讲稿共80页众数、中位数和均值的特点和应用1.众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用第34页,本讲稿共80页数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺
17、序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值众数众数中位数中位数均值均值四分位数四分位数调和平均数调和平均数众数众数几何平均数几何平均数 中位数中位数四分位数四分位数众数众数第35页,本讲稿共80页4.2 离散程度的度量一一.分类数据:异众比率分类数据:异众比率二二.顺序数据:四分位差顺序数据:四分位差三三.数值型数据:方差及标准差数值型数据:方差及标准差四四.相对位置的测量:标准分数相对位置的测量:标准分数五五.相对离散程度:离散系数相对离散程度:离散系数第36页,本讲稿共80页离中趋势1.1.数据分布的另一个重要特征数据分布的另一个重要特征2.2.反反映映各各变变量量值值远远
18、离离其其中中心心值值的的程度(离散程度)程度(离散程度)3.3.从从另另一一个个侧侧面面说说明明了了集集中中趋趋势势测度值的代表程度测度值的代表程度4.4.不不同同类类型型的的数数据据有有不不同同的的离离散程度测度值散程度测度值第37页,本讲稿共80页一、分类数据:异众比率第38页,本讲稿共80页异众比率(variation ratio)l1.对分类数据离散程度的测度l2.非众数组的频数占总频数的比率l3.异众比率计算公式为:4.4.用于衡量众数的代表性。异众比率越大,说明非用于衡量众数的代表性。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就众数组的频数占总频数的比重越大,
19、众数的代表性就越差。越差。第39页,本讲稿共80页异众比率(例题分析)解:解:解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合
20、计合计501100第40页,本讲稿共80页二、顺序数据:四分位差第41页,本讲稿共80页四分位差(quartile deviation)1.对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差l QD=QU QL4.反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中,数值越大,说明中间的数据越分散。5.不受极端值的影响6.用于衡量中位数的代表性第42页,本讲稿共80页四分位差(例题分析)解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意意为为5 5 已知已知 Q QL L=不满意
21、不满意 =2 2 Q QU U =一般一般 =3 3四分位差:四分位差:Q QD D =Q QU U -Q QL L =3 2 3 2 =1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第43页,本讲稿共80页三、数值型数据:方差和标准差第44页,本讲稿共80页极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分
22、布7 7 8 8 9 910107 7 8 8 9 9 1010 R R =max(=max(x xi i)-min()-min(x xi i)5.5.计算公式为计算公式为第45页,本讲稿共80页平均差(mean deviation)1.也称平均离差,是各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度,平均差越大,说明数据的离散程度就越大。3.数学性质较差,实际中应用较少4.4.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据第46页,本讲稿共80页平均差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数
23、据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计合计1202040第47页,本讲稿共80页平均差(例题分析)含义:含义:每一天的销售量与平均数相比,平均相差17台第48页,本讲稿共80页方差和标准差(variance and standard deviation)
24、1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x=8.38.3第49页,本讲稿共80页样本方差和标准差(simple variance and standard deviation)l未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差
25、用自由度由度由度n-1n-1n-1去除去除去除!第50页,本讲稿共80页样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2
26、时,s2是2的无偏估计量第51页,本讲稿共80页样本标准差(例题分析)某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计合计12055400第52页,本讲稿共80页样本标准差(例题分析)含义:含义:每一天的销售量与平
27、均数相比,平均相差21.58台第53页,本讲稿共80页四、相对位置的测量:标准分数第54页,本讲稿共80页标准分数(standard score)l1.也称标准化值l2.对某一个值在一组数据中相对位置的度量l3.计算公式为第55页,本讲稿共80页标准分数(性质)1.均值等于0l2.方差等于1第56页,本讲稿共80页标准化值(例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元)标准化值标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-
28、0.811-0.5561.8530.1160.996第57页,本讲稿共80页经验法则l经验法则表明:当一组数据对称分布时l约有68%的数据在平均数加减1个标准差的范围之内l约有95%的数据在平均数加减2个标准差的范围之内l约有99%的数据在平均数加减3个标准差的范围之内 第58页,本讲稿共80页切比雪夫不等式(Chebyshevs inequality)1.如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在k个标准差
29、之内。其中k是大于1的任意值,但不一定是整数第59页,本讲稿共80页切比雪夫不等式(Chebyshevs inequality)l对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内第60页,本讲稿共80页五、相对离散程度:离散系数第61页,本讲稿共80页离散系数(coefficient of variation)l1.标准差与其相应的均值之比2.也称变异系数,是对数据相对离散程度的测度,离散系数大说明离散程度大l3.计算公式为第62页,本讲稿
30、共80页离散系数(例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据据如如表表。试比较产品销售额与销售利润的离散程度试比较产品销售额与销售利润的离散程度第63页,本讲稿共80页离散系数(例题分析)结结论论:计算结果表明,v v1 1 0为右偏分布偏态系数
31、 0为左偏分布第69页,本讲稿共80页偏态系数(skewness coefficient)1.根据原始数据计算2.根据分组数据计算第70页,本讲稿共80页偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845-256000-243000-128000-27000017000800002160
32、0025600062500010240000729000025600002700000170000160000064800001024000031250000合计合计120540000 70100000 ENTERENTER图形图形图形图形第71页,本讲稿共80页偏态系数(例题分析)结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明电脑的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数数,而销售量较多的天数则占少数第72页,本讲稿共80页偏态与峰态(从直方图上观察)按
33、销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论:结论:结论:结论:1.1.为右偏分布为右偏分布 2.2.峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240ENTERENTER第73页,本讲稿共80页二、峰 态第74页,本讲稿共80页峰态(kurtosi
34、s)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0扁平峰度适中4.峰态系数0为尖峰分布第75页,本讲稿共80页峰态系数(kurtosis coefficient)1.根据原始数据计算2.根据分组数据计算第76页,本讲稿共80页峰态系数(例题分析)结论:结论:结论:结论:偏态系数为负值,但与偏态系数为负值,但与0 0的差异不大,说明电的差异不大,说明电脑销售量为轻微扁平分布脑销售量为轻微扁平分布第77页,本讲稿共80页偏态与峰态(从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论:结论:结论:结论
35、:1.1.为右偏分布为右偏分布 2.2.峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240第78页,本讲稿共80页用Excel计算描述统计量第79页,本讲稿共80页本章小节l1.数据集中水平的概括性度量数据集中水平的概括性度量l2.数据离散程度的概括性度量数据离散程度的概括性度量l3.数据分布形状的测度数据分布形状的测度l4.用用Excel计算描述统计量计算描述统计量第80页,本讲稿共80页