《数据分布特征的描述.pptx》由会员分享,可在线阅读,更多相关《数据分布特征的描述.pptx(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据分布的特征数据分布的特征:一、集中趋势:反映数据向其中心靠拢或 聚集程度;二、离中趋势;数据远离中心的趋势(又称离散程度);三、偏态和峰态;偏态是对数据分布对称性的度量;峰度是指数据分布的平峰或尖峰程度(形状)。第1页/共82页数据分布的特征集中趋势集中趋势:反映反映数据向其中心数据向其中心靠拢或聚集程靠拢或聚集程度度 (位置位置)偏态和峰态;偏偏态和峰态;偏态:反映数据偏态:反映数据偏斜程度;峰度:斜程度;峰度:数据分布的平峰数据分布的平峰或尖峰程度或尖峰程度(形(形状)状)离中趋势;数据离中趋势;数据远离中心的趋势远离中心的趋势 (分散程度分散程度)第2页/共82页数据分布特征的测度数
2、据特征的测度众众众 数数数中位数中位数中位数平均数平均数平均数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差峰峰峰 态态态四分位差四分位差四分位差异众比率异众比率异众比率偏偏偏 态态态分布的形状集中趋势离中趋势第3页/共82页集中趋势的度量分类数据-众数顺序数据-中位数和分位数数值型数据-均值 众数、中位数和均值的关系第4页/共82页集 中 趋 势(central tendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层
3、次的数据。第5页/共82页分类数据-众数一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据(spss计算)第6页/共82页注意:众数(不惟一性不惟一性)无众数原始数据:10 5 9 12 6 8一个众数原始数据:6 5 9 8 5 5多于一个众数原始数据:25 28 28 36 42 42第7页/共82页分类数据的众数(例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升
4、冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解:这这里里的的变变量量为为“饮饮料料品品牌牌”,这这是是个个分分类类变变量量,不不同同类类型型的的饮饮料料就是变量值就是变量值 所所调调查查的的5050人人中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占总总被被调调查查人人数数的的30%30%,因因此此众众数数为为“可可口口可可乐乐”这这一一品品牌牌,即即 MMo o可口可乐可口可乐第8页/共82页顺序数据的众数(例题分析例题分析)解解:这这里里的的数数据
5、据为为顺顺序序数数据据。变变量量为为“回回答类别答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这这一类别,即一类别,即 MMo o不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0第9页/共82页数值
6、型数据众数的确定方法数值型数据众数的确定方法 单变量值分组资料单变量值分组资料某年级某年级83名女生身高资料名女生身高资料 身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计总计总计总计 8383 STATSTAT第10页/共82页 身高身高 人数人数 比重比重 (CM)(人)(人)(%)160-165 34 40.
7、96 170以上以上 总计总计 83 100某年级某年级83名女生身高资料名女生身高资料数值型数据众数的确定方法数值型数据众数的确定方法 组距分组资料组距分组资料STATSTAT第11页/共82页众数的计算方法总结:1、观察法(例题分析)2、插值法P76(例题分析)u所谓插值法就是先找到众数所在的组,然后按该组次数与前后相邻两组分布次数之差所占的比重推算众数值。第12页/共82页例3.1 某车间实行计件工资,2005年10月120名工人的月工资资料如下表所示:要求:试计算月工资的众数。月工资(元)人数(人)比重(%)由小到大累计次数由大到小累计次数800以下1512.5015120800-10
8、002520.83401051000-1200 4840.0088801200-1400 2016.67108321400-1600 1210.0012012合计120100.00第13页/共82页解:从上表中我们可以看出,月工资变量值中最大的字数为48人,即众数组为1000-1200这一组。根据公式,可得:第14页/共82页众数的特点众数是以它在所有变量值中所处的位置确定的一个代表值,它不受分布数列的极大或极小值的影响,从而增强了众数对分布数列的代表性。众数有可能不存在,也可能存在多个;众数缺乏敏感性。第15页/共82页3.1.2 顺序数据-中位数 和分位数 1中位数:概念:排序后处于中间位
9、置上的值MMe e50%50%特点:不受极端值的影响特点:不受极端值的影响 主要用于顺序数据,也可主要用于顺序数据,也可 用数值型数据,用数值型数据,但不能用于分类数据但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即第16页/共82页顺序数据的中位数(例题分析例题分析)解:解:中位数的位置为中位数的位置为 300/2300/2150150 从从累累计计频频数数看看,中中位位数数在在“一一般般”这这一组别中一组别中 中位数为中位数为 Me=一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布
10、甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300第17页/共82页未分组数值型数据的中位数(奇数个数据的算例)n【例】9个家庭的人均月收入数据n原始数据:1500 750 780 1080 850 960 2000 1250 1630n排 序:750 780 850 960 1080 1250 1500 1630 2000n位 置:1 2 3 4 5 6 7 8 9中位数 1080第18页/共82页未
11、分组数值型数据的中位数(偶数个数据的算例)n【例】:10个家庭的人均月收入数据n排 序:660 750 780 850 960 1080 1250 1500 1630 2000n位 置:1 2 3 4 5 6 7 8 9 10 第19页/共82页组距分组数据中组距分组数据中位数的确定方法位数的确定方法 身高身高 fi人数人数 累计累计 (CM)(人)(人)人数人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上以上 11 83 总计总计 83 某年级某年级83名女生身高资料名女生身高资料STATSTAT第20页/共82页中
12、位数的计算方法:1、根据未分组数据计算中位数u对于没分组数据,首先要排序,然后根据所在位置确定中位数。第21页/共82页2、由分组资料确定中位数:第22页/共82页例3.2 某车间实行计件工资,2005年10月120名工人的月工资资料如下表所示:要求:试计算月工资的中位数。月工资(元)人数(人)比重(%)由小到大累计次数由大到小累计次数800以下1512.5015120800-10002520.83401051000-1200 4840.0088801200-1400 2016.67108321400-1600 1210.0012012合计120100.00第23页/共82页解:第24页/共8
13、2页2.顺序数据-分位数二分位数(中位数)、四分位数、十分位数和百分位数等。其中主要有四分位数。排位处于 25%和75%位置上的值即 四分位数不受极端值的影响要用于顺序数据,也可用于数值型数据,但不能用于分类数据(各种分位数可由spss计算)QQL LQQMMQQU U25%25%25%25%第25页/共82页四分位数的位置下四分位数上四分位数第26页/共82页例两个学习小组的统计学考试成绩合并如下:要求:(1)计算前15个学生统计学考试成绩的四分位数;(2)如果增加一个学生的成绩为95分,试计算16个学生统计学考试成绩的四分位数。序号12345678成绩(分)5861 64687274757
14、6序号910 111213141516成绩(分)7878 8285868690-第27页/共82页解(1)QL的位置=N+1/4=15+1/4=4,即QL在第4个位置上,相应的变量值68分就是下四分位数。Qu的位置=3(N+1)/4=3(15+1/4=12,即Qu在第12个位置上,相应的变量值85分就是上四分位数。(2)QL的位置,即QL QL在第个位置上,采用分割法,得:QL=X4+0.25x(X5-X4)=68+0.25x(72-68)=69(分)同理,可得(分)第28页/共82页3.1.3 数值型数据-平均数1.平均数(均值)均值(算术平均数)定义:全部变量值均值(算术平均数)定义:全部
15、变量值之和与变量值个数相除所得的商。通常之和与变量值个数相除所得的商。通常也称为平均数(也称为平均数(average)或均值()或均值(mean又有简单算数平均数和加权平均数之分又有简单算数平均数和加权平均数之分STATSTAT平均数的定义平均数的定义-变量值的一般水平。有算术均值、调变量值的一般水平。有算术均值、调 和均值和几何均值。和均值和几何均值。第29页/共82页简单算术平均数与加权算术平均数的计算(simple mean/weighted mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(未分组数据)未分组数据)各组的组中值为:各组的组中值为:MM1 1
16、,MM2 2,MMk k (组距分组数据)相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k简单算术均值简单算术均值加权算术均值加权算术均值第30页/共82页未分组资料算术平均数的计算:未分组资料算术平均数的计算:算术平均数算术平均数=某变量值总量某变量值总量变量值总数变量值总数数据个数数据个数 nSTATSTAT简单算术平均数简单算术平均数设有数据:设有数据:第31页/共82页 身高身高 组中值组中值 人数人数 比比重重 (cm)xi(cm)fi(人)(人)(%)160-165 162.5 34 40.96 170以上以上 总计总计 -83 100 分组资料均值的计算:分组
17、资料均值的计算:某年级某年级83名女生身高资料名女生身高资料组距数据组距数据次数次数f频率频率f/f变量值变量值xSTATSTAT加权算加权算术平均术平均数数第32页/共82页集中趋势的最常用测度值;一组数据的均衡点所在;易受极端值的影响;各变量值与其均值的离差之和等于零;由组距分组资料计算的均值有近似值性质;用于数值型数据,不能用于分类数据和顺序数据算术平均数(均值)特征:第33页/共82页2.平均数的另一种表现形式:调和平均数 注意:是均值的另一种表现形式 易受极端值的影响计计算公式为原来只是计算时使用了不同的数据!第34页/共82页调和平均数(例题分析)某日三种蔬菜的批发成交数据某日三种
18、蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)Mi(已知)已知)成交额成交额(元元)Mi fi(已知)(已知)成交量成交量(公斤公斤)fi甲甲乙乙丙丙1.200.500.801800012500 64001500025000 8000合计合计3690048000【例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种种蔬蔬菜菜该该日的平均批发价格日的平均批发价格第35页/共82页3.几何平均数(geometric mean)概念:n 个变量值乘积的 n 次方根用途:适用于对比率数据的平均 主要用于计算平均发展速度、平均增长率、平均比率计算
19、公式为:可看作是均值的一种变形可看作是均值的一种变形第36页/共82页几何平均数(例题分析)n 【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。年平均增长率年平均增长率114.91%-1=114.91%-1=14.91%14.91%第37页/共82页3.1.4 众数、中位数和平均数的关系左偏分布左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布对称分布 均值均值均值=中位数中位数中位数=众数众数众数右偏分布右偏分布右
20、偏分布众数众数众数 中位数中位数中位数均值均值均值对何种数据而言的?对何种数据而言的?第38页/共82页均数、中位数、众数三者关系正态分布时:均数中位数众数均数中位数众数正偏态分布时:均数均数中位数中位数众数众数负偏态分布时:均数均数中位数中位数众数众数第39页/共82页众数、中位数、平均数的特点和应用众数n不受极端值影响n具有不惟一性n数据分布偏斜程度较大时应用中位数n不受极端值影响n数据分布偏斜程度较大时应用平均数n易受极端值影响n数学性质优良n数据对称分布或接近对称分布时应用第40页/共82页习题1、一家汽车零售店中10名员工在某个月售出的汽车数量按升序排列如下:2,4,10,10,12
21、,12,14,15。计算售出汽车数量的(a)均值;(b)中位数;(c)众数。2、八名销售员售出的中央空调数按升序排列如下:5,8,11,11,11,14,16.计算这八名销售员销售量的四分位数。第41页/共82页1、解:(a)均值(b)中位数(c)众数为10.第42页/共82页2、解:第43页/共82页3.2 离中趋势的测度数据分布的另一个重要特征数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度注注意意:数数据据的的离离散散程程度度越越大大,集集中中趋
22、趋势势的的测测度度值值对对该该组组数数据据的的代代表表性性越越差差;数数据据的的离离散散程程度度越越小小,集中趋势的测度值对该组数据的代表性越好。集中趋势的测度值对该组数据的代表性越好。不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值第44页/共82页下面是两个总体关于年龄分布的数据,相对而言,那个总体的年龄分布分散,差异大些?46、47、48、49、50、51、52、53、548、15、20、30、5070、80、85、92总体1总体2第45页/共82页离中趋势;数据远离中趋势;数据远离中心的趋势离中心的趋势 (分散程度分散程度)总体总体2 2总体总体1 1第46页/
23、共82页n)分类数据:异众比率(分类数据:异众比率(variation ratio)n)顺序数据:四分位差()顺序数据:四分位差(quartile range)n3.2.3)数值型数据:数值型数据:n 极差(极差(range)n 平均差(平均差(mean deviation)n 方差和标准差(方差和标准差(Variance and standard deviation)n 相对位置的度量:标准分数(相对位置的度量:标准分数(standard score)n 相对离散程度:离散系数(相对离散程度:离散系数(Coefficient of Variation)离中趋势的测度第47页/共82页分类数据
24、:异众比率 (variation ratio)注意:对分类数据离散程度的测度 非众数组的频数占总频数的比率计算公式为 用于衡量众数的代表性第48页/共82页 异众比率(例题分析例题分析)解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰旭日升冰茶茶 百事可乐百事
25、可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100第49页/共82页3.2.2 四分位差(quartile range)注意:对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差n Qd=QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性第50页/共82页例:假设某班有3个学习小组,统计学期中考试成绩如下表所示:要求:计算三个小组的四分位差。序号1234567第一小组65657575758585第二小组55657575758595第三小组405565858595100
26、第51页/共82页解:由题意,可得:第52页/共82页数值型数据离散程度的度量1、极差(R)(range)离散程度的最简单测度值易受极端值影响未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R=max(xi)-min(xi)计算公式为计算公式为第53页/共82页2、平均差(mean deviation各变量值与其均值离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为计算公式为未分组数据未分组数据组距分组数据组距分组数据第54页/共82页 平均差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量
27、分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040第55页/共82页 含义:每天电脑的日销售量有高有低,与日销售量平均数相比,差异有大有小。平均差表明:以日平均销售量为中心,每天销售量与平均日销售量的平均差距为17台.第56页/共82页3.
28、方差和标准差(Variance and standard deviation)方差方差(variance)各变量值与其平均数离差)各变量值与其平均数离差 平方的平均数平方的平均数第57页/共82页方差和标准差(Variance and standard deviation)标准差标准差(standard deviation)即方差的算术)即方差的算术 平方根;平方根;其单位与原变量其单位与原变量X的单位相同的单位相同。第58页/共82页样本方差和标准差(记住)(simple variance and standard deviation)n未分组数据:组距分组数据:组距分组数据:未分组数据:未
29、分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!第59页/共82页方差和标准差的计算(未分组资料)方差和标准差的计算(未分组资料)编号编号甲甲x xi i乙乙x xi i丙丙x xi i甲甲2 2乙乙2 2丙丙2 21 1440 480 490 1936002304002401002 2460 490 495 2116002401002450253 3500 500 500 2500002500002500004 4540 510 505 2916002601002550255 5560 520 510 313
30、600270400260100合计合计25002500 25002500 25002500126040012510001250250标准差标准差50.9915.817.91第60页/共82页样本标准差(例题分析)(某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01
31、020304050160270320270 0170200240160250合计合计12055400第61页/共82页 含义:每一天的销售量与平均数相比,平均相差台第62页/共82页3.2.4 标准分数 (standard score)n n注意:n 也称标准化值n 对某一个值在一组数据中相对位置的度 量n可用于判断一组数据是否有离群点n用于对变量的标准化处理n 计算公式为第63页/共82页标准分数(性质)n n注注意意:z z分分数数只只是是将将原原始始数数据据进进行行了了线线性性变变换换,它它并并没没有有改改变变一一个个数数据据在在改改组组数数据据中中的的位位置置,也也没没有有改改变变该该
32、组组数数分分布布的的形形状状,而而只只是是将将该该组组数据变为均值为数据变为均值为0 0,标准差为,标准差为1 1。第64页/共82页标准分数(性质)均值等于02.方差等于1第65页/共82页标准化值(例题分析例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元)标准化值标准化值 z 1234567891500 750 7801080 850 960200012501630 0.695-1.042-0.973-0.278-0.811-0.556 1.853 0.116 0.996第66页/共82页)离散系数(coefficie
33、nt of variation)1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为第67页/共82页离散系数(例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表
34、。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度第68页/共82页结论:计算结果表明,v1 0为右偏分布4.偏态系数 0为左偏分布第72页/共82页-4 -3 -2 -1 0 1 2 3 44kg2kg作用力作用力力臂力臂统计动差(矩):利用力的统计动差(矩):利用力的动差来反映数据分布特征的指标。动差来反映数据分布特征的指标。它以次数它以次数 f 为作用力,以变量为作用力,以变量x 为为力臂,并以总次数为单位计算平力臂,并以总次数为单位计算平均动差。均动差。称为随机变量称为随机变量 x 对对a 的的 k 阶矩(动差)阶矩(动差)。令令a,则称为则称为 k 阶
35、阶原点矩原点矩 k令令a ,则,则称为称为 k 阶中阶中心矩心矩 k常用的矩:常用的矩:第73页/共82页偏态系数(skewness coefficient)根据原始数据计算根据分组数据计算第74页/共82页偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5
36、-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 第75页/共82页结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微右偏分布。电脑销售量为轻微右偏分布。第76页/共82页峰态及其测定统计学家Pearson于1905年首次提出数据分布扁平程度的测度,反映数据分布的尖峭程度(与正
37、态分布比较)。峰态系数=0扁平峰度适中峰态系数0为尖峰分布第77页/共82页偏度(偏度(skewness):度量数):度量数据分布非对称方向及程度的指标。据分布非对称方向及程度的指标。SKSTATSTAT第78页/共82页峰态系数(kurtosis coefficient)根据原始数据计算根据分组数据计算第79页/共82页峰态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 23
38、0230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 第80页/共82页结论:结论:峰态系数为负值,但与峰态系数为负值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布第81页/共82页感谢您的观看!第82页/共82页