《数据分布特征的测度课件.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的测度课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据分布特征的测度第1页,此课件共63页哦 数据分布特征的描述第2页,此课件共63页哦数据的数据的“中间位置中间位置”第3页,此课件共63页哦离散程度的度量这两个数据“胖瘦”一样吗?第4页,此课件共63页哦数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)第5页,此课件共63页哦数据分布特征的描述离散程度离散程度变异系数变异系数变异系数变异系数标准差标准差标准差标准差方差方差方差方差全距全距全距全距分布的形状分布的形状峰度峰度峰度峰度系
2、数系数系数系数偏态偏态偏态偏态系数系数系数系数集中趋势集中趋势众众众众 数数数数中位数中位数中位数中位数位置位置位置位置平均数平均数平均数平均数数值数值数值数值平均数平均数平均数平均数算术平均数算术平均数算术平均数算术平均数几何平均数几何平均数几何平均数几何平均数数据的分布特征和测度数据的分布特征和测度第6页,此课件共63页哦数据分布特征的测度4.1 4.1 集中趋势的测度集中趋势的测度 4.2 4.2 离中趋势的测度离中趋势的测度4.3 4.3 偏度和峰度的测度偏度和峰度的测度第7页,此课件共63页哦学习目标u了解集中趋势指标的概念、特点和作用,掌握各种平均数的计算方法、应用条件以及几种平均
3、数之间的关系。u了解离中趋势指标的概念、种类和作用及与平均指标的区别。其中重点是标准差与离散系数的计算。u了解数据的分布形态测定方法。u了解各项指标的应用原则,能结合实际调查资料计算有关指标和进行初步的分析。第8页,此课件共63页哦4.1 4.1 集中趋势的测度集中趋势的测度第9页,此课件共63页哦数据集中位置数据集中位置变量变量x 集集中中趋趋势势指指标标(也也叫叫平平均均指指标标)反反映映同同类类现现象象的的一一般般水水平平或或平平均均水水平平,是是总总体体内内各各单单位位参参差差不不齐齐的的标标志志值值的的代表值代表值代表值代表值,也是对变量,也是对变量分布集中趋势分布集中趋势分布集中趋
4、势分布集中趋势的测定。的测定。集中趋势指标u它是一个抽象值;它是一个抽象值;u u它是一个代表值;它是一个代表值;它是一个代表值;它是一个代表值;u它反映了总体(各单位标志值)分布的集中趋势。它反映了总体(各单位标志值)分布的集中趋势。x第10页,此课件共63页哦 按计算方按计算方法不同法不同算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 众数众数 中位数中位数 数数 值值 平均数平均数 (位置平均数)(位置平均数)数值型数据数值型数据定序数据定序数据定类数据定类数据低层次数据的集中趋势测度值适用于高层次的测量数低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次
5、数据的集中趋势测度值并不适用据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据于低层次的测量数据第11页,此课件共63页哦4.1.1 众数(mode)1.1.1.1.一组数据中出现次数最多的变量值;一组数据中出现次数最多的变量值;一组数据中出现次数最多的变量值;一组数据中出现次数最多的变量值;2.2.适合于数据量较多时使用;适合于数据量较多时使用;3.3.3.3.不受极端值的影响;不受极端值的影响;不受极端值的影响;不受极端值的影响;4.4.4.4.一组数据可能没有众数或有几个众数;一组数据可能没有众数或有几个众数;一组数据可能没有众数或有几个众数;一组数据可能没有众数或有几个众
6、数;5.5.主要用于主要用于分类数据分类数据,也可用于顺序数据和数值型数据。,也可用于顺序数据和数值型数据。,也可用于顺序数据和数值型数据。,也可用于顺序数据和数值型数据。第12页,此课件共63页哦众数无众数无众数原始数据:10 5 9 12 6 8多于一个众数多于一个众数原始数据:25 28 28 36 42 42一个众数一个众数原始数据:6 5 9 8 5 5第13页,此课件共63页哦定类数据的众数定类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源
7、果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个定定定定类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就就就就是变量值是变量值是变量值是变量值 所所所所调调调调查查查查的的的的50505050人人人人中中中中,购购购购买买买买可可可可口口口口可可可可乐乐乐乐的的的的人人人人数数数数最最最最多多多多,为为为为15151515人人人人,占占占占被被被被调调调调查查查查总总
8、总总人人人人数数数数的的的的30%30%30%30%,因因因因此此此此众众众众数数数数为为为为“可口可乐可口可乐可口可乐可口可乐”这一品牌,即这一品牌,即这一品牌,即这一品牌,即 M M M Mo o o o可口可乐可口可乐可口可乐可口可乐第14页,此课件共63页哦定序数据的众数定序数据的众数(例题分析例题分析)解解解解:这这这这里里里里的的的的数数数数据据据据为为为为定定定定序序序序数数数数据据据据。变变变变量量量量为为为为“回回回回答答答答类类类类别别别别”该该该该城城城城市市市市中中中中对对对对住住住住房房房房表表表表示示示示不不不不满满满满意意意意的的的的户户户户数数数数最最最最多多多
9、多,为为为为108108108108户户户户,因因因因此此此此众众众众数数数数为为为为“不满意不满意不满意不满意”这一类别,即这一类别,即这一类别,即这一类别,即 M M M Mo o o o不满意不满意不满意不满意表表4-1 某城市家庭对住房状况评价的频数分布某城市家庭对住房状况评价的频数分布回答类别回答类别户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0统计函数统计函数统计函数统计函数MODE第15页,此课件共63页哦4.1.2 4.1.2 中位数中位数(
10、median)(median)1.1.按数值大小按数值大小排序排序排序排序后处于中间位置上的值;后处于中间位置上的值;后处于中间位置上的值;后处于中间位置上的值;MMe e50%50%2.不受极端值的影响;不受极端值的影响;3.主要用于定序数据,也可用定量数据,但不能用主要用于定序数据,也可用定量数据,但不能用于定类数据;于定类数据;第16页,此课件共63页哦数值型数据的中位数(奇数个数据)例例4-14-1:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 8
11、50 960 2000 1250 1630排排 序序:750 780 850 960 :750 780 850 960 10801080 1250 1500 1630 2000 1250 1500 1630 2000位位 置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数Me 1080统计函数统计函数统计函数统计函数MEDIANMEDIAN第17页,此课件共63页哦数值型数据的中位数数值型数据的中位数(偶数个数据偶数个数据)例4-2:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 200
12、0位位 置置:1 2 3 4 5 6 7 8 9 10 箱式图第18页,此课件共63页哦中位数中位数(位置和数值的确定位置和数值的确定)位置确定位置确定数值确定数值确定第19页,此课件共63页哦未分组数据箱线图(box plot)1.1.用于显示未分组的原始数据的分布;用于显示未分组的原始数据的分布;2.2.由由一一组组数数据据的的5 5 5 5个个个个特特特特征征征征值值值值绘绘制制而而成成,它它由由一一个个箱箱子子和和两两条线段组成;条线段组成;3.3.绘制方法:绘制方法:q首首先先找找出出一一组组数数据据的的5 5个个特特征征值值,即即最最最最大大大大值值值值、最最最最小小小小值值值值、
13、中中中中位位位位数数数数MMMMe e e e和两个和两个四分位数四分位数四分位数四分位数(下四分位数下四分位数Q QL L和上四分位数和上四分位数Q QU U);q连接两个四分位数画出箱子,再将两个极值点与箱子相连接;连接两个四分位数画出箱子,再将两个极值点与箱子相连接;q该箱线图也称为该箱线图也称为Median/QuartMedian/Quart./Range/Range箱线图箱线图 。第20页,此课件共63页哦箱线图的构成4 46 68 810101212中位数中位数QQU UUQQL L LX X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedia
14、n/Quart./Range箱线图箱线图箱线图箱线图箱线图的构成:第21页,此课件共63页哦单批数据箱线图单批数据箱线图最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.8170.8170.8上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑
15、公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图第22页,此课件共63页哦分布的形状与箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQLLL中位数中位数中位数中位数中位数中位数 Q QQUUU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不
16、同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图第23页,此课件共63页哦未分组数据箱线图(box plot)箱箱式式图图包包含含的的信信息息比比直直方方图图和和茎茎叶叶图图都都少少,所所以以它它的最佳用途是用来同时的最佳用途是用来同时比较多个分布比较多个分布比较多个分布比较多个分布。例例如如,为为了了解解不不同同教教育育程程度度的的人人的的收收入入差差别别,根根据据某某年年7151271512个个人人的的收收入入的的抽抽样样调调查查结结果果,得得到到的的不不同同受受教育程度的人的收入分布如下图:教育程度的人的收入分布如下图:第24页,此课件共63页哦4.1.3 4.1.3 算术
17、平均数算术平均数设一组数据为:设一组数据为:设一组数据为:设一组数据为:X X1 1 1 1,X X2 2,X XN NN N简单算术平均数简单算术平均数简单算术平均数简单算术平均数的计算公式为的计算公式为的计算公式为的计算公式为(未分组数据)未分组数据)未分组数据)未分组数据)设分组后的数据为:设分组后的数据为:设分组后的数据为:设分组后的数据为:X X1 1 1 1,X X2 2 2 2,X X X XK KK K相应的频数为:相应的频数为:f f f f1 1 1 1,f f2 2,f fK K加权算术平均数加权算术平均数加权算术平均数加权算术平均数的计算公式为(分组数据)的计算公式为(
18、分组数据)的计算公式为(分组数据)的计算公式为(分组数据)各单位标各单位标各单位标各单位标志值的和志值的和志值的和志值的和总单总单总单总单位数位数位数位数第25页,此课件共63页哦.例例4-34-3:某厂某厂工人各级别工资额和相应工人数资料如下工人各级别工资额和相应工人数资料如下表表4-54-5:工资额工资额(元)(元)工人数工人数(人)(人)460 460 520 520 600 600 700 700 850 8505 5 151518 18 1010 2 2 合合 计计5050工资总额工资总额(元)(元)xf?试计算?试计算工人平均工人平均工资。工资。2960029600 x f 780
19、07800 70007000 17001700 1080010800 23002300=各组标志值各组标志值各组单位数各组单位数各组标志总量各组标志总量表表4-34-3 注意:注意:由由组组距数列计算加权距数列计算加权算术平均数,可算术平均数,可用用组中值组中值代表代表各组变量值各组变量值。第26页,此课件共63页哦.表表4-4 某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175
20、185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200第27页,此课件共63页哦.调和平均数调和平均数 调和平均数的概念:调和平均数的概念:也叫倒数平均数也叫倒数平均数,一般认一般认为是为是算术平均数的变形算术平均数的变形。第28页,此课件共63页哦.几何平均数几何平均数几何平均数(几何平均数(G G)的概念:)的概念:它是分布数列中它是分布数列中n n个单位标个单位标志值连乘积的志值连乘积的n n次方根。次方根。u适用于适用于计算时间上相互衔接的比率计算时间上相互衔接
21、的比率的平均数的平均数;u主要用于计算平均发展速度;主要用于计算平均发展速度;u计算公式为:计算公式为:第29页,此课件共63页哦.几何平均数(例题分析)几何平均数(例题分析)例例4-44-4:某产品需经三个车间加工,已知第一个车间加工:某产品需经三个车间加工,已知第一个车间加工合格率为合格率为95%95%,第二个车间加工合格率为,第二个车间加工合格率为90%90%,第三个车,第三个车间加工合格率为间加工合格率为98%98%,求三个车间平均加工合格率。,求三个车间平均加工合格率。第30页,此课件共63页哦.几何平均数(例题分析)几何平均数(例题分析)例例4-54-5:一位投资者持有一支股票,在
22、:一位投资者持有一支股票,在20002000、20012001、20022002、20032003年的收益率分别为年的收益率分别为4.5%4.5%、2.1%2.1%、25.5%25.5%和和1.9%1.9%。计算该。计算该股票在这四年中的平均收益率。股票在这四年中的平均收益率。第31页,此课件共63页哦4.1.4 众数、中位数和均值的比较u众数、中位数和均值的关系众数、中位数和均值的关系u众数、中位数、平均数的特点和应用场合众数、中位数、平均数的特点和应用场合第32页,此课件共63页哦众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均
23、值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值第33页,此课件共63页哦众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用1.1.众数众数众数众数qq不受极端值影响不受极端值影响不受极端值影响不受极端值影响qq具有不惟一性具有不惟一性具有不惟一性具有不惟一性qq数据分布偏斜程度较大
24、且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用2.2.中位数中位数中位数中位数qq不受极端值影响不受极端值影响不受极端值影响不受极端值影响qq数据分布数据分布数据分布数据分布偏斜程度偏斜程度偏斜程度偏斜程度较大时应用较大时应用较大时应用较大时应用3.3.平均数平均数平均数平均数qq易受极端值影响易受极端值影响易受极端值影响易受极端值影响qq数学性质优良数学性质优良数学性质优良数学性质优良qq数据数据数据数据对称分布或接近对称分布对称分布或接近对称分布对称分布或接近对称分布对称分布或接近对称分布时应用时应用时应
25、用时应用u u各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零u u各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小第34页,此课件共63页哦表4-5 数据类型和所适用的集中趋势测度值数据数据类型类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数算术平均数算术平均数算术平均数算术平均数众数众数众数众数调和平均数调和平均数中位数中位数几何平均数几何平均数 中位数中位数众数众数数据类型和所适用
26、的集中趋势测度值第35页,此课件共63页哦4.2 4.2 离中趋势的测度离中趋势的测度第36页,此课件共63页哦离中趋势离中趋势1.1.数据分布的另一个重要特征;数据分布的另一个重要特征;数据分布的另一个重要特征;数据分布的另一个重要特征;2.2.反映各变量值远离其中心值的程度,因此也称为离散趋势。反映各变量值远离其中心值的程度,因此也称为离散趋势。反映各变量值远离其中心值的程度,因此也称为离散趋势。反映各变量值远离其中心值的程度,因此也称为离散趋势。3.3.从另一个侧面说明了集中趋势测度值的代表程度;从另一个侧面说明了集中趋势测度值的代表程度;从另一个侧面说明了集中趋势测度值的代表程度;从另
27、一个侧面说明了集中趋势测度值的代表程度;4.4.不同类型的数据有不同的离散程度测度值;不同类型的数据有不同的离散程度测度值;不同类型的数据有不同的离散程度测度值;不同类型的数据有不同的离散程度测度值;甲组:80 80 80 80 80 平均数为80 乙组:70 75 80 85 90 平均数为80 丙组:2 18 25 96 259 平均数为80第37页,此课件共63页哦异众比率(variation ratio)1.1.对分类数据离散程度的测度;对分类数据离散程度的测度;对分类数据离散程度的测度;对分类数据离散程度的测度;2.2.2.2.非众数组的频数占总频数的比例;非众数组的频数占总频数的比
28、例;非众数组的频数占总频数的比例;非众数组的频数占总频数的比例;3.3.3.3.计算公式为:计算公式为:4.4.用于衡量众数的代表性。用于衡量众数的代表性。第38页,此课件共63页哦异众比率异众比率 (例题分析例题分析)解:解:解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其其代代表表性性不不是是很好。很好。不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可
29、乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100第39页,此课件共63页哦极差极差(range)(range)1.一组数据的最大值与最小值之差;一组数据的最大值与最小值之差;2.离散程度的最简单测度值;离散程度的最简单测度值;3.易受极端值影响;易受极端值影响;4.4.未考虑数据的分布。未考虑数据的分布。未考虑数据的分布。未考虑数据的分布。R=max(xi)-min(xi)5.计算公式为:计算公式为:第40页,此课件共63页哦平均差平均差1.各变量值与其平均数离差绝
30、对值的平均数;各变量值与其平均数离差绝对值的平均数;2.能全面反映一组数据的离散程度;能全面反映一组数据的离散程度;3.数学性质较差,实际中应用较少。数学性质较差,实际中应用较少。4.计算公式为:计算公式为:未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据0第41页,此课件共63页哦.根据根据表表4-64-6:试问试问A、B 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?学生学生序号序号 考分(分)考分(分)xAxB甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 858568687070767680808181合计
31、合计 375375375375 离差离差-10-10-5-5 0 0 5 5 10 10解:解:离差绝对值离差绝对值离差离差离差绝对值离差绝对值 MDAMDB故,故,B 组学生平均考分比组学生平均考分比A 组学生平均考分更有代表性。组学生平均考分更有代表性。1010 5 5 0 0 5 5 10 103030 -7-7-5-5 1 1 5 5 6 6 7 7 5 5 1 1 5 5 6 62424第42页,此课件共63页哦方差和标准差方差和标准差(variance and standard deviation)(variance and standard deviation)1.1.数据离散程
32、度的最常用测度值;数据离散程度的最常用测度值;2.2.2.2.反映了各变量值与均值的平均差异;反映了各变量值与均值的平均差异;反映了各变量值与均值的平均差异;反映了各变量值与均值的平均差异;3.3.根据总体数据计算的,称为总体方差或标准差,根据总体数据计算的,称为总体方差或标准差,记为记为 2 2();根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差或标准差,记为或标准差,记为或标准差,记为或标准差,记为s s s s2 2(s)(s)。第43页,此课件共63页哦.总体标准差总体标准差 总体标总体标准差的准差
33、的计算方计算方法法1.1.简单标简单标准差准差2.2.加权标准加权标准差差(未分组数(未分组数列)列)(分组(分组 数数列)列)第44页,此课件共63页哦样本方差和标准差样本方差和标准差未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度n n-1-1去除去除去除去除!第45页,此课件共63页哦.根
34、据根据表表4-74-7:学生学生序号序号 考分(分)考分(分)xAxB甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 858568687070767680808181合计合计 375375375375 离差离差离差平方离差平方离差离差离差平方离差平方-10-10-5-5 0 0 5 5 10 10 100100 25 25 0 0 25 25 100 100 -7-7-5-5 1 1 5 5 6 6 4949 25 25 1 1 25 25 36 36136136250250试问试问A、B 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?解:解:故,故,B
35、组学生平均考分比组学生平均考分比A组学生平均考分更有代表性。组学生平均考分更有代表性。A B第46页,此课件共63页哦样本标准差样本标准差 (例题分析例题分析)表表4-8 某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5402302202102 0210220230240250264
36、00810064002700 0170040007200640012500合计合计12055400第47页,此课件共63页哦样本标准差样本标准差 (例题分析例题分析)含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,平均相差平均相差平均相差平均相差21.5821.5821.5821.58台。台。统计函数统计函数STDEV第48页,此课件共63页哦离散系数1.1.1.1.也叫变异系数,或标准差系数。也叫变异系数,或标准差系数。2.2.2.2.标准差与其相应的均值之比;标准差与其相应的均值之比;标准差与其相应的均
37、值之比;标准差与其相应的均值之比;3.3.对数据相对离散程度的测度;对数据相对离散程度的测度;4.4.4.4.消除了数据水平高低和计量单位的影响;消除了数据水平高低和计量单位的影响;5.5.5.5.用于对不同组别数据离散程度的比较;用于对不同组别数据离散程度的比较;用于对不同组别数据离散程度的比较;用于对不同组别数据离散程度的比较;6.6.计算公式为计算公式为计算公式为计算公式为第49页,此课件共63页哦.根据根据表表4-94-9:学生学生序号序号 考分(分)考分(分)xAxC甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 85857979858590909595100100合计
38、合计 375375449449 离差离差-10-10-5-5 0 0 5 5 10 10 解:解:离差平方离差平方离差离差离差平方离差平方-11-11-5-5 0 0 5 5 10 10 100100 25 25 0 0 25 25 100 100 250 250 121121 25 25 0 0 25 25 100 100271271 VAVC故,故,C 组平均考分更有代表性。组平均考分更有代表性。试问试问A、C 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?第50页,此课件共63页哦几种离散测度的比较概概 念念 计计 算算 特特 点点数列中最大值数列中最大值与最小
39、值之差与最小值之差1极差极差 (R)R=最大值最大值-最小值最小值优点:容易理解,优点:容易理解,计算方便计算方便缺点:不能反映全部缺点:不能反映全部数据分布状况数据分布状况2平均差平均差 (A.D)各标志值与各标志值与均值离差绝均值离差绝对值的算术对值的算术平均平均简单:简单:加权:加权:优点:反映全部数据分优点:反映全部数据分布状况布状况 缺点:取绝对值缺点:取绝对值 ,不,不合乎代数方法的演算,合乎代数方法的演算,进一步应用少。进一步应用少。第51页,此课件共63页哦概概 念念 计计 算算 特特 点点各各标标志志值值与与均均值值离差平方的平均。离差平方的平均。方方差差的的平平方方根根(取
40、正根)(取正根)3 方方 差差(2)和和 标准差标准差()优优点点:反反映映全全部部数数据据分分布布状状况,应用广泛。况,应用广泛。缺缺点点:受受计计量量单单位位和和平平均均水水平平影影响响,不不便便于于比比较较;分分布布基本对称时使用。基本对称时使用。4标准标准差系数差系数 (V)标准差与均值标准差与均值之商,是无量之商,是无量纲的系数纲的系数简单:简单:加权:加权:优优点点:适适宜宜不不同同数数据据集的比较集的比较 方差(方差(方差(方差(2 2)和标准差()和标准差()和标准差()和标准差()是应用最广的离散测度)是应用最广的离散测度)是应用最广的离散测度)是应用最广的离散测度第52页,
41、此课件共63页哦5 5、是非标志的平均数与标准差、是非标志的平均数与标准差uu是非标志是非标志是非标志是非标志:如果按照某种标志把总体只能分为具有某种特征的单位和不具如果按照某种标志把总体只能分为具有某种特征的单位和不具如果按照某种标志把总体只能分为具有某种特征的单位和不具如果按照某种标志把总体只能分为具有某种特征的单位和不具有该特征的单位有该特征的单位有该特征的单位有该特征的单位两部分两部分两部分两部分,这个标志就是是非标志。比如,学生按性别分为,这个标志就是是非标志。比如,学生按性别分为,这个标志就是是非标志。比如,学生按性别分为,这个标志就是是非标志。比如,学生按性别分为男生(是)和女生
42、(非);产品分为合格品(是)和非合格品(非)。男生(是)和女生(非);产品分为合格品(是)和非合格品(非)。男生(是)和女生(非);产品分为合格品(是)和非合格品(非)。男生(是)和女生(非);产品分为合格品(是)和非合格品(非)。uu平均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用“1 1 1 1”表示,不具有该种特征的用表示,不具有该种特征的用表示,不具有该种特征的用表示,不具有该种特征的用“0 0 0 0”表示。表示。表示。表示。第53页,此课件共63页哦5 5、是非标志的平均数与标准差、是非标志的平均数与标
43、准差是非标志是非标志 x x单位数单位数 f f比重比重 1 1 0 0 合合 计计 N N 1 1即总体中具有即总体中具有即总体中具有即总体中具有 某种性质或属性的单位在某种性质或属性的单位在某种性质或属性的单位在某种性质或属性的单位在总体中所占的比重,称为总体中所占的比重,称为总体中所占的比重,称为总体中所占的比重,称为比例或成数。比例或成数。比例或成数。比例或成数。P等于0.5时方差最大。总体比例用总体比例用总体比例用总体比例用 表示,样本比例用表示,样本比例用表示,样本比例用表示,样本比例用p p表示表示表示表示第54页,此课件共63页哦4.3 4.3 偏度与峰度的测定偏度与峰度的测定
44、第55页,此课件共63页哦分布的形态分布的形态扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!第56页,此课件共63页哦偏态偏态(skewness)(skewness)数据分布偏斜程度的测度数据分布偏斜程度的测度数据分布偏斜程度的测度数据分布偏斜程度的测度偏态系数偏态系数=0=0为对称分布为对称分布偏态系数偏态系数 0 0为右偏分布为右偏分布偏态系数偏态系数 0 0为左偏分布为左偏分布第57页,此课件共63页哦偏
45、态系数偏态系数(coefficient of(coefficient of skskewness)ewness)1.1.根据原始数据计算根据原始数据计算2.2.根据分组数据计算根据分组数据计算第58页,此课件共63页哦偏态系数偏态系数 (例题分析例题分析)表表4-10 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 24014515516517518519520521522523
46、5 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 第59页,此课件共63页哦偏态系数偏态系数 (例题分析例题分析)结论:偏态系数为正值,但与结论:偏态系数为正值,但与0 0的差异不大,说明电的差异不大,说明电的差异不大,说明电的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据脑
47、销售量为轻微右偏分布,即销售量较少的天数占据脑销售量为轻微右偏分布,即销售量较少的天数占据脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数。多数,而销售量较多的天数则占少数。多数,而销售量较多的天数则占少数。多数,而销售量较多的天数则占少数。统计函数统计函数统计函数统计函数SKEW直方图直方图直方图直方图第60页,此课件共63页哦峰态峰态(k kurtosis)urtosis)1.1.统计学家统计学家PearsonPearson于于19051905年首次提出年首次提出2.2.数据分布扁平程度的测度数据分布扁平程度的测度3.3.峰态系数峰态系数=0=0扁平峰度适中扁
48、平峰度适中4.4.峰态系数峰态系数000为尖峰分布为尖峰分布第61页,此课件共63页哦数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形态分布形态中位数中位数中位数中位数算术平均数算术平均数算术平均数算术平均数(均值均值均值均值)异众比率异众比率异众比率异众比率极差极差极差极差偏态系数偏态系数偏态系数偏态系数平均差平均差平均差平均差方差或标准差方差或标准差方差或标准差方差或标准差峰态系数峰态系数峰态系数峰态系数众数众数众数众数离散系数离散系数离散系数离散系数几何平均数几何平均数几何平均数几何平均数调和平均数调和平均数调和平均数调和平均数第62页,此课件共63页哦附录:附录:ExcelExcel中的统计函数中的统计函数MODEMODE计算众数计算众数MEDIANMEDIAN计算中位数计算中位数AVERAGEAVERAGE计算简单算数平均数计算简单算数平均数GEOMEANGEOMEAN计算几何平均数计算几何平均数STDEVSTDEV计算样本标准差计算样本标准差STDEVPSTDEVP计算总体标准差计算总体标准差SKEWSKEW计算偏态系数计算偏态系数KURTKURT计算峰态系数计算峰态系数第63页,此课件共63页哦