《数据分布特征的测度.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的测度.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据分布特征的测度现在学习的是第1页,共63页 数据分布特征的描述现在学习的是第2页,共63页数据的数据的“中间位置中间位置”现在学习的是第3页,共63页离散程度的度量这两个数据“胖瘦”一样吗?现在学习的是第4页,共63页数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)现在学习的是第5页,共63页数据分布特征的描述离散程度离散程度变异系数变异系数变异系数变异系数标准差标准差标准差标准差方差方差方差方差全距全距全距全距分布的形状分布的形
2、状峰度峰度峰度峰度系数系数系数系数偏态偏态偏态偏态系数系数系数系数集中趋势集中趋势众众众众 数数数数中位数中位数中位数中位数位置位置位置位置平均数平均数平均数平均数数值数值数值数值平均数平均数平均数平均数算术平均数算术平均数算术平均数算术平均数几何平均数几何平均数几何平均数几何平均数数据的分布特征和测度数据的分布特征和测度现在学习的是第6页,共63页数据分布特征的测度4.1 4.1 集中趋势的测度集中趋势的测度 4.2 4.2 离中趋势的测度离中趋势的测度4.3 4.3 偏度和峰度的测度偏度和峰度的测度现在学习的是第7页,共63页学习目标u了解集中趋势指标的概念、特点和作用,掌握各种平均数的计
3、算方法、应用条件以及几种平均数之间的关系。u了解离中趋势指标的概念、种类和作用及与平均指标的区别。其中重点是标准差与离散系数的计算。u了解数据的分布形态测定方法。u了解各项指标的应用原则,能结合实际调查资料计算有关指标和进行初步的分析。现在学习的是第8页,共63页4.1 4.1 集中趋势的测度集中趋势的测度现在学习的是第9页,共63页数据集中位置数据集中位置变量变量x 集集中中趋趋势势指指标标(也也叫叫平平均均指指标标)反反映映同同类类现现象象的的一一一一般般般般水水水水平平平平或或或或平平平平均均均均水水水水平平平平,是是总总体体内内各各单单位位参参差差不不齐齐的的标标志志值值的的代表值代表
4、值,也是对变量,也是对变量分布集中趋势分布集中趋势分布集中趋势分布集中趋势的测定。的测定。集中趋势指标u它是一个抽象值;它是一个抽象值;u u它是一个代表值;它是一个代表值;它是一个代表值;它是一个代表值;u它反映了总体(各单位标志值)分布的集中趋势。它反映了总体(各单位标志值)分布的集中趋势。x现在学习的是第10页,共63页 按计算方按计算方法不同法不同算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 众数众数 中位数中位数 数数 值值 平均数平均数 (位置平均数)(位置平均数)数值型数据数值型数据定序数据定序数据定类数据定类数据低层次数据的集中趋势测度值适用于高层次的测量数
5、低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据于低层次的测量数据现在学习的是第11页,共63页4.1.1 众数(mode)1.1.1.1.一组数据中出现次数最多的变量值;一组数据中出现次数最多的变量值;一组数据中出现次数最多的变量值;一组数据中出现次数最多的变量值;2.2.2.2.适合于数据量较多时使用;适合于数据量较多时使用;适合于数据量较多时使用;适合于数据量较多时使用;3.3.3.3.不受极端值的影响;不受极端值的影响;不受极端值的影响;不受极端值的影响;4.4.4.4.一组数据
6、可能没有众数或有几个众数;一组数据可能没有众数或有几个众数;一组数据可能没有众数或有几个众数;一组数据可能没有众数或有几个众数;5.5.5.5.主要用于主要用于主要用于主要用于分类数据分类数据分类数据分类数据,也可用于顺序数据和数值型数,也可用于顺序数据和数值型数据。据。现在学习的是第12页,共63页众数无众数无众数原始数据:10 5 9 12 6 8多于一个众数多于一个众数原始数据:25 :25 28 28 36 42 42一个众数一个众数原始数据原始数据:6 5 9 8 5 55 5现在学习的是第13页,共63页定类数据的众数定类数据的众数 (例题分析例题分析)不同品牌饮料的频数分布不同品
7、牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解解解:这这这这里里里里的的的的变变变变量量量量为为为为“饮饮饮饮料料料料品品品品牌牌牌牌”,这这这这是是是是个个个个定定定定类类类类变变变变量量量量,不不不不同同同同类类类类型型型型的的的的饮饮饮饮料料料料就就就就是是是是变变变变量量量量值值值值 所所所所调调调调查查查查的的的的50505050人人人人中中中中,购购购购买买买买可可可可口口口
8、口可可可可乐乐乐乐的的的的人人人人数数数数最最最最多多多多,为为为为15151515人人人人,占占占占被被被被调调调调查查查查总总总总人人人人数数数数的的的的30%30%30%30%,因因因因此此此此众众众众数数数数为为为为“可可可可口口口口可乐可乐可乐可乐”这一品牌,即这一品牌,即这一品牌,即这一品牌,即 M M M Mo o o o可口可乐可口可乐可口可乐可口可乐现在学习的是第14页,共63页定序数据的众数定序数据的众数(例题分析例题分析)解解解解:这这这这里里里里的的的的数数数数据据据据为为为为定定定定序序序序数数数数据据据据。变变变变量量量量为为为为“回回回回答答答答类类类类别别别别”
9、该该该该城城城城市市市市中中中中对对对对住住住住房房房房表表表表示示示示不不不不满满满满意意意意的的的的户户户户数数数数最最最最多多多多,为为为为108108108108户户户户,因因因因此此此此众众众众数数数数为为为为“不不不不满意满意满意满意”这一类别,即这一类别,即这一类别,即这一类别,即 M M M Mo o o o不满意不满意不满意不满意表表4-1 某城市家庭对住房状况评价的频数分布某城市家庭对住房状况评价的频数分布回答类别回答类别户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311
10、510合计合计300100.0统计函数统计函数统计函数统计函数MODE现在学习的是第15页,共63页4.1.2 4.1.2 中位数中位数(median)(median)1.1.按数值大小按数值大小排序排序排序排序后处于中间位置上的值;后处于中间位置上的值;后处于中间位置上的值;后处于中间位置上的值;MMe e50%50%2.不受极端值的影响;不受极端值的影响;3.3.主要用于定序数据,也可用定量数据,但不能用于定类主要用于定序数据,也可用定量数据,但不能用于定类主要用于定序数据,也可用定量数据,但不能用于定类主要用于定序数据,也可用定量数据,但不能用于定类数据;数据;数据;数据;现在学习的是第
11、16页,共63页数值型数据的中位数(奇数个数据)例例例例4-14-14-14-1:9 9 9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 :750 780 850 960 10801080 1250 1500 1630 2000 1250 1500 1630 2000位位 置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数Me 108
12、0统计函数统计函数统计函数统计函数MEDIAN现在学习的是第17页,共63页数值型数据的中位数数值型数据的中位数(偶数个数据偶数个数据)例例4-2:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 箱式图现在学习的是第18页,共63页中位数中位数(位置和数值的确定位置和数值的确定)位置确定位置确定数值确定数值确定现在学习的是第19页,共63页未分组数据箱线图(box plot)1.1.用于显示未分组的原始数据的分布;用于显示未分组的原始数据的分布;2.2.由由一一组
13、组数数据据的的5 5 5 5个个特特征征值值绘绘制制而而成成,它它由由一一个个箱箱子子和和两两条条线段组成;线段组成;3.3.绘制方法:绘制方法:q首首先先找找出出一一组组数数据据的的5 5个个特特征征值值,即即最最最最大大大大值值值值、最最最最小小小小值值值值、中中中中位位位位数数数数MMMMe e e e和两个和两个四分位数四分位数四分位数四分位数(下四分位数下四分位数Q QL L和上四分位数和上四分位数Q QU U);q连接两个四分位数画出箱子,再将两个极值点与箱子相连接;连接两个四分位数画出箱子,再将两个极值点与箱子相连接;q该箱线图也称为该箱线图也称为Median/QuartMedi
14、an/Quart./Range/Range箱线图箱线图 。现在学习的是第20页,共63页箱线图的构成4 46 68 810101212中位数中位数QQU UUQQL LLX X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图箱线图的构成:现在学习的是第21页,共63页单批数据箱线图单批数据箱线图最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.8170.8170.8上四分位数上四分位数上四分位数197197
15、197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的某电脑公司销售量数据的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图现在学习的是第22页,共63页分布的形状与箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位
16、数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQUUU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图现在学习的是第23页,共63页未分组数据箱线图(box plot)箱箱式式图图包包含含的的信信息息比比直直方方图图和和茎茎叶叶图图都都少少,所所以以它它的的最最佳用途是用来同时佳用途是用来同时比较多个分布比较多个分布。例例如如,为为了了解解不不同同教教育育程程度
17、度的的人人的的收收入入差差别别,根根据据某某年年7151271512个个人人的的收收入入的的抽抽样样调调查查结结果果,得得到到的的不不同同受受教教育育程程度的人的收入分布如下图:度的人的收入分布如下图:现在学习的是第24页,共63页4.1.3 4.1.3 算术平均数算术平均数设一组数据为:设一组数据为:X X X X1 1 1 1,X X X X2 2 2 2,X X X XN NN N简单算术平均数简单算术平均数简单算术平均数简单算术平均数的计算公式为的计算公式为的计算公式为的计算公式为(未分组数据)未分组数据)未分组数据)未分组数据)设分组后的数据为:设分组后的数据为:设分组后的数据为:设
18、分组后的数据为:X X X X1 1 1 1,X X X X2 2,X X X XK K K K相应的频数为:相应的频数为:相应的频数为:相应的频数为:f f1 1 1 1,f f f f2 2,f f f fK KK K加权算术平均数加权算术平均数加权算术平均数加权算术平均数的计算公式为(分组数据)的计算公式为(分组数据)的计算公式为(分组数据)的计算公式为(分组数据)各单位标各单位标各单位标各单位标志值的和志值的和志值的和志值的和总单总单总单总单位数位数位数位数现在学习的是第25页,共63页.例例4-34-3:某厂某厂工人各级别工资额和相应工人数资料如下工人各级别工资额和相应工人数资料如下
19、表表4-54-5:工资额工资额(元)(元)工人数工人数(人)(人)460 460 520 520 600 600 700 700 850 8505 5 151518 18 1010 2 2 合合 计计5050工资总额工资总额(元)(元)xf?试计算?试计算工人平均工人平均工资。工资。2960029600 x f 78007800 70007000 17001700 1080010800 23002300=各组标志值各组标志值各组单位数各组单位数各组标志总量各组标志总量表表4-34-3 注意:注意:由由组距组距数列计算加权算数列计算加权算术平均数,可用术平均数,可用组中值组中值代表代表各组各组变
20、量值变量值。现在学习的是第26页,共63页.表表4-4 某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200现在学习的是第27页,共63页.调和平均数调和平均数 调和平均数的概念:调和平均数的概念:也叫倒
21、数平均数也叫倒数平均数,一般一般认为是认为是算术平均数的变形算术平均数的变形。现在学习的是第28页,共63页.几何平均数几何平均数几何平均数(几何平均数(G G)的概念:)的概念:它是分布数列中它是分布数列中n n个单位个单位标志值连乘积的标志值连乘积的n n次方根。次方根。u适用于适用于计算时间上相互衔接的比率计算时间上相互衔接的比率计算时间上相互衔接的比率计算时间上相互衔接的比率的平均数的平均数;u主要用于计算平均发展速度;主要用于计算平均发展速度;u计算公式为:计算公式为:现在学习的是第29页,共63页.几何平均数(例题分析)几何平均数(例题分析)例例4-44-4:某产品需经三个车间加工
22、,已知第一个车间加:某产品需经三个车间加工,已知第一个车间加工合格率为工合格率为95%95%,第二个车间加工合格率为,第二个车间加工合格率为90%90%,第三个,第三个车间加工合格率为车间加工合格率为98%98%,求三个车间平均加工合格率。,求三个车间平均加工合格率。现在学习的是第30页,共63页.几何平均数(例题分析)几何平均数(例题分析)例例4-54-5:一位投资者持有一支股票,在:一位投资者持有一支股票,在20002000、20012001、20022002、20032003年的收益率分别为年的收益率分别为4.5%4.5%、2.1%2.1%、25.5%25.5%和和1.9%1.9%。计算
23、该。计算该股票在这四年中的平均收益率。股票在这四年中的平均收益率。现在学习的是第31页,共63页4.1.4 众数、中位数和均值的比较u众数、中位数和均值的关系众数、中位数和均值的关系u众数、中位数、平均数的特点和应用场合众数、中位数、平均数的特点和应用场合现在学习的是第32页,共63页众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数
24、众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值现在学习的是第33页,共63页众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用1.1.众数众数众数众数qq不受极端值影响不受极端值影响不受极端值影响不受极端值影响qq具有不惟一性具有不惟一性具有不惟一性具有不惟一性qq数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用2.2.中位数中位数中位数中位数qq不受极端值影响不受极端值影响不受
25、极端值影响不受极端值影响qq数据分布数据分布数据分布数据分布偏斜程度偏斜程度偏斜程度偏斜程度较大时应用较大时应用较大时应用较大时应用3.3.平均数平均数平均数平均数qq易受极端值影响易受极端值影响易受极端值影响易受极端值影响qq数学性质优良数学性质优良数学性质优良数学性质优良qq数据数据数据数据对称分布或接近对称分布对称分布或接近对称分布对称分布或接近对称分布对称分布或接近对称分布时应用时应用时应用时应用u u各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零u u各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小
26、各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小现在学习的是第34页,共63页表4-5 数据类型和所适用的集中趋势测度值数据数据类型类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数算术平均数算术平均数算术平均数算术平均数众数众数众数众数调和平均数调和平均数中位数中位数几何平均数几何平均数 中位数中位数众数众数数据类型和所适用的集中趋势测度值现在学习的是第35页,共63页4.2 4.2 离中趋势的测度离中趋势的测度现在学习的是第36页,共63页离中趋势离中趋势1.1.数据分布的另一个重要特征;数据分布的另一个重要特征;
27、数据分布的另一个重要特征;数据分布的另一个重要特征;2.2.反映各变量值远离其中心值的程度,因此也称为离散趋势。反映各变量值远离其中心值的程度,因此也称为离散趋势。反映各变量值远离其中心值的程度,因此也称为离散趋势。反映各变量值远离其中心值的程度,因此也称为离散趋势。3.3.从另一个侧面说明了集中趋势测度值的代表程度;从另一个侧面说明了集中趋势测度值的代表程度;从另一个侧面说明了集中趋势测度值的代表程度;从另一个侧面说明了集中趋势测度值的代表程度;4.4.不同类型的数据有不同的离散程度测度值;不同类型的数据有不同的离散程度测度值;不同类型的数据有不同的离散程度测度值;不同类型的数据有不同的离散
28、程度测度值;甲组:80 80 80 80 80 平均数为80 乙组:70 75 80 85 90 平均数为80 丙组:2 18 25 96 259 平均数为80现在学习的是第37页,共63页异众比率(variation ratio)1.1.1.1.对分类数据离散程度的测度;对分类数据离散程度的测度;2.2.非众数组的频数占总频数的比例;非众数组的频数占总频数的比例;非众数组的频数占总频数的比例;非众数组的频数占总频数的比例;3.3.3.3.计算公式为:计算公式为:计算公式为:计算公式为:4.4.4.4.用于衡量众数的代表性。用于衡量众数的代表性。用于衡量众数的代表性。用于衡量众数的代表性。现在
29、学习的是第38页,共63页异众比率异众比率 (例题分析例题分析)解:解:解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况,其代表性不是很好。况,其代表性不是很好。不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.1830221812
30、18合计合计501100现在学习的是第39页,共63页极差极差(range)(range)1.一组数据的最大值与最小值之差;一组数据的最大值与最小值之差;2.2.离散程度的最简单测度值;离散程度的最简单测度值;离散程度的最简单测度值;离散程度的最简单测度值;3.3.易受极端值影响;易受极端值影响;易受极端值影响;易受极端值影响;4.4.未考虑数据的分布。未考虑数据的分布。未考虑数据的分布。未考虑数据的分布。R=max(xi)-min(xi)5.5.计算公式为:计算公式为:计算公式为:计算公式为:现在学习的是第40页,共63页平均差平均差1.各变量值与其平均数离差绝对值的平均数;各变量值与其平均
31、数离差绝对值的平均数;2.能全面反映一组数据的离散程度;能全面反映一组数据的离散程度;3.数学性质较差,实际中应用较少。数学性质较差,实际中应用较少。4.计算公式为:计算公式为:未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据0现在学习的是第41页,共63页.根据根据表表4-64-6:试问试问A、B 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?学生学生序号序号 考分(分)考分(分)xAxB甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 858568687070767680808181合计合计 3753753753
32、75 离差离差-10-10-5-5 0 0 5 5 10 10解:解:离差绝对值离差绝对值离差离差离差绝对值离差绝对值 MDAMDB故,故,B 组学生平均考分比组学生平均考分比A 组学生平均考分更有代表性。组学生平均考分更有代表性。1010 5 5 0 0 5 5 10 103030 -7-7-5-5 1 1 5 5 6 6 7 7 5 5 1 1 5 5 6 62424现在学习的是第42页,共63页方差和标准差方差和标准差(variance and standard deviation)(variance and standard deviation)1.1.1.1.数据离散程度的最常用测度
33、值;数据离散程度的最常用测度值;数据离散程度的最常用测度值;数据离散程度的最常用测度值;2.2.2.2.反映了各变量值与均值的平均差异;反映了各变量值与均值的平均差异;反映了各变量值与均值的平均差异;反映了各变量值与均值的平均差异;3.3.3.3.根据总体数据计算的,称为总体方差或标准差,根据总体数据计算的,称为总体方差或标准差,根据总体数据计算的,称为总体方差或标准差,根据总体数据计算的,称为总体方差或标准差,记为记为记为记为 2 2 2 2();根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差或标准差,记
34、为或标准差,记为或标准差,记为或标准差,记为s s s s2 2 2 2(s)(s)。现在学习的是第43页,共63页.总体标准差总体标准差 总体标总体标准差的准差的计算方计算方法法1.1.简单标简单标准差准差2.2.加权标加权标准差准差(未分组数(未分组数列)列)(分组(分组 数数列)列)现在学习的是第44页,共63页样本方差和标准差样本方差和标准差未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式
35、标准差的计算公式注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度n n-1-1去除去除去除去除!现在学习的是第45页,共63页.根据根据表表4-74-7:学生学生序号序号 考分(分)考分(分)xAxB甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 858568687070767680808181合计合计 375375375375 离差离差离差平方离差平方离差离差离差平方离差平方-10-10-5-5 0 0 5 5 10 10 100100 25 25 0 0 25 25 100 100 -7-7-5-5 1 1 5 5 6 6 4949 2
36、5 25 1 1 25 25 36 36136136250250试问试问A、B 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?解:解:故,故,B组学生平均考分比组学生平均考分比A组学生平均考分更有代表性。组学生平均考分更有代表性。A B现在学习的是第46页,共63页样本标准差样本标准差 (例题分析例题分析)表表4-8 某电脑公司销售量数据标准差计算表某电脑公司销售量数据标准差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 23023
37、0 240145155165175185195205215225235 4 91627201710 8 4 5402302202102 021022023024025026400810064002700 0170040007200640012500合计合计12055400现在学习的是第47页,共63页样本标准差样本标准差 (例题分析例题分析)含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,含义:每一天的销售量与平均数相比,平均相差平均相差平均相差平均相差21.5821.5821.5821.58台。台。台。台。统计函数统计函数统计函数统计函数
38、STDEVSTDEV现在学习的是第48页,共63页离散系数1.1.1.1.也叫变异系数,或标准差系数。也叫变异系数,或标准差系数。也叫变异系数,或标准差系数。也叫变异系数,或标准差系数。2.2.2.2.标准差与其相应的均值之比;标准差与其相应的均值之比;标准差与其相应的均值之比;标准差与其相应的均值之比;3.3.3.3.对数据相对离散程度的测度;对数据相对离散程度的测度;对数据相对离散程度的测度;对数据相对离散程度的测度;4.4.4.4.消除了数据水平高低和计量单位的影响;消除了数据水平高低和计量单位的影响;消除了数据水平高低和计量单位的影响;消除了数据水平高低和计量单位的影响;5.5.5.5
39、.用于对不同组别数据离散程度的比较;用于对不同组别数据离散程度的比较;6.6.6.6.计算公式为计算公式为计算公式为计算公式为现在学习的是第49页,共63页.根据根据表表4-94-9:学生学生序号序号 考分(分)考分(分)xAxC甲甲乙乙丙丙丁丁戊戊 656570 70 757580 80 85857979858590909595100100合计合计 375375449449 离差离差-10-10-5-5 0 0 5 5 10 10 解:解:离差平方离差平方离差离差离差平方离差平方-11-11-5-5 0 0 5 5 10 10 100100 25 25 0 0 25 25 100 100 2
40、50 250 121121 25 25 0 0 25 25 100 100271271 VAVC故,故,C 组平均考分更有代表性。组平均考分更有代表性。试问试问A、C 两组那一组学生的平均考分更有代表性?两组那一组学生的平均考分更有代表性?现在学习的是第50页,共63页几种离散测度的比较概概 念念 计计 算算 特特 点点数列中最大值数列中最大值与最小值之差与最小值之差1极差极差 (R)R=最大值最大值-最小值最小值优点:容易理解,优点:容易理解,计算方便计算方便缺点:不能反映全部数缺点:不能反映全部数据分布状况据分布状况2平均差平均差 (A.D)各标志值与各标志值与均值离差绝均值离差绝对值的算
41、术对值的算术平均平均简单:简单:加权:加权:优点:反映全部数据分布优点:反映全部数据分布状况状况 缺点:取绝对值缺点:取绝对值 ,不合,不合乎代数方法的演算,进一乎代数方法的演算,进一步应用少。步应用少。现在学习的是第51页,共63页概概 念念 计计 算算 特特 点点各各标标志志值值与与均均值值离离差差平平方方的的平均。平均。方方差差的的平平方方根根(取正根)(取正根)3 方方 差差(2)和和 标准差标准差()优优点点:反反映映全全部部数数据据分分布布状况,应用广泛。状况,应用广泛。缺缺点点:受受计计量量单单位位和和平平均均水水平平影影响响,不不便便于于比比较较;分分布布基本对称时使用。基本对
42、称时使用。4标准标准差系数差系数 (V)标准差与均值标准差与均值之商,是无量之商,是无量纲的系数纲的系数简单:简单:加权:加权:优优点点:适适宜宜不不同同数数据据集的比较集的比较 方差(方差(方差(方差(2 2)和标准差()和标准差()和标准差()和标准差()是应用最广的离散测度)是应用最广的离散测度)是应用最广的离散测度)是应用最广的离散测度现在学习的是第52页,共63页5 5、是非标志的平均数与标准差、是非标志的平均数与标准差uu是非标志是非标志是非标志是非标志:如果按照某种标志把总体只能分为具有某种特征的单位和不如果按照某种标志把总体只能分为具有某种特征的单位和不如果按照某种标志把总体只
43、能分为具有某种特征的单位和不如果按照某种标志把总体只能分为具有某种特征的单位和不具有该特征的单位具有该特征的单位具有该特征的单位具有该特征的单位两部分两部分两部分两部分,这个标志就是是非标志。比如,学生按性别,这个标志就是是非标志。比如,学生按性别,这个标志就是是非标志。比如,学生按性别,这个标志就是是非标志。比如,学生按性别分为男生(是)和女生(非);产品分为合格品(是)和非合格品(非)分为男生(是)和女生(非);产品分为合格品(是)和非合格品(非)分为男生(是)和女生(非);产品分为合格品(是)和非合格品(非)分为男生(是)和女生(非);产品分为合格品(是)和非合格品(非)。uu平均数的计
44、算:把具有某种特征的用平均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用“1 1 1 1”表示,不具有该种特征的用表示,不具有该种特征的用表示,不具有该种特征的用表示,不具有该种特征的用“0 0 0 0”表示。表示。表示。表示。现在学习的是第53页,共63页5 5、是非标志的平均数与标准差、是非标志的平均数与标准差是非标志是非标志 x x单位数单位数 f f比重比重 1 1 0 0 合合 计计 N N 1 1即总体中具有即总体中具有即总体中具有即总体中具有 某种性质或属性的单某种性质或属性的单某种性质或属性的单某种性质或属性的单位在总体中所占的比重
45、,称为位在总体中所占的比重,称为位在总体中所占的比重,称为位在总体中所占的比重,称为比例或比例或比例或比例或成数。成数。成数。成数。P等于0.5时方差最大。总体比例用总体比例用总体比例用总体比例用 表示,样本比例用表示,样本比例用表示,样本比例用表示,样本比例用p p表示表示表示表示现在学习的是第54页,共63页4.3 4.3 偏度与峰度的测定偏度与峰度的测定现在学习的是第55页,共63页分布的形态分布的形态扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正
46、态与标准正态分布比较!分布比较!分布比较!分布比较!现在学习的是第56页,共63页偏态偏态(skewness)(skewness)数据分布偏斜程度的测度数据分布偏斜程度的测度数据分布偏斜程度的测度数据分布偏斜程度的测度偏态系数偏态系数=0=0为对称分布为对称分布偏态系数偏态系数 0 0为右偏分布为右偏分布偏态系数偏态系数 0 0为左偏分布为左偏分布现在学习的是第57页,共63页偏态系数偏态系数(coefficient of(coefficient of skskewness)ewness)1.1.根据原始数据计算根据原始数据计算2.2.根据分组数据计算根据分组数据计算现在学习的是第58页,共6
47、3页偏态系数偏态系数 (例题分析例题分析)表表4-10 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 256000
48、0 270000 0 170000 1600000 64800001024000031250000合计合计120540000 70100000 现在学习的是第59页,共63页偏态系数偏态系数 (例题分析例题分析)结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与0 0 0 0的差异不大,说明电脑的差异不大,说明电脑的差异不大,说明电脑的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数占据多数,销售量为轻微右偏分布,即销售量较少的天数
49、占据多数,而销售量较多的天数则占少数。而销售量较多的天数则占少数。而销售量较多的天数则占少数。而销售量较多的天数则占少数。统计函数统计函数统计函数统计函数SKEWSKEW直方图直方图直方图直方图现在学习的是第60页,共63页峰态峰态(k kurtosis)urtosis)1.1.统计学家统计学家PearsonPearson于于19051905年首次提出年首次提出2.2.数据分布扁平程度的测度数据分布扁平程度的测度3.3.峰态系数峰态系数=0=0扁平峰度适中扁平峰度适中4.4.峰态系数峰态系数000为尖峰分布为尖峰分布现在学习的是第61页,共63页数据分布特征和描述统计量数据分布特征和描述统计量
50、数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形态分布形态中位数中位数中位数中位数算术平均数算术平均数算术平均数算术平均数(均值均值均值均值)异众比率异众比率异众比率异众比率极差极差极差极差偏态系数偏态系数偏态系数偏态系数平均差平均差平均差平均差方差或标准差方差或标准差方差或标准差方差或标准差峰态系数峰态系数峰态系数峰态系数众数众数众数众数离散系数离散系数离散系数离散系数几何平均数几何平均数几何平均数几何平均数调和平均数调和平均数调和平均数调和平均数现在学习的是第62页,共63页附录:附录:ExcelExcel中的统计函数中的统计函数MODEMODE计算众数计算众数MEDIANM