《第2章统计数据的描述全解优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第2章统计数据的描述全解优秀PPT.ppt(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第 2章章 统计数据的描述统计数据的描述n n2.1 2.1 统计数据的整理统计数据的整理统计数据的整理统计数据的整理n n2.2 2.2 分布集中趋势的测度分布集中趋势的测度分布集中趋势的测度分布集中趋势的测度n n2.3 2.3 分布离散程度的测度分布离散程度的测度分布离散程度的测度分布离散程度的测度n n2.4 2.4 分布偏态与峰态的测度分布偏态与峰态的测度分布偏态与峰态的测度分布偏态与峰态的测度n n2.5 2.5 统计表与统计图统计表与统计图统计表与统计图统计表与统计图n n 本章小结本章小结本章小结本章小结学习目标学习目标1.1.驾驭数值型数据的整理方法驾驭数值型数据的整理方法
2、2.2.驾驭数据集中趋势和离散程度的测度方法驾驭数据集中趋势和离散程度的测度方法3.3.驾驭茎叶图和箱线图的制作方法驾驭茎叶图和箱线图的制作方法4.4.驾驭分布偏态与峰度的测度方法驾驭分布偏态与峰度的测度方法5.5.驾驭统计表和统计图的运用驾驭统计表和统计图的运用2.1 统计数据的整理数据的整理一、统计数据的分组一、统计数据的分组 二、次数支配二、次数支配三、次数支配直方图三、次数支配直方图四、洛伦茨曲线四、洛伦茨曲线n n一、统计数据的分组一、统计数据的分组n n(一)定性分组(一)定性分组n n如按性别、民族、经济类型分组如按性别、民族、经济类型分组n n(二)定量分组(二)定量分组n n
3、如按产量、年龄、利润分组如按产量、年龄、利润分组n n1、单项分组:每组只有一个变量值、单项分组:每组只有一个变量值n n2、组距分组、组距分组2.1 统计数据的整理统计数据的整理二、次数支配(以组距分组为例)二、次数支配(以组距分组为例)(一)组距分组的要点(一)组距分组的要点将变量值的一个区间作为一组将变量值的一个区间作为一组适合于数值型变量适合于数值型变量适合于变量值较多的状况适合于变量值较多的状况须要遵循须要遵循“不重不漏不重不漏”的原则的原则可可接接受受等等距距分分组组,也也可可接接受受不不等等距距分组分组 2.1 统计数据的整理统计数据的整理组距分组组距分组(几个概念几个概念)n
4、n(二)组距分组的概念(二)组距分组的概念(二)组距分组的概念(二)组距分组的概念n n1.1.下限下限下限下限(low limit)low limit):一个组的最小值:一个组的最小值:一个组的最小值:一个组的最小值n n2.2.上限上限上限上限(upper limit)upper limit):一个组的最大值:一个组的最大值:一个组的最大值:一个组的最大值n n3.3.组距组距组距组距(class width)class width):上限与下限之差:上限与下限之差:上限与下限之差:上限与下限之差n n4.4.组中值组中值组中值组中值(class midpoint)class midpoi
5、nt):下限与上限之间的:下限与上限之间的:下限与上限之间的:下限与上限之间的中点值中点值中点值中点值下限值下限值+上限值上限值2组中值组中值=2.1 统计数据的整理数据的整理(三)组距分组的步骤(三)组距分组的步骤确确定定组组数数:组组数数的的确确定定应应以以能能够够显显示示数数据据的分布特征和规律为目的的分布特征和规律为目的确确定定组组距距:组组距距(class width)是是一一个个组组的的上上限限与与下下限限之之差差,可可依依据据全全部部数数据据的的最最大值和最小值及所分的组数来确定,即大值和最小值及所分的组数来确定,即 组距组距(最大值最大值-最小值最小值)组数组数统计出各组的频数
6、并整理成频数分布表统计出各组的频数并整理成频数分布表 2.1 统计数据的整理数据的整理次数支配表的编制次数支配表的编制(例题分析例题分析)【例例例例】某某某某车车车车间间间间3030名名名名工工工工人人人人每每每每周周周周加加加加工工工工某某某某种种种种零零零零件件件件件件件件数数数数如如如如右右右右表表表表,试试试试 对对对对 数数数数 据据据据 进进进进行分组。行分组。行分组。行分组。次数支配表次数支配表运用运用Excel频数函数频数函数(FREQUENCY)ExcelExcel的的的的“直直直直方方方方图图图图”工工工工具具具具的的的的缺缺缺缺陷陷陷陷是是是是:频频频频数数数数分分分分布
7、布布布和和和和直直直直方方方方图图图图没没没没有有有有与与与与数数数数据据据据联联联联系系系系起起起起来来来来,这这这这样样样样,假假假假如如如如你你你你变变变变更更更更任任任任何何何何一一一一个个个个数数数数据,据,据,据,频频频频数分布表和直方数分布表和直方数分布表和直方数分布表和直方图图图图不会跟着不会跟着不会跟着不会跟着变变变变更更更更运运运运用用用用ExcelExcel中中中中的的的的统统统统计计计计函函函函数数数数“FREQUENCY”“FREQUENCY”来来来来创创创创建建建建频频频频数数数数分分分分布布布布表表表表和和和和直直直直方方方方图图图图,可可可可解解解解决决决决这这
8、这这一一一一问问问问题题题题。创创创创建建建建频频频频数数数数分分分分布布布布表表表表的步的步的步的步骤骤骤骤是是是是选选选选择择择择与与与与接接接接受受受受区区区区域域域域相相相相接接接接近近近近的的的的单单单单元元元元格格格格区区区区域域域域,作作作作为为为为频频频频数数数数分分分分布布布布表表表表输输输输出的区域出的区域出的区域出的区域选择统计选择统计选择统计选择统计函数中的函数中的函数中的函数中的“FREQUENCY”“FREQUENCY”函数函数函数函数在在在在对对对对话话话话框框框框Date-arrayDate-array后后后后输输输输入入入入数数数数据据据据区区区区域域域域,在
9、在在在Bins-arrayBins-array后后后后输输输输入各入各入各入各组组组组分界点分界点分界点分界点同同同同时时时时按下按下按下按下ctrl-shift-Enterctrl-shift-Enter组组组组合合合合键键键键,即得到,即得到,即得到,即得到频频频频数分布数分布数分布数分布统计函数统计函数统计函数统计函数FREQUENCYFREQUENCY直方图直方图三、次数支配直方图三、次数支配直方图三、次数支配直方图三、次数支配直方图(一)直方图(一)直方图(一)直方图(一)直方图(histogram)(histogram)用用用用矩矩矩矩形形形形的的的的宽宽宽宽度度度度和和和和高高高
10、高度度度度来来来来表表表表示示示示频频频频数数数数分分分分布布布布的的的的图图图图形形形形,事事事事实实实实上是用矩形的面积来表示各组的频数分布上是用矩形的面积来表示各组的频数分布上是用矩形的面积来表示各组的频数分布上是用矩形的面积来表示各组的频数分布在在在在直直直直角角角角坐坐坐坐标标标标中中中中,用用用用横横横横轴轴轴轴表表表表示示示示数数数数据据据据分分分分组组组组,纵纵纵纵轴轴轴轴表表表表示示示示频频频频数数数数或或或或频频频频率率率率,各各各各组组组组与与与与相相相相应应应应的的的的频频频频数数数数就就就就形形形形成成成成了了了了一一一一个个个个矩矩矩矩形,即直方图形,即直方图形,即
11、直方图形,即直方图直方图下的总面积等于直方图下的总面积等于直方图下的总面积等于直方图下的总面积等于1 12.1 统计数据的整理数据的整理分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图 我我我我一一一一眼眼眼眼就就就就看看看看出出出出来来来来了了了了,周周周周加加加加工工工工零零零零件件件件在在在在100100110110之之之之 间间间间 的的的的 人人人人数最多数最多数最多数最多!(frequency polygon)(二)折线图(二)折线图(二)折线图(二)折线图(freque
12、ncy polygon)(frequency polygon)折线图也称频数多边形图折线图也称频数多边形图折线图也称频数多边形图折线图也称频数多边形图是是是是在在在在直直直直方方方方图图图图的的的的基基基基础础础础上上上上,把把把把直直直直方方方方图图图图顶顶顶顶部部部部的的的的中中中中点点点点(组组组组中中中中值值值值)用直线连接起来,再把原来的直方图抹掉用直线连接起来,再把原来的直方图抹掉用直线连接起来,再把原来的直方图抹掉用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是折线图的两个终点要与横轴相交,具体的做法是折线图的两个终点要与横轴相交,具体的做法是折线图
13、的两个终点要与横轴相交,具体的做法是第第第第一一一一个个个个矩矩矩矩形形形形的的的的顶顶顶顶部部部部中中中中点点点点通通通通过过过过竖竖竖竖边边边边中中中中点点点点(即即即即该该该该组组组组频频频频数数数数一一一一半半半半的的的的位位位位置置置置)连连连连接接接接到到到到横横横横轴轴轴轴,最最最最终终终终一一一一个个个个矩矩矩矩形形形形顶顶顶顶部部部部中中中中点与其竖边中点连接到横轴点与其竖边中点连接到横轴点与其竖边中点连接到横轴点与其竖边中点连接到横轴折折折折线线线线图图图图下下下下所所所所围围围围成成成成的的的的面面面面积积积积与与与与直直直直方方方方图图图图的的的的面面面面积积积积相相相
14、相等等等等,二二二二者者者者所表示的频数分布是一样的所表示的频数分布是一样的所表示的频数分布是一样的所表示的频数分布是一样的2.1 统计数据的整理数据的整理分组数据的图示分组数据的图示(折线图的绘制折线图的绘制)折线图与直方图折线图与直方图折线图与直方图折线图与直方图下的面积相等!下的面积相等!下的面积相等!下的面积相等!某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图 对称分布对称分布对称分布对称分布对称分布对称分布右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布正正正正正正J J J型分
15、布型分布型分布型分布型分布型分布反反反反反反J J J型分布型分布型分布型分布型分布型分布U UU型分布型分布型分布型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布(三)分布曲线(三)分布曲线2.1 统计数据的整理统计数据的整理洛伦茨曲线洛伦茨曲线三、洛伦茨曲线和基尼系数三、洛伦茨曲线和基尼系数(一)洛伦茨曲线(一)洛伦茨曲线20世世纪纪初初美美国国经经济济学学家家、统统计计学学家家洛洛伦伦茨茨(M.E.Lorentz)依依 据据 意意 大大 利利 经经 济济 学学 家家 巴巴 雷雷 特特(V.Pareto)提出的收入支配公式绘制而成提出的收入支配公式
16、绘制而成描述收入和财宝支配性质描述收入和财宝支配性质 的曲线,分析该国家或地的曲线,分析该国家或地 区支配的平均程度区支配的平均程度 AB累积的人口百分比累积的人口百分比累积的人口百分比累积的人口百分比 累累累累积积积积的的的的收收收收入入入入百百百百分分分分比比比比 确定公允线确定公允线确定公允线确定公允线 2.1 统计数据的整理数据的整理基尼系数基尼系数(二)基尼系数(二)基尼系数(二)基尼系数(二)基尼系数2020世世世世纪纪纪纪初初初初意意意意大大大大利利利利经经经经济济济济学学学学家家家家基基基基尼尼尼尼(G.(G.Gini)Gini)依依依依据据据据洛洛洛洛伦伦伦伦茨茨茨茨曲曲曲曲
17、线给出了衡量收入支配平均程度的指标线给出了衡量收入支配平均程度的指标线给出了衡量收入支配平均程度的指标线给出了衡量收入支配平均程度的指标AB 其中,A表示实际收入曲线与确定平均线之间的面积,B表示实际收入曲线与确定不平均线之间的面积2.1 统计数据的整理数据的整理基尼系数基尼系数2.2.评价标准评价标准评价标准评价标准(1 1)假如)假如)假如)假如A=0A=0,则基尼系数,则基尼系数,则基尼系数,则基尼系数=0=0,表示收入确定平均;,表示收入确定平均;,表示收入确定平均;,表示收入确定平均;(2 2)假如)假如)假如)假如B=0B=0,则基尼系数,则基尼系数,则基尼系数,则基尼系数=1=1
18、,表示收入确定不平均;,表示收入确定不平均;,表示收入确定不平均;,表示收入确定不平均;(3 3)基尼系数在)基尼系数在)基尼系数在)基尼系数在0 0 和和和和1 1之间取值;之间取值;之间取值;之间取值;(4 4)基尼系数若小于)基尼系数若小于)基尼系数若小于)基尼系数若小于0.20.2,表明支配平均但缺乏效率;,表明支配平均但缺乏效率;,表明支配平均但缺乏效率;,表明支配平均但缺乏效率;(5 5)基基基基尼尼尼尼系系系系数数数数在在在在0.20.2至至至至0.40.4之之之之间间间间是是是是比比比比较较较较适适适适当当当当的的的的,即即即即一一一一个个个个社社社社会既有效率又没有造成极大的
19、支配不公;会既有效率又没有造成极大的支配不公;会既有效率又没有造成极大的支配不公;会既有效率又没有造成极大的支配不公;(6 6)基基基基尼尼尼尼系系系系数数数数在在在在0.40.4被被被被认认认认为为为为是是是是收收收收入入入入支支支支配配配配不不不不公公公公允允允允的的的的警警警警戒戒戒戒线线线线,超过了超过了超过了超过了0.40.4应当实行措施缩小这一差距。应当实行措施缩小这一差距。应当实行措施缩小这一差距。应当实行措施缩小这一差距。2.2 分布集中趋势的测度分布集中趋势的测度一、众数一、众数二、中位数二、中位数三、四分位数三、四分位数四、均值四、均值五、几何均值五、几何均值六、切尾均值六
20、、切尾均值七、众数、中位数和均值的比较七、众数、中位数和均值的比较(mode)一、众数一、众数(mode)一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值适合于数据量较多时运用适合于数据量较多时运用不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数2.2 分布集中趋势的测度分布集中趋势的测度众数众数(不惟一性不惟一性)n n无众数无众数原始数据原始数据:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据原始数据:25 28 28 36 42 421.1.排序后处于中间位置上
21、的值排序后处于中间位置上的值排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.3.3.各变量值与中位数的离差确定值之和最小,即各变量值与中位数的离差确定值之和最小,即各变量值与中位数的离差确定值之和最小,即各变量值与中位数的离差确定值之和最小,即2.2 分布集中趋势的测度分布集中趋势的测度二、中位数二、中位数(median)(一)中位数的概念(一)中位数的概念原始数据:原始数据:分组数据:分组数据:2.2 分布集中趋势的测度分布集中趋势的测度(二)中位数的位置(二)中位数的位置中位数的求法中位数的求法(
22、9个数据的算例个数据的算例)n n【例例】9个家庭的人均月收入数据个家庭的人均月收入数据n n原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630n n排排排排 序序序序:750 780 850 960 750 780 850 960 10801080 1250 1500 1630 20001250 1500 1630 2000n n位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 1080中位数的求
23、法中位数的求法(10个数据的算例个数据的算例)n n【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据n n排排排排 序序序序:660660 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000n n位位位位 置置置置:1 2 3 4 1 2 3 4 5 65 6 7 8 9 10 7 8 9 10 三、四分位数三、四分位数(quartile)(一)四分位数的概念(一)四分位数的概念 排序后处于排序后处于25%和和75%位置上的值位置上的值2.不受极端值的影响不受极端值的影响QQ
24、L LQQMMQQU U25%25%25%25%2.2 分布集中趋势的测度分布集中趋势的测度原始数据:原始数据:分组数据:分组数据:2.2 分布集中趋势的测度分布集中趋势的测度(二)四分位数的位置(二)四分位数的位置四分位数的求法四分位数的求法(9个数据的算例个数据的算例)n n【例例】:9个家庭的人均月收入数据个家庭的人均月收入数据n n原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630n n排排排排 序序序序:750 750 780 850780
25、850 960 1080 1250 960 1080 1250 1500 16301500 1630 2000 2000n n位位位位 置置置置:1 1 2 32 3 4 5 6 4 5 6 7 87 8 9 9四分位数的求法四分位数的求法(10个数据的算例个数据的算例)n n【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据n n排排排排 序序序序:660660 750 780750 780 850 960 1080 1250 850 960 1080 1250 1500 16301500 1630 2000 2000n n位位位位 置置置置:1 1 2 32 3 4 4 5 6 7
26、 5 6 7 8 98 9 10 10 统计函数统计函数统计函数统计函数QUARTILEQUARTILE四、均值(四、均值(mean)(一)均值的概念(一)均值的概念集中趋势的最常用测度值集中趋势的最常用测度值一组数据的均衡点所在一组数据的均衡点所在体现了数据的必定性特征体现了数据的必定性特征易受极端值的影响易受极端值的影响2.2 分布集中趋势的测度分布集中趋势的测度(二)均值的算法(二)均值的算法(二)均值的算法(二)均值的算法1 1、简洁均值(、简洁均值(、简洁均值(、简洁均值(simple meansimple mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x1 x1
27、,x2 x2,xnxn总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值2.2 分布集中趋势的测度分布集中趋势的测度2 2、加权均值(、加权均值(、加权均值(、加权均值(weighted meanweighted mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n相应的频数为:相应的频数为:相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值2.2 分布集中趋势的测度分布集中趋势的测度加权均值计算表加权均值计算表零件数 工人数 组中值 xifi8
28、0-9038525590-100795665100-110131051365110-1205115575120-1302125250合计30 3110加权均值加权均值(例题分析例题分析)(三)均值的数学性质(三)均值的数学性质1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小2.2 分布集中趋势的测度分布集中趋势的测度五、几何平均数五、几何平均数(geometric mean)1.1.n n 个变量值乘积的个变量值乘积的个变量值乘积的个变量值乘积的 n n 次方根次方根次方根次方根 2.2.适用于对比率数据的平均适
29、用于对比率数据的平均适用于对比率数据的平均适用于对比率数据的平均 3.3.主要用于计算平均增长率主要用于计算平均增长率主要用于计算平均增长率主要用于计算平均增长率 4.4.计算公式为计算公式为计算公式为计算公式为5.5.可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形2.2 分布集中趋势的测度分布集中趋势的测度几何均值的求法几何均值的求法(例题分析例题分析)n n 【例例例例】一一一一位位位位投投投投资资资资者者者者购购购购持持持持有有有有一一一一种种种种股股股股票票票票,在在在在20002000年年年年、20012001年年年年、20022002年年年
30、年和和和和20032003年年年年收收收收益益益益率率率率分分分分别别别别为为为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计计计计算算算算该该该该投投投投资资资资者者者者在在在在这这这这四四四四年年年年内内内内的的的的平平平平均均均均收收收收益益益益率率率率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:六、切尾均值(六、切尾均值(trimed mean)1.去去掉掉大大小小两两端端的的若若干干数数值值后后计计算算中中间间数数据据的均值的均值2.在在电电视视大大奖奖赛赛、体体育育竞竞赛赛及及须须要要人人们们进进行行综合评价的
31、竞赛项目中已得到广泛应用综合评价的竞赛项目中已得到广泛应用3.计算公式为计算公式为n n 表示视察值的个数;表示视察值的个数;表示视察值的个数;表示视察值的个数;表示切尾系数,表示切尾系数,表示切尾系数,表示切尾系数,2.2 分布集中趋势的测度分布集中趋势的测度切尾均值切尾均值(例题分析例题分析)n n 【例】谋次竞赛共有【例】谋次竞赛共有【例】谋次竞赛共有【例】谋次竞赛共有1111名评委,对某位歌手的给分分别是:名评委,对某位歌手的给分分别是:名评委,对某位歌手的给分分别是:名评委,对某位歌手的给分分别是:经整理得到依次统计量值为经整理得到依次统计量值为经整理得到依次统计量值为经整理得到依次
32、统计量值为去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/111/11 众数、中位数和均值的关系众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值
33、均值2.2 分布集中趋势的测度分布集中趋势的测度众数、中位数、均值的特点和应用众数、中位数、均值的特点和应用1.1.众数众数众数众数n n不受极端值影响不受极端值影响不受极端值影响不受极端值影响n n具有不惟一性具有不惟一性具有不惟一性具有不惟一性n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.2.中位数中位数中位数中位数n n不受极端值影响不受极端值影响不受极端值影响不受极端值影响n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.均值均值均值均值n n易受极端
34、值影响易受极端值影响易受极端值影响易受极端值影响n n数学性质优良数学性质优良数学性质优良数学性质优良n n数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用2.3 分布离散程度的测度分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数一、极差(一、极差(一、极差(一、极差(rangrang)一组数据的最大值与最小值之差一组数据的最大值与最小值之差一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简洁测度值离散程度的最简洁测度值离散程度的最简洁测
35、度值离散程度的最简洁测度值易受极端值影响易受极端值影响易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R=max(xi)-min(xi)5.计算公式为计算公式为计算公式为计算公式为2.3 分布离散程度的测度分布离散程度的测度二、内距二、内距(Inter-Quartile Range,IQR)(Inter-Quartile Range,IQR)也称四分位差也称四分位差 上四分位数与下四分位数之差上四分位数与下四分位数之差n n 内内 距距=QU QL3.3.反映了中间反映了中间50%数据的
36、离散程度数据的离散程度4.4.不受极端值的影响不受极端值的影响5.5.可用于衡量中位数的代表性可用于衡量中位数的代表性2.3 分布离散程度的测度分布离散程度的测度三、方差与标准差三、方差与标准差三、方差与标准差三、方差与标准差(Variance and Standard(Variance and Standard deviation)deviation)(一)方差与标准差的概念(一)方差与标准差的概念(一)方差与标准差的概念(一)方差与标准差的概念1.1.离散程度的测度值之一离散程度的测度值之一离散程度的测度值之一离散程度的测度值之一2.2.最常用的测度值最常用的测度值最常用的测度值最常用的测
37、度值3.3.反映了数据的分布反映了数据的分布反映了数据的分布反映了数据的分布4.4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异依据总体数据计算的,称为总体方差或标准差;依依据总体数据计算的,称为总体方差或标准差;依依据总体数据计算的,称为总体方差或标准差;依依据总体数据计算的,称为总体方差或标准差;依据样本数据计算的,称为样本方差或标准差据样本数据计算的,称为样本方差或标准差据样本数据计算的,称为样本方差或标准差据样本数据计算的,称为样本方差或标准差可用于衡量均值的代表性大小可用于衡量均值的代表性大小可用于衡量均值的
38、代表性大小可用于衡量均值的代表性大小4 6 8 10 124 6 8 10 12 x x=8.38.32.3 分布离散程度的测度分布离散程度的测度(二)总体方差和标准差(二)总体方差和标准差(二)总体方差和标准差(二)总体方差和标准差(Population(Population variancevariance and and Standard deviationStandard deviation)的计算公式的计算公式的计算公式的计算公式未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据组距分组数据组距分组数据组距分组数据:未分组数据:未分组数据:未分组数据:未分组数据:组距分组数
39、据:组距分组数据:组距分组数据:组距分组数据:1 1、总体方差的计算公式、总体方差的计算公式、总体方差的计算公式、总体方差的计算公式2 2、总体标准差的计算公式、总体标准差的计算公式、总体标准差的计算公式、总体标准差的计算公式2.3 分布离散程度的测度分布离散程度的测度(三)样本方差和标准差(三)样本方差和标准差(三)样本方差和标准差(三)样本方差和标准差(simple(simple variancevariance and and standard deviationstandard deviation)的计算公式的计算公式的计算公式的计算公式未分组数据:未分组数据:未分组数据:未分组数据:
40、组距分组数据:组距分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:1 1、样本方差的计算公式、样本方差的计算公式、样本方差的计算公式、样本方差的计算公式2 2、样本标准差的计算公式、样本标准差的计算公式、样本标准差的计算公式、样本标准差的计算公式注意:注意:注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度由度由度n nn-1-1-1去除去除去除去除去除去除!2.3 分布离散程度的测度分布离散程度的测度注解:样本方差自由度注解:样本方差自由
41、度(degree of freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当当当当样样样样本本本本数数数数据据据据的的的的个个个个数数数数为为为为 n n 时时时时,若若若若样样样样本本本本均均均均值值值值 x x 确确确确定定定定后后后后,只只只只有有有有n-1n-1个个个个数数数数据据据据可可可可以以以以自自自自由由由由取取取取值值值值,其其其其中中中中必必必必有有有有一一一一个个个个数数数数据据据据则则则则不能自由取值不能自由取值不能自由取值不能自由取值3.3.例例例例如
42、如如如,样样样样本本本本有有有有3 3个个个个数数数数值值值值,即即即即x1=2x1=2,x2=4x2=4,x3=9x3=9,则则则则 x x=5 5。当当当当 x x=5 5 确确确确定定定定后后后后,x1x1,x2x2和和和和x3x3有有有有两两两两个个个个数数数数据据据据可可可可以以以以自自自自由由由由取取取取值值值值,另另另另一一一一个个个个则则则则不不不不能能能能自自自自由由由由取取取取值值值值,比比比比如如如如x1=6x1=6,x2=7x2=7,那么,那么,那么,那么x3x3则必定取则必定取则必定取则必定取2 2,而不能取其他值,而不能取其他值,而不能取其他值,而不能取其他值4.4
43、.样样样样本本本本方方方方差差差差用用用用自自自自由由由由度度度度去去去去除除除除,其其其其缘缘缘缘由由由由可可可可从从从从多多多多方方方方面面面面说说说说明明明明,从从从从实实实实际际际际应应应应用用用用角角角角度度度度看看看看,在在在在抽抽抽抽样样样样估估估估计计计计中中中中,当当当当用用用用样样样样本本本本方方方方差差差差去估计总体方差去估计总体方差去估计总体方差去估计总体方差22时,它是时,它是时,它是时,它是22的无偏估计量的无偏估计量的无偏估计量的无偏估计量2.3 分布离散程度的测度分布离散程度的测度方差、标准差计算表(组距数列)方差、标准差计算表(组距数列)零件数 工人数 组中值
44、 (Xi-x)280-90385348.44 90-10079575.11 100-110131051.78 110-1205115128.44 120-1302125455.11 合计30 1008.89 方差、标准差(例题)方差、标准差(例题)四、离散系数四、离散系数(coefficient of variation)1.标准差与其相应的均值之比标准差与其相应的均值之比2.对数据相对离散程度的测度对数据相对离散程度的测度3.消退了数据水平凹凸和计量单位的影响消退了数据水平凹凸和计量单位的影响4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.计算公式为计算公式为2.3
45、分布离散程度的测度分布离散程度的测度离散系数离散系数(例题分析例题分析)某管理局所属某管理局所属某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据企业编号企业编号企业编号企业编号产品销售额(万元)产品销售额(万元)产品销售额(万元)产品销售额(万元)x x1 1销售利润(万元)销售利润(万元)销售利润(万元)销售利润(万元)x x2 21 12 23 34 45 56 67 78 8170170220220390390430430480480650650950950100010008.18.112.512.518.018.022.02
46、2.026.526.540.040.064.064.069.069.0【例例例例 】某某某某管管管管理理理理局局局局抽抽抽抽查查查查了了了了所所所所属属属属的的的的8 8家家家家企企企企业业业业,其其其其产产产产品品品品销销销销售售售售数数数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数离散系数(例题分析例题分析)结结论论:计计算算结结果果表表明明,v10为为右偏分布右偏分布 偏态系数偏态系数0为为左偏分布左偏分布2.7 偏态与峰态的度量偏态与峰态的度量二
47、、偏态系数二、偏态系数(skewness coefficient)1.依据原始数据计算依据原始数据计算2.7 偏态与峰态的度量偏态与峰态的度量2.依据分组数据计算依据分组数据计算二、二、峰态及其测度峰态及其测度(一)峰态的概念(一)峰态的概念1.统计学家统计学家Pearson于于1905年首次提出年首次提出2.数据分布扁平程度的测度,反映数据分数据分布扁平程度的测度,反映数据分布的尖峭程度(与正态分布比较)。布的尖峭程度(与正态分布比较)。3.峰态系数峰态系数=0为为峰度适中峰度适中 峰态系数峰态系数0为为尖峰分布尖峰分布2.7 偏态与峰态的度量偏态与峰态的度量(二)峰态系数(二)峰态系数(k
48、urtosis coefficient)1.依据原始数据计算依据原始数据计算2.7 偏态与峰态的度量偏态与峰态的度量2.依据分组数据计算依据分组数据计算偏态系数和峰态系数偏态系数和峰态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组按销售量份组按销售量份组(台台台台)组中值组中值组中值组中值(MMi i)频数频数频数频数 f fi i140 150140 150150 160150 160160 170160 170170 180170 180180 190180 1901
49、90 200190 200200 210200 210210 220210 220220 230220 230230 240230 240145145155155165165175175185185195195205205215215225225235235 4 4 9 916162727202017171010 8 8 4 4 5 5-256000-256000-243000-243000-128000-128000 -27000 -27000 0 0 17000 17000 80000 80000 216000 216000 256000 256000 625000 62500010240
50、00010240000 7290000 7290000 2560000 2560000 270000 270000 0 0 170000 170000 1600000 1600000 6480000 648000010240000102400003125000031250000合计合计合计合计120120540000540000 7010000070100000 结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与结论:偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明的差异不大,说明的差异不大,说明电脑销售量为略微右偏分布。电脑销售量为略微右偏分布。电脑销售