《【教学课件】第3章数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第3章数据分布特征的描述.ppt(124页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 统 计 学STATISTICS第3章 数据分布特征的描述学习目标:3.1 分布集中趋势的测度3.2 分布离散程度的测度3.3 分布偏态与峰度的测度3.4 统计表与统计图 统 计 学STATISTICS学习重点众数和中位数均值方差和标准差离散系数偏态系数峰度系数 统 计 学STATISTICS3.1 分布集中趋势的测度3.1.1 集中趋势和集中趋势测度值3.1.2 众数3.1.3 中位数3.1.4 均值3.1.5 调和平均数3.1.6 几何平均数3.1.7 众数、中位数和均值的比较 统 计 学STATISTICS3.1.1 集中趋势和集中趋势测度值集中趋势:是指一组数据向其中心值靠拢的倾向。测
2、度集中趋势的目的:寻找数据一般水平的代表值或中心值。集中趋势测度值:就是指测度集中趋势的统计指标,表现为各种平均数指标。统 计 学STATISTICS集中趋势测度值(平均数)种类 统 计 学STATISTICS3.1.2 众数众数的概念未分组数据或单变量分组数据计算众数组距分组数据计算众数计算众数应注意的问题 统 计 学STATISTICS 众数(MO)的概念众数是一组数据中出现次数最多的变量值。从分布的角度看,众数是具有明显集中趋势点得数值,一组数据分布的最高峰电所对应的值,就是中枢。众数可以不存在,也可以有多个众数。如图3-1所示。统 计 学STATISTICS图3-2 众数示意图 统 计
3、 学STATISTICS未分组数据或单变量分组数据计算众数(MO)只需找出出现次数最多的变量值即为众数。例1:(未分组数据)某班一个学习小组9名同学的英语口试成绩为:3 4 5 4 4 4 4 5 3 因为:4分出现次数最多,所以MO=4分。统 计 学STATISTICS 例2:(单变量分组数据)某班一次统计学测验成绩分组表 成 绩 学生人数(人)6577 85 912 825 5 合 计 40因为85分出现了25次,次数最多,所以MO=85分。统 计 学STATISTICS组距分组数据计算众数(MO)此时,众数(MO)的数值与相邻两组的频数分布有一定的关系。图3-2所示。ff-1 f+1 M
4、O M0=组中值 图3-2 众数组与相邻两组关系示意图 ff-1f+1MOMO组中值 统 计 学STATISTICS组距分组数据计算众数的公式式中:L为众数组的下限下限公式上限公式U为众数组的上限f为众数组的频数f-1为众数组前一组的频数f+1为众数组后一组的频数i为众数组的组距 统 计 学STATISTICS例:某车间30名工人的月奖金资料如下表:月奖金额分组(元)工人人数(人)8090 90100 100110 110120 120130 3 7 13 5 2 30分别用下限公式和上限公式计算众数。统 计 学STATISTICS解:次数最多的奖金额有13人是100-110这一组可知:L=1
5、00,U=110,f=13,f-1=7,f+1=5,i=10代入下限公式为:代入上限公式为:(元)(元)统 计 学STATISTICS计算众数应注意的问题两条假定:假定数据分布具有明显的集中趋势;假定众数组的频数在该组内是均匀分布的。若这两条假定不成立,则众数的代表性会很差。众数的统计思想:在一组数据的中心点附近,变量值出现的频数较高。众数是一个位置代表值(位置平均数),它不受数据中极端值的影响。适用于定类数据。统 计 学STATISTICS3.1.3 中位数中位数的概念未分组数据计算中位数单变量分组数据计算中位数组距分组数据计算中位数中位数的特点 统 计 学STATISTICS3.1.3 中
6、位数(Me)的概念是一组数据按从小到大排序后,处在中间位置上的变量值。它将全部数据等分成两部分:一部分大于中位数,另一部分小于中位数。它也是一个位置代表值(位置平均数),不受数据中极端值的影响。适用于定序数据。统 计 学STATISTICS未分组数据计算中位数(Me)步骤:数据排序。确定中位数位置。中位数位置=(N+1)2其中:N为数据个数。确定中位数的具体数值。统 计 学STATISTICS设:一组数据X1、X2、XN,按从小到大排序后为:X(1)、X(2)、X(N)。若N为奇数时,则中位数MO=X(N+1)/2。例:某教研室11名教师的年龄排序后为:23 23 24 24 25 25 26
7、 27 28 29 55解:N=11 中位数位置=(11+1)2=6 表明中位数Me为处在第6位的那个教师的年龄,即Me=X(6)=25(岁)。统 计 学STATISTICS若N为偶数时,则:中位数Me=(XN/2+XN/2+1)2例:某教研室10名教师的年龄排序后为:23 23 24 24 25 26 27 28 29 55解:N=10 中位数位置=(10+1)2=2.5 表明中位数Me第5位和第6位教师年龄的平均数。即:中位数Me=(25+26)2=25.5(岁)统 计 学STATISTICS单变量分组数据计算中位数步骤:确定中位数位置。中位数位置=F/2。确定中位数组。向上累计频数或向下
8、累计频数刚好大于或等于F/2的那一组即为中位数组。确定中位数的具体数值。中位数组对应的变量值,就是中位数。统 计 学STATISTICS例:某财经大学某班英语口试成绩如下表:口试成绩(分)学生人数(人)向上累计频数234528255210354040求该班英语口试成绩的中位数。统 计 学STATISTICS解:中位数位置=由表中可以看出:向上累计频数35刚好大于中位数位置20,所以向上累计频数35所在组就是中位数Me组,所对应的变量值4分就是中位数。即:Me=4(分)统 计 学STATISTICS组距分组数据计算中位数步骤:确定中位数位置。中位数位置=F/2。确定中位数组。向上累计频数或向下累
9、计频数刚好大于或等于F/2的那一组即为中位数组。利用公式计算求得中为数Me。统 计 学STATISTICS组距分组数据计算中位数的公式下限公式上限公式式中:L为中位数组的下限S为中位数组的上限Sm-1为中位数组前一组的向上累计频数Sm+1为中位数组后一组的向下累计频数fm为中位数组的频数i为中位数组的组距 统 计 学STATISTICS例:某车间30名工人的月奖金资料如下表:月奖金额分组 (元)工人人数 (人)累计频数向 上 向 下 8090 90100 100110 110120 1201303713 5 231023283030272072 30分别用下限公式和上限公式计算中位数。统 计
10、学STATISTICS解:中位数位置=302=15,向上累计频数23刚好大于15,所以23所在组100-110就是中位数组。于是可知:L=100 Sm-1=10 fm=13 i=10代入下限公式得:统 计 学STATISTICS解:中位数位置=302=15,向上累计频数20刚好大于15,所以20所在组100-110就是中位数组。于是可知:S=110 Sm+1=7 fm=13 i=10代入上限公式得:可见,两个公式的计算计算结果是相同的。统 计 学STATISTICS中位数的特点利用公式计算中位数时,假定中位数组的频数在该组内是均匀分布的。中位数具有稳健性。各变量值与中位数的离差绝对值之和最小,
11、即:|X-Me|=min(最小)。表明中位数与各数据的距离最短。统 计 学STATISTICS3.1.4 均值均值的概念简单均值加权均值加权均值计算公式的变形加权均值的影响因素均值的数学性质 统 计 学STATISTICS均值的概念均值是全部数据的算术平均,也称为“算术平均数”,是一组数据的一般水平或重心。均值是集中趋势的最主要的测度值,在统计学中具有重要地位。主要适用于定距数据和定比数据。属于计算平均数,受数据中的极端值影响。统 计 学STATISTICS简单均值的计算设总体数据为:X1、X2、XN则总体均值的计算公式为:设样本数据为:x1、x2、xn则样本均值的计算公式为:适用于:未分组整
12、理的原始数据。统 计 学STATISTICS例:某企业某个生产班组9个工人的日产产品件数为:13 16 14 16 17 14 17 15 13,求:该班组工人日产产品件数的均值。解:该班组工人日产产品件数的均值为:(件)统 计 学STATISTICS加权均值的计算根据分组整理的数据计算。设原始数据被分成K或k组,各组的变量值为X1、X2、XK或x1、x2、xn,各组变量值出现的次数分别为F1、F2、FK或f、f、fk,则:总体均值样本均值 统 计 学STATISTICS若:各组出现次数 F1=F2=FK 或 f1=f2=fk则:加权均值=简单均值简单均值之所以简单,就在于各组变量值出现的次数
13、都相等。统 计 学STATISTICS单变量值分组数据计算加权均值例:某车间100名工人日产量数据分组如下:日产量分组(件)工人人数(人)各组总产量(件)X F XF20222426152040253004409606501002350求:该车间这100名工人的平均日产量。统 计 学STATISTICS解:根据表中计算可得该车间这100名工人的平均日产量为:(件)统 计 学STATISTICS组距分组数据计算加权均值基本方法和公式与“单变量分组数据计算加权均值”相同。组距分组数据只给出每一组变量值的“区间”,此时只能用“各组的组中值”近似地作为“各组的变量值X”。这里有一个基本假定是:各组的实
14、际变量值在组内是均匀分布的。这是用“组中值”代表“各组变量值”的前提条件。统 计 学STATISTICS例:某企业青年班组每月工资分组数据如下:月工资分组(元)组 中 值 (X)工人人数 (F)各组工资总额(XF)500600600700700800800900900100055065075085095010103040105500650022500340009500 10078000求该青年班组的月平均工资。统 计 学STATISTICS解:根据表中计算可得该企业青年班组的月平均工资为:(元)统 计 学STATISTICS加权均值计算公式的变形适用于:已知变量值(X)和各组频率(F/F)要求
15、计算均值的场合。统 计 学STATISTICS例:某车间100名工人日产量的有关资料如下:日产量分组 (X)各组工人人数比重 (%)F/F X(F/F)20222426152040253.004.409.606.5010023.50求:该车间这100名工人的平均日产量。统 计 学STATISTICS解:根据表中计算可得该车间这100名工人的平均日产量为:统 计 学STATISTICS加权均值的影响因素加权均值的大小取决于以下两个因素:一是各组变量值(X)的大小。二是各组的频数(F)或频率(F/F)的大小。统 计 学STATISTICS权数的含义各组频数F在均值的计算中起着“权衡轻重”的作用,故
16、而将其称之为“权数”。在各组变量值(X)一定的情况下,频数或频率大的那一组的变量值对均值的影响大,频数或频率小的那一组的变量值对均值的影响小。统 计 学STATISTICS均值的数学性质1、各个变量值与其均值的离差之和等于零。即:2、各个变量值与其均值的离差平方和为最小。即:统 计 学STATISTICS3.1.5 调和平均数调和平均数的概念简单调和平均数加权调和平均数 统 计 学STATISTICS调和平均数的概念调和平均数:又称为“倒数平均数”,它是指各个变量值“倒数”的算术平均数的“倒数”。它实际上是均值的一种变形。它与均值在本质上是一致的,唯一的区别在于计算时使用的数据不同。它只适用于
17、定比数据,不适用于定距数据。统 计 学STATISTICS简单均值的计算公式设:一组数据则:调和平均数为:统 计 学STATISTICS例:某农贸市场A、B、C三种蔬菜的单价分别为1.20元、0.50元和0.80元。现各买1元钱的,求平均价格。分析:已知单价和各自购买的金额,但不知道“各自购买的数量”,此时,只能用“各自购买的金额各自的单价”得到“各自购买的数量”,方能计算出平均单价。显然只能采用“调和平均法”计算平均单价。解:三种蔬菜的平均价格为:统 计 学STATISTICS加权调和平均数设一组数据为:相应的权数为:则调和平均数为:统 计 学STATISTICS例:某蔬菜批发市场三种蔬菜的
18、有关数据如下:蔬 菜 名 称批发价格(元/公斤)X成交额(元)m甲 乙 丙1.200.500.801800012500640096900求:三种蔬菜的平均批发价格 统 计 学STATISTICS解:三种蔬菜的平均批发价格为:(元/公斤)统 计 学STATISTICS3.1.6 几何平均数几何平均数的概念简单几何平均数加权几何平均数 统 计 学STATISTICS几何平均数的概念几何平均数:是N个变量值乘积的N次方根。主要适用于计算比率或速度的平均。当所掌握的变量值本身是比率的形式且各个比率(或速度)的乘积等于总比率(总速度),宜采用几何平均法计算“平均比率”或“平均速度”。变量值中有一个等于0
19、或负数时不宜用。统 计 学STATISTICS简单几何平均数设一组数据为:则几何平均数为:统 计 学STATISTICS例:某厂有4个流水作业车间,某月它们的产品合格率分别为98%、97%、95%、90%,求这4个车间产品的平均合格率。解:这4个车间产品的平均合格率为:统 计 学STATISTICS加权几何平均数设一组数据为:相应的权数为:几何平均数为:统 计 学STATISTICS例:某市1995-1996两年的GDP的平均发展速度为108%,1997-1998年的平均发展速度为107.9%,1999年的平均发展速度为107.8%。求1995-1999年五年的平均发展速度。解:1995-19
20、99年五年的平均发展速度为:统 计 学STATISTICS3.1.7 众数、中位数和均值的关系众数、中位数和均值在同一组数据和单峰分布条件下的关系卡尔皮尔逊经验公式众数、中位数和均值的特点和应用 统 计 学STATISTICS众数、中位数和均值在同一组数据和单峰分布条件下的关系 MO=Me=X(对称分布)XMeMO (左偏分布)MOMeV乙,甲地粮食产量的离散程度大于乙地,说明乙地粮食平均亩产的代表性要好于甲地。统 计 学STATISTICS3.3 分布偏态与峰度的测度3.3.1 偏态及其测度3.3.2 峰度及其测度 统 计 学STATISTICS 偏态及其测度 偏态、偏态系数及其计算公式分布
21、偏态的测度 统 计 学STATISTICS偏态、偏态系数及其计算公式偏态:是对数据分布偏斜方向和程度的测度。偏态系数:是离差三次方的平均数除以标准差的三次方得到的系数。计算公式为:未分组数据:分组数据:统 计 学STATISTICS分布偏态的测度表明数据呈“对称分布”。表明数据呈“正偏(右偏)分布”表明数据呈“负偏(左偏)分布”统 计 学STATISTICS例:某车间100名工人的月工资数据的偏态系数的计算,由前可知:X=780元,=110月工资分组(元)组中值(X)人数 F X-X(X-X)2F(X-X)3F 500600 600700 700800 8009009001000 550 65
22、0 750 850 950 10 10 30 40 10 -230 -130 -30 70 170 529000 169000 27000 196000 289000-121670000 -21970000 -810000 13720000 49130000 100 1210000-81600000 统 计 学STATISTICS例:100名工人月工资数据的偏态系数为:计算结果表明:该车间100名工人工资数据呈左偏分布,且有一定的偏斜程度。统 计 学STATISTICS3.3.2 峰度及其测度峰度的含义峰度系数的定义及其公式分布峰度的测度 统 计 学STATISTICS峰度的含义峰度:是数据分
23、布集中趋势高峰的形状。它通常是与“正态分布”相比较而言。图a:尖峰分布图b:扁平分布 统 计 学STATISTICS峰度系数及其计算公式峰度系数:用a4表示,它是离差四次方的平均数除以标准差的四次方。计算公式为:未分组数据:分组数据:统 计 学STATISTICS分布峰度的测度表明数据呈“正态分布”;表明数据呈“尖峰分布”;表明数据呈“扁平分布”;统 计 学STATISTICS例:某车间100名工人月工资数据的峰度系数计算,已知X=780、=110月工资分组(元)人数 F X-X(X-X)3F (X-X)4F5006006007007008008009009001000 10 10 30 40
24、 10 -230 -130 -30 70 170-121670000 -21970000 -810000 13720000 4913000027984100000 2856100000 24300000 960400000 8352100000 100 -8160000040177000000 统 计 学STATISTICS解:100名工人月工资数据的峰度系数为:因为:a4=2.743,所以说明该车间100名工人的月工资数据的分布为“扁平分布”。统 计 学STATISTICS3.4 统计表与统计图3.4.1 统计表3.4.2 统计图 统 计 学STATISTICS3.4.1 统计表统计表的概念
25、统计表的形式统计表的内容统计表的设计要求 统 计 学STATISTICS统计表的形式总标题(表头)行标题列标题数字资料表外附加 统 计 学STATISTICS1999年全国税收收入及其构成 按税种分组1-3月累计税收收入(亿元)比上年同 期增长(%)增值税和消费税收入营业收入个人所得税收入关税收入其他 1019.82 415.37 96.65 130.99 536.7415.4 9.528.4144.4 17.6 合 计 2199.74 19.5行标题列标题数字部分总标题资料来源:中国统计年鉴1999,中国统计出版社,1999年表外附加 统 计 学STATISTICS统计表的内容主词栏宾词栏
26、统 计 学STATISTICS1999年全国税收收入及其构成 按税种分组1-3月累计税收收入(亿元)比上年同 期增长(%)增值税和消费税收入营业收入个人所得税收入关税收入其他 1019.82 415.37 96.65 130.99 536.7415.4 9.528.4144.4 17.6 合 计 2199.74 19.5 主词栏 宾词栏 统 计 学STATISTICS统计表的设计要求总要求:科学、实用、简练、美观。具体要求:合理安排结构。总标题内容满足3W要求。行和列的标题要简明。其他要求。统 计 学STATISTICS3.4.2 统计图线图条形图圆形图(饼图)环形图 统 计 学STATISTICS线 图在平面坐标图上用折线表现数量变化特征和规律的统计图。用于显示时间序列数据。如右图。统 计 学STATISTICS条形图用宽度相同的条形的高度或长度来表示数据变动的统计图,可以横置或纵置,故也称“柱形图”。如右图。统 计 学STATISTICS圆形图(饼图)用圆形及圆形扇形的面积来表示数值大小的统计图。主要用于显示总体中各组成部分的所占的比例。见右图。统 计 学STATISTICS环形图与“圆形图”类似,只是中间有一个洞。总体中的每一部分数据用环中的一段表示。可同时显示多个总体个部分所占的相应比例。见右图。统 计 学STATISTICSEnd of Chapter 3