《第三章数据分布特征的描述.优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第三章数据分布特征的描述.优秀PPT.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 统计分布的数值特征第一节 分布的集中趋势和位置的度量其次节 分布的离散程度统计指标的分类n总量指标(确定数)数量指标n相对指标(相对数)质量指标n平均指标(平均数)质量指标n确定数。现象的规模、水平一般以确定数确定数。现象的规模、水平一般以确定数形式表现。形式表现。n相对数。相对数由两个相互联系的数值对相对数。相对数由两个相互联系的数值对比求得。常用的相对数包括:结构相对数、比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、支配完成相对数等。利用程度相对数、支配完成相对数等。n平均数。平均数反映现象总体的一般水
2、平平均数。平均数反映现象总体的一般水平或分布的集中趋势。或分布的集中趋势。总量指标n概念:总量指标是反映社会经济现象在确定时间和地点条件下所达到的总规模、总水平或工作总量的统计指标,表现为确定数,又称确定指标。n特点:总量指标的数值大小会随统计总体范围的大小而发生增减变动。n作用:相识社会经济现象的起点;实行宏观调控和科学管理的依据;计算相对指标和平均指标的基础。相对指标n概念:相对指标是指通过两个有联系的统计指标的比率,来反映现象的发展程度、内部结构、比例关系、强度或密度等。n作用:为深化相识事物发展的质量与状况供应客观依据;可以使不能干脆对比的现象找到可以对比的基础,进行更为有效的分析。相
3、对指标的种类和计算方法相对指标计算方法计划完成程度指标 实际数/计划数结构相对指标总体中部分数值/全部数值比例相对指标总体中A部分数值/B部分数值比较相对指标甲地某指标数值/乙地同一指标数值动态相对指标报告期水平/基期水平强度相对指标某一指标数值/同期另一有联系的指标数值数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置)(位置)(位置)(位置)离中趋势离中趋势离中趋势离中趋势 (分散程度)(分散程度)(分散程度)(分散程度)偏态和峰度偏态和峰度偏态和峰度偏态和峰度(形状)(形状)(形状)(形状)第一节 分布的集中趋势和位置的度量n一、统计平均数的含义及其作用n二、数值平均数n三、众数和中
4、位数n四、算术平均数、众数和中位数的比较一、集中趋势的指标及其作用n集中趋势(Central tendency)n较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心旁边,使得全部数据呈现出向中心聚集或靠拢的态势。集中趋势n一组数据向其中心值靠拢的倾向和程度n测度集中趋势就是找寻数据一般水平的代表值或中心值n不同类型的数据用不同的集中趋势测度值n选用哪一个测度值来反映数据的集中趋势,要依据所驾驭的数据的类型来确定统计平均指标的基本分类n数值平均数:n以统计数列的全部各项数据来计算平均数,用以反映统计数列的全部各项数值的平均水平。n这类平均数的特点是,统计数列中任何一项数据的变动,或大
5、或小,都会在确定程度上影响到数值平均数的计算结果。n常用的数值平均数有算术平均数、调和平均数和几何平均数等。n位置平均数:n是依据标记值的位置来确定的。n常用的位置平均数有众数和中位数两种。测定集中趋势指标的作用n1、反映变量分布的集中趋势和一般水平。n2、可以用来比较同一现象在不同空间或不同时间的发展水平,以说明生产水平、经济效益或工作质量的差距。n3、可用来分析现象之间的依存关系。n4、平均指标是统计推断中的一个重要统计量。二、数值平均数n(一)算术平均数(均值)n一组数据的总和除以这组数据的项数所得的结果n最常用的数值平均数n简洁受极端值的影响n有简洁算术平均数和加权算术平均数1.简洁算
6、术平均数n把每项数据干脆加总后除以它们的项数 n通常用于对未分组的数据计算算术平均数n计算公式:分分组组表 3-2年龄人数(人)xf2242510305501合计20表 3-1男性女性2222222225252525252525252525303030305030n解:接受简洁算术平均法计算,即全体队员的平均年龄为(单位:周岁):若接受简洁平均:若接受简洁平均:n分组数据不能简洁平均!因为各组变量值的次数不等!2.加权算术平均数n设分组后各组的变量值或组中值为:n x1,x2,xnn相应的频数为:f1,f2,fnn正确的计算是:加权算术平均数n加权算术平均数的计算公式:n加权为了体现各变量值轻
7、重不同的影响作用,对各个变量值赐予不尽相同的权数(fi).权数(fi,也称权重)n权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。n可以是确定数形式,也可以是比重形式(如频率)表示。n事实上比重权数更能够干脆表明权数权衡轻重作用的实质。n当权数完全相等(f1=f2=fn)时,加权算术平均数就成了简洁算术平均数。要点:各组变量值用组中值来代表假定条件是各组内数据呈匀整分布或对称分布计算结果是近似值 表33节能灯泡的使用寿命的分组数据使用寿命(小时)(小时)组中值(x)数量(f)Xf 频率 (f/f)(Xf/Xf/f)f)1000以下900218000.020 18100
8、0-12001100888000.080 881200-1400130016208000.160 2081400-1600150035525000.350 5251600-1800170023391000.230 3911800-2000190012228000.120 2282000以上2100484000.040 84合 计1001542001.000 1542解:平均运用寿命为:解:平均运用寿命为:(1)(2)(3)X456合计合计频数频数 频率频率(%)10201025.050.025.040100.0X456合计合计频数频数 频率频率(%)20402025.050.025.08010
9、0.0X456合计合计频数频数 频率频率(%)20101050.025.025.080100.0=5 =5 =4.75 频率分布变了,平均数也变了。因此,严格地说,权数应指频率。总体成数(总体比率)n有些社会经济现象,只表现为两种性质上的差异,如产品的质量表现为合格或不合格;人口性别表现为男性和女性等,这些只表现为是或否、有或无的标记称为交替标记,也称为是非标记。n总体中,具有某种表现的单位数(N1)或不具某种表现的单位数(N0)占总体全部单位数(N)的比重称为成数,用 p 或 q 表示。3.是非标记的平均数 n在总体中,具有某种性质的单位占总体的比率为p,不具有该种性质的单位占总体的比率为
10、q,以1作为具有某种性质的单位的标记值,以0作为不具有该种性质的单位的标记值:np也称为总体中具有某种属性的单位成数,是非标记的平均数。4.算术平均数的主要数学性质(1)各变量值与算术平均数的离差之总和等于零。(2)各变量值与算术平均数的离差平方之总和为最小。(二)调和平均数n1.集中趋势的测度值之一n2.算术平均数的另一种表现形式n3.易受极端值的影响n4.有简洁调和平均数和加权调和n 平均数原来只是计原来只是计算时使用了算时使用了不同的数据不同的数据!问题提出:n某种农产品在三个农贸市场的价格分别为:甲市场2元/公斤,乙市场2.5元/公斤,丙市场3元/公斤。现从以下两个方面提出平均价格问题
11、:n若分别在各市场购买了1公斤,则该农产品平均价格是多少?(2.5)n若分别在各市场购买了1元,则该农产品平均价格是多少?(2.44)n若分别在各市场购买了3元、5元、4元,则该农产品平均价格是多少?(2.48)n调和平均数也称为倒数平均数。n各变量值的倒数(1/xi)的算术平均数的倒数。n其计算公式为:(三)几何平均数n1.集中趋势的测度值之一n2.n个变量值乘积的 n 次方根n3.适用于特殊的数据n4.主要用于计算平均发展速度n5.计算公式为:三、位置平均数众数和中位数(一)众数集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数既可用于数值型数据,也可用于非数
12、值型数据n众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。n如表3-2中年龄的众数值MO25。n众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。n可用来测度定性变量的集中趋势;n销售量最大的产品颜色是“白色”,则有M0“白色”n可以度量定量变量的集中趋势。n从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。xMOf(x)组距分组数据众数的确定n1.众数的值与相邻两组频数的分布有关n2.相邻两组的频数相等时,众数组的组中值即为众数n3.该公式假定众数组的频数在众数组内匀整分布n4.相邻两组的频数不相等时,众数接受下列近似公式计算:下限公式:下限公式:上限
13、公式:上限公式:M MMooo(二)中位数1.集中趋势的测度值之一2.排序后处于中间位置上的值MMe e50%50%3.不受极端值的影响 未分组数据中位数的确定n依据(n+1)/2确定中间位置n若数据项数是奇数,则正好位于中间的数值就是中位数;n如5人收入为:1200,1450,1500,1600,2000元,则收入的中位数 Me=1500n若数据项数是偶数,则取居中两个数值的平均数为中位数。n如6人收入为:1200,1450,1500,1600,1800,2000元,则收入的中位数 Me=1550组距分组数据中位数的确定n先确定中位数组,即中间位置(用f/2来计算)所在的组。n假定中位数组内
14、次数匀整分布(次数与变量值的区间大小成比例),近似推算中位数的值。n接受下列近似公式计算:下限公式:下限公式:上限公式:上限公式:四、众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具有唯一性,但计算和应用众数有两个前提条件:(1)数据项数众多;(2)数据具有明显的集中趋势。3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于全部形式(类型、计量层次)的数据n4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。n为了解除极端值的干扰,
15、可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值。n切尾均值是将均值与中位数取长补短的结果。n5.算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。算术平均数和众数、中位数的数量关系n在对称分布中,三者相等.即:均值=Me=Mo;x Me Mox=Me=MoMo Me xn在左偏分布中,一般有:均值MeMon在右偏分布中,一般有:Mo Me 均值。n皮尔生阅历公式:在稍微偏态时,n 三者的近似关系:其次节 分布的离散程度n一、变异指标的含义及其作用n二、极差(全距)n三、平均差n四、方差和标准差n五、离散系数问题提出:有A、B两种证券,有关预期收益率及概率资
16、料如下:项目预期收益率(%)概率(%)A140308050 6020B1803012030 5040(1)分别计算A、B两种证券的期望收益率。(2)应选择哪种证券进行投资?为什么?nEA=1400.3+800.5 600.2=70(万元)nEB=1800.3+1200.3 500.4=70(万元)n可见A、B这两种证券的预期收益率是一样的。n但A、B这两种证券的风险程度是有差别的。A证券的收益率波动较小,而B证券的收益率波动较大,因而B证券的风险程度较高。n因此在收益相同状况下,宜选择风险程度较小的A证券进行投资。离中趋势(离散程度)1.数据分布的另一个重要特征2.离中趋势的各测度值是对数据离
17、散程度所作的描述3.反映各变量值远离其中心值的程度,因此也称为离中趋势4.从另一个侧面说明白集中趋势测度值的代表程度5.不同类型的数据有不同的离散程度测度值一、变异指标的含义及其作用n1.衡量平均数的代表性。n离散程度越大,平均数的代表性就越小。n2.反映现象变动的均衡性。n数据之间差异越大,现象的稳定性或均衡性越差。n3.统计推断的重要依据n判别统计推断前提条件是否成立。n衡量推断效果好坏的重要尺度。二、全距n1.一组数据的最大值与最小值之差n2.离散程度的最简洁测度值n3.易受极端值影响n4.不能考虑全部数据的分布n5.计算简便、含义直观、简洁理解n 6.计算公式为:n 未分组数据 R=x
18、max -xminn 组距分组数据 R Umax -Lmin四分位差n1.离散程度的测度值之一n2.上四分位数与下四分位数之差Qd =Q3 Q1 3.反映了中间50%数据的离散程度4.避开极端数值的影响5.不能考虑全部数据的分布QQ1 1MeMeQQ3 325%25%25%25%三、平均差n平均差各个数据与其均值的离差确定值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D 表示。计算公式为:n未分组数据:n已分组数据:三、平均差n1.离散程度的测度值之一n2.各变量值与其均值离差确定值的平均数n3.能全面反映一组数据的离散程度n4.因取确定值,数学性质不志向,实际中n 应用较少 四、
19、方差和标准差n1.离散程度的测度值之一n2.最常用的测度值n3.反映了各变量值与均值的平均差异n4.反映了全部数据的分布n5.依据总体数据计算的,称为总体方差或标准差;依据样本数据计算的,称为样本方差或标准差1.方差n方差是各个数据与其均值的离差平方的算术平均数n总体方差(2)的计算公式为:n未分组数据:n分组数据:n样本方差(通常用 S 2 表示)分母应为(n-1)。n变量的方差等于变量平方的平均数减去变量平均数的平方。即:2.标准差方差的算术平方根方差的算术平方根n总体标准差一般用表示。其计算公式为:n未分组数据:n分组数据:n标准差比方差更简洁理解。在社会经济现象的统计分析中,标准差比方
20、差的应用更为普遍,常常被用作测度数据与均值差距的标准尺度。n样本标准差(S)分母应为(n-1)。【例】计算平均差和方差、标准差使用寿命使用寿命(小时)(小时)组中值组中值 (x)试验数量试验数量(只)(只)f(x15421542)|x|x1542|1542|f(X(X1542)1542)2 2f f10001000以下以下9009002 2-642-642128412848243288243281000-12001000-1200110011008 8-442-44235363536156291215629121200-14001200-1400130013001616-242-2423872
21、38729370249370241400-16001400-1600150015003535-42-421470147061740617401600-18001600-1800170017002323158158363436345741725741721800-20001800-2000190019001212358358429642961537968153796820002000以上以上210021004 45585582232223212454561245456合计1002032467436003.是非标记的方差与标准差4.标准化值n标准化值或标准得分也称为Z 值。n对于来自不同均值和标准
22、差的个体的数据,往往不能干脆对比。这就须要将它们转化为同一规格、尺度的数据后再比较。n标准化值事实上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。举例(一):n 现有两个班(一班和二班)统计学成果:一班成果的均值78.53和标准差9.43,二班成果的均值70.19和标准差7.00。假定两个班水平类似,但由于两个任课老师的评分标准或试题不同,则应如何评价两个班学生的成果才比较合理?n 一班张三90分,二班李四82分,哪个学生成果更好?n 只要把各个观测值都转化成相应的标准得分,就可以进行比较了。n张三的标准得分n =(90-78.53)
23、/9.43=1.22n李四的标准得分n =(82-70)/7=1.69n明显,假如两个班水平差不多,则李四的成果应优于张三。举例(二):n美国NBA的迈克身高78英寸,而WNBA的丹妮身高74英寸。很明显,迈克高4英寸,但谁相对来说更高一些?迈克在男性中的身高是否超过了丹妮在女性中的身高?假如男性身高的平均数是69.0英寸,标准差为2.8英寸;女性身高平均63.6英寸,标准差2.5。n要比较他们相对于男性和女性总体的身高,我们须要通过将这些身高值转化为z值来将它们标准化。n迈克:z=3.21;丹妮:z=4.16。n迈克的身高高于平均数3.21个标准差,而丹妮的身高高于平均数4.16个标准差,因
24、此,丹妮在女性中的身高要高于迈克在男性中的身高。4.对称钟形分布中的3法则n3 法则关于钟形分布的一个近似的或阅历的法则:n变量值落在-3,+3范围以外的状况极为少见。因此通常将落在区间-3,+3之外的数据称为异样数据或称为离群点。x99.73%68.27%95.45%五、离散系数n离散系数是极差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。n将极差与算术平均数对比得到极差系数n将平均差与算术平均数对比得到平均差系数n最常用的离散系数是就标准差来计算的,称之为标准差系数n离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然.标准差系数n1.标准差与其相应的均值之比n2.消退现象由于不同计量单位、不同平均n 水平所产生的影响n3.测度了数据的相对离散程度n4.用于对不同组别数据离散程度的比较n5.计算公式为: