《第4章 数据分布特征的度量课件.ppt》由会员分享,可在线阅读,更多相关《第4章 数据分布特征的度量课件.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4.1 4.1 集中趋势的度量集中趋势的度量 4.2 4.2 离散程度的度量离散程度的度量4.3 4.3 偏态与峰态的度量偏态与峰态的度量第第4章章 数据分布特征的度量数据分布特征的度量 学习目标学习目标集中趋势各测度值的计算方法集中趋势各测度值的计算方法集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合离散程度各测度值的计算方法离散程度各测度值的计算方法离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合偏态与峰态的测度方法偏态与峰态的测度方法用用ExcelExcel计算描述统计量并进行分析计算描述统计量并进行分析数据分布的特征数据分布的特征4.1 4.1 集中趋势
2、的度量集中趋势的度量4.1.1 4.1.1 众数众数4.1.2 4.1.2 中位数和分位数中位数和分位数4.1.3 4.1.3 平均数平均数4.1.4 4.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较集中趋势集中趋势众数众数(mode)(mode) 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和主要用于分类数据,也可用于顺序数据和数值型数据数值型数据众数众数( (不惟一性不惟一性) ) 无众
3、数无众数原始数据:10 5 9 12 6 8分类数据的众数分类数据的众数 ( (例题分析例题分析) )不同饮料品牌的频数分布不同饮料品牌的频数分布饮料品牌饮料品牌频数频数汇源果汁汇源果汁百事可乐百事可乐可口可乐可口可乐娃哈哈娃哈哈15203530合计合计100顺序数据的众数顺序数据的众数 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数甲城市家庭对住房状况评价的频数分布分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0
4、1.由众数的定义可知,在单项数列的情形求众由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。则该变量值即为众数。2.在组距数列的条件下,则要先确定众数所在在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。组,然后按下面的近似公式计算。数值型数据的众数数值型数据的众数112oMLd 数值型数据的众数数值型数据的众数 ( (例题分析例题分析) )某企业职工月工资资料表职工月工资职工月工资(元)(元)职工人数(人)职工人数(人)8001000101000120020120014005014001
5、600301600180010合计合计120解:解:确定众数组。由于12001400组频数最多,故该组即为众数组。根据近似公式计算众数值。101250 201200200(50 20) (50 30)301200200 1320( )30 20MLd 元中位数中位数(median)(median)按大小排序后处于中间位置上的值按大小排序后处于中间位置上的值e1minniixM中位数中位数( (位置和数值的确定位置和数值的确定) )12n中位数位置1212212nennxnMxxn为奇数为偶数顺序数据的中位数顺序数据的中位数 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数分布甲城市家
6、庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300数值型数据的中位数数值型数据的中位数 (9(9个数据的算例个数据的算例) )【例】【例】 9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4
7、5 6 7 8 9191522n位置数值型数据的中位数数值型数据的中位数 (10(10个数据的算例个数据的算例) )【例】:【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 11015.522n位置960108010202中位数数值型数据的中位数数值型数据的中位数 ( (分组数据的算例分组数据的算例) )xf身高(身高( cm)人数(人)人数(人)某班级学生身高资料表某班级学生身高资料表身高身高( cm)人数人数(人)(人)人数
8、累积人数累积向上累积向上累积向下累积向下累积16016517017518018524563126111720212119151041合计合计21解解:确定中位数位次:确定中位数组:按人数向上累积(或向下累积)知,中位数在第三组。确定中位数:中位数组只有唯一的变量值170cm,故它就是所求的中位数。121 11122f数值型数据的中位数数值型数据的中位数 ( (组距数列组距数列) )在组距数列的情况下,确定中位数组后,由于这时中位在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:数组是一区间,可用下面的近似公式计算中位数:12memfSMLdf数值型数据
9、的中位数数值型数据的中位数 ( (分组数据的算例分组数据的算例) ) 某企业职工月工资资料某企业职工月工资资料职工月工资职工月工资(元)(元)职工人数职工人数(人)(人)向上累积向上累积8001000101010001200203012001400508014001600301101600180010120合计合计120确定中位数位次。确定中位数组。从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。按近似公式计算中位数值。1206022f121203021200200501320()memfSMLdf元四分位数四分位数(quartile)(
10、quartile)排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值四分位数四分位数( (位置的确定及计算位置的确定及计算) )1Q14n 3Q3(1)4n的位次的位次=,的位次的位次= 第第i i个四分位数可按如下近似公式计算:个四分位数可按如下近似公式计算: 14(1,2,3)miiiimiifSQLdif顺序数据的四分位数顺序数据的四分位数 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意
11、 24108 93 45 30 24132225270300合计合计300数值型数据的四分位数数值型数据的四分位数 (9(9个数据的算例个数据的算例) )【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9139 13(9 1)2.57.544QQ位置位置13780 8501500 1630815156522QQ数值型数据:平均数(简单平均数
12、)数值型数据:平均数(简单平均数)121ninixxxxxnn121NiNixxxxNN1 122112kiikkikx fx fx fx fxfffn1 122112kiikkikx fx fx fx ffffN数值型数据:平均数(加权平均数)数值型数据:平均数(加权平均数)122200185120kiiix fxn某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)xi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195
13、205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200加权平均数加权平均数( (权数对均值的影响权数对均值的影响) ) 甲乙两组各有甲乙两组各有1010名学生,考试成绩及其分布数据如下名学生,考试成绩及其分布数据如下: : 甲组:甲组: 考试成绩(考试成绩(x ): 0 20 100 人数分布(人数分布(f ):): 1 1 8 乙组:乙组: 考试成绩(考试成绩(x): 0 20 100 人数分布(人数分布(f ):): 8 1 110 120 1 100 882()10niixx
14、n 甲分10 820 1 100 112()10niixxn 乙分平均数平均数( (数学性质数学性质) )1.各变量值与平均数的离差之和等于零21()minniixx1() 0niixx中位数和平均数数学性质的验证中位数和平均数数学性质的验证几何平均数几何平均数(geometric mean)(geometric mean) n 个变量值乘积的个变量值乘积的 n 次方根次方根适用于对比率数据的平均适用于对比率数据的平均主要用于计算平均增长率主要用于计算平均增长率计算公式为计算公式为121nnnniiGxxxx几何平均数几何平均数 ( (例题分析例题分析) ) 【例】某水泥生产企业某水泥生产企业
15、19991999年的水泥产量为年的水泥产量为100100万万吨,吨,20002000年与年与19991999年相比增长率为年相比增长率为9%9%,20012001年年与与20002000年相比增长率为年相比增长率为16%16%,20022002年与年与20012001年相年相比增长率为比增长率为20%20%。求各年的年平均增长率。求各年的年平均增长率123109%116%120%114.91%nnGxxx几何平均数几何平均数 ( (例题分析例题分析) ) 【例】【例】一位投资者购持有一种股票,在一位投资者购持有一种股票,在20002000、20012001、20022002和和20032003
16、年收益率分别为年收益率分别为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在这四年内的平均收益率。计算该投资者在这四年内的平均收益率 4104.5%102.1%125.5%101.9%18.0787%G 4.5%2.1%25.5% 1.9%48.5%G 众数、中位数和平均数的关系众数、中位数和平均数的关系众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用众数众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数中位数不受极端值影响数据分布偏斜程度较大时应用平均数平均数易受极端值影响数学性质优良数据对称分布或接近对称分布
17、时应用数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类数据类型型分类数据分类数据 顺序数据顺序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数平均数平均数四分位数四分位数众数众数几何平均数几何平均数众数众数中位数中位数 中位数中位数四分位数四分位数四分位数四分位数众数众数4.2 4.2 离散程度的度量离散程度的度量4.2.1 分类数据:异众比率分类数据:异众比率4.2.2 顺序数据:四分位差顺序数据:四分位差4.2.3 数值型数据:方差和标准差数值型数据:方差和标准差4.2.4 相
18、对离散程度:离散系数相对离散程度:离散系数离中趋势离中趋势异众比率异众比率1.1.对分类数据离散程度的测度对分类数据离散程度的测度2.2.非众数组的频数占总频数的比例非众数组的频数占总频数的比例3.3.计算公式为计算公式为1immriifffVff 异众比率异众比率 ( (例题分析例题分析) )501550151500.770%rv不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计
19、合计501100四分位差四分位差(quartile deviation)(quartile deviation)对顺序数据离散程度的测度对顺序数据离散程度的测度也称为内距或四分间距也称为内距或四分间距上四分位数与下四分位数之差上四分位数与下四分位数之差 Q Qd d = = Q Q3 3 Q Q1 1反映了中间反映了中间50%50%数据的离散程度数据的离散程度不受极端值的影响不受极端值的影响用于衡量中位数的代表性用于衡量中位数的代表性四分位差四分位差 ( (例题分析例题分析) )甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累
20、计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300极差极差(range)(range)一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度值易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布平均差平均差(mean deviation)(mean deviation)各变量值与其平均数离差绝对值的平均数各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度能全面反映一组数据的离散程度数学性质较差,实际中应用较少数学性质较
21、差,实际中应用较少1niixxADn1kiiiMx fADn平均差平均差 ( (例题分析例题分析) )某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040 xx fxx
22、方差和标准差方差和标准差(variance and standard deviation)(variance and standard deviation)数据离散程度的最常用测度值数据离散程度的最常用测度值反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差,记为差,记为 2 2( ( ) );根据样本数据计算的,称;根据样本数据计算的,称为样本方差或标准差,记为为样本方差或标准差,记为s s2 2(s)(s)样本方差和标准差样本方差和标准差 ( (simple simple variancevarianc
23、e and and standard deviationstandard deviation) )未分组数据未分组数据221()1niixxsn2211()1kiiikiixxfsf21()1niixxsn211()1kiiikiixxfsf自由度自由度 (degree of freedom)(degree of freedom)自由度是指附加给独立的观测值的约束或限自由度是指附加给独立的观测值的约束或限制的个数制的个数从字面涵义来看,自由度是指一组数据中可从字面涵义来看,自由度是指一组数据中可以自由取值的个数以自由取值的个数当样本数据的个数为当样本数据的个数为n n时,若样本平均数确定时,若
24、样本平均数确定后,则附加给后,则附加给n n个观测值的约束个数就是个观测值的约束个数就是1 1个,个,因此只有因此只有n n-1-1个数据可以自由取值,其中必有个数据可以自由取值,其中必有一个数据不能自由取值一个数据不能自由取值按着这一逻辑,如果对按着这一逻辑,如果对n n个观测值附加的约束个观测值附加的约束个数为个数为k k个,自由度则为个,自由度则为n n- -k k自由度自由度 (degree of freedom)(degree of freedom)样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则
25、不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量样本标准差样本标准差 ( (例题分析例题分析) )某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 17017
26、0 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计120554002()ixx2()iixxf总体方差和标准差总体方差和标准差 (Population variance and Standard deviation)未分组数据221()NiixN2211()Kiiikiixff21()NiixN211()Kiiikiixff数据分布数量的估计数据分
27、布数量的估计(经验法则)(经验法则)经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时约有约有68%68%的数据在平均数加减的数据在平均数加减1 1个标准差的范个标准差的范围之内围之内约有约有95%95%的数据在平均数加减的数据在平均数加减2 2个标准差的范个标准差的范围之内围之内约有约有99%99%的数据在平均数加减的数据在平均数加减3 3个标准差的范个标准差的范围之内围之内 切比雪夫不等式切比雪夫不等式(Chebyshevs inequality )(Chebyshevs inequality )如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对
28、任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数切比雪夫不等式切比雪夫不等式(Chebyshevs inequality )(Chebyshevs inequality )对于对于k k=2=2,3 3,4 4,该不等式的含义是,该不等式的含义是至少有至少有75%75%的数据落在平均数加减的数据落在平均数加减2 2个标个标准差的范围之内准差的范围之内至少有至少有89%89%的数据落在平均数加减的数据落在平均数加减3 3个标个标准差的范
29、围之内准差的范围之内至少有至少有94%94%的数据落在平均数加减的数据落在平均数加减4 4个标个标准差的范围之内准差的范围之内离散系数离散系数(coefficient of variation)(coefficient of variation)l1.1.标准差与其相应的均值之比标准差与其相应的均值之比l2.2.对数据相对离散程度的测度对数据相对离散程度的测度l3.3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响l4.4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较l5.5.计算公式为计算公式为ssvx离散系数离散系数 ( (例题分析例题分析) )某
30、管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0离散系数离散系数 ( (例题分析例题分析) )11536.25()309.19()xs万元万元2232.5215()23.09()xs万元万元数据类型与离散程度测度值数据类型与离散程度测度值数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类数据类型型分类数据分类数据 顺序数据顺序数据数值型数
31、据数值型数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 离散系数(比较时用)离散系数(比较时用) 平均差平均差 极差极差 四分位差四分位差 异众比率异众比率4.3 4.3 偏态与峰态的度量偏态与峰态的度量4.3.1 偏态及其测度偏态及其测度4.3.2 峰态及其测度峰态及其测度偏态与峰态分布的形状偏态与峰态分布的形状矩的概念及计算公式矩的概念及计算公式1.矩的基本形式 变量x对常数a的“k阶矩”为: 111()()或nnkkiiiiikkniixaxafnf2.当a=0就得到k阶原点矩 111或nnkkiiiiikkniixx fnf矩的
32、概念及计算公式矩的概念及计算公式3.当 就得到k阶中心矩ax111()()nnkkiiiiikkniixxxxfmmnf或4.中心矩的两条重要性质(1)当分布对称时135210,kmmmmk为任意正整数(2)当分布为正态分布时 2221 3 5(21)(21)!kkkmkk 从而有:246246,3,15,mmm偏态系数偏态系数 (coefficient of skewness)(coefficient of skewness)33m2.偏态方向和程度的判别:按上面公式计算出来的偏度偏态方向和程度的判别:按上面公式计算出来的偏度指标,其符号可以表明分布的偏斜方向,其绝对值大小指标,其符号可以表
33、明分布的偏斜方向,其绝对值大小则可以表明分布的偏斜程度。则可以表明分布的偏斜程度。 1.偏态系数的计算公式:偏态系数的计算公式:0,0,0,分布为正偏分布为对称分布为负偏偏态偏态(skewness)(skewness)统计学家统计学家PearsonPearson于于18951895年首次提出年首次提出 数据分布偏斜程度的测度数据分布偏斜程度的测度3.3. 偏态系数偏态系数=0=0为对称分布为对称分布4. 4. 偏态系数偏态系数 0 0为右偏分布为右偏分布5. 5. 偏态系数偏态系数 0 0为左偏分布为左偏分布6. 6. 偏态系数大于偏态系数大于1 1或小于或小于-1-1,被称为高度偏态分,被称
34、为高度偏态分布;偏态系数在布;偏态系数在0.50.51 1或或-0.5-0.5-1-1之间,被之间,被认为是中等偏态分布;偏态系数越接近认为是中等偏态分布;偏态系数越接近0 0,偏,偏斜程度就越低斜程度就越低 峰度系数峰度系数 (coefficient of skewness)(coefficient of skewness)2.峰度的判别:按上面公式计算出来的峰度指标,可以峰度的判别:按上面公式计算出来的峰度指标,可以用来判定分布的形态特征。其判别标准为:用来判定分布的形态特征。其判别标准为: 1.峰度系数的计算公式:峰度系数的计算公式:443m0,0,0,分布为高峰度的分布为正态峰度的分布
35、为低峰度的峰态峰态(kurtosis)(kurtosis)统计学家统计学家PearsonPearson于于19051905年首次提出年首次提出数据分布扁平程度的测度数据分布扁平程度的测度峰态系数峰态系数=0=0扁平峰度适中扁平峰度适中峰态系数峰态系数000为尖峰分布为尖峰分布偏态系数和峰态系数偏态系数和峰态系数 ( (例题分析例题分析) )某百货公司所属各商店年销售额偏度系数和峰度系数计算表某百货公司所属各商店年销售额偏度系数和峰度系数计算表组中值组中值商店个数商店个数6520130092.29 14890.20 -406289.85 11085908.88 7540300011951.84
36、-206596.03 3571160.03 856051003184.90 -23204.26 169059.58 95807600589.39 1599.77 4342.22 1054850407759.35 98654.55 1254322.19 11520230010318.78 234383.62 5323856.40 12512150012842.69 420139.56 13744565.50 2802584061537.14 118687.35 35153214.81 xfxfx2()xxf3()xxf4()xxf偏态系数和峰态系数偏态系数和峰态系数 ( (例题分析例题分析) )
37、211()219.7814.82kiiikiixff33()118687.35423.88280 xxfmf44()35153214.81125547.20280 xxfmf333423.880.144414.82m444125547.20330.014414.32m 0.144400.01440 因因 , 数值不是很大,说明分布略为右偏;数值不是很大,说明分布略为右偏; ,数值很小,说明比具有同方差的正态分布略为平坦。数值很小,说明比具有同方差的正态分布略为平坦。用用ExcelExcel计算描述统计量计算描述统计量MODE计算众数计算众数MEDIAN计算中位数计算中位数QUARTILE计算四
38、分位数计算四分位数AVERAGE计算平均数计算平均数HARMEAN计算简单调和平均数计算简单调和平均数GEOMEAN计算几何平均数计算几何平均数AVEDEV计算平均差计算平均差STDEV计算样本标准差计算样本标准差STDEVP计算总体标准差计算总体标准差SKEW计算偏态系数计算偏态系数KURT计算峰态系数计算峰态系数TRIMMEAN计算切尾均值计算切尾均值数据分布特征和描述统计量数据分布特征和描述统计量数据分布特征数据分布特征集中趋势集中趋势离散程度离散程度分布形状分布形状本章小结本章小结1. 数据水平的概括性度量数据水平的概括性度量2. 数据离散程度的概括性度量数据离散程度的概括性度量数据分布形状的度量数据分布形状的度量3. 用用Excel计算描述统计量计算描述统计量End of Chapter 4