《第4章-数据的概括性度量.ppt》由会员分享,可在线阅读,更多相关《第4章-数据的概括性度量.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第4 4章章 数据的概括性度量数据的概括性度量1 1集中趋势的度量集中趋势的度量2 2离散程度的度量离散程度的度量3 3偏态与峰态的度量偏态与峰态的度量某高校只有两个系,财经系和工程系。某高校只有两个系,财经系和工程系。该校报考及录取的总体情况如下:该校报考及录取的总体情况如下:男生男生女生女生录取录取350350200200未录取未录取450450400400报考人数报考人数800800600600引例:引例:录取中有无性别歧视录取中有无性别歧视?工程系工程系财经系财经系男生男生女生女生 男生男生女生女生录取录取3003001001005050100100未录取未录取30030010010
2、0150150300300报考人数报考人数 600600200200200200400400学过统计学的同学不会简单地做出结论,而是继续搜集数据学过统计学的同学不会简单地做出结论,而是继续搜集数据学过统计学的同学不会简单地做出结论,而是继续搜集数据第第1 1节节 分布集中趋势的测度分布集中趋势的测度一、众数一、众数二、中位数二、中位数三、四分位数三、四分位数四、均值四、均值五、几何均值五、几何均值六、切尾均值六、切尾均值七、众数、中位数和均值的比较七、众数、中位数和均值的比较5 5众数众数 (modemode)1.1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.2.适合于数
3、据量较多时使用适合于数据量较多时使用3.3.不受极端值的影响不受极端值的影响4.4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.5.主要用于分类数据,也可用于顺序数据和数值主要用于分类数据,也可用于顺序数据和数值型数据型数据6 6众数众数 (不惟一性不惟一性)无众数无众数原始数据原始数据:11 3 7 12 9 8:11 3 7 12 9 8一个众数一个众数一个众数一个众数原始数据原始数据原始数据原始数据:7 :7 :7 :7 4 4 4 4 6 13 6 13 6 13 6 13 4 4 4 4 4 4 4 4多于一个众数多于一个众数多于一个众数多于一个众数原始数据原
4、始数据原始数据原始数据:17 :17 :17 :17 25252525 25252525 33 33 33 33 24 24 24 24 242424247 7中位数中位数 (medianmedian)1.1.排序后处于中间位置上的值排序后处于中间位置上的值2.2.2.2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.3.3.3.主要用于顺序数据,也可用数值型数据,但不主要用于顺序数据,也可用数值型数据,但不主要用于顺序数据,也可用数值型数据,但不主要用于顺序数据,也可用数值型数据,但不能用于分类数据能用于分类数据能用于分类数据能用于分类数据4.4.4.4.各变量值与中位
5、数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即MMe e50%50%8 8中位数中位数 (位置的确定位置的确定)9 9案例分析案例分析 (9(9个数据的算例个数据的算例)【例例例例】9 9 9 9个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1400 750 760 1050 870 950 2100 1450 15401400 750 760 1050 870 950 2100 1450 1540 排排排排 序序序序:
6、750 760 870 950 750 760 870 950 10501050 1400 1450 1540 21001400 1450 1540 2100位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数中位数中位数 =1050=1050=1050=10501010案例分析案例分析 (10(10个数据的算例个数据的算例)【例例例例】10 10 10 10个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据 排排排排 序序序序:635635 690 770 820690 770 820 930 10789
7、30 1078 1230 1450 1690 21501230 1450 1690 2150 位位位位 置置置置:1 2 3 4 1 2 3 4 5 65 6 7 8 9 10 7 8 9 10 1111四分位数四分位数 (quartilequartile)1.1.排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值2.2.2.2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3.3.3.3.主要用于顺序数据,也可用于数值型数据,但不主要用于顺序数据,也可用于数值型数据,但不主要用于顺序数据,也可用于数值型数据,但不主要用于顺序数据,也可用于数值型数据,但不能
8、用于分类数据能用于分类数据能用于分类数据能用于分类数据QQL LQQMMQQU U25%25%25%25%1212四分位数四分位数 (位置的确定位置的确定)1313案例分析案例分析 (四分位数四分位数7 7个数据的算例个数据的算例)原始数据原始数据原始数据原始数据:23 21:23 21:23 21:23 21 30 30 30 30 32 28 25 32 28 25 32 28 25 32 28 25 26262626排排排排 序序序序:21 :21 :21 :21 23232323 25 26 28 25 26 28 25 26 28 25 26 28 30303030 32 32 32
9、 32位位位位 置置置置:1 :1 :1 :1 2 3 4 5 6 72 3 4 5 6 72 3 4 5 6 72 3 4 5 6 7QL=23QU=307+7+1 1QQL L位置位置位置位置 =4 4=4 4=2=2QQU U位置位置位置位置 =3(3(N+N+1)1)4 43(73(7+1)1)4 4 =6=6N+N+1 11414案例分析案例分析(四分位数四分位数1010个数据的算例个数据的算例)【例例例例】10 10 10 10个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:500 :500 650 760650 760 780
10、940 1060 1350 780 940 1060 1350 1680 17901680 1790 1900 1900位位 置置:1 :1 2 32 3 4 5 6 7 4 5 6 7 8 98 9 10 10统计函数统计函数统计函数统计函数QUARTILEQUARTILEQUARTILEQUARTILE1515均值均值 (meanmean)1.1.集中趋势的最常用测度值集中趋势的最常用测度值2.2.一组数据的均衡点所在一组数据的均衡点所在3.3.体现了数据的必然性特征体现了数据的必然性特征4.4.易受极端值的影响易受极端值的影响5.5.用于数值型数据,不能用于分类数据和顺序用于数值型数据,
11、不能用于分类数据和顺序数据数据1616简单均值简单均值 (simple mean)(simple mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x x x1 1 1 1,x x x x2 2 2 2,x x x xn n n n总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值1717加权均值加权均值 (weighted mean)(weighted mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为:x x x x1 1 1 1,x x x x2 2 2 2,x x x xn n n n相应的频数为:相应的频数为:相应的频数为:相应的频数为
12、:f f f f1 1 1 1,f f f f2 2 2 2,f f f fk k k k总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值1818案例分析案例分析 加权均值加权均值按零件数分组按零件数分组组中值(组中值(Xi)频数(频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.0【例例例例】根据表中的数据,计算根据表中的数据,计算根据表中的
13、数据,计算根据表中的数据,计算50 50 50 50 名名名名工人日加工零件数的均值工人日加工零件数的均值工人日加工零件数的均值工人日加工零件数的均值 表表2-5 某车间某车间50名工人日加工零件均值计算表名工人日加工零件均值计算表1919均值均值 (数学性质数学性质)1.1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零2.2.2.2.各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小3.3.3.3.统计分布的均衡点统计分布的均衡点统计分布的均衡点统计分布的均衡点2020几何均值几何均值 (geometric
14、 meangeometric mean)1.1.n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均3.3.主要用于计算平均增长率主要用于计算平均增长率4.4.计算公式为计算公式为:5.5.可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形2121案例分析案例分析 几何均值几何均值 【例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在19971997年年、19199898年年、19991999年年和和20002000年年收收益益率率分分别别为为 4.5%4.5%、2.0%2.0%、3.5%
15、3.5%、5.4%5.4%。计计算算该该投投资资者者在在这四年内的平均收益率这四年内的平均收益率 平均收益率平均收益率平均收益率平均收益率103.84%-1=3.84%103.84%-1=3.84%103.84%-1=3.84%103.84%-1=3.84%2222切尾均值切尾均值 (trimmed Mean)(trimmed Mean)1.1.去掉大小两端的若干数值后计算中间数据的均值去掉大小两端的若干数值后计算中间数据的均值2.2.在在电电视视大大奖奖赛赛、体体育育比比赛赛及及需需要要人人们们进进行行综综合合评评价的比赛项目中已得到广泛应用价的比赛项目中已得到广泛应用3.3.计算公式为计算
16、公式为:n n n n 表示观察值的个数;表示观察值的个数;表示观察值的个数;表示观察值的个数;表示切尾系数,表示切尾系数,表示切尾系数,表示切尾系数,2323案例分析案例分析 切尾均值切尾均值【例例】某某次次求求职职面面试试中中共共有有1111名名评评委委,对对某某位位求求职职者的给分分别是:者的给分分别是:经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/111/11 2424众数、中位数和均值的关系众数、中位数和均值的关
17、系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值2525众数、中位数、均值的众数、中位数、均值的特点和应用特点和应用1.1.众数众数 -不受极端值影响不受极端值影响 -具有不惟一性具有不惟一性 -数据分布偏斜程度较大时应用数据分布偏斜程度
18、较大时应用2.2.中位数中位数 -不受极端值影响不受极端值影响 -数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.均值均值 -易受极端值影响易受极端值影响 -数学性质优良数学性质优良 -数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众
19、数众数2727本节提问本节提问一组数据的分布特征可以从哪几个方面进行测度?一组数据的分布特征可以从哪几个方面进行测度?Q1Q2Q3怎样理解均值在统计学中的地位?怎样理解均值在统计学中的地位?对于比率数据的平均,为什么采用几何平均?对于比率数据的平均,为什么采用几何平均?简述众数、中位数和均值的特点和应用场合。简述众数、中位数和均值的特点和应用场合。Q4第第2 2节节 分布离散程度的测度分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数2929极差极差 (rangerange)1.1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差
20、2.2.离散程度的最简单测度值离散程度的最简单测度值3.3.易受极端值影响易受极端值影响4.4.未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 10105.5.计算公式为计算公式为计算公式为计算公式为:R=max(xi)-min(xi)3030内距内距 (Inter-Quartile Range,IQR)(Inter-Quartile Range,IQR)1.1.也称四分位差也称四分位差2.2.上四分位数与下四分位数之差上四分位数与下四分位数之差 内内 距距 =Q Q3 3 Q Q1 13.3.反映了中间反映了中间50%50%数据的离散程度数据的离散程度4
21、.4.不受极端值的影响不受极端值的影响5.5.可用于衡量中位数的代表性可用于衡量中位数的代表性3131方差和标准差方差和标准差(VarianceVariance and and Standard deviationStandard deviation)1.离散程度的测度值之一离散程度的测度值之一2.2.最常用的测度值最常用的测度值3.3.反映了数据的分布反映了数据的分布4.4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.5.根据总体数据计算的,称为总体方差或标准差根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准;根据样本数据计算的,称为样本方
22、差或标准差差4 6 8 10 124 6 8 10 12 x x =8.38.33232总体方差和标准差总体方差和标准差 (Population(Population variancevariance and and Standard deviationStandard deviation)未分组数据未分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式未分组数据未分组数据未分组数据未分组数据:组距分组数:组距分组数:组距分组数:组距分组数:组距分组数:组距分组数:组距分组数:组距分组数:3333案例分析案例分析 总
23、体标准差的计算总体标准差的计算【例例例例】根据表中的数据,计算工人日加工零件数的标准差根据表中的数据,计算工人日加工零件数的标准差根据表中的数据,计算工人日加工零件数的标准差根据表中的数据,计算工人日加工零件数的标准差某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值(X Xi i)频数频数(F Fi i)(X Xi i-X X)2 2(X Xi i-X X)2 2F Fi i105105 110110110110 115115115115 120120120120125125125125 130130130130 1351351351
24、35 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 4246.49246.49114.49114.4932.4932.490.490.4918.4918.4986.4986.49204.49204.49739.47739.47572.45572.45259.92259.926.866.86184.90184.90518.94518.94817.96817.96合计合计50503100.53100.53434样本方差和标准差样本方差和标准差 (si
25、mple(simple variancevariance and and standard deviationstandard deviation)方差的计算公式方差的计算公式方差的计算公式方差的计算公式注意:样本注意:样本注意:样本方差用自由方差用自由方差用自由度度度n nn-1-1-1去除去除去除!标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式未分组数据:未分组数据:未分组数据:未分组数据:未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:3535样本方差样本方差
26、 自由度自由度(degree of(degree of freedom)freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当当 样样 本本 数数 据据 的的 个个 数数 为为 n n 时时,若若 样样 本本 均均 值值 x x 确确定定后后,只只有有n n-1 1个个数数据据可可以以自自由由取取值值,其其中中必必有有一一个个数数据据则则不不能能自自由取值由取值3.3.例例如如,样样本本有有3 3个个数数值值,即即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则则 x x=5 5。当当 x x =5 5 确确 定定 后后,x
27、x1 1,x x2 2和和x x3 3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比如比如x x1 1=6=6,x x2 2=7=7,那么,那么x x3 3则必然取则必然取2 2,而不能取其他值,而不能取其他值4.4.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差去去估估计总体方差计总体方差2 2时,它是时,它是2 2的无偏估计量的无偏估计量3636案例分析案例分析 样本方差样本方差 样本方差与标准差样本方差与标准差原始数据原始数
28、据原始数据原始数据:10 10 10 10 5 5 5 5 9 13 9 13 9 13 9 13 6 6 6 6 8 8 8 83737离散系数离散系数(coefficient of variationcoefficient of variation)1.1.标准差与其相应的均值之比标准差与其相应的均值之比2.2.对数据相对离散程度的测度对数据相对离散程度的测度3.3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.5.计算公式为计算公式为:3838案例分析案例分析 离散系数离散系数【例例例例】某
29、公司抽查了所属的某公司抽查了所属的某公司抽查了所属的某公司抽查了所属的8 8 8 8家超市,其产品销售数家超市,其产品销售数家超市,其产品销售数家超市,其产品销售数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度超市编号超市编号产品销售额(万元)产品销售额(万元)x x1 1销售利润(万元)销售利润(万元)x x2 21 12 23 34 45 56 67 78 8170170220220390390430430480480650650950950100010008.
30、18.112.512.518.018.022.022.026.526.540.040.064.064.069.069.0表表2-8 2-8 某某公司公司所属所属8 8家家超市超市的产品销售数据的产品销售数据3939案例分析案例分析 离散系数离散系数v v v v v v1 11 11 1=536.25536.25536.25536.25536.25536.25309.19309.19309.19309.19309.19309.19=0.5770.5770.5770.5770.5770.577v v v v v v2 22 22 2=32.521532.521532.521532.521532.
31、521532.521523.0923.0923.0923.0923.0923.09=0.7100.7100.7100.7100.7100.710结论:结论:结论:结论:计算结果表明,计算结果表明,计算结果表明,计算结果表明,v v v v1 1 1 1 00时为正偏斜(右偏);当时为正偏斜(右偏);当 00)0)(3 3 0)33时,表示频数分布比正态分布更集中,分布呈时,表示频数分布比正态分布更集中,分布呈尖尖峰峰状态,状态,a a4 433)(a a4 4=3)=3)(a a4 43)集中趋势众数中位数四分位数平均数离散程度异众比率四分位差极差平均差方差和标准差离散系数分布的形状偏态系数峰度系数总结