数据分布特征.ppt

上传人:wuy****n92 文档编号:69115494 上传时间:2022-12-30 格式:PPT 页数:72 大小:1.14MB
返回 下载 相关 举报
数据分布特征.ppt_第1页
第1页 / 共72页
数据分布特征.ppt_第2页
第2页 / 共72页
点击查看更多>>
资源描述

《数据分布特征.ppt》由会员分享,可在线阅读,更多相关《数据分布特征.ppt(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、哪名运动员的发挥更稳定哪名运动员的发挥更稳定?在奥运会女子在奥运会女子1010米气手枪比赛中,每个运动员首先进行每米气手枪比赛中,每个运动员首先进行每组组1010枪共枪共4 4组的预赛,然后根据预赛总成绩确定进入决赛的组的预赛,然后根据预赛总成绩确定进入决赛的8 8名名运动员。决赛时运动员。决赛时8 8名运动员再进行名运动员再进行1010枪射击,再将预赛成绩加上枪射击,再将预赛成绩加上决赛成绩确定最后的名次。决赛成绩确定最后的名次。在在20082008年年8 8月月1010日举行的第日举行的第2929届北京奥运会女子届北京奥运会女子1010米气手枪米气手枪决赛中,进入决赛的决赛中,进入决赛的8

2、 8名运动员的预赛成绩和最后名运动员的预赛成绩和最后1010枪的决赛成枪的决赛成绩如下表绩如下表1 最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩发挥,以总成绩492.3492.3环夺得金牌,预赛排在第环夺得金牌,预赛排在第1 1名的俄罗斯名的俄罗斯运动员纳塔利娅运动员纳塔利娅帕杰林娜以总成绩帕杰林娜以总成绩489.1489.1环获得银牌,预环获得银牌,预赛排在第赛排在第4 4名的格鲁吉亚运动员妮诺名的格鲁吉亚运动员妮诺萨卢克瓦泽以总成绩萨卢克瓦泽以总成绩487.4487.4环的成绩获得铜牌,而预赛排在第环的成绩获得铜牌,而预赛排

3、在第3 3名的蒙古运动员卓名的蒙古运动员卓格巴德拉赫格巴德拉赫蒙赫珠勒仅以蒙赫珠勒仅以479.6479.6环的成绩名列第环的成绩名列第8 8名名.由此可见,在射击比赛中,运动员能否取得好的成绩,由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥怎样评价一名运动员的发挥是否稳定呢?是否稳定呢?通过本章内容的学习就能很容易回答这样的问题。通过本章内容的学习就能很容易回答这样的问题。哪名运动员的发挥更稳定哪名运动员的发挥更稳定?2第三章第三章 数据分布特征的描述数据分布特征的描述集中趋势的测定集中趋势的测定第一节第一节第二

4、节第二节离散程度的测定离散程度的测定第三节第三节偏态与峰态的测定偏态与峰态的测定3数据集中区数据集中区数据数据一组数据向其中心值聚集或靠拢的倾向和程度;一组数据向其中心值聚集或靠拢的倾向和程度;测度集中趋势就是测度集中趋势就是寻找数据一般水平的代表值或中心值寻找数据一般水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值;不同类型的数据用不同的集中趋势测度值;低层次数据的集中趋势测度值适用于高层次的测量数据,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据;测量数据;选用哪一

5、个测度值来反映数据的集中趋势,要根据所掌选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。握的数据的类型来确定。集中趋势集中趋势(central tendencycentral tendency)4第一节第一节 集中趋势的测定集中趋势的测定 一、分类数据:众数一、分类数据:众数二、顺序数据:中位数和分位数二、顺序数据:中位数和分位数三、数值型数据:平均数三、数值型数据:平均数四、众数、中位数和平均数的比较四、众数、中位数和平均数的比较5一、分类数据:众数一、分类数据:众数1 1、众数的定义、众数的定义(modemode)一组数据中出现次数最多的变量值一组数据中出现次数最多的

6、变量值,用,用 表示表示主要用于主要用于分类分类数据,也可用于数据,也可用于顺顺序数据和数值型序数据和数值型数据数据;一般情况下,只有在一般情况下,只有在数据量较大数据量较大的情况下,众数的情况下,众数才有意义;才有意义;是一种是一种位置平均数位置平均数6饮饮料品牌料品牌频频数数比例比例百分比百分比(%)(%)可口可可口可乐乐 旭日升冰茶旭日升冰茶 百事可百事可乐乐 汇汇源果汁源果汁 露露露露15151111 9 9 6 6 9 90.300.300.220.220.180.180.120.120.180.1830302222181812121818合合计计50501 1100100【例例1

7、1】计算饮料品牌的众数计算饮料品牌的众数广告广告类类型型人数人数(人人)比例比例频频率率(%)(%)商品广告商品广告 服服务务广告广告 金融广告金融广告 房地房地产产广告广告 招生招聘广告招生招聘广告 其他广告其他广告112112 51 51 9 916161010 2 20.5600.5600.2550.2550.0450.0450.0800.0800.0500.0500.0100.01056.056.025.525.5 4.5 4.5 8.0 8.0 5.0 5.0 1.0 1.0合合计计2002001 1100100【例例2 2】计算某城市居民关注广告类型的众数计算某城市居民关注广告类型

8、的众数7回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)百分比百分比(%)(%)户户数数(户户)百分比百分比 (%)(%)非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 24 108 108 93 93 45 45 30 30 8 8363631311515101021219999787864643838 7.0 7.033.033.026.026.021.321.312.712.7合合计计300300100.0100.0300300100.0100.0【例例3 3】计算甲乙两城市对住房状况满意程度评价的众数计算甲乙两城市对住房状况满意程度评价的众数 【

9、例例4 4】在某城市中随机抽取在某城市中随机抽取9 9个家庭,调查得到每个家庭的人个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。均月收入数据如下(单位:元)。要求计算人均月收入的众数。750 780 1080 850 1080 2000 1080 1630 1250750 780 1080 850 1080 2000 1080 1630 12508无众数无众数原始数据原始数据:10 5 9 12 6 8:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 9 8 5 5 5 5多于一个众数多于一个众数原始数据原始数据:25

10、 :25 2828 2828 36 36 4242 42422 2、众数的特点、众数的特点不惟一性不惟一性 是一个位置代表值是一个位置代表值 正态分布或一般的偏态分布中,一组数据最高峰点所对应正态分布或一般的偏态分布中,一组数据最高峰点所对应 的数值即为众数的数值即为众数 不受极端值的影响不受极端值的影响 一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数9数值型分组数据众数的确定数值型分组数据众数的确定1 1、众数、众数的值与相邻两组频数的分布有关的值与相邻两组频数的分布有关该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2 2、相邻两组的、相邻

11、两组的频数相等时频数相等时,众数组的,众数组的组中值即为众数组中值即为众数3 3、相邻两组的频数不相等时,众数采用下列、相邻两组的频数不相等时,众数采用下列近似公式计算近似公式计算10【例例5 5】计算计算5050名工人日加工零件数的众数。名工人日加工零件数的众数。按零件数分按零件数分组组频频数(人)数(人)百分比百分比(%)(%)5 56 67 78 89 9101011113 35 58 8141410106 64 46 6101016162828202012128 8合合计计5050100100按周加工零件数分按周加工零件数分组组频频数数80-9080-9090-10090-100100

12、-110100-110110-120110-120120-130120-1303 37 713135 52 2合计合计3030【例例6 6】计算某车间计算某车间3030名工人加工零件数的众数。名工人加工零件数的众数。分布的形状越偏,众数值偏离众数组的组中值的程度越大分布的形状越偏,众数值偏离众数组的组中值的程度越大11二、顺序数据:中位数和分位数二、顺序数据:中位数和分位数1 1、中位数的定义、中位数的定义(medianmedian)(一)中位数(一)中位数数据数据排序排序后处于中间位置上的后处于中间位置上的变量值变量值M Me e50%50%50%50%适宜于开口组资料和某些不能用数字测定的

13、事物;间断数列适宜于开口组资料和某些不能用数字测定的事物;间断数列 无中位数无中位数 主要用于顺序数据,也可用数值型数据,但不能用于分主要用于顺序数据,也可用数值型数据,但不能用于分 类数据类数据 是一种是一种位置平均数位置平均数12各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即位置确定位置确定数值确定数值确定2 2、中位数的求解、中位数的求解13组距分组数据:组距分组数据:回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)累计频数累计频数户户数数(户户)累计频数累计频数 非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 2

14、4 108 108 93 93 45 45 30 30 24 2413213222522527027030030021219999787864643838 2121120120198198262262300300合合计计300300300300【例例7 7】计算甲乙两城市对住房状况满意程度评价的中位数计算甲乙两城市对住房状况满意程度评价的中位数142 2、中位数的求解、中位数的求解 【例例8 8】9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 850 960

15、 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9:1 2 3 4 5 6 7 8 9中位数中位数 108010801010个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8

16、 9 10 :1 2 3 4 5 6 7 8 9 10 152 2、中位数的求解、中位数的求解1 1、根据位置公式确定中位数所在的组、根据位置公式确定中位数所在的组2 2、采用下列、采用下列近似公式计算近似公式计算:该公式假定中位数组的频数在该组内均匀分布。该公式假定中位数组的频数在该组内均匀分布。组距分组数据:组距分组数据:下限公式(向上累积时用)下限公式(向上累积时用)式中:式中:L L表示中位数所在组的下限;表示中位数所在组的下限;中位数所在组的次数;中位数所在组的次数;中位数所在组以前各组的累积次数;中位数所在组以前各组的累积次数;d d中位数所在组的组距;中位数所在组的组距;上限公式

17、(向下累积时用)上限公式(向下累积时用)2 2、中位数的求解、中位数的求解16【例例9 9】计算计算5050名工人日加工零件数的中位数名工人日加工零件数的中位数按零件数分按零件数分组组频频数(人)数(人)向上累向上累积积向下累积向下累积105-110105-110110-115110-115115-120115-120120-125120-125125-130125-130130-135130-135135-140135-1403 35 58 8141410106 64 43 38 8161630304040464650505050474742423434202010104 4合合计计5050

18、1718不受极端值的影响,具有稳健性;不受极端值的影响,具有稳健性;数据大量重复某一数值时,中位数未必准确,在解释是特数据大量重复某一数值时,中位数未必准确,在解释是特别小心;别小心;研究收入分配时很有用。研究收入分配时很有用。(一)中位数(一)中位数 【例例】100100户家庭,户家庭,2020户户2 2口人,口人,400400户户3 3口人,口人,4040户户4 4口人,口人,计算人口的中位数。计算人口的中位数。1 1、排序排序后处于后处于25%25%和和75%75%位置上的值位置上的值2 2、不受极端值的影响、不受极端值的影响3 3、主主要要用用于于顺顺序序数数据据,也也可可用用于于数数

19、值值型型数数据据,但但不不能能用用于于分类数据分类数据Q QL LM Me eQ QU U25%25%25%25%25%25%25%25%四分位数四分位数(quartile)(quartile)(二)分位数(二)分位数1920方法方法2 2:较准确算法较准确算法方法方法1 1:定义算法定义算法四分位数位置的确定方法四分位数位置的确定方法:(二)分位数(二)分位数 方法方法3 3:其中其中 表示中位数的位置取整。这样计算出的表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间四分位数的位置,要么是整数,要么在两个数之间0.50.5的位置上的位置上 方法方法4 4:Exc

20、elExcel给出的四分位数位置的确定方法给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值如果位置不是整数,则按比例分摊位置两侧数值的差值(二)分位数(二)分位数21回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)累积频数累积频数户户数数(户户)累积频数累积频数 非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 24 108 108 93 93 45 45 30 30 24 2413213222522527027030030021219999787864643838 2121120120198198262262300300合合

21、计计300300300300【例例1010】计算甲乙两城市对住房状况满意程度评价的四分位数计算甲乙两城市对住房状况满意程度评价的四分位数 Q QL L位置位置=(300)/4=75(300)/4=75,Q QU U位置位置 =(3300)/4=225=(3300)/4=225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“满满意意”这一组别中,故四分位数为这一组别中,故四分位数为 Q QL L =“不满意不满意”Q QU U =“满意满意”解:解:Q QL L位置位置=(300)/4=75(300)/4=75,Q QU U位置位置 =(330

22、0)/4=225=(3300)/4=225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一一般般”这一组别中,故四分位数为这一组别中,故四分位数为 Q QL L =“不满意不满意”Q QU U =“一般一般”22 【例例1111】9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2

23、000:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 :1 2 32 3 4 5 4 5 6 76 7 8 9 8 9方法方法1 1方法方法2 223平均数(平均数(meanmean)也称为均值)也称为均值集中趋势的最常用测度值集中趋势的最常用测度值一组数据的均衡点所在一组数据的均衡点所在体现了数据的必然性特征体现了数据的必然性特征易受极端值的影响易受极端值的影响不适用于分类数据和顺序数据不适用于分类数据和顺序数据根根据据总总体体数数据据计计算算的的,称称为为平平均均数数,记记为为;根根据据样样本数据计算的,称为本数据计算的,称为样本平均数样本

24、平均数,记为,记为 x xx三、数值型数据:平均数三、数值型数据:平均数24设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(总体数据总体数据x xN N)样本平均数样本平均数总体平均数总体平均数 【例例1212】某售货小组某售货小组5 5个人,某天的销售额分别为个人,某天的销售额分别为520520元、元、600600元、元、480480元、元、750750元、元、440440元,求平均每人日销售额。元,求平均每人日销售额。1 1、简单简单平均数平均数未分未分组组数据数据(Simple meanSimple mean)25设设分组数据分组数据各组的组中值为:各组的组中值为:

25、M M1 1,M M2 2,M Mk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k 若所给资料为组距数列,则应取各组的组中值作为若所给资料为组距数列,则应取各组的组中值作为该组的代表值用于计算;此时求得的算术平均数只是其该组的代表值用于计算;此时求得的算术平均数只是其真值的近似值。此时假定各组数据在组内是均匀分布的真值的近似值。此时假定各组数据在组内是均匀分布的说说明明2 2、加、加权权平均数平均数-分分组组数据数据(Weighted meanWeighted mean)26【例例1313】计算电脑公司销售量的平均数计算电脑公司销售量的平均数按按销销售量分售量分组组

26、频频数数()()组组中中值值()140-150140-150150-160150-160160-170160-170170-180170-180180-190180-190190-200190-200200-210200-210210-220210-220220-230220-230230-240230-240 4 4 9 9 16 16 27 27 20 20 17 17 10 10 8 8 4 4 5 5145145155155165165175175185185195195205205215215225225235235 580 58013951395264026404725472537

27、003700331533152050205017201720 900 90011751175合合计计1201202220022200【例例1414】计算计算50 50 名工人日加工零件数的平均数名工人日加工零件数的平均数按零件数分按零件数分组组频频数(数()组组中中值值()105-110105-110110-115110-115115-120115-120120-125120-125125-130125-130130-135130-135135-140135-1403 35 58 8141410106 64 4107.5107.5112.5112.5117.5117.5122.5122.512

28、7.5127.5132.5132.5137.5137.5322.5322.5562.5562.5940.0940.01715.01715.01275.01275.0795.0795.0550.0550.0合合计计50506160.06160.027权数对算数平均数的影响权数对算数平均数的影响 加权算术平均数其数值的大小,不仅受各组加权算术平均数其数值的大小,不仅受各组变量值大小变量值大小的影的影响,而且受各组变量值出现的响,而且受各组变量值出现的频数频数即即权数大小权数大小的影响。如果某一的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术组的权数大,说明该组的数据较多,那

29、么该组数据的大小对算术平均数的影响就越大,反之,则越小。平均数的影响就越大,反之,则越小。成绩(分)成绩(分)人数(人)人数(人)甲班甲班乙班乙班丙班丙班606039391 150501001001 139395050平均成绩平均成绩616199998080起到权起到权衡轻重衡轻重的作用的作用决定平均决定平均数的变动数的变动范围范围28均值的数学性质均值的数学性质1 1、各变量值与均值的离差之和等于零、各变量值与均值的离差之和等于零2 2、各变量值与均值的离差平方和最小、各变量值与均值的离差平方和最小293 3、几何平均数、几何平均数(geometric meangeometric mean)

30、n n 个变量值乘积的个变量值乘积的 n n 次方根次方根适用于计算比率的平均,通常主要用于计算现象的平均增长率适用于计算比率的平均,通常主要用于计算现象的平均增长率当数据中出现当数据中出现0 0或负值时不宜计算几何平均数或负值时不宜计算几何平均数计算公式为计算公式为可看作是算数平均数的一种变形可看作是算数平均数的一种变形30 【例例1616】一位投资者购持有一种股票,在一位投资者购持有一种股票,在20082008、20092009、20102010和和20112011年收益率分别为年收益率分别为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计算该投资者在。计算该

31、投资者在这四年内的平均收益率。这四年内的平均收益率。31最初投入最初投入1000010000元,元,20122012年的本利总和应为年的本利总和应为 当所平均的各比率数值差别不大时,算数平均和几何平均的结果当所平均的各比率数值差别不大时,算数平均和几何平均的结果相差不大,如果各比率的数值相差较大时,二者的差别就很明显!相差不大,如果各比率的数值相差较大时,二者的差别就很明显!3 3、几何平均数、几何平均数(geometric meangeometric mean)均值的另一种表现形式均值的另一种表现形式易受极端值的影响易受极端值的影响用于数值型数据,用于数值型数据,用这种形式时,变量的取值不能

32、为用这种形式时,变量的取值不能为0 0。计算公式为计算公式为4 4、调和平均数、调和平均数(Harmonic mean)(Harmonic mean)32 【例例1515】设设市市场场上上某某种种蔬蔬菜菜早早、中中、晚晚所所购购金金额额不不同同,求求平平均均采采购价格。购价格。价格价格(元元/斤斤)x x采采购购金金额额(元元)m m采采购购量量(斤斤)m m/x x早市早市中午中午晚市晚市1.001.002.002.002.502.504 45 56 64 42.52.52.42.4合合计计15158.98.9334 4、调和平均数、调和平均数(Harmonic mean)(Harmonic

33、 mean)(对称分布对称分布)正偏态分布(右)正偏态分布(右)负偏态分布负偏态分布(左)左)四、众数、中位数和平均数的比较四、众数、中位数和平均数的比较34众众 数数不受极端值影响不受极端值影响具有不惟一性具有不惟一性数据较多时有意义,且有明显峰值时应用数据较多时有意义,且有明显峰值时应用中位数中位数不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用平均数平均数易受极端值影响易受极端值影响利用了全部数据信息,数学性质优良利用了全部数据信息,数学性质优良数据对称分布或接近对称分布时应用较好数据对称分布或接近对称分布时应用较好当要用样本信息对总体进行推断时,平均数就

34、更当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性显示出它的各种优良特性众数、中位数、平均数的特点和应用场合众数、中位数、平均数的特点和应用场合35红色为该数据类型最适合用的测度值红色为该数据类型最适合用的测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值众数众数中位数中位数算数平均数算数平均数四分位数四分位数加权平均数加权平均数众数众数几何平均数几何平均数中位数中位数四分位数四分位数众数众数数据数据类类型与集中型与集中趋势测趋势测度度值值36离散程度(离中离散程度

35、(离中趋势趋势)数据分布的另一个重要特征数据分布的另一个重要特征 反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程度离散程度)从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值37第二节第二节 离散程度的测定离散程度的测定一、分类数据:异众比率一、分类数据:异众比率二、顺序数据:四分位间距二、顺序数据:四分位间距三、数值型数据:方差和标准差三、数值型数据:方差和标准差四、相对离散程度:离散系数四、相对离散程度:离散系数38 例如,例如,百得便利超市公司百得便利超市公司

36、5050家门店按区域划分的众数是家门店按区域划分的众数是A A区区域,该组的次数是域,该组的次数是2020家,所以异众比率为家,所以异众比率为60%60%,这说明,这说明5050家门店家门店按区域划分的离散程度比较大,众数的代表性较差。按区域划分的离散程度比较大,众数的代表性较差。概概 念念 计算公式计算公式 特特 点点异众比率异众比率非众数非众数组的频组的频数占总数占总频数的频数的比例比例 异众比率用于异众比率用于衡衡量众数的代表程量众数的代表程度度。异众比率大。异众比率大(小小),说明众数,说明众数的代表性差的代表性差(好好)即该值越小,说即该值越小,说明数据的离散程明数据的离散程度越小,

37、集中程度越小,集中程度越大度越大 一、分类数据一、分类数据(variation ratio)3940饮饮料品牌料品牌频频数数比例比例百分比百分比(%)(%)可口可可口可乐乐 旭日升冰茶旭日升冰茶 百事可百事可乐乐 汇汇源果汁源果汁 露露露露15151111 9 9 6 6 9 90.300.300.220.220.180.180.120.120.180.1830302222181812121818合合计计50501 1100100一、分类数据一、分类数据【例例】计算异众比率计算异众比率众数的代表性不是很好!众数的代表性不是很好!概概 念念 计算公式计算公式 特特 点点四分位差四分位差(内距,(

38、内距,四分间距)四分间距)上四分位上四分位数与下四数与下四分位数之分位数之差差避免了数列中极避免了数列中极端值的影响,但端值的影响,但去头弃尾,丢失去头弃尾,丢失大量的原始数据大量的原始数据 反映了上下四分位数之间反映了上下四分位数之间 (即中间的即中间的50%50%数据数据)的离散程度或的离散程度或变动范围。四分位差越大,说明中间这部分数据越分散,而四分变动范围。四分位差越大,说明中间这部分数据越分散,而四分位差越小,则说明中间这部分数据越集中。四分位差在一定程度位差越小,则说明中间这部分数据越集中。四分位差在一定程度上可用于上可用于衡量中位数的代表程度衡量中位数的代表程度。二、顺序数据二、

39、顺序数据(quartile deviation)41回答回答类别类别甲城市甲城市乙城市乙城市户户数数(户户)累计频数累计频数户户数数(户户)累计频数累计频数 非常不非常不满满意意 不不满满意意 一般一般 满满意意 非常非常满满意意 24 24 108 108 93 93 45 45 30 30 24 2413213222522527027030030021219999787864643838 2121120120198198262262300300合合计计300300300300【例例1717】计算甲乙两城市对住房状况满意程度评价的四分位差计算甲乙两城市对住房状况满意程度评价的四分位差 解解:

40、设设非非常常不不满满意意为为1,不不满满意意为为2,一一般般为为3,满满意意为为 4,非非常满意为常满意为5 已知已知 QL=不满意不满意=2 QU =一般一般=3四分位差:四分位差:QD=QU =QL=3 2 =142数值型未分组数据的四分位差数值型未分组数据的四分位差(7(7个数据的算例个数据的算例)原始数据原始数据:23 21:23 21 30 32 30 32 28 25 2628 25 26排排 序序:21 23 25 26 28 30 32:21 23 25 26 28 30 32位位 置置:1 2 3 4 5 6 7:1 2 3 4 5 6 7 n 7QL位置=4=4=1.75Q

41、U位置=3n4214=5.25QL=22.5 QU=28.5 QD=QU QL=28.5 22.5=643三、数值型数据三、数值型数据概概 念念 计算公式计算公式 特特 点点数列中数列中最大值最大值与最小与最小值之差值之差1 1、极差、极差R=R=最大值最大值-最小值最小值R=R=最高组的上限最高组的上限-最最低组的下限低组的下限 优点:优点:容易理解,容易理解,计算方便计算方便缺点:缺点:易受极端值影易受极端值影响;不能反映响;不能反映中间数据分布中间数据分布状况;不能准状况;不能准确的描述出数确的描述出数据的分散程度据的分散程度(range)44概概 念念 计算公式计算公式 特特 点点2

42、2、平均差、平均差各变量值各变量值与平均数与平均数离差绝对离差绝对值的平均值的平均简单:简单:加权:加权:优点:优点:实际意义清楚,实际意义清楚,容易理解,反映容易理解,反映全部数据的离散全部数据的离散状况状况缺点:缺点:离差取了绝对值,离差取了绝对值,这给计算和统计这给计算和统计性质的讨论带来性质的讨论带来不便,因而实际不便,因而实际工作中应用较少工作中应用较少三、数值型数据三、数值型数据(mean deviation)45平均绝对离差平均绝对离差【例例】某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(M Mi i)频数频数(f fi

43、i)140-150140-150150-160150-160160-170160-170170-180170-180180-190180-190190-200190-200200-210200-210210-220210-220220-230220-230230-240230-240145145155155165165175175185185195195205205215215225225235235 4 4 9 916162727202017171010 8 8 4 4 5 54040303020201010 0 010102020303040405050160160270270320320

44、270270 0 0170170200200240240160160250250合计合计12012020402040 含义:含义:每一天的销售量与平每一天的销售量与平均数相比,平均相差均数相比,平均相差1717台。台。46概概 念念 计算公式计算公式 特特 点点3 3、方差、方差和和标准差标准差优点:优点:反反映映全全部部数数据据离离散散程程度度,数数字字上上合理。合理。缺点:缺点:标标准准差差受受计计量量单单位位和和平平均均水水平平影影响响,其其实实际际意意义义比方差清楚比方差清楚简单:简单:加权:加权:所所有有观观察察值值与与平平均均数数离离差差平平方方平平均均数数的的 平平 方方 根根,

45、亦亦称称标标准准差差。标标准准差差的的平平方方即为方差。即为方差。三、数值型数据三、数值型数据(variance and standard deviation)4748 通俗点说,一个班上有通俗点说,一个班上有5050个人,我们知道他们语文成绩平个人,我们知道他们语文成绩平均分为均分为8080,现在只需要知道,现在只需要知道4949个人的成绩就能推断出剩下那个个人的成绩就能推断出剩下那个人的成绩。你可以随便报出人的成绩。你可以随便报出4949个人的成绩,但是最后一个人的个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。你不能瞎说,因为平均分已经固定下来了,自由度

46、少一个了。自由度的设定是出于这样一个理由:在总体平均数未知时,自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小用样本平均数去计算离差(常用小s s)会受到一个限制)会受到一个限制要计算标准差(小要计算标准差(小s s)就必须先知道样本平均数,而样本平)就必须先知道样本平均数,而样本平均数和均数和n n都知道的情况下,数据的总和就是一个常数了。所以,都知道的情况下,数据的总和就是一个常数了。所以,“最后一个最后一个”样本数据就不可以变了,因为它要是变,总和就样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是变了,而这是不允许的。至于

47、有的自由度是n n2 2什么的,都是什么的,都是同样道理。同样道理。自由度自由度(degree of freedom)(degree of freedom)自由度自由度(degree of freedom)(degree of freedom)1 1、自由度是指附加给独立的观测值的约束或限制的个数、自由度是指附加给独立的观测值的约束或限制的个数 2 2、从字面涵义来看,、从字面涵义来看,自由度是指一组数据中可以自由取值自由度是指一组数据中可以自由取值的个数的个数 3 3、当样本数据的个数为、当样本数据的个数为 n n 时,若样本平均数确定后,则附时,若样本平均数确定后,则附加给加给 n n 个

48、观测值的约束个数就是个观测值的约束个数就是1 1个,因此只有个,因此只有n n-1-1个数据可以个数据可以自由取值,其中必有一个数据不能自由取值自由取值,其中必有一个数据不能自由取值 4 4、按着这一逻辑,如果对、按着这一逻辑,如果对 n n 个观测值附加的约束个数为个观测值附加的约束个数为 k k个,自由度则为个,自由度则为 n n-k k 5 5、样本方差用自由度去除,其原因可从多方面解释,从实、样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差际应用角度看,在抽样估计中,当用样本方差 s s2 2 去估计总体方去估计总体方差差2 2 时,它是时,它是

49、2 2 的无偏估计量。的无偏估计量。49原始数据原始数据:10:10 5 9 13 6 8 5 9 13 6 8样本方差样本方差样本标准差样本标准差50三、数值型数据三、数值型数据【例例】某电脑公司销售量数据某电脑公司销售量数据按销售量分组按销售量分组组中值组中值(M Mi i)频数频数(f fi i)140-150140-150150-160150-160160-170160-170170-180170-180180-190180-190190-200190-200200-210200-210210-220210-220220-230220-230230-240230-24014514515

50、5155165165175175185185195195205205215215225225235235 4 4 9 9 16 16 27 27 20 20 17 17 10 10 8 8 4 4 5 54040303020201010 0 010102020303040405050160160270270320320270270 0 0170170200200240240160160250250合计合计1201205540055400 含义:含义:每一天的销售量与平均数相比,平均相差每一天的销售量与平均数相比,平均相差21.5821.58台台51相对位置的度量:标准分数相对位置的度量:标准分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁