《(02)第2章 数据的表述.ppt》由会员分享,可在线阅读,更多相关《(02)第2章 数据的表述.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 2章 统计数据的描述2.1 数据的计量尺度数据的计量尺度 2.2 统计数据的来源统计数据的来源2.3 统计数据的质量统计数据的质量2.4 统计数据的整理统计数据的整理2.5 分布集中趋势的测度分布集中趋势的测度2.6 分布离散程度的测度分布离散程度的测度2.7 茎叶图与箱线图茎叶图与箱线图 本章小结本章小结学习目标1.了解数据的计量尺度了解数据的计量尺度2.了解统计数据的来源和数据的质量要求了解统计数据的来源和数据的质量要求3.掌握数值型数据的整理方法掌握数值型数据的整理方法4.掌握数据集中趋势和离散程度的测度方法掌握数据集中趋势和离散程度的测度方法5.掌握茎叶图和箱线图的制作方法掌握茎叶
2、图和箱线图的制作方法6.掌握分布偏态与峰度的测度方法掌握分布偏态与峰度的测度方法7.掌握统计表和统计图的使用掌握统计表和统计图的使用2.1 数据的计量尺度一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度四种计量尺度列名尺度(Nominal scale)1.也称名义尺度或分类尺度2.计量层次最低3.对事物进行平行的分类4.各类别可以指定数字代码表示5.使用时必须符合类别穷尽和互斥的要求6.数据表现为“类别”7.具有=或的数学特性顺序尺度(Ordinal scale)1.也称定序尺度2.对事物分类的同时给出各类别的顺序3.比定类尺度精确4.未测量出类
3、别之间的准确差值5.数据表现为“类别”,但有序6.具有或的数学特性间隔尺度(Interval scale)1.也称间隔尺度2.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性比率尺度(Ratio scale)1.也称比率尺度2.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有 或 的数学特性四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类定类尺度尺度 定序定序尺度尺度 定距定距尺度尺度 定比尺度定比尺度 分分类类(=,)排序排序()间间距距(+,-)比比值值(,)计量尺度计量尺度数学特性数学特性“”
4、表示表示该该尺度所具有的特性尺度所具有的特性2.2 统计数据的来源一、间接获取的数据一、间接获取的数据 二、直接获取的数据二、直接获取的数据 间接取得的数据间接取得的数据InternetInternethttp/http/WWW.WWW.中国统计年中国统计年中国统计年中国统计年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.统计部门
5、和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 直接取得的数据普查(census)1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄总体总体重点调查:在调查对象中,悬着选择一部分重点单位进行调查,借以了解基本情况的一种非全面调查。典型调查:是根据调查的目的和任务,对所研究的现象总体进行初步分析的基础
6、上,有意识的选取若跟具有代表性的典型单位进行调查,借以认识现象总体发展变化的规律的一种调查方式。抽样调查(sampling survey)1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 总体总体总体总体随机样本随机样本随机样本随机样本 2.具有经济性、时 效性强、适应面广、准确性高等特点抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差大小的因素样本量的大小总体的变异性统计数据的分组组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变
7、量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组 组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距组距(最大值最大值-最小值最小值)组数组数3.统计出各组的频数并整理成频数分布表 例:某班学生统计学考试成绩分别为:89 88 76 99 74 60 82 60 89 86 93 99 94 82 77 79 97 78 95 92 87 84 79 65 98 67 59 72 84 85 56 81 7
8、7 73 65 66 83 63 79 70 考分人数(个)比率(%)50606070708080909010027111285.017.527.530.020.0合计40100.0组距分组(几个概念)1.下限下限(low limit):一个组的最小值2.上限上限(upper limit):一个组的最大值3.组距组距(class width):上限与下限之差4.组中值组中值(class midpoint):下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=次数分配表的编制(例题分析)【例例例例】某某车车间间3030名名工工人人每每周周加加工工某某种种零零件件件件数数如如右右表表试
9、试对对 数数 据据 进进 行行分组。分组。次数分配表直方图(histogram)1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图3.直方图下的总面积等于1分组数据的图示(直方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图 我我一一眼眼就就看看出出来来了了,周周加加工工零零件件在在100100110110之之 间间 的的 人人数最多数最多!折线图(frequency polygon)1.折线
10、图也称频数多边形图2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图 次数分配的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布
11、左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布洛伦茨曲线2.5 分布集中趋势的测度一、众数一、众数二、中位数二、中位数三、四分位数三、四分位数四、均值四、均值五、几何均值五、几何均值六、切尾均值六、切尾均值七、众数、中位数和均值的比较七、众数、中位数和均值的比较众数众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据众数(不惟一性)无众数无
12、众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 42中位数中位数(median)1.排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数(位置的确定)原始数据:原始数据:顺序数据:顺序数据:数值型数据的中位数(9个数据的算例)【例例】9个家庭的人均月收入数据原始数
13、据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 1080数值型数据的中位数(10个数据的算例)【例例】:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 四分位数四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可
14、用于数值型数据,但不能用于分类数据QQL LQQMMQQU U25%25%25%25%均值均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据简单均值(simple mean)设设一组数据为:一组数据为:x x1 1,x x2 2,x xn n总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值加权均值(weighted mean)设设一组数据为:一组数据为:x x1 1,x x2 2,x xn n相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k总体均值总体
15、均值总体均值总体均值样本均值样本均值样本均值样本均值加权均值(例题分析)均值(数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小几何均值几何均值(geometric mean)1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.5.可看作是均值的一种变形可看作是均值的一种变形几何均值(例题分析)【例例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:
16、几何平均:几何平均:几何平均:切尾均值切尾均值(trimmed Mean)1.去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n n 表示观察值的个数;表示观察值的个数;表示切尾系数,表示切尾系数,众数、中位数和均值的比较众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众
17、数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数、均值的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用2.6 分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数方差和标准差方差和标准差(Variance and Standard deviation)1.离散程度的测度值之一2.最常用的测度值3.反映了数
18、据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x=8.38.3总体方差和标准差(Population variance and Standard deviation)未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式样本方差和标准差(simple variance and standard deviati
19、on)未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除!离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为离散系数(例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企
20、业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数(例题分析)结结论论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度 v v1 1=536.25536.25309.19309.19=0.5770
21、.577v v2 2=32.521532.521523.0923.09=0.7100.7102.7 茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息茎叶图(例题分析)茎叶图(扩展的茎叶图)箱线图(box plot)1.用于显示未分组的原始数据的分布2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.箱线图的绘制方法首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位位数数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 本章小结1.数据的计量尺度数据的计量尺度 2.统计数据的来源统计数据的来源3.统计数据的质量统计数据的质量4.统计数据的整理统计数据的整理5.分布集中趋势的测度分布集中趋势的测度6.分布离散程度的测度分布离散程度的测度7.茎叶图与箱线图茎叶图与箱线图