《第三章数据整理与特征度量.ppt》由会员分享,可在线阅读,更多相关《第三章数据整理与特征度量.ppt(178页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 数据整理与特征度量v第一节 数据整理与频数分布v第二节 数据特征的度量第一节 数据整理与展示v 数据的预处理 v分类和顺序数据的整理与显示v数值型数据的整理与显示v统计表数据的预处理v 数据审核v数据筛选v数据排序数据审核 原始数据(raw data)审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等(异常值的辩别和处理)数据审核的方式数据审核一般有逻辑检查和技术检查两种方式。(1)逻辑审核(Logistic Auditing)是按照数据审核
2、的内容,采用逻辑分析的方法,检查原始数据中各项数据是否合理的数据审核方式。逻辑检查要求检查人员具备较强逻辑推理能力,以及丰富的专业知识和数据审核经验。(2)技术审核(Technical Auditing)是按照数据审核的内容,通过对调查数据原始登记表,和其它原始登记材料进行机械性核对,来实施的数据审核方式。(年鉴)数据的审核 二手数据(second hand data)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否有必要做进一步的加工整理(汇率)数据筛选(data filter)1.根据调查需要找出符
3、合特定条件的某类数据。2.数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除8 8名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据名学生的考试成绩数据 数据筛选数据排序(data rank)1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分析的目的之一4.排序可借助于计算机完成数据排序(方法)1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也
4、可按笔画排序,其中也有笔画多少的升序降序之分2.数值型数据的排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(2)x(n)数据的整理与显示v 分类数据的整理与图示 v顺序数据的整理与图示v 数值型数据的分组与展示数据的整理与显示(基本问题)1.要弄清所面对的数据类型不同类型的数据,采取不同的处理方式和方法2.对分类数据和顺序数据主要是作分类整理3.对数值型数据则主要是作分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据分类数据的整理(基本过程)1.列出各类别 2.2.计算各类别的频数3.制
5、作频数分布表4.用图形显示数据分类分类频数频数比例比例百分比百分比比率比率ABCDE频数与频数分布 频数与频数分布是在数据分组基础形成的概念。频数与频数分布总是在具体的分组设置前提下的对总体数据分布特征的描述。频数(Frequence)是落在某一特定分组中的数据个数,也称为次数。频数有两点要素,一是具体的数据分组,一是落在该组中的数据个数。频数分布(Frequence Distribution)是数据在各类别(或组)中的分配。一般需要用统计图或统计表的形式将频数分布展示出来,以便更加直观和全面地了解和把握总体的频数分布特征。比例(Proportion)各组数据个数(频数)占数据总数(各组频数之
6、和)的比重,为频数的相对形式,又称为频率,一般用百分数表示。显然有,各组比例之和等于100%。比率(ratio)是样本(或总体)中各不同类别数值之间的比值。分类数据的整理(可计算的统计量)分类数据整理 频数分布表(例题分析)【例例例例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品频数分布表分类分类频数频数比例比例百分比百分比比率比率旭日升冰茶旭日升冰茶可口可乐可口可乐汇源果汁汇
7、源果汁露露露露百事可乐百事可乐分类数据的图示 条形图(bar Chart)v条形图(Bar Chart)是以一簇宽度相等、相互分离的条状图形的长度(或高度)来表示频数分布的统计图。条形图中条状图形的长度(或高度)所表示的数据可以是频数,也可以是频数的相对比例,还可以是事物具体的数值水平等。v主要用于反映分类数据的频数分布v绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示 柱状图(例题分析)分类数据的图示对比条形图(side-by-side bar chart)1.分类变量在不同时间或不同空间上有多个取值2.对比分类变量的取值在不同时间或不同空间上的差异或变化趋势
8、电脑品牌电脑品牌一季度一季度二季度二季度联想联想256468IBM285397康柏康柏247328戴尔戴尔563688分类数据的图示对比条形图(例题分析)分类数据的图示 饼形图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的。如可口可乐的相对频数是0.3,则在饼形图中代表它的扇形部分为0.3*3600 1080。4.以全部圆形面积为100%,因为圆心角共
9、360,所以每3.6的圆心角代表1%的圆面积分类数据的图示 饼图(例题分析)顺序数据的整理与图示v 累积频数(Cumulative Frequence)按照各组数据取值范围高低的次序,逐组依次累加得到的一组频数。累积频数表明了在某一数值水平以上,或以下总共包含的数据个数。v 从表的上方向表的下方依次累积称为向上累积,反之称为向下累积。v从类别顺序的开始一方向类别顺序的最后一方累加频数,称为向上累积。v从变量值小的一方向变量值大的一方累加频数,称为向上累积v 同样,可以用数据总的个数分别去除各组的累积频数,得到各组累积频数的相对数值,以相对的形式来描述累积频数。累积频数顺序数据的频数分布表(例题
10、分析)【例例例例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1 非 常 不满意;2不满意;3一般;4满意;5非常满意。甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510 24132225270300 8.0 44
11、.0 75.0 90.0100.0300276168 75 30100.092562510合计合计300100.0顺序数据的图示累计频数分布图(例题分析)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布顺序数据的频数分布表(课堂作业)
12、乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2199786438 合计合计300100.0顺序数据的频数分布表(例题分析)乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)
13、百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2199786438 7.033.026.021.312.7 21120198262300 7.0 40.0 66.0 87.3100.0300279180102 38100.0 93.0 60.0 34.0 12.7合计合计300100.0环形图(doughnut chart)1.环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示2.与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环3.用于结构比较
14、研究 4.用于展示分类和顺序数据环形图(例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价数值型数据的整理与展示1.数据分组2.数值型数据的图示分组方法等距分组等距分组异距分组异距分组 3.各种分组形式各种分组形式(1)单项式分组与组距式分组)单项式分组与组距式分组若离散型变量变动幅度小,则可依次将若离散型变量变动幅度小,则可依次将每一个变量值作为一组,即单项式分组。每一个变量值作为一组,即单项式分组。当离散型变量数值很多,且变动幅度很当离散型变量数值很多,且变动幅度很大时,应
15、用组距式分组大时,应用组距式分组,即将全部的变量即将全部的变量值划分为若干区间,各个变量值则按其大值划分为若干区间,各个变量值则按其大小确定所归属的区间。小确定所归属的区间。连续型变量由于不能一一列举它的变量连续型变量由于不能一一列举它的变量值,不能作单项式组,只能是组距分组。值,不能作单项式组,只能是组距分组。例:例:1.农村家庭按拥有小孩数分组(表农村家庭按拥有小孩数分组(表1):):2.企业按工人人数分组(表企业按工人人数分组(表2 )3.工人按工资分组(表工人按工资分组(表3)表表1表表2表表3组距分组(要点)1.将变量值的一个区间作为一组(学生成绩)2.适合于连续变量3.适合于变量值
16、较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组6.采用“上组限不在内”法则(针对组限重叠的分组类型)组距分组(几个概念)v1.下限(low limit):一个组的最小值v2.上限(upper limit):一个组的最大值v3.组距(class width):上限与下限之差v4.组中值(class midpoint):下限与上限之间的中点值(后详)下限值下限值+上限值上限值2组中值组中值=组距分组有等距分组和异距分组之分。等距分组是各组组距全都相等的组距分组,等距分组中各组单位数的多少不会受到组距大小的影响,便于直接比较各组次数的多少,研究次数分布的特征。因此,等
17、距分组是组距分组的基本方法。等距分组的具体步骤如下。(1)计算取值范围。(2)确定组数。(3)计算组距。(4)确定组限。(5)将原始数据按照各自数值大小分配到各组中。等距分组的步骤(1)计算取值范围。取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了该组数值变量取值的变动幅度,一般用R表示,有 (2)确定组数。1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K152.在进行数值型数据分组时,有一个计算组数的经验公式,即斯特格斯(Sturges)公式 确定组数的目的是为了使数据恰当地分布在各组中,数据过于集中和过于分散都有碍于对数
18、据分布特征的展示,不利于后续的分析研究,组距的确定还要根据实际情况,因地制宜地加以确定。(3)计算组距。由于取值范围是客观存在的,当组数确定之后,组距也就随之确定了,两者之间成反比例关系。设H为组数,即有组距d=R/H。为了便于数据分组和组限的划定,组距一般取5,10的整数倍。(4)确定组限。确定组限就是具体规定各组中变量可能取值的上限和下限。确定组限的原则是“不重不漏”,使每一数据都能够被分配到其中一组里,并且只能分配到其中一组里。组限的具体形公式有间断组限和重合组限,闭口组限和开口组限。(5)将原始数据按照各自数值大小分配到各组中。组限确定之后,就可以将原始数据按照各自数值大小分配到各组中
19、。一般先按照分组标志对原始数据进行排序,然后根据各组的组限水平,将经过排序之后的有序数据进行分段,归入到各个组中。频数分布表的编制(例题分析)【例例】某电脑 公 司 2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。频数分布表的编制(步骤)1.确定组数:根据 Sturges 提出的经验公式得组数K为:2.确定各组的组距:组距组距(237-141)10=9.6 10等距分组表(上下组限重叠)等距分组表(上下组限间断)等距分组表(使用开口组)间断组限是每一组的组限与邻组的组限都是间断设置的。重合组限是每一组的组限与邻组的组限都是相互重叠设置的。在采用重合组限场合,为了贯彻“不重不漏
20、”原则,一般采用“上限不在内”统计惯例的处理方式。重合组限既适用于离散变量数据的分组,也适用于连续变量数据分组,在各种场合能够适应各种数据分组的需要,同时有利于组中值的计算,所以重合组限在数据分组中得到了广泛的应用。闭口组限是既有上限又有下限的组限设置。由闭口组限设置形成的数据分组称为闭口组。开口组限是缺少上限或者缺少下限的组限设置。由开口组限设置形成的数据分组称为开口组。等距分组表(课后复习)组中值(Class Midpoint)是指组距分组中处在各组取值范围中点位置上的数值。组中值是一个代表性的数值,用来代表该组数据取值的一般水平。在缺乏原始数据,仅拥有已经过分组整理后的数据情况下,只能采
21、用组中值取代组平均数,作为一个代表性的数值,进行各种数据分析。组中值作为代表性数值所隐含的假定前提是该组数据呈均匀分布,或者对称分布。在该组数据明显偏离均匀分布,或者对称分布时,使用组中值作为该组数据取值代表性数值存在着较大偏误。组中值(计算方式)(1)重合组限分组的组中值计算。在采用重合组限设置的组距分组中,组中值为本组的上限与本组下限之和除以2。有 组中值(上限+下限)/(2)间断组限分组的组中值计算。在采用间断组限设置的组距分组中,计算组中值需要将以上一组的上限与本组的上限之和除以2。即有 组中值(上组上限+本组上限)/(3)开口组组中值的计算 计算开口组组中值,需先确定其缺少的下限或上
22、限。一般以邻组组距近似地作为本组的组距,来确定其下限或上限,进而计算出开口组组中值。开口组组中值的计算仍然要区分重合组限设置间断组限设置两种情况。重合组限设置开口组组中值的计算 缺少下限组的组中值该组上限邻组组距/2 缺少上限组的组中值该组下限邻组组距/2 统计分组的要点和基本概念:统计分组基本概念:R、d、H、组中值;间断组距、重合组距、开口组、闭口组、标准组距;频数、频数分布、频率、累积频数、累积频率。非数值型数据分组数值型数据分组单变量分组组距分组等距分组异距分组数值型数据的图示SPSS分组数据直方图和折线图分组数据 直方图(histogram)1.直方图(Histogram)是以各组的
23、组距为宽,以各组的频数为高,在直角坐标系的第一象限依次绘制一系列矩形来表示频数分布状态的统计图。2.用矩形的面积来表示各组的频数分布3.纵轴是频率时,直方图下的总面积等于1,即频率(相对频数)的总和分组数据的图示(直方图的绘制)140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我一眼就看出来了,销售量在 170 180之间的天数最多!190190 200200180180160160 170170频频频频数数数数(天天天天)25252020151510105 53030220220 230230 240240分组数据直方图(直方图与条形图的区别)1.
24、条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据分组数据折线图(frequency polygon)折线图(Line Graph)是将各组的组中值和频数在直角坐标系的点,用一条折线联系起来,以反映频数分布状态的统计图。折线图从最低数值组的下限减去二分之一最低数值组组距的位置起点,终点为最高数值组的上限加上二分之一最高数值组组距的位置,从
25、而使折线图中的折线与直角坐标系的横轴所围的面积同直方图的矩形所围的面积相等。折线图也可以在直方图的基础上绘制,用直线依次连接直方图各矩形顶边的中点,并在直方图的左右两端各延伸一个假定分组,使折线在假定分组的中点位置与横轴相交,绘制出折线图。对于异距分组的折线图绘制,类似于异距分组的直方图的绘制,应在相应的标准组距频数,或频数密度的基础上绘制,或者在已经完成的直方图的基础上绘制。分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!140140 150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销
26、售量分布的折线图190190 200200180180160160 170170220220 230230240240频频频频频频数数数数数数(天天天天天天)25252020151510105 53030数值型数据的图示STATISTICASTATISTICA未分组数据茎叶图和箱线图未分组数据 茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶
27、图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据 茎叶图(例题分析)未分组数据 箱线图(box plot)1.用于显示未分组的原始数据的分布2.可用于多组数据分布特征的比较3.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成4.箱线图的绘制方法首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位位数数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据 单批数据箱线图(箱线图的构成)中位数中位数4 46 68 810101212QQU UUQQL LLX X
28、最大值最大值最大值X X最小值最小值最小值简单箱线图简单箱线图简单箱线图简单箱线图未分组数据 单批数据箱线图(例题分析)最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240
29、某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图未分组数据 多批数据箱线图(例题分析)【例例例例】从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人,对对8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学
30、经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基计算机应用基础础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据 多批数据箱线图(例题分析)8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩
31、的箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数 多批数据箱线图(例题分析)数值型数据的图示时间序列数据线图Excel时间序列数据 线图(line plot)v 绘制线图时应注意以下几点1.时间一般绘在横轴,指标数据绘在纵轴2.图形的长宽比例要适当,其长宽比例大致为10:73.一般情况下,纵轴数据下端应从“0”开始,以便于比较。时间序列数据 线图(例题
32、分析)【例例例例】已知已知1991199120002000年年我国城乡居民我国城乡居民家庭的人均收家庭的人均收入数据如表。入数据如表。试绘制线图试绘制线图¥19912000年城乡居民家庭人均收入年城乡居民家庭人均收入年份年份城镇居民城镇居民农村居民农村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0 708.6 784.0 921.61221.01577.71926.12091.12162.02210.32254.4时间序列数据 线图(例题
33、分析)数值型数据的图示多变量多变量数据的图示数据的图示Excel两个变量间的关系二维散点图(2D Scatterplots)1.展示两个变量之间的关系2.用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图温度温度/0C降雨量降雨量/mm产量产量/kg/hm262522508403450105845001368575014110580016987500211208250两个变量间的关系二维散点图(2D Scatterplots)三个变量间的关系气泡图(bubble chart)1.显 示 三个 变
34、 量之 间 的关系2.图 中 数据 点 的大 小 依赖 于 第三 个 变量1.也称为蜘蛛图(spider chart)2.显示多个变量的图示方法3.在显示或对比各变量的数值总和时十分有用3.假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比4.可用于研究多个样本之间的相似程度多变量数据雷达图(radar chart)v 设有n组样本S1,S2,,Sn,每个样本测得P个变量X1,X2,,XP,要绘制这P个变量的雷达图,其具体做法是多变量数据雷达图(雷达图的制作)n n 先先做做一一个个圆圆,然然后后将将圆圆P P等等分分,得得到到P P个个点点,令令这这P P个个点点分分别别对
35、对应应P P个个变变量量,在在将将这这P P个个点点与与圆圆心心连连线线,得得到到P P个个幅幅射射状状的的半半径径,这这P P个个半半径径分分别别作作为为P P个个变变量量的的坐坐标标轴轴,每每个个变变量量值值的的大大小小由由半径上的点到圆心的距离表示半径上的点到圆心的距离表示n n 将将同同一一样样本本的的值值在在P P个个坐坐标标上上的的点点连连线线。这这样样,n n个样本形成的个样本形成的n n个多边形就是一个雷达图个多边形就是一个雷达图多变量数据雷达图(例题分析)【例例例例】20032003年年我我国国城城乡乡居居民民家家庭庭平平均均每每人人各各项项生生活活消消费费支支出出构构成成数
36、数据据如如表表。试试绘绘制雷达图制雷达图今天的今天的主食是主食是面包面包2003年城乡居民家庭平均每人生活消费支出构成年城乡居民家庭平均每人生活消费支出构成(%)项项 目目城镇居民城镇居民农村居民农村居民 食品食品 衣着衣着 家庭设备用品及服务家庭设备用品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育文化服务娱乐教育文化服务 居住居住 杂项商品与服务杂项商品与服务37.129.796.307.3111.0814.3510.743.30 45.595.674.205.968.3612.1315.872.21多变量数据雷达图(例题分析)数据类型及图示(小结)数据类型数据类型品质数据品质数据数
37、值型数据数值型数据汇总表汇总表原始数据原始数据分组数据分组数据时序数据时序数据多元数据多元数据条形图条形图条形图条形图饼图饼图饼图饼图茎叶图茎叶图茎叶图茎叶图箱线图箱线图箱线图箱线图直方图直方图直方图直方图折线图折线图折线图折线图线图线图线图线图散点图散点图散点图散点图气泡图气泡图气泡图气泡图雷达图雷达图雷达图雷达图环形图环形图环形图环形图统计表v 统计表的构成v统计表的设计统计表的说明v四个主要部分:表头、行标题、列标题和数字资料。v表头应在表的上方,说明统计表的主要内容;行标题和列标题通常在统计表的第一列和第一行,表示所研究问题的类别名称和指标名称;表的其他部分是具体的数据;表外附加通常在
38、统计表的下方,主要是数据来源,指标说明等。v表中的上下两条横线一般用粗线,中间的其他线要用细线,统计表的左右两边不封口,列标题之间用竖线分开,行标题之间不必用横线隔开。总之,表中尽量少用横竖线,切记不要用斜线。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。v对于没有数字的表格单元,一般用“”表示。v必要时可在表的下方加上注释。统计表的结构19992000年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位1999年年 2000年年 调查户数调查户数 平均每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每户就业面平均每户就业面 平均
39、一名就业者负担人数平均一名就业者负担人数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人%元元元元元元元元 400443.141.7756.431.775888.775854.024615.91 4222.0 3.13 1.68 53.67 1.86 6316.81 6279.98 4998.00资料来源:中国统计年鉴2001,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。行行行行标标标标题题题题列列列列标标标标题题题题数数数数字字字字资资资资料料料料表头表头表头表头附附附附加加加加统计表的设
40、计(比较与选用)统计表的设计(比较与选用)统计表的设计(比较与选用)本节小结 本节的主要内容是数据整理,频数分布和数据展示。数据分组是数据整理的基础,在数据分组的基础上对各组和全部数据进行汇总。所有数据都可以计算出频数及其频数分布;数值型数据还可以计算出反映总体及其分组的绝对水平数值,称为总值。频数和总值均为绝对数。组中值是数值型数据组距分组中处在各组取值范围中点位置上的代表性数值。统计表和统计图是展示数据整理成果,反映数据分布特征和帮助人们进行统计分析的有利工具。本节的重点是数值型数据的等距分组。包括等距分组中组距、组数和各组上限、下限的确定,频数、频数分布和总值数值的汇总,组中值的计算,组
41、距分组统计表和直方图、折线图的绘制等。本节的难点是数值型数据分组中组距、组数的确定,频数、频数分布概念的把握,以及各种绝对数的区分和应用。思考与练习 思考题:1、什么是数据的审核,具体有什么内容和方式?2、非数值型数据分组和数值型数据分组有那些差别?3、简述数值型数据分组的具体方式有那些?4、怎样确定等距分组中组距、组数和各组上限、下限?5、频数、频数分布的概念和意义。6、组中值的意义和计算方法。7、绝对数的概念、种类和计量单位。8、统计表的构成和绘制要求。9、直方图、折线图的概念和绘制方法。第二节 数据的概括性度量v 数据分布特征的度量包括三个方面的内容:v一是数据分布的集中趋势,反映总体中
42、各个单位的数值水平向其聚集,或者集中的中心数值;v二是数据分布的离散趋势,反映总体中各个单位的数值水平偏离中心数值的综合程度;v三是数据分布的偏态和峰度,反映各个总体单位的数值水平的分布形态是对称或偏倚,平坦或尖耸的具体数值。v费希尔在1952年的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引起一个重要的发现。v20世纪早期,哥本哈根卡尔实验室的史密斯发现不同地区所捕获的的同种鱼类的脊椎骨和腮腺的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现同样的倾向。然而,鳗鱼的脊椎骨的数量变化不大。史密斯从欧洲各地、冰岛、亚速尔群岛和尼罗河等几乎分离的海域里所捕获的鳗鱼的样本
43、中,计算发现了几乎一样的均值和标准差值。v史密斯由此推断:所有各个不同海域内的鳗鱼是由海洋中某个公共场所繁殖的。后来名为戴纳的科学考察船在一次远征中发现了这个场所。数据分布特征的测度数据特征的测度数据特征的测度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数平均数平均数平均数平均数平均数平均数离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态全距全距全距全距全距全距异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态分布的形状分布的形状集中趋势集中趋势离散程度离散
44、程度集中趋势的度量v 分类数据:众数v 顺序数据:中位数和分位数v 数值型数据:平均数v 众数、中位数和平均数的比较集中趋势(central tendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值分类数据:众数众数(mode)是一种根据位置确定的平均数,它是指在总体单位中,标志值出现次数最多的那个数值。众数不是数值平均数,而是一种位置平均数,或者说是在统计分布中具有明显集中趋势点的数值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数(一般不报告)主要用于分类数据,也可用于顺序数据和数
45、值型数据众数(不惟一性)无众数无众数 原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 42分类数据的众数(例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100解解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口可乐
46、的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐可口可乐顺序数据的众数(例题分析)解解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲甲城市城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0例:某学期某班35名学生统计学考试成绩的原始数据
47、。要求 试计算计算该班35名学生统计学考试成绩的众数。解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98数值型数据的众数例:某学期某班35名学生统计学考试成绩的原始数据。要求:试计算计算该班35名学生统计学考试成绩的众数。解:将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,
48、84,86,87,87,88,89,89,90,91,91,92,96,98 84分在这35名学生的统计学考试成绩的原始数据中出现了4次,属于出现次数最多的变量值,根据众数定义,可以确定众数为84分,即 利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的下限出发,有 上限公式则从众数所在组的上限出发,有 分组数据的众数v众数():出现次数最多的变量值。v2009年某市80个中型工业企业资料:假定众数组的标志值的分布是均匀的。假定众数组的标志值的分布是均匀的。1.未分组资料和单项式分组资料:出现次数最多的变量
49、值。2.组距分组数列:例例:“某学期某班35名学生的统计学考试成绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35名学生的统计学考试成绩众数的近似数值。某学期某班35名学生的统计学考试成绩 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效
50、使用众数的前提是数据的频数分布存在明显的集中态势。讨论题:你认为那些现象不适宜采用众数来描述其数值平均值?数列:2,2,2,88,89,90,91,94,95,97,98(无法表示一般水平)顺序数据:中位数和分位数中位数(median)1.排序后处于中间位置上的值MMe e50%50%中位数(Median)是位于有序数据正中间位置上的变量值,中位数用其特殊的位置属性直接地体现了集中趋势的中心数值特征。中位数是度量定序数据集中趋势的测度,一般用Me表示。中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量,因此,计算中位数要求数值至少具备定序数据的性质。中位数一旦确定,就可以根据中位数的