《第二章_数据的搜集与整理.ppt》由会员分享,可在线阅读,更多相关《第二章_数据的搜集与整理.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 数据的搜集与整理本章内容2.1 数据的计量与类型2.2 统计数据的搜集2.3 统计数据的整理1第2章数据的搜集与整理2.1数据的计量与类型2.1.1数据的计量尺度2.1.2数据的类型2.1.3统计数据的表现形式上一页下一页返回本章首页2第2章数据的搜集与整理2.1.1数据的计量尺度一、定类尺度也称名义(nominal)尺度,是按照事物的属性对其进行平行的分类或分组,计量结果表现为某种类别,虽然有时为了统计处理而用数字和编码表示,但并不能区分优劣大小和数学运算。如人口的性别,企业的类型等。计量层次(精确程度)最低。3第2章数据的搜集与整理二、定序尺度 又称顺序(ordinal)尺度,是对
2、事物之间的类别差或次序差的一种尺度,计量结果虽然也表现为类别,但它们可以比较顺序。如产品的等级,态度,考查的成绩等。定序尺度比定类尺度精确一些,但结果只能比较顺序大小,不能进行数学计算。4第2章数据的搜集与整理三、定距尺度也称间隔(interval)尺度,是对事物类别或次序之间间距的测度,通常使用自然或物理单位作为计量的尺度,计量结果表现为数值。可以比较大小和计算差值。如收入用人民币度量,考试成绩用百分数度量,温度用摄氏“度”来度量等。5第2章数据的搜集与整理四、定比尺度 也称比率(ratio)尺度,是在定距尺度的基础上,所形成的尺度。这类数据的突出特点是0点具有明确的含义。而且,任何计量单位
3、都可以通过一个比例常数换算成另一种相应的单位。这种简单的比例关系在间隔数据中是不存在的。6第2章数据的搜集与整理2.1.2数据的类型一、根据统计数据反映现象的信息特点的不同,统计数据有两种基本的类型:v属性数据(attributeorqualitativedata):反映现象的品质方面的信息。如:汽车的颜色、品牌;工人的性别、工资等级。v变量数据(variableorquantitativedata):反映现象的数量方面的信息。如产品的价格、数量;人的年龄、身高。7第2章数据的搜集与整理属性数据是由定类或定序尺度计量形成的;结果通常表现为文字。如颜色:红、黄、蓝等;性别:男、女;工资级别:一级
4、、二级等。变量数据是由定距或定比尺度计量形成;结果表现为数值。变量数据:离散型(discrete),采用计数方式得到;连续型(continuous),采用测量方式得到。8第2章数据的搜集与整理二、统计数据按照来源可以分为:v原始数据(primary):来源于直接的调查或科学实验。能直接满足统计目的的需要,是最新的数据。可靠,费时,代价高。v第二手数据(secondary):来源于已经存在的资料,是由他人调查、试验或处理的结果。便利、省时、经济但可靠性差。9第2章数据的搜集与整理2.1.3变量数据的表现形式根据统计数据反映事物的信息内容不同,变量数据有两种不同的表现形式:绝对数和相对数。v绝对数
5、(有名数):反映事物的绝对规模或水平的数据。v相对数(无名数):反映事物的相对规模或水平的数据。10第2章数据的搜集与整理2.2统计数据的搜集这里讲的数据的搜集是指第一手资料的取得。由于科学试验主要是取得自然科学数据的渠道,我们只介绍统计调查方式方法。2.2.1数据搜集的基本方法2.2.2统计调查的组织方式2.3.3统计调查方案的设计11第2章数据的搜集与整理2.2.1数据搜集的基本方法原始数据的搜集方法有时也称为调查方法。常用的基本方法有:v访问(访谈)调查:通过面对面地询问和观察取得信息。个人访谈和小组访谈。v邮寄调查:被调查者将填好的调查问卷寄回到指定的资料收集点。邮寄、传真。v电话调查
6、:通过电话交流取得必要的信息。经济、省时。12第2章数据的搜集与整理2.2.2统计调查的组织方式统计调查的组织方式是指组织统计调查、搜集信息资源的方式方法。主要有:v普查(generalinvestigation,census)v抽样调查(samplesurvey)v统计报表(systemofreportingstatistics)13第2章数据的搜集与整理一、普查专门组织的一次性的全面调查。主要用于搜集处于一定时点状态上的重要的社会经济现象的总量数据。通常是一次性的或周期性的;需要规定统一的标准调查时间;费时费力,数据准确可靠、详细全面;在不宜或不能用全面统计报表时使用。14第2章数据的搜集
7、与整理二、抽样调查是一种非全面调查,选取部分单位(作为样本)时遵循随机原则。目的是为了推断总体的特征。特点:经济性,时效性高,准确性高,适应面广。适用范围:不可能或不必要进行全面调查的现象;对普查资料进行必要的修正。15第2章数据的搜集与整理三、统计报表(制度)自上而下布置,自下而上按照统一的表式、统一的指标、统一的报送时间和报送程序逐级提供统计基本数据。资料来源:基层单位的原始记录和统计台账。由全面和非全面之分。以制度为保证。调查项目相对稳定,有利于积累资料。16第2章数据的搜集与整理四、重点调查和典型调查1)重点调查:选择部分在所要研究的总体数量特征上占较大比重的个体,了解总体数量的基本情
8、况。2)典型调查:由一是选择部分代表性的个体,认识事物发展变化的原因和规律。主要用于定性研究。17第2章数据的搜集与整理2.2.3统计调查方案的设计调查方案是对整个调查工作的通盘考虑和安排,是指导调查工作的纲领性文献。v调查方案一般包括以下内容:调查目的:调查对象和调查单位:调查项目和调查表:调查时间:调查方法:调查的组织和实施计划 18第2章数据的搜集与整理2.3统计数据的整理数据整理是指对统计调查阶段所取得的各种统计资料进行一定的加工,使其条理化、系统化符合统计分析要求的过程。2.3.1数据整理的基本内容2.3.2 数据的分组和频数分布2.3.3 频数分布的图示和类型2.3.4 案例与Ex
9、cel工具19第2章数据的搜集与整理2.3.1数据整理的基本内容1.数据清单结构的建立与数据录入 数据清单是指包含相关数据的一系列工作表的数据行。数据清单可以作为数据库使用,其中行表示记录,列表示字段。数据清单的第一行中包含列标,通常称列的名称为变量或标志,或字段 行的名称为观察值,每一个单格中包含了一个变量所发生的数值。数据的审核与筛选 上一页下一页返回本节首页20第2章数据的搜集与整理2.数据的审核与筛选 为了保证数据的质量,为整理和分析打下基础,通常要对调查阶段取得的数据进行审核和筛选。对原始数据主要进行完整性和准确性两方面的审核。对第二手数据还要进行实用性和实效性的审核。对审核发现的错
10、误应进行纠正,当不能纠正,或存在不符合要求的数据时,就需要对数据进行筛选。21第2章数据的搜集与整理3.数据排序与分组 一般来说,录入数据清单的数据是无序的,不能反映现象之本质与规律性。为了使用的方便,要将其进行排序、分组。v将数据按要求排列,便于浏览数据发现一些明显的特征或趋势;v将数据分组,可以研究数据的内部构成,体现数据内部的差异,便于进一步研究现象之间的数量关系。上一页下一页返回本节首页22第2章数据的搜集与整理 4.编制频数分布表与累计频数分布表频数分布表可以表明各组间的单位数在总体中所出现的次数或所占比重,从而描述总体的内部结构,揭示总体中的关键因素与本质特征。累计频数分布则能够表
11、明各标志值以上或以下所出现的次数或比重。5.统计图 各种各样的统计图可以形象、直观地表明数据的分布形态与发展变化的趋势。上一页下一页返回本节首页23第2章数据的搜集与整理2.3.2数据的分组与频数分布一、数据的分组(classification)数据的统计分组是数据整理的一项主要内容,是根据统计研究的需要,按照某种标准将统计数据分成不同的组别。通过统计分组,有利于解释数据的信息,描述数据的统计分布,体现数据的结构和进行进一步的统计分析。数据的统计分组也是对总体的一种分类。数据分组的方法与数据的类型有关,由于属性数据本身就是事物的分类或排序的结果,因此有关属性数据的分组比较方便,就是根据数据的不
12、同结果分为若干组,每组数据表现为该种属性特征的同一种结果。如人口的性别数据只能分为两组:男、女。24第2章数据的搜集与整理v属性数据的分组也称为品质标志分组。v变量数据的分组称为变量分组,变量分组根据数据的不同类型有两种分组方法:单变量值分组,组距分组。单变量值分组:变量值相同的归为一组。使用数据较少且为离散型的情形。组距分组:每个组别包含一个区间范围的数据。适合于数据较多或者连续变量的情形。组距分组需要解决组数、组距、组限(或组边界)、组中值等问题。为了研究数据的分布,大部分情况下,采用等距分组。25第2章数据的搜集与整理二、频数分布v确定分组方法形成组别后,就要进行各组内包含的数据个数进行
13、汇总,汇总的结果就是得到各组包含的数据观察的个数,称为频数(或次数)。v把各组次数与相应的组别按照顺序排列而成的数列称为频数分布(数列),相应的表格称为频数分布表。v由频数分布表,还可以求出频率分布,累计频数分布和累计频率分布。上一页下一页返回本节首页26第2章数据的搜集与整理建立频数分布的步骤如下:先对数据进行排序,以了解全部数据的变动范围;选择全部数据的分组组数;确定分组的组限,最后对各组数值所出现的频数进行计数。上一页下一页返回本节首页27第2章数据的搜集与整理2.3.3数据分布的图示与类型一、频数分布的图示方法v直方图(histogram)v折线图(polygon)v曲线图(ogive
14、)v饼形图(piechart)二、频数分布的类型对称钟型(正态分布)、矩形(均匀分布)偏态(左偏、右偏、J型)、双峰上一页下一页返回本节首页28第2章数据的搜集与整理2.3.4案例与Excel工具v案例1:某集团公司欲在某地区投资于医疗卫生事业,为了减少风险,获得利润,该集团企划部门决定先了解一下市场潜力。企划部王经理随机访问了该地区几家医院中就医的36名患者,询问其等候看病的时间,根据这些数据,王经理会得到什么信息呢?上一页下一页返回本节首页29第2章数据的搜集与整理案例2(品质分组)某移动通讯公司要制定新一年的销售计划,需要向市场了解移动用户对数字移动电话类型的需求。n经过问卷设计,在该地
15、区抽取了1000个样本进行问卷调查,获得关于移动电话用户消费行为的一些数据资料n试根据工作表中的数据分析该地区移动电话用户的电话类型偏好。上一页下一页返回本节首页30第2章数据的搜集与整理v 案例3:经理薪酬分布的直方图描述 本世纪美国中小企业得到飞速发展。美国某杂志1993发表了企业的数据。这些企业的年销售收入在5-350 百万美元之间。按前五年的平均投资回报率进行排序,得到60家企业的总经理的年龄与薪酬(千元)资料试用直方图描述这60家企业的总经理的薪酬分布情况。上一页下一页返回本节首页31第2章数据的搜集与整理上一页下一页返回本节首页32第2章数据的搜集与整理v案例4:(饼形图)中国人如
16、何看WTO。由中国社会调查事务所组织的最新一次问卷调查显示:有58.4%的被调查者对中国加入WTO非常有信心;有19.3%的被调查者没有态度;有9.2%的被调查者表示担心;有13.1%的被调查者反对中国加入WTO试用饼形图描述一下中国人对加入WTO的看法。上一页下一页返回本节首页33第2章数据的搜集与整理上一页下一页返回本章首页34第2章数据的搜集与整理2.4其它(可删节)v交叉表v条形图v洛伦茨曲线上一页下一页返回本章首页35第2章数据的搜集与整理v交叉表用于表示两个用文字表示的品质变量之间的关系,用于市场研究,进行市场机会、市场细分分析等。例该公司市场部经理希望根据案例2中的调查结果,确认
17、不同性别的用户,其移动电话类型偏好是否存在着不同。上一页下一页36第2章数据的搜集与整理打开“第2章数据整理案例.xls”工作簿,选定“移动电话调查”工作表。从“数据”菜单中选择“数据透视表和图表报告”选项,得到“数据透视表对话框”窗口。在第1步之中选择“数据清单或数据库”与“数据透视表”,单击“下一步”按钮。在第2步中,确定数据区域A1:D1001,单击“下一步”按钮。上一页下一页37第2章数据的搜集与整理在第3步中,确定数据透视表的位置,如图所示,但将其位置调整到“H1”单元格。然后,单击“版式”按钮,打开“版式”对话框如图所示。上一页下一页38第2章数据的搜集与整理将对话框右边的“数字移
18、动电话类型”字段拖到左边的“行”区作为分组变量,再将右边的“性别”字段拖到“列”区,作为交叉分析的变量,最后将右边的“性别”字段拖放到“数据”区域中,并选择计数项。如果希望结果是以百分比的形式显示,则可双击数据区域中的“计数项,性别”,则会弹出“数据透视表字段”对话框。选择“占同列数据总和的百分比”选项,来表示所出现的频率,最后,单击“确定”按钮,又回到“版式”对话框。上一页下一页39第2章数据的搜集与整理单击“确定”按钮,回到第3步,要注意数据透视表的位置定在单元格H1,最后,单击“完成”按钮,得到交叉表如图所示。上一页下一页40第2章数据的搜集与整理从上面的交叉表中可以看出,对于移动电话类
19、型来讲,其性别之间并无太大的差异,无论是“长白行”,还是“全球通”,或是“神州行”,其男女之间的偏好程度都不是特别大,这说明在移动电话类型的生产与营销过程中可以不考虑性别的差异。当然这只是一种数据整理的结果,要想准确地说明移动电话消费是否存在着性别差异,还需要使用推断统计方法进行假设检验。上一页下一页41第2章数据的搜集与整理v条形图 例:薪酬是众人所关心的主题,也更是当代经理人所关心的主题。北京、上海、深圳三个城市经理人的薪酬是我国经理人“薪酬市场”的晴雨表。1999年经理人杂志所作的薪酬调查发现:所调查的经理人中,平均月收入最高的是上海经理人,为7767元;其次是深圳经理人,为7602元;
20、最后是北京经理人,为7288元。结论应当是最高为上海经理人。那么此结论是否可以用图形来表示呢?上一页下一页42第2章数据的搜集与整理从图中我们清楚地看到,就三个城市经理人的月收入来讲,上海位居首位,其次是深圳。而在1998年的调查中,深圳位居榜首,这说明上海经济及其经理人收入在这一年内都有很大变化。上一页下一页43第2章数据的搜集与整理v洛伦茨曲线本世纪初美国经济统计学家洛伦茨根据意大利经济学家巴雷特提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。曲线横轴是累计人口百分比,纵轴是累计收入或财富的百分比。当一个国家的收入分配完全按人均分配时,同一累计百分比的人口就一定占有相同的累计收入百
21、分比。此时该国的收入分配程度曲线就与对角线重合。上一页下一页44第2章数据的搜集与整理如果绝大多数人口占有很少的财富和收入,而少部分人占有了绝大部分的收入,则该国的曲线就靠近下横轴和右纵轴。一般来说,国家的收入分配不会是绝对平均的,也不会是绝对不平均的。将任一国家或地区的收入分配情况绘制成洛伦茨曲线就可以观察分析该国家或地区收入分配的平均程度。上一页下一页45第2章数据的搜集与整理例某地区1999年的人口及收入情况见图所示,试绘制该地区的洛伦茨曲线。打开“第2章数据整理.xls”工作簿,选择“洛伦茨”工作表。上一页下一页46第2章数据的搜集与整理在“插入”菜单中选择“图表”,打开“图表向导”。
22、在第1步的“图表类型”中选择“XY散点图”,在“子图表类型”中选择“平滑线折线图”,单击“下一步”按钮,打开向导2。在第2步的数据区域中输入“E1:F14”,单击“下一步”按钮。在第3步中,单击“标题”页面,在“图表标题”中输入“某地区收入洛伦茨曲线”,在“数值(X)轴”中输入“累计户数百分比”,在“数值(Y)轴中输入“累计收入百分比”,取消图例,单击“确定”按钮。上一页下一页47第2章数据的搜集与整理对所得图的X轴进行编辑,将鼠标箭头指向X轴,单击右键,弹出对话框,单击“坐标轴格式”选项,如图所示。单击“数字”页面,在分类列表中选择“百分比”,在小数位数上选择“0”;打开“刻度”页面,在数值(X)轴刻度列表中,将“最大值”选取为“1”,“最小值”选取为“0”。其他“字体”页面可相同处理。单击“确定”。上一页下一页48第2章数据的搜集与整理对图表Y轴进行编辑,编辑方法与X轴相同。利用绘图工具在图表左下角到右上角两端点加一条直线作为对角线,对角线称为“绝对公平线”,对角线与累计曲线之间的面积称为“不公平面积”,由此便得洛伦茨曲线如图所示从图中可以看出,该地区的收入差异非常之大,其中44.6%的户数的收入占全部收入的2.45%”。上一页下一页49第2章数据的搜集与整理Thank you very much!上一页退出返回本章首页50第2章数据的搜集与整理