《资料处理与分析第一节数据处理与分析的基本程序.ppt》由会员分享,可在线阅读,更多相关《资料处理与分析第一节数据处理与分析的基本程序.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 资料处理与分析资料处理与分析 第一节第一节 数据处理与分析的基本程序数据处理与分析的基本程序 第二节第二节 SPSS SPSS简介及数据的编码和录入简介及数据的编码和录入 第三节第三节 数据清理数据清理 第四节第四节 统计表与统计图统计表与统计图 第五节第五节 SPSS SPSS应用应用:简单统计分析简单统计分析12/18/20221第一节第一节 数据处理与分析的基本程序数据处理与分析的基本程序一一 资料的审核资料的审核二二 资料的复查资料的复查三三 资料处理的基本程序资料处理的基本程序12/18/20222一一 资料的审核资料的审核 1.1.资料审核的含义资料审核的含义 是资料
2、处理的第一步工作是资料处理的第一步工作 指研究者对调查所回收的原始资料(主要指研究者对调查所回收的原始资料(主要是问卷)进行初步的审查和核实,校正错是问卷)进行初步的审查和核实,校正错填、误填,提出乱填、空白和严重缺答的填、误填,提出乱填、空白和严重缺答的废卷,是原始资料具有较好的准确性、完废卷,是原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录入整性和真实性,从而为后续资料整理录入与统计分析工作打下较好的基础。与统计分析工作打下较好的基础。12/18/202232.审核的内容n检查问卷(填写的完整性和数据质量)检查问卷(填写的完整性和数据质量)n重新向被调查者核实重新向被调查者
3、核实3.3.审核的方式审核的方式n实地审核(边调查边审核)实地审核(边调查边审核)n集中审核(问卷全部回收后集中审核)集中审核(问卷全部回收后集中审核)12/18/20224二二 资料的复查资料的复查1.1.含义(回访)含义(回访)指研究者在回收调查资料后又由其他人对所调指研究者在回收调查资料后又由其他人对所调查的样本中的一部分个案进行第二次调查,以查的样本中的一部分个案进行第二次调查,以检查和核实第一次的调查的质量。检查和核实第一次的调查的质量。2.2.对不合格问卷的处理对不合格问卷的处理(1 1)复查(重新调查)复查(重新调查)(2 2)填补缺省值)填补缺省值(3 3)丢弃不合格问卷(作为
4、废卷处理)丢弃不合格问卷(作为废卷处理)12/18/20225三三 资料处理的基本程序资料处理的基本程序编码编码问卷审核问卷审核与复查与复查建库、数建库、数据录入据录入清理数据清理数据统计分析统计分析12/18/20226第二节第二节 问卷编码和数据录入问卷编码和数据录入一一 问卷编码问卷编码 1.1.答案代码的确定答案代码的确定 2.2.问题栏码的确定问题栏码的确定 3.3.编码手册编码手册二二 数据录入数据录入 1.1.建立数据库建立数据库 2.2.录入的方式录入的方式 3.3.录入工作的安排与组织录入工作的安排与组织12/18/20227二二 问卷编码问卷编码 编码就是给每个问题及答案一
5、个数字作为它的编码就是给每个问题及答案一个数字作为它的代码,将问卷中的文字转化成数字的过程代码,将问卷中的文字转化成数字的过程1.1.答案代码的确定答案代码的确定(1 1)填空题和单项选择题,答案的预编码就是)填空题和单项选择题,答案的预编码就是答案代码答案代码(2 2)多项选择则采取)多项选择则采取0 0、1 1编码编码(3 3)矩阵式或表格式则按方向性赋值编码)矩阵式或表格式则按方向性赋值编码(4 4)习惯上以)习惯上以“0”“0”作为缺省值,作为缺省值,“9”“9”作为特作为特殊值,比如殊值,比如“不知道不知道”或或“其他其他”12/18/20228问题问题025:您认为打工的外地人对北
6、京市的社会:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)秩序是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说 4编码编码答案答案12/18/20229n问题问题001:您的性别是:您的性别是:1 男 2 女 2 n问题问题002:您的年龄是:您的年龄是34岁:3 4n问题问题011:您家中是否有下列物品:(可多选):您家中是否有下列物品:(可多选)1电话 2传真机 3电脑 4电视 5手机 6其他 1 0 0 1 1 012/18/2022102.2.问题栏码的确定问题栏码的确定(1 1)分配栏码,指定该问题的编码值的位数)分配栏码,指定该问题的编码值的位数(宽度
7、)及在整个数据文件中所处的位置(宽度)及在整个数据文件中所处的位置(一般在建数据库的时候确定)(一般在建数据库的时候确定)(2 2)栏码一般在问卷设计时就印在问卷上,)栏码一般在问卷设计时就印在问卷上,也有在问卷回收后指定的也有在问卷回收后指定的(3 3)对于年龄、工资收入、时间、人数等等)对于年龄、工资收入、时间、人数等等距变量,在分配栏码时要根据实际情况确定距变量,在分配栏码时要根据实际情况确定合适的宽度合适的宽度12/18/2022113.3.编码手册编码手册(1)编码手册要将编码的项目和问题一编码手册要将编码的项目和问题一一列出,逐一规定它的代码、宽度、栏一列出,逐一规定它的代码、宽度
8、、栏码、简要名称、答案赋值方式及其他特码、简要名称、答案赋值方式及其他特殊规定等殊规定等(2)有了编码手册,不同的调查员或编)有了编码手册,不同的调查员或编码员就可以按同样的标准和方法对问卷码员就可以按同样的标准和方法对问卷进行编码进行编码12/18/2022121.1.建立数据库建立数据库(1 1)SPSSSPSS简介简介 SPSS SPSS是是Statistical Program for Social Statistical Program for Social Sciences Sciences 的简称,即社会科学统计程序,的简称,即社会科学统计程序,由美国由美国SPSSSPSS公司公
9、司19701970年代推出,迄今已有年代推出,迄今已有3030多年的历史。是国际著名三大社会科学多年的历史。是国际著名三大社会科学统计软件包之一(统计软件包之一(SASSAS、SPSSSPSS、StatisStatis)。)。我们现在使用的是我们现在使用的是SPSS for Windows SPSS for Windows 13.013.0版。版。(2 2)FoxproFoxpro三三 数据录入数据录入12/18/2022132.2.建立数据库的演示(以建立数据库的演示(以SPSSSPSS为例)为例)(1 1)打开)打开SPSSSPSS软件软件(2 2)点开)点开“Variable View”
10、“Variable View”(3 3)开始建库:)开始建库:Name Name:变量名:变量名 Type Type:数据类型:数据类型 Decimal Decimal:小数点:小数点 Missing Missing:缺省:缺省值值 Lable Lable:变量简称:变量简称12/18/20221412/18/20221512/18/2022163.3.数据录入数据录入录入的方式:录入的方式:(1 1)直接将编好的码录入)直接将编好的码录入(2 2)先将数据转录,再录入到数据库中)先将数据转录,再录入到数据库中录入工作的组织:录入工作的组织:(1 1)挑选和培训录入人员)挑选和培训录入人员(2
11、 2)统一规定数据录入格式和数据文件名)统一规定数据录入格式和数据文件名(3 3)每个输入人员的问卷独立)每个输入人员的问卷独立(4 4)由研究者合成)由研究者合成12/18/202217第三节第三节 数据清理数据清理一一 有效范围清理有效范围清理二二 逻辑一致性清理逻辑一致性清理三三 数据质量清理数据质量清理12/18/202218一一 有效范围清理有效范围清理1.1.指数据中的数据超出了编码值的范围指数据中的数据超出了编码值的范围n这种错误发生的情况有:这种错误发生的情况有:n原始数据本身的问题原始数据本身的问题n编码的错误编码的错误n录入人员的错误录入人员的错误2.2.检查的方法检查的方
12、法 在在SPSSSPSS软件中执行一条统计各统计变量频数分软件中执行一条统计各统计变量频数分布的命令,当我们发现频数分布表中的变量的布的命令,当我们发现频数分布表中的变量的取值超出了编码手册所规定的赋值范围,就需取值超出了编码手册所规定的赋值范围,就需要将这些问卷找出同原始问卷核对要将这些问卷找出同原始问卷核对12/18/202219二二 逻辑一致性清理逻辑一致性清理 对于相倚问题适用对于相倚问题适用 IF命令命令 COMPUTE命令命令三三 数据质量抽查数据质量抽查 抽取样本的抽取样本的25的个案进行校对的个案进行校对12/18/202220第四节第四节 统计表与统计图统计表与统计图一一 统
13、计表统计表1.统计表的构成统计表的构成2.统计表的制作统计表的制作二二 统计图统计图1.统计图的特点统计图的特点2.统计图的类型统计图的类型12/18/2022211.统计表的构成统计表的构成 1.1.表号:便于指示和查找表号:便于指示和查找2.2.总标题:表的名称,简要说明表中资料的内容总标题:表的名称,简要说明表中资料的内容3.3.横标题:在表的左侧横标题:在表的左侧(1 1)频数表,一般用来统计所要说明的主题)频数表,一般用来统计所要说明的主题(2 2)交互分类表,放因变量)交互分类表,放因变量4.4.纵标题:在表的最上一格纵标题:在表的最上一格(1 1)频数表,指示调查指标或统计指标的
14、主题)频数表,指示调查指标或统计指标的主题(2 2)交互分类表,放自变量)交互分类表,放自变量5.5.数字:统计表的实质性内容数字:统计表的实质性内容6.6.表注:对统计表的资料来源和有关内容的说明表注:对统计表的资料来源和有关内容的说明12/18/2022222.统计表的制作统计表的制作 统计表制作的原则:科学、规范、简明、实用、统计表制作的原则:科学、规范、简明、实用、美观美观(1 1)表的标题要简短明了)表的标题要简短明了(2 2)纵标题和横标题要准确反映变量取值的含义,)纵标题和横标题要准确反映变量取值的含义,它们的排列顺序要符合逻辑它们的排列顺序要符合逻辑(3 3)表中的数据资料必须
15、注明计量单位)表中的数据资料必须注明计量单位(4 4)对于一般频数表,应列出合计栏,以便获得)对于一般频数表,应列出合计栏,以便获得整体情况整体情况(5 5)各种表格均应以横线为主,能不用竖线就不)各种表格均应以横线为主,能不用竖线就不用,即使要用竖线,也应是开口式,上下画粗线,用,即使要用竖线,也应是开口式,上下画粗线,其余细线其余细线12/18/202223二二 统计图统计图 1.1.统计图的特点:统计图的特点:与统计表相比,统计图直观、形象、通俗易懂与统计表相比,统计图直观、形象、通俗易懂 2.2.统计图的适用范围:统计图的适用范围:统计图一般应用于调查资料的初级统计接、结统计图一般应用
16、于调查资料的初级统计接、结果的描述,特别适合对调查总体的内部构成进果的描述,特别适合对调查总体的内部构成进行描述,对不同现象的分布进行比较,以及对行描述,对不同现象的分布进行比较,以及对现象变化的趋势进行展示等。现象变化的趋势进行展示等。12/18/2022243.3.统计图的分类统计图的分类n条形图条形图(1 1)简单条形图)简单条形图(2 2)复合条形图)复合条形图n扇形图扇形图n折线图折线图(1 1)单式折线图)单式折线图(2 2)复式折线图)复式折线图12/18/202225图图8-1 8-1 网民每月实际花费的上网费用分布网民每月实际花费的上网费用分布(%)(%)12/18/2022
17、26图图8-2 历次调查网民每月实际花费的上网费用分布历次调查网民每月实际花费的上网费用分布(%)12/18/202227图图8-3 8-3 网民年龄分布网民年龄分布12/18/202228图图8-4 8-4 历次调查网民每周上网小时数历次调查网民每周上网小时数(小时小时)12/18/202229图图8-5 8-5 历次调查网民拥有历次调查网民拥有E-mailE-mail帐号及免费帐号及免费E-E-mailmail帐号平均值帐号平均值(个个)12/18/202230第五节第五节 SPSS SPSS基本应用基本应用一一 单变量描述统计单变量描述统计二二 数据转化与调整数据转化与调整12/18/2
18、02231一一 单变量描述统计单变量描述统计n1.1.单选题的描述统计分析单选题的描述统计分析 (1)(1)在菜单栏中打开在菜单栏中打开AnalyzeAnalyze (2)(2)选中选中Descriptive Statistics Descriptive Statistics (3)(3)选中选中FrequencyFrequency的的statisticstatistic对话对话框框 中的中的quartilesquartiles选项选项 12/18/202232单选题频数分析12/18/202233对话框12/18/20223412/18/2022352.2.平均值的计算平均值的计算 (1)1
19、)在菜单栏中打开在菜单栏中打开AnalyzeAnalyze(2)(2)选中选中Descriptive Statistics Descriptive Statistics 选项选项(3)(3)选中选中DescriptiveDescriptive 3.3.多选题的描述统计分析多选题的描述统计分析 (1)(1)在菜单栏中打开在菜单栏中打开AnalyzeAnalyze (2)(2)选中选中Multiple Response Multiple Response 中定义设置中定义设置 (3)(3)如是两分变量(如是两分变量(0 0,1 1编码的)则输入编码的)则输入1 1,如是多,如是多元答案则输入有效范
20、围元答案则输入有效范围 (4)(4)定义新变量名和代号定义新变量名和代号12/18/20223612/18/20223712/18/20223812/18/20223912/18/202240Group$XB8 上站动机 (Value tabulated=1)Pct of Pct ofDichotomy label Name Count Responses Cases上站动机-社会交往 B81 34 9.9 23.4上站动机-自我肯定 B82 5 1.5 3.4上站动机-休闲娱乐 B83 117 34.0 80.7上站动机-学习需要 B84 28 8.1 19.3上站动机-兴趣爱好 B85 5
21、1 14.8 35.2上站动机-获取信息 B86 109 31.7 75.2 -Total responses 344 100.0 237.20 missing cases;145 valid cases12/18/202241排序题的分析n排序题定义对话框12/18/20224212/18/202243排序题分析:频数分析结果12/18/202244排序题分析:交互分类结果12/18/202245一一 数据重新分组数据重新分组 (1)(1)在菜单栏中打开在菜单栏中打开TransformTransform(2)(2)选中选中Record Record 选项选项(3)(3)选中选中Into Di
22、fferent ValuableInto Different Valuable第二节第二节 数据转化与调整数据转化与调整12/18/202246菜单选择12/18/202247对话框12/18/20224812/18/20224912/18/202250对话框对话框12/18/20225112/18/20225212/18/202253二二 生成新的变量生成新的变量(1)(1)在菜单栏中打开在菜单栏中打开TransformTransform(2)(2)选中选中Compute Compute 选项选项(3)(3)定义新的变量定义新的变量12/18/20225412/18/20225512/18/20225612/18/20225712/18/202258