《第7讲 数据的编码、录入与整理.ppt》由会员分享,可在线阅读,更多相关《第7讲 数据的编码、录入与整理.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第7讲数据的编码、录入与整理SPSS背景介绍背景介绍SPSS是世界上最早的统计分析软件,是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于1968年研开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
2、2009年7月28日,IBM公司宣布将用公司宣布将用12亿美元现金收购统计分析软件提供商亿美元现金收购统计分析软件提供商SPSS公司公司。如今SPSS已出至版本20.0,而且更名为IBM SPSS。它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用凡是用SPSS软件完成的计算和统计分软件完成的计算和统计分析,可以不必说明算法析,可以不必说明算法,由此可见其影响之大和信誉之高。在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。三、编码
3、类型三、编码类型1.1.数值型数据数值型数据的编码的编码 数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值。通常采用三点计分、四点计分和五点计分等方式进行评分 如选项A、B、C计分为1、2、3 如选项A、B、C、D计分为1、2、3、4 编码示例中的第编码示例中的第5、6题就是属于数值型编码题就是属于数值型编码变量名变量名编码编码样例样例第5题A B C(A-1,B-2,C-3)A1第6题A B C(A-3,B-2,C-1)A3正向数值型(被选项的程度越高,分值越大)反向数值型(被选项的程度越高,分值越小)三、编码类型三、编码类型2.2.非数值型数据非数值型数据的编码的编码 非数值型数据
4、的编码,首先要确定编码规则,然后根据规则对变量赋予分值。变量名变量名编码编码样例样例第1题1-男;0-女男1第2题1-没上过学;2-小学;3-初中;4-高中;5-大专以上小学2双值型双值型变量的编码变量的编码多采用“0、1”或“1、2”来赋值多值型多值型变量的编码变量的编码采用“1、2、3、”来赋值 通常对非数值型数据编码,主要起到分组的作用,不能进行各种算术运算三、编码类型三、编码类型3.3.多项选择题多项选择题 多项选择题就是题目答案的选项是多选项变量名变量名编码编码样例样例第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他文化水准
5、2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选1限定多选项分类法限定多选项分类法 限定了一次最多可以选择项目的个数;不能直接对题目进行编码,必须先确定最多选择,并给每个选项建立一个变量;任意多项二分法任意多项二分法 表示每一次可以任选几个选项;编码方法把每一个被选项作为一个变量来定义,每个变量只能选择“1或0”;四
6、、缺失值的处理四、缺失值的处理1.1.概念概念 缺失值是指在数据采集与整理过程中丢失的内容,往往会给统计分析带来一些麻烦和误差。2.2.类型类型 用户用户缺失值缺失值在问卷调查中把不回答的选项当作缺失值来处理缺失值可用研究者能识别的数字来表示如“0、9、99”系统系统缺失值缺失值指计算机默认的缺失方式,如输入数据空缺、输入非法字符等通常把缺失值标记为“.”四、缺失值的处理四、缺失值的处理3.3.缺失值处理方法缺失值处理方法 替代法:采用统计命令或在相关统计功能中利用参数替代 Transform Replace Missing Values 剔出法:剔除有缺失值的题目或剔除有缺失值的整份问卷五、
7、数据处理中的操作术语五、数据处理中的操作术语个案个案(Cases)(Cases)一个研究对象就是一个个案;一个个案就是一条记录;在数据表格中表示为“一行”每一个个案记录的是一个研究对象各个属性的具体数值,如学生信息(姓名、性别、年龄等)变量变量(Variable)是指问卷中每一个问题,数据库里字段,数据表格中表示为“一列”量值量值(Value)是指问卷中的答案,也称为观测值,在SPSS系统里,单元格中的数值就是变量值样本样本(Sample)是指具有共同属性的所有研究对象,如某班学生的所有信息 样本包含多个个案,在数据表格中表示为“n行”五、数据处理中的操作术语五、数据处理中的操作术语学号姓名性
8、别出生日期专业编号0604231张三男87-1-1010604253李四女88-6-30020605321王五女88-8-18030606002赵六男88-12-2402变量学生表学生表个案量值样本六、界面设置六、界面设置启动SPSS六、界面设置六、界面设置英文界面设置六、界面设置六、界面设置退出SPSS,再重新启动,得到全英文界面的SPSS七、定义变量七、定义变量启动SPSS后进入数据编辑窗口,显示为一个空文件,输入数据前首先要定义变量。建立数据文件 数据加工整理 统计分析解释分析结果定义数据文件结构录入、修改、保存数据定义变量输入和查看数据七、定义变量七、定义变量定义变量所包含的内容:变量
9、名(Name):变量的名称变量类型(Type):变量的类型宽度(Width):存储变量值的最大值对字符型变量:1可存储1个字节的字符,2可存储1个汉字;对数值型变量:表示运算宽度,默认为8位,不用改小数位数(Decimals):变量为数值类型时,小数点后的位数变量标签(Label):对变量名的注释。光标在变量名上时,会显示该标签变量值标签(Values):变量标签的取值。可以使用View 菜单下的 Value Labels 选项显示值 缺失值(Missing Values):定义缺失的值,例如,当定义99为缺失值时,当该变量的值为99时,把它认为是缺失值七、定义变量七、定义变量显示数据的列宽(
10、Colums):与上面“宽度”不同,它只管显示对齐方式(Align):左对齐、右对齐、居中量度类型(Measure):定比变量(Scale)、定序变量(Ordinal)、定类变量(Nominal)。只用于统计制图时坐标轴变量的区分和SPSS决策树模块的变量定义。定比测量:测量的最高水平定序测量:比定比测量的信息量少一些,测量数值代表了一些有序分类,如用1,2,3,4代表优、良、中和差定类测量:测量中的最低水平,其数值仅代表某些分类或属性,比如用1,2,3,4代表不同的血型(A,B,AB,O)。七、定义变量七、定义变量 单击数据编辑窗口左下方的“Variable View”标签或双击列的题头(V
11、ar),打开变量定义窗口,进行变量定义。七、定义变量七、定义变量1.1.定义变量名定义变量名 在定义变量窗口中Name下的单元格中输入变量名 变量名必须以字母开头,长度不超过8个 SPSS保留的关键词不能作为变量名 AND、OR、NOT、WITH、TO、BY、GT、GE、LT、LE、EQ、NE、ALL等 SPSS中允许使用中文变量名,但尽量不要使用,以免出现兼容性问题七、定义变量七、定义变量2.2.定义变量类型、宽度及小数位数定义变量类型、宽度及小数位数 在Type下单击单元格,打开变量类型窗口,选择变量类型常用变量类型有:数值型(Numeric)日期型(Date)货币型(Dollar)字符型
12、(String)在Width、Decimal下单元格,选择宽度和小数位数,系统默认为“8”和“2”;或者在变量类型窗口中设置七、定义变量七、定义变量3.3.定义定义变量标签变量标签 在Label下单击单元格,输入变量标签 SPSS允许变量标签长度为255字节4.4.定义定义变量值标签变量值标签 变量值标签是对变量的每一可能取值进一步描述,当变量是定类或定序变量时,非常有用。变量值标签系统默认为None 在Values下单击单元格,打开变量值标签窗口,输入变量值标签 七、定义变量七、定义变量5.5.定义缺失值定义缺失值 在在Missing下单击单元格,打开缺失值窗口,输入缺失值下单击单元格,打开
13、缺失值窗口,输入缺失值 No missing values:没有缺失值 Discrete missing values:定义13个单一数为缺失值 Range plus one optional discrete missing values:定义指定范围为缺失值,同时指定另外一个不在这一范围的单一数为缺失值七、定义变量七、定义变量6.6.变量定义的信息复制变量定义的信息复制 如果有多个变量的类型相同,可以先定义一个变量,然后把该变量定义的信息复制给新变量 操作步骤:操作步骤:先定义一个变量 在该变量行号上单击右键,在快捷菜单中选择“Copy”选择同类型新变量所在行,单击右键,在快捷菜单中选择“
14、Paste”八、数据的录入八、数据的录入 定义完所有变量后,单击“Data View”标签,在数据编辑窗口输入数据。数据录入如果按逐行进行,按Tab键改变行 数据录入如果按逐列进行,按Enter键改变列 系统默认的数据文件保存类型为“.sav”九、数据的导入九、数据的导入 SPSS具有强大的与其他软件共享数据文件的功能,所以能够导具有强大的与其他软件共享数据文件的功能,所以能够导入多种格式的数据入多种格式的数据1.1.能够导入能够导入SPSS的数据文件:的数据文件:*.sys、*.por、*.xls、*.slk、*.w*、*.dbf、*.dat、*.syd、*.sas7dbat等2.2.导入数
15、据文件的操作步骤:导入数据文件的操作步骤:执行菜单命令File Open Data”选择导入数据文件的类型 3.3.通过复制粘贴导入数据通过复制粘贴导入数据 在原系统中打开需要导入的数据文件 复制粘贴到SPSS中九、数据的导入九、数据的导入4.4.例一例一(1):把把Access中中shift-MIS.mdb中的中的“学生表学生表”信息导入到信息导入到SPSS中中.a).打开打开shift-MIS.mdb文件,选中文件,选中“表表”对象,再选中对象,再选中“学生表学生表”。九、数据的导入九、数据的导入4.4.例一例一(1):把把Access中中shift-MIS.mdb中的中的“学生表学生表”
16、信息导入到信息导入到SPSS中中.b).菜单上,外部数据菜单上,外部数据导出导出 Excel,Excel,“保存类型保存类型”选择选择“Excel97-Excel97-Excel2003Excel2003工作簿工作簿 ”,文件名自动为文件名自动为“学生表学生表”“”“确定确定”九、数据的导入九、数据的导入4.4.例一例一(1):把把Access中中shift-MIS.mdb中的中的“学生表学生表”信息导入到信息导入到SPSS中中.c).启动启动SPSS,FileOpenDataOpenData,“文件类型文件类型”选择选择“Excel(*.xls)”,找到,找到“学生表学生表.xls”文件后文
17、件后“打开打开”d).保存为:学生表保存为:学生表.sav九、数据的导入九、数据的导入4.4.例一例一(2):数据的导入数据的导入 将EXCEL文件2-recode.xls导入到SPSS中启动启动SPSS;方法一:方法一:FileOpenData.OpenData.数据导入后,查看“Variable View”标签中的字段名、类型、宽度等。方法二:练习通过复制、粘帖的办法方法二:练习通过复制、粘帖的办法 把2-recode.xls中的数据通过复制,在SPSS中粘帖的办法导入到SPSS中把导入后的数据文件保存为把导入后的数据文件保存为2-recode.sav十、数据的整理十、数据的整理1.1.概
18、念概念 数据整理是对录入的数据进行转换、检测、量表统分、个案选择、文件拆分与合并等操作,使原始数据生成后续研究所需要的数据。2.2.操作操作 SPSS实现数据整理的功能主要集中在“Data”和“Transform”两个菜单十、数据的整理十、数据的整理3.3.例二例二:数据分值的转换数据分值的转换 数据分值的转换是通过对数据进行重新编码来实现的。在SPSS中主要通过Recode命令来实现十、数据的整理十、数据的整理3.3.例二:数据分值的转换例二:数据分值的转换Into Same Variables:编码后数据存放在原变量中,覆盖原数据Into Different Variables:编码后数据
19、存放在新定义的变量中,保留原数据 十、数据的整理十、数据的整理3.3.例二:数据分值的转换例二:数据分值的转换 假设一套量表共10题,每题有A、B、C三个选项,现有10个被试作答。要求根据评分规则,将被试的原始数据选择转换为量表分数注意:1、2、4、7、8、10:正向题3、5、6、9:反向题量表评分规则量表评分规则 题号选项12345678910A1131331131B2222222222C331311331310名被试的作答结果表名被试的作答结果表 题号被试123456789101ABBBABCACB2ABBCABCACB3ACBBABCABB4BBBBBACBCB5ACABBABABC6B
20、CABABBBBA7BCCCABCABB8ACABBABACB9ABBBBACACB10BBBBABCBCC十、数据的整理十、数据的整理3.例二:数据分值的转换例二:数据分值的转换原数据转换后数据十、数据的整理十、数据的整理3.3.例二例二:数据分值的转换数据分值的转换 数据输入:打开数据文件数据输入:打开数据文件(2-recode.sav)Transform Recode Into Different Variables Transform Recode Into Different Variables 打开“Recode”对话框,定义新变量名 打开“Old and New Value”对话
21、框,定义转换规则十、数据的整理十、数据的整理4.4.例三例三:量表的统分量表的统分 在数据录入过程中,输入的是最原始、最稳定的反应选项,但在后续的统计分析中通常需要对量表的总分进行推断统计。量表的统分工作包括分量表的统分和总量表的统分,SPSS中通常用“Compute”命令实现量表的统分工作十、数据的整理十、数据的整理4.4.例三:量表的统分例三:量表的统分 以分值转化后的数据文件2-recode.sav为例。假定该量表由2个分量表构成,其中1个量表由第1、2、5、8、9题组成,另一个量表由第3、4、6、7、10题组成。计算出每一个被试的分量表分和总量表分。十、数据的整理十、数据的整理4.4.
22、例三例三:量表的统分量表的统分 打开数据文件2-recode.sav。Transform Compute(计算分量表分flb1、flb2和总量表分zlb)统分结果保存为2-lb.sav十、数据的整理十、数据的整理5.5.例四例四:数据的排序数据的排序 在数据统计分析中,通常需要限定选择部分个案进行研究,如抽取40%个案来研究 在SPSS中,主要通过Data Sort Cases十、数据的整理十、数据的整理5.5.例四:数据的排序例四:数据的排序 以数据文件2-lb.sav为例,找出变量zlb的高低分组的分组 一般以总个案的40%为界限确定高低分 十、数据的整理十、数据的整理6.6.例四:数据的
23、排序例四:数据的排序 打开数据文件2-lb.sav Data Sort Cases 将分数排序,确定高分组和低分组的起点分数值 将变量zlb转换为变量zlb1;将高分组和低分组进行分组。因为以总个案的40%为界限确定高低分,所以高分组和低分组各取4个个案 10*40%=4(4个个案)根据排序可以确定高分组和低分组的起点分数值分别为22和20十、数据的整理十、数据的整理6.6.例五:数据的限选例五:数据的限选 以SPSS系统随带数据文件Anxiety.sav为例 要求限选前20个个案进行后续统计分析。十、数据的整理十、数据的整理选择所有个案按指定条件选择个案对个案进行随机抽样按比例大概抽样精确抽
24、样按范围选择个案6.例五例五:数据的限选数据的限选 多余数据保留在原表中多余数据被删除十、数据的整理十、数据的整理6.6.例五:数据的限选例五:数据的限选 打开数据文件Anxiety.sav。Data Select Cases 设置前20个个案。十、数据的整理十、数据的整理6.6.例六:数据加权例六:数据加权 打开数据文件蔬菜销售.sav。统计该菜场当天平均菜价。十、数据的整理十、数据的整理6.6.例七:数据的计数例七:数据的计数 打开数据文件Anxiety.sav。Transform Count Values with cases 作业作业完成课堂示例完成课堂示例下节内容下节内容描述性统计掌握和了解样本数据的统计特征和总体分布形式频数分析描述统计量探索性分析交叉列联表分析谢结束结束谢此此课件下件下载可自行可自行编辑修改,修改,仅供参考!供参考!感感谢您的支持,我您的支持,我们努力做得更好!努力做得更好!谢谢!