《spss第三章SPSS数据的预处理课件.ppt》由会员分享,可在线阅读,更多相关《spss第三章SPSS数据的预处理课件.ppt(79页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 SPSS数据的预处理为什么要进行数据的预处理n在数据文件建立之后,通常还需要对分析的数据进行必要的在数据文件建立之后,通常还需要对分析的数据进行必要的预加工预加工处理处理,这是数据分析过程中必不可少的一个关键步骤。,这是数据分析过程中必不可少的一个关键步骤。n数据的预加工处理服务于数据分析和建模,主要包括以下几个方面数据的预加工处理服务于数据分析和建模,主要包括以下几个方面 数据的排序数据的排序 变量计算变量计算 数据选取数据选取 计数计数 分类汇总分类汇总 数据分组数据分组 数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排数据预处理的其他功能:转置、加权、数据拆分、缺失
2、值处理、数据排 秩、秩、定义变量集。定义变量集。3.1 3.1 数据的排序n(1 1)SPSSSPSS的数据排序是将数据编辑窗口中的的数据排序是将数据编辑窗口中的数据按照数据按照某个某个或或多个多个指定变量的变量值指定变量的变量值升序升序或或降序降序重新排列。重新排列。n(2 2)这里的变量也称为)这里的变量也称为排序变量排序变量。排序变量。排序变量只有一个时,排序称为只有一个时,排序称为单值排序单值排序。排序变量有。排序变量有多个时,排序称为多个时,排序称为多重排序多重排序。n(3 3)多重排序中,第一个指定的排序变量称)多重排序中,第一个指定的排序变量称为为主排序变量主排序变量,其他依次指
3、定的变量分别称为,其他依次指定的变量分别称为第二排序变量第二排序变量、第三排序变量第三排序变量等。等。(1 1)数据排序便于数据的)数据排序便于数据的浏览浏览,有助于了解,有助于了解数据的数据的取值取值状况、状况、缺失值缺失值数量的多少等;数量的多少等;(2 2)通过数据排序能够快捷的找到数据的最)通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的大值和最小值,进而可以计算出数据的全距全距,初步把握和比较数据的初步把握和比较数据的离散程度;离散程度;(3 3)通过数据排序能够快捷地发现数据的)通过数据排序能够快捷地发现数据的异异常值常值,为进一步明确它们是否会对分析产生,为进
4、一步明确它们是否会对分析产生重要影响提供帮助。重要影响提供帮助。3.1.13.1.1数据排序的作用数据排序的作用 SPSSSPSS数据排序的基本操作步骤数据排序的基本操作步骤 (1 1)选择菜单)选择菜单DataDataSort CasesSort Cases (2 2)将主排序变量从左边的列表中选到)将主排序变量从左边的列表中选到Sort Sort byby框中,并在框中,并在Sort OrderSort Order框中选择按该变量的框中选择按该变量的升序还是降序排序。升序还是降序排序。(3 3)如果是多重排序,还要一次指定第二、)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规
5、则。第三排序变量及相应的排序规则。3.1.2 3.1.2 数据排序的基本操作数据排序的基本操作在左边的在左边的源变量框源变量框中中选择排序变量进入选择排序变量进入Sort bySort by框框。如果选择。如果选择2 2个以上的变量,观测个以上的变量,观测量的排序结果与排序量的排序结果与排序变量在变量在Sort bySort by框中的框中的顺序有关。列于首位顺序有关。列于首位的为第一排序变量。的为第一排序变量。在在Sort Order Sort Order 栏栏内选择排序内选择排序方式方式升序升序与降序与降序 1.1.数据排序是整行数据排序,而不是只对某列数据排序是整行数据排序,而不是只对某
6、列变量排序;变量排序;2.2.多重排序中指定排序变量的多重排序中指定排序变量的次序很关键次序很关键。先。先指定的变量优先于后指定的变量。多重排序可指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序;再按其他变量值降序(或升序)排序;3.3.数据排序后,原有数据的排序次序必然被打数据排序后,原有数据的排序次序必然被打乱,应保存原始数据。乱,应保存原始数据。说明说明数据排序应用举例数据排序应用举例n利用住房状况调查数据,通过数据排序功能分利用住房状况调查数据,通过数据排序功能分别找到本市户口和外地
7、户口住户现住面积的最别找到本市户口和外地户口住户现住面积的最大值和最小值:大值和最小值:分析:分析:(1 1)多重排序)多重排序(2 2)主排序变量:户口状况)主排序变量:户口状况 第二排序变量:现住面积第二排序变量:现住面积3.2 3.2 变量计算变量计算(1)数据的转换处理)数据的转换处理 在原有数据的基础上,计算产生一些在原有数据的基础上,计算产生一些含有更丰富信息含有更丰富信息的的新数据新数据。例如。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有这些新变量具有更直观更有效更直观更有效的特点。的特点。
8、(2)对数据的原有分布状态进行转换)对数据的原有分布状态进行转换 对原有数据的分布进行转换,以满足建模中某些模型对数据分布的要对原有数据的分布进行转换,以满足建模中某些模型对数据分布的要求。求。非正态或非线性数据的处理非正态或非线性数据的处理 时间序列平稳化处理时间序列平稳化处理 标准化处理标准化处理 3.2.1 3.2.1 变量计算的目的变量计算的目的nSPSSSPSS变量计算是在原有数据的基础上,根据用户变量计算是在原有数据的基础上,根据用户给出的给出的SPSSSPSS算术表达式算术表达式以及以及函数函数,对,对所有所有个案或个案或满足条件的满足条件的部分部分个案,计算产生一系列个案,计算
9、产生一系列新变量新变量。(1 1)变量计算是针对所有个案(或指定的)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。部分个案)的,每个个案都有自己的计算结果。(2 2)变量计算的结果应保存到一个指定变)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类量中,该变量的数据类型应与计算结果的数据类型相一致。型相一致。在变量计算过程中涉及到几个概念:在变量计算过程中涉及到几个概念:SPSSSPSS算数表达式、算数表达式、SPSSSPSS条件表达式和条件表达式和SPSSSPSS函数。函数。n指出按照什么方法计算变量;指出按照什么方法计算变量;nSPSS
10、SPSS算术表达式(算术表达式(Numeric ExpressionNumeric Expression)是由)是由常量、变量、算术运算符、圆括号、函数等组常量、变量、算术运算符、圆括号、函数等组成的式子。成的式子。字符型常量应当用引号括起来字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括算术运算符主要包括、*、/、*(乘方)(乘方)在同一算术表达式中的常量及变量,数据类型应该在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算一致,否则无法计算 3.2.2 SPSS3.2.2 SPSS算术表达式算术
11、表达式n在变量计算中通常要求对在变量计算中通常要求对不同的个案不同的个案分别按照分别按照不同的方法不同的方法进行计算,于是就需要通过一定的进行计算,于是就需要通过一定的方式来指定个案;方式来指定个案;nSPSSSPSS条件表达式是一个对条件进行判断的式子。条件表达式是一个对条件进行判断的式子。其结果有两种取值:其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。如果判断条件不成立,则结果为假。n条件表达式包括条件表达式包括简单条件表达式简单条件表达式和和复合条件表复合条件表达式达式。3.2.3 SPSS3.2.3 SPSS条件表达式条件
12、表达式(1 1)简单条件表达式)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括成的式子。其中关系运算符包括、。(2 2)复合条件表达式)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。条件表达式等组成的式子。逻辑运算符号包括逻辑运算符号包括&或或ANDAND(并且)、(并且)、|或或OROR(或者)、(或者)、或或NOTNOT(非)(非)。NOTNOT的运算优先级最高,其次是的运算优先级最高,其次是ANDAND,最低是,最低是OR
13、OR。可以通过圆括号改变运算的优先级。可以通过圆括号改变运算的优先级。(年龄(年龄=35=35)and not and not(职称(职称33)(1 1)SPSSSPSS函数是事先编好并存储在函数是事先编好并存储在SPSSSPSS软件中,能够实现某软件中,能够实现某些特定计算任务的一段计算机些特定计算任务的一段计算机程序程序。这些程序都有各自的。这些程序都有各自的名字称为名字称为函数名函数名。执行这些程序段得到的计算结果称为。执行这些程序段得到的计算结果称为函函数值数值。(2 2)函数书写的具体形式为:)函数书写的具体形式为:函数名(参数)函数名(参数)函数名是函数名是SPSSSPSS已规定的
14、已规定的 参数可以是常量(字符型常量用引号引起)、变量或算术参数可以是常量(字符型常量用引号引起)、变量或算术表达式;表达式;参数可以是一个,也可以是多个,各参数间用逗号分隔。参数可以是一个,也可以是多个,各参数间用逗号分隔。3.2.4 SPSS3.2.4 SPSS函数函数 (3 3)SPSSSPSS函数大致可以分成八大类:函数大致可以分成八大类:算术函数:完成特定的算术计算功能。算术函数:完成特定的算术计算功能。P64P64统计函数:计算基本的描述统计量。统计函数:计算基本的描述统计量。P64P64分布函数:产生一个服从某种统计分布的随机数序列。分布函数:产生一个服从某种统计分布的随机数序列
15、。P65P65逻辑函数:用于逻辑判断。逻辑函数:用于逻辑判断。P66P66字符串函数:对字符型数据进行处理。字符串函数:对字符型数据进行处理。P66P66缺失值函数:用于判断缺失值。缺失值函数:用于判断缺失值。P67P67日期函数:对日期进行处理。日期函数:对日期进行处理。P67P67其他函数:一些辅助函数。其他函数:一些辅助函数。P68P68n(1 1)选择菜单)选择菜单TransformTransformComputeCompute,弹出,弹出Compute VariableCompute Variable对话框如下:对话框如下:3.2.5 3.2.5 变量计算的基本操作变量计算的基本操作
16、(2 2)在)在TargetTarget框中输入存放计算结果的变量名。框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,如果指定存放计算结果的变量为新变量,SPSSSPSS会自动会自动 创建它;如果指定产生的变量已经存在,创建它;如果指定产生的变量已经存在,SPSSSPSS会提问会提问是否以计算结果覆盖原有值。是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击新的变量默认为数值型,用户可以根据需要单击Type&LabelType&Label按钮修改,还可以对新变量加
17、变量名标签。按钮修改,还可以对新变量加变量名标签。(3 3)在)在Numeric ExpressionNumeric Expression框给出框给出SPSSSPSS算术表达式。可算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。输入。(4 4)如果希望对符合一定条件的个案进行变量计算,则)如果希望对符合一定条件的个案进行变量计算,则单击单击IfIf按钮,出现下面的窗口,选择按钮,出现下面的窗口,选择Include if case Include if case satisfies conditionsatisfies condit
18、ion选项,然后输入条件表达式。对选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。取值为系统缺失值。n1.1.利用职工基本情况数据,依据职称级别计算利用职工基本情况数据,依据职称级别计算实发工资。实发工资等于基本工资,依据职称实发工资。实发工资等于基本工资,依据职称1 1至至4 4等级分别上调等级分别上调5 5,3 3,2 2,1 1。n分析:分析:(1 1)基本工资)基本工资*系数系数(2 2)选择)选择“IF”“IF”按钮,对不同职称的职工分别按钮,对不同职称的职工分别计算实发工资。计算实发工资。3.
19、2.6 3.2.6 变量计算的应用举例变量计算的应用举例3.3 3.3 数据选取数据选取(1)(1)数据选取就是根据分析的需要,从已收集到的大批量数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为参与分析的过程,通常也称为抽样抽样。抽样的作用抽样的作用提高数据分析效率提高数据分析效率检验模型的需要检验模型的需要(2)SPSS2)SPSS可根据指定的抽样方法从数据编辑窗口中选出可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只部分样本以实现数据
20、选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。针对选出的数据,直到用户取消这种选取为止。(1 1)选取全部数据()选取全部数据(All casesAll cases)(2 2)按指定条件选取()按指定条件选取(If condition is satisfiedIf condition is satisfied )SPSS SPSS要求用户以要求用户以条件表达式条件表达式给出数据选取的条件,给出数据选取的条件,SPSSSPSS将自将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断件的个案,即条件
21、判断为真的个案为真的个案将被自动选取出来,而那将被自动选取出来,而那些条件判断为假的个案则不被选中。些条件判断为假的个案则不被选中。3.3.1 3.3.1 数据选取的基本方式数据选取的基本方式(3 3)随机抽样()随机抽样(Random sample of casesRandom sample of cases ),),对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式:式:近似抽样(近似抽样(ApproximatelyApproximately)近似抽样要求用户给出一个百分比数值,近似抽样要求用户给出一个百分比数值,SPSSSPSS
22、将按照这个比例将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。自动从数据编辑窗口中随机抽取相应百分比数目的个案。注注:由于由于SPSSSPSS在样本抽样方面的技术特点,抽取出的个案总数不在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差一定恰好精确地等于用户指定的百分比数目,会有小的偏差(此偏差不会对数据分析产生重要影响),因而称为近似抽样。此偏差不会对数据分析产生重要影响),因而称为近似抽样。精确抽样(精确抽样(ExactlyExactly)精确抽样要求用户给出两个参数。第一个参数精确抽样要求用户给出两个参数。第一个参数是希望选取
23、的是希望选取的个案数个案数,第二个参数是指定在,第二个参数是指定在前前几个个案几个个案中选取。中选取。SPSSSPSS自动在数据编辑窗口的自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个前若干个个案中随机精确地抽出相应个数的个案来。案来。(4 4)选取某一区域内的样本)选取某一区域内的样本(Based on time Based on time or case range or case range)即选取数据编辑窗口中样本号在指定范围内的即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案所有个案,要求给出这个范围的上、下界个案号码。号码。这种抽样方法
24、适用于时间序列数据。这种抽样方法适用于时间序列数据。(5 5)通过过滤变量选取样本)通过过滤变量选取样本(Use filter Use filter variable variable)即依据过滤变量的取值进行样本选取。要求指即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非定一个变量作为过滤变量,变量值为非0 0或非或非系统缺失值的个案将被选中。系统缺失值的个案将被选中。这种方法通常用这种方法通常用于排除包含系统缺失值的个案。于排除包含系统缺失值的个案。说明:说明:(1 1)完成数据选取后,以后的)完成数据选取后,以后的SPSSSPSS分析操分析操作仅针对那些被选中的
25、个案直到用户作仅针对那些被选中的个案直到用户再次改变再次改变数据的选取为止。数据的选取为止。(2 2)采用指定条件选取和随机抽样方法进)采用指定条件选取和随机抽样方法进行数据选取后,行数据选取后,SPSSSPSS将在数据编辑窗口中自动将在数据编辑窗口中自动生成一个名为生成一个名为filter_$filter_$的新变量,取值为的新变量,取值为1 1或或0 0。1 1表示本个案被选中,表示本个案被选中,0 0表示未被选中。该变量表示未被选中。该变量是是SPSSSPSS产生的中间变量,如果删除它则自动取产生的中间变量,如果删除它则自动取消样本抽样。消样本抽样。(1 1)选择菜单)选择菜单DataS
26、elect casesDataSelect cases(2 2)根据分析需要选择数据选取方法)根据分析需要选择数据选取方法(3 3)Unselected cases areUnselected cases are指定对未选中指定对未选中个案的处理方式个案的处理方式FilteredFiltered表示在未被选中的个案号码上打一表示在未被选中的个案号码上打一个个“/”/”标记;标记;DeletedDeleted表示将未被选中的个案从数据编辑表示将未被选中的个案从数据编辑窗口中删除。窗口中删除。3.3.2 3.3.2 数据选取的基本操作数据选取的基本操作Select Cases对话框 Filtere
27、dFiltered:未被选中:未被选中的个案号码上打一个的个案号码上打一个“”“”标记标记 deleted:deleted:未被选中的未被选中的个案删除个案删除 利用住房状况调查数据,根据不同的分析要求利用住房状况调查数据,根据不同的分析要求采用不同的数据选取方法抽样:采用不同的数据选取方法抽样:(1 1)只希望分析本市户口的住房状况。)只希望分析本市户口的住房状况。可以通过数据选择功能采用可以通过数据选择功能采用指定条件指定条件的抽样方的抽样方法进行抽样法进行抽样;(2 2)只希望对其中的)只希望对其中的7070的数据进行分析。的数据进行分析。可通过数据选择功能采用随机抽样中的可通过数据选择
28、功能采用随机抽样中的近似抽近似抽样样方法进行抽样。方法进行抽样。3.3.4 3.3.4 数据选取的应用举例数据选取的应用举例3.4 3.4 计数计数n3.4.1 3.4.1 计数目的计数目的 (1 1)SPSSSPSS实现的计数是对实现的计数是对所有个案所有个案或满足某条件的或满足某条件的部部分个案分个案,计算若干变量中有几个变量的值落在,计算若干变量中有几个变量的值落在指定的指定的区间内区间内,并将计数结果存入一个,并将计数结果存入一个新变量新变量中的过程。中的过程。(2 2)例如对大学毕业班学生的成绩进行综合测评时,)例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课
29、程中有几门课程得可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。了优,有几门课程得了良,有几门课程不及格。(3 3)SPSS SPSS实现计数的关键步骤是:实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新变量中指定哪些变量参与计数,计数的结果存入哪个新变量中指定计数区间(尤为关键)指定计数区间(尤为关键)SPSSSPSS中的计数区间可以有以下几种描述形式:中的计数区间可以有以下几种描述形式:v单个变量值(单个变量值(ValueValue)v系统缺失值(系统缺失值(System-missingSystem-missing)v系统缺失值或用户
30、缺失值(系统缺失值或用户缺失值(System or user-System or user-missingmissing)v给定最大值和最小值的区间(给定最大值和最小值的区间(n through mn through m)v小于等于某指定值的区间(小于等于某指定值的区间(Lowest through nLowest through n)v大于等于某指定值的区间(大于等于某指定值的区间(n through highestn through highest)3.4.2 3.4.2 计数区间计数区间 (1 1)上述后三个计数区间很容易理解。上述后三个计数区间很容易理解。例如评价学生成绩,成绩为优的计
31、数区间可以例如评价学生成绩,成绩为优的计数区间可以指定为指定为90 through highest90 through highest,成绩为良的计数,成绩为良的计数区间指定为区间指定为80 through 8980 through 89,不及格的计数区,不及格的计数区间指定为间指定为Lowest through 59Lowest through 59。(2 2)前三个计数区间实际上是一些)前三个计数区间实际上是一些离散的离散的数数据点,严格讲并不是区间,但据点,严格讲并不是区间,但SPSSSPSS仍将其归在仍将其归在广义区间的范畴内,目的是方便一些其他的应广义区间的范畴内,目的是方便一些其他
32、的应用。用。(1)选择菜单TransformTransformCountCount,出现如下窗口:3.4.3 3.4.3 计数的基本操作计数的基本操作(2 2)将参与计数的变量选到)将参与计数的变量选到 Variables Variables框中框中(3 3)在)在Target VariableTarget Variable框中输入存放计数结果的框中输入存放计数结果的变量名,并在变量名,并在Target LabelTarget Label框中输入相应的变量框中输入相应的变量名标签。名标签。(4 4)单击)单击Define ValuesDefine Values按钮定义计数区间,出现按钮定义计数
33、区间,出现如下图窗口:如下图窗口:通过单击通过单击AddAdd、ChangeChange、RemoveRemove按钮完成计按钮完成计数区间的增加、修改和删除。数区间的增加、修改和删除。(5 5)如果仅希望对满足某条件的个案进行)如果仅希望对满足某条件的个案进行计数,则单击计数,则单击IfIf按钮并输入相应的按钮并输入相应的SPSSSPSS条件表达式。否则,本步可略去。条件表达式。否则,本步可略去。n利用住房状况调查数据分析被调查家庭中有多利用住房状况调查数据分析被调查家庭中有多少比例的家庭对目前的住房满意且今后三年不少比例的家庭对目前的住房满意且今后三年不准备买房。准备买房。分析:分析:(1
34、 1)参与计数的变量:住房满意、未来三年)参与计数的变量:住房满意、未来三年3.4.4 3.4.4 计数的应用举例计数的应用举例3.5 3.5 分类汇总分类汇总n3.5.1 3.5.1 分类汇总的目的分类汇总的目的 分类汇总是按照分类汇总是按照某分类变量某分类变量进行分类汇总计算。进行分类汇总计算。SPSS SPSS实现分类汇总涉及两个主要方面实现分类汇总涉及两个主要方面(1 1)按照哪个变量进行分类)按照哪个变量进行分类(2 2)对哪个变量进行汇总,并指定对汇总变量)对哪个变量进行汇总,并指定对汇总变量计算哪些统计量。计算哪些统计量。(1 1)选择菜单)选择菜单DataDataAggrega
35、teAggregate,出现如下所示的窗口:,出现如下所示的窗口:3.5.2 3.5.2 分类汇总的基本操作分类汇总的基本操作(2 2)将分类变量选到)将分类变量选到Break Variable(s)Break Variable(s)框中框中(3 3)将汇总变量选到)将汇总变量选到Aggregate Variable(s)Aggregate Variable(s)框框中中(4 4)单击)单击FunctionFunction按钮,指定对汇总变量计算按钮,指定对汇总变量计算哪些统计量。哪些统计量。SPSSSPSS默认计算均值。默认计算均值。(5 5)指定将分类汇总结果保存到何处。有三种)指定将分类
36、汇总结果保存到何处。有三种选择:选择:Add Aggregated Variables to working data Add Aggregated Variables to working data filefile,表示将结果存放到当前数据编辑窗口中。表示将结果存放到当前数据编辑窗口中。Create new data fileCreate new data file,表示将结果存放到系,表示将结果存放到系统默认的名为统默认的名为aggr.savaggr.sav的的SPSSSPSS数据文件中,可数据文件中,可以单击以单击FileFile按钮,重新指定文件名;按钮,重新指定文件名;Replac
37、e working data fileReplace working data file,表示用分类汇,表示用分类汇总结果覆盖数据编辑窗口中的数据。总结果覆盖数据编辑窗口中的数据。一般选择第二种方式,结果比较清晰。一般选择第二种方式,结果比较清晰。(6 6)单击)单击Name&LabelName&Label按钮,重新指定结果文件中的按钮,重新指定结果文件中的变量名或添加变量名标签。变量名或添加变量名标签。SPSSSPSS默认的变量名为默认的变量名为原变量名后加原变量名后加_ _统计量名称。如:统计量名称。如:a_meana_mean。(7 7)如果希望在结果文件中保存各分类组的个案数,)如果希
38、望在结果文件中保存各分类组的个案数,则选择则选择Number of caseNumber of case选项。于是,选项。于是,SPSSSPSS会在结会在结果文件中自动生成一个默认名为果文件中自动生成一个默认名为N_BreakN_Break的变量,的变量,可以修改该变量名。可以修改该变量名。说明:说明:(1)分类汇总中的分类变量可以是多个,此时的分)分类汇总中的分类变量可以是多个,此时的分类汇总称为类汇总称为多重分类汇总多重分类汇总。(2)类似于数据的排序,在多重分类汇总中,指定)类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定多个分类变量的前后次序是很关键
39、的。第一个指定的分类变量为主分类变量,其他的依次为第二、第的分类变量为主分类变量,其他的依次为第二、第三分类变量等,它们决定了分类汇总的先后次序。三分类变量等,它们决定了分类汇总的先后次序。n例例1 1:根据住房状况调查数据分析本市户口和:根据住房状况调查数据分析本市户口和外地户口家庭目前人均面积的平均值是否存在外地户口家庭目前人均面积的平均值是否存在较大差异?未来打算购买住房计划面积的平均较大差异?未来打算购买住房计划面积的平均值是否存在较大差异?值是否存在较大差异?分析:分析:(1 1)利用分类汇总功能计算不同户口家庭住房)利用分类汇总功能计算不同户口家庭住房面积的平均值、未来购房面积的平
40、均值进行比面积的平均值、未来购房面积的平均值进行比较。较。(2 2)分类变量:户口状况)分类变量:户口状况 汇总变量:人均面积、计划面积汇总变量:人均面积、计划面积3.5.3 3.5.3 分类汇总的应用举例分类汇总的应用举例3.6 3.6 数据分组数据分组n3.6.1 3.6.1 数据分组的方法数据分组的方法 (1 1)数据分组就是根据统计研究的需要,将)数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为数据按照某种标准重新划分为不同的组别不同的组别。在。在数据分组的基础上进行的数据分组的基础上进行的频数分析频数分析更能够概括更能够概括和体现数据的分布特征。和体现数据的分布特征。(2
41、)2)为适用于不同的统计分析需要,为适用于不同的统计分析需要,SPSSSPSS提供提供了以下几种数据分组方法:了以下几种数据分组方法:单项式分组单项式分组 组距分组组距分组 居民家庭按人口数居民家庭按人口数单项单项式分式分组组 按家庭人口数分按家庭人口数分组组(人)(人)居民居民户户数数(户户)12345人及以上人及以上合合计计 离散型变量如果变量值的变离散型变量如果变量值的变动范围不大,可以将一个变动范围不大,可以将一个变量值作为一组,称单项式分量值作为一组,称单项式分组。如右表:组。如右表:单项式分单项式分组组 在连续型变量或离散在连续型变量或离散型变量值较多的情况型变量值较多的情况下,可
42、采用组距式分下,可采用组距式分组形式。组形式。n 组距式分组就是把组距式分组就是把全部变量值划分为几全部变量值划分为几个区间,每一区间的个区间,每一区间的变量值作为一组。如变量值作为一组。如右表:右表:按日产零件数分组按日产零件数分组(个)(个)工人数工人数(人)(人)506060707080809090以上以上合计合计组距式分组距式分组组n组距式分组中涉及的几个组距式分组中涉及的几个关键点关键点:(1 1)全距全距:最大值与最小值之差:最大值与最小值之差(2 2)组数组数:组数的多少以分组后能恰当反映总体内部的分:组数的多少以分组后能恰当反映总体内部的分布特征和规律为好。可按布特征和规律为好
43、。可按SturgesSturges经验公式确定组数:经验公式确定组数:(3 3)组距组距全距全距组数。组数。(4 4)根据各组的组距是否相等,又可以分为等)根据各组的组距是否相等,又可以分为等距分组和不等距分组两种方式。距分组和不等距分组两种方式。(5 5)组限组限:组距两端的数值称为组限,:组距两端的数值称为组限,每组的最大值称为上限,用每组的最大值称为上限,用U U(Upper limitUpper limit)表示,)表示,每组的最小值称为下限,用每组的最小值称为下限,用L L(Lower limitLower limit)表示。)表示。统计数据时,注意统计数据时,注意“上组限不在内上组
44、限不在内”法则。法则。极端组可采用开放式组距。极端组可采用开放式组距。(6 6)组中值组中值:每组上、下限之间的中点数值。:每组上、下限之间的中点数值。闭口组:组中值闭口组:组中值=(上限十下限)(上限十下限)22缺上限组:组中值缺上限组:组中值=下限下限+邻组组距邻组组距/2/2缺下限组:组中值缺下限组:组中值=上限上限-邻组组距邻组组距/2/2 例如:职工基本情况数据,可按基本工资对职工进行分组,见下表:按工资分组(元)频数(人)频率()850以下531.3850900531.390095016.39501000212.51000以上318.6SPSSSPSS单变量值分组的基本操作步骤:单
45、变量值分组的基本操作步骤:(1 1)选择菜单)选择菜单TransformTransformAutomatic RecodeAutomatic Recode(2 2)将分组变量选择到)将分组变量选择到VariableVariableNew NameNew Name框框中中(3 3)在)在New NameNew Name框后输入存放分组结果的变量框后输入存放分组结果的变量名,并单击名,并单击AddAdd New NameNew Name按钮按钮(4 4)在)在Recode Starting fromRecode Starting from框中选择单变量框中选择单变量值分组按升序还是按降序进行。值分
46、组按升序还是按降序进行。Lowest valueLowest value表示升序;表示升序;Highest valueHighest value表示降序。表示降序。3.6.2 SPSS3.6.2 SPSS的单项式分组的单项式分组单变量值分组应用举例:单变量值分组应用举例:1.1.按职工的职称升序进行分组。按职工的职称升序进行分组。(1)组数和组距确定后,便可实施分组操作了,在分组操作时组数和组距确定后,便可实施分组操作了,在分组操作时应:应:v指定分组变量指定分组变量v定义分组区间(注意遵循定义分组区间(注意遵循“不重不漏不重不漏”原则)原则)v指定存放结果的变量指定存放结果的变量(2 2)S
47、PSSSPSS对分组结果有两种存放策略对分组结果有两种存放策略:用分组变量值覆盖原变量(用分组变量值覆盖原变量(Into Same VariablesInto Same Variables),),将分组结果存到一个新变量中(将分组结果存到一个新变量中(Into Different Into Different VariablesVariables)。)。相应的操作也略有差异。通常采用第二种策略。相应的操作也略有差异。通常采用第二种策略。3.6.3 SPSS3.6.3 SPSS的组距式分组的组距式分组1.Into Same Variables1.Into Same Variables分组操作分组
48、操作(1 1)选择菜单)选择菜单TransformTransformRecodeRecode Into Same Variables Into Same Variables。(2 2)在出现的窗口中将分组变量选择到)在出现的窗口中将分组变量选择到VariablesVariables框中。框中。(3 3)单击)单击Old and New ValuesOld and New Values按钮进行分组区间定义。按钮进行分组区间定义。(4 4)在分组区间定义窗口中指定分组区间的下限和上限,并)在分组区间定义窗口中指定分组区间的下限和上限,并在在New ValueNew Value框中给出该区间对应的分
49、组值。单击框中给出该区间对应的分组值。单击AddAdd按钮确按钮确认分组区间并加到认分组区间并加到OddOdd NewNew框中。单击框中。单击ChangeChange和和RemoveRemove按钮按钮来修改和删除分组区间。来修改和删除分组区间。(5 5)如果仅对符合一定条件的个案分组,则单击)如果仅对符合一定条件的个案分组,则单击IfIf按钮并输按钮并输入入SPSSSPSS条件表达式。否则,本步可略去。条件表达式。否则,本步可略去。2.Into Different Variables2.Into Different Variables分组操作分组操作(1 1)选择菜单)选择菜单Transf
50、ormTransformRecodeRecode Into Different Into Different VariablesVariables。(2 2)在出现的窗口中将分组变量选择到)在出现的窗口中将分组变量选择到Input Variable Input Variable Output VariableOutput Variable框中。框中。(3 3)在)在Output VariableOutput Variable后输入存放分组结果的变量名,后输入存放分组结果的变量名,并单击并单击ChangeChange按钮确认。可以在按钮确认。可以在LabelLabel后输入相应的变量后输入相应的