《变量级别的数据管理.ppt》由会员分享,可在线阅读,更多相关《变量级别的数据管理.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第3章 变量级别的数据管理2013.9 数据管理:对数据进行加工处理。对同一个数据需进行不同侧面的研究,可采取多种统计方法,不同的统计方法对数据文件结构的要求不同,这需要对数据文件的结构进行重新调整或转换,以便适用于相应的统计方法。数据管理直接关系到数据分析的结果。数据文件的管理功能集中于:l“转换”(Transform)菜单变量级别管理l“数据”(Data)菜单文件级别管理“转换”(Transform)菜单的项目分为几类:l 计算新变量:“计算变量”(Compute)过程;l 变量转换:“重新编码”(Recode)“离散化”(Visual Bander)“计数”(Count)“个案排秩”(R
2、ank Cases)“自动重新编码”(Automatic Recode)l 专用过程:日期/时间(Date/Time)创建时间序列(Create Time Series)替换缺失值(Replace Missing Values)随机数字生成器(Random Number Seed)l 运行挂起的转换(Run Pending Transforms)3.1 变量赋值l 所谓变量赋值是指在原有数据的基础上,根据用户的要求,使用SPSS算术表达式及函数,对所有记录或满足条件表达式的某些记录进行四则运算,并将结果存入一个用户指定的变量中。该变量可以是一个新变量,也可以是一个已经存在的变量。常用基本概念1
3、.算术表达式(Numeric Expression),用于进行变量转换,是由常量、变量名、算术运算符、圆括号等组成的式子。2.函数,有70余种系统函数,分为8类,包括算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其他函数。函数名(参数)是函数具体的书写形式,系统已经规定好的;圆括号中的参数可是一个或多个(多个参数之间用单字符逗号隔开);参数类型:常量、变量、算术表达式。3.条件表达式和逻辑表达式,是对指定部分记录进行计算和逻辑运算。如果上述三者同时出现,要先满足条件后计算。“计算变量”过程l“计算变量”(Compute)l 利用算术符号和函数生成新结果,结果保存
4、到指定变量中,指定变量可以是新变量,也可以是一个已存在的变量。例3.1 将年龄分为3组。又例1 数据transform.savl平均成绩=(语文成绩+数学成绩+英语成绩)/3l英语成绩在60分以上的学生语文和数学的平均成绩l 又例2 调整后工资计算“个人”所得税。调整后工资额小于1200元,税为0;工资额在1200-1700之间,税为(调整后工资额-1200)0.05;工资额在1700-3200元之间,税为(调整后工资额-1200)0.1-25;工资额在3200-6200元之间,税为(调整后工资额-1200)0.15-125。l 又例3 辽宁样本家暴课题数据(部分)中,“出生年”变量计算为新变
5、量“年龄”。3.2 对已有变量值的分组合并l 重新编码(Recode)l 连续变量转换为等级变量(分类变量或离散变量),如年龄、收入;l 将数值型变量转换为字符型变量,将字符型变量转换为数值型变量;l 将分类变量不同的变量等级进行合并,如教育程度;l 重新编码为相同变量(Recode into Same Variable)和重新编码为不同变量(Recode into Different Variable)。3.2.1 对连续变量进行分组合并 连续变量转换为离散变量(等级或定序变量),生成新变量值,新值可赋给原变量,可生成新变量。l 通过两个过程实现:“重新编码”(Recode)和“离散化分段”
6、(Visual Bander)例3.2 以例3.1运用“重新编码”过程操作。又例 数据transform.sav 生成新变量grade。当英语成绩小于60分取值为“不及格”,60-70分为“及格”,70-80分为“良好”,大于等于80分为“优秀”。3.2.2分类变量类别的合并 还以例3.1运用“重新编码”过程操作。又例 数据transform.sav 生成新变量grade2,将grade中的优秀、良好和及格合并为“PASS”等级,将“不及格”转化为“NOPASS”。3.3 连续变量的离散化3.3.1 可视离散化过程l“可视离散化”(Visual Bander)l SPSS12.0中新增的功能;
7、l 可以进行等距分组,或等样本量分组;l 采用图形化的操作方式。l 例3.2 将S3年龄变量等间距分为10组。3.3.2 最优离散化过程l“最优离散化”过程是根据某些作为“关键指示变量”的分类变量,将原有的一个或多个连续变量按照该分类变量间差异最大化的优化原则离散化为分类变量,即可用离散化变量而非原始数据值进行后续分析。l 用于建模分析。当模型中的因变量为分类变量时,要对自变量进行离散化(分类化)。l 例3.3 利用S3年龄变量对S4学历进行预测建模,要求基于此构思对S3进行最优离散化。3.4 变量的自动重编码与数值移动3.4.1 变量的自动重编码l“重新编码”(Recode)l“自动重新编码
8、”(Automatic Recode)例3.4 S0城市的数值分别为100、200、300,自动编码为S0new又例 在transform.sav数据中,将字符型变量city转化为数值型变量newcity。3.4.2 变量值的移动 3.5“转换”(Transform)菜单中的其他功能3.5.1 指定数值的查找与计数“计数”(Count)过程:表示某个变量的取值中是否出现某个值,该值可是单个数值,可是指定区间,可给出条件,对部分数据进行操作。例3.5 生成新变量S3Old,用于标识出S355的个案。S2性别为“条件”3.5.2 变量的编秩l“个案排秩”(Rank Cases)编秩是对记录按照某个变量值的大小来排序。l 新变量代表名次 举例:对按平均成绩排名,分数最高的第一名l 相同分数的名次处理l 与“对个案排序”(Sort Cases)的区别,“对个案排序”:升降序、多个变量排序。例3.6 根据S2性别分组计算S3年龄的秩次又例 在transform.sav数据中,根据性别分组计算数学成绩的秩次。