数据统计分析SPSS教程完整版1PPT教案课件.pptx-淘文阁

资源描述

《数据统计分析SPSS教程完整版1PPT教案课件.pptx》由会员分享，可在线阅读，更多相关《数据统计分析SPSS教程完整版1PPT教案课件.pptx（438页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、会计学1数据统计分析数据统计分析SPSS教程完整版教程完整版1第第1 1章章数据分析概述与软件入门数据分析概述与软件入门1.1 SPSS1.1 SPSS软件概述软件概述1.1.1 SPSS1.1.1 SPSS简介简介 SPSSSPSS（Statistics Package for Social Science Statistics Package for Social Science）for Windowsfor Windows是一种运行在是一种运行在WindowsWindows系统下的社会科学统计软件软件包。系统下的社会科学统计软件软件包。SPSSSPSS的基本功能包括数据管理、统计分析、

2、图表分析、输出管理等，具的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。个大类，每个类中还有多个专项统计方法。一、功能强大一、功能强大（1）囊括了各种成熟的统计方法与模型，为统计分析用户提供了全方位的统计学算法，为各种研究提供了相应的统计学方法。（2）提供了各种数据准备与数据整理技术。（3）自由灵活的表格功能。

3、（4）各种常用的统计学图形。二、二、SPSSSPSS的实验环境要求的实验环境要求n n（1 1）系统运行环境）系统运行环境n nSPSS10.0SPSS10.0以上版本软件包可以工作在两种模式下，单机模式和作为网络系统以上版本软件包可以工作在两种模式下，单机模式和作为网络系统的用户界面模式。的用户界面模式。n n（2 2）辅助软件环境）辅助软件环境三、三、SPSSSPSS的主要界面的主要界面SPSSSPSS的主要界面有数据编辑窗口和结果输出窗口。的主要界面有数据编辑窗口和结果输出窗口。四、四、SPSSSPSS的帮助系统的帮助系统n nSPSSSPSS对一些基本模块中的统计提供了帮助，可以通过单

4、击对一些基本模块中的统计提供了帮助，可以通过单击HelpHelp菜单菜单中的中的Statistics CoachStatistics Coach命令，选择所需要的统计指导。命令，选择所需要的统计指导。SPSS附加模块功能SPSS Advanced一般线性模型、混合线性模型、对数线性模型、生存分析等SPSS Categories对应分析、感知图、Proxscal等SPSS Complex Sample多阶段复杂抽样技术等SPSS Conjoint正交设计、联合分析等，适用于市场研究SPSS Exact Test精确P值计算、随机抽样P值计算等SPSS Maps在地图上展示数据等SPSS Miss

5、ing Value Analysis缺失数据的报告与填补等SPSS RegressionLogistic回归、非线性回归、Probit回归等SPSS Tables交互式创建各种表格（如堆积表、嵌套表、分层表等）SPSS TrendsArima模型、指数平滑、自回归等五、五、五、五、SPSSSPSS的运行方式的运行方式的运行方式的运行方式SPSS提供了3种基本运行方式：完全窗口菜单方式，程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发，编写自己的SPSS命令程序，通过语句直接运行。SPSS中使用的对话框主要有两类，一类是文件操作对话框，文件操作对话窗口操作与Wi

6、ndows应用软件操作风格一致。另一类是统计分析对话框，统计分析对话框可以分为主窗口和下级窗口，在该类对话框中，选择参与分析的各类变量及统计方法是对话框的主要任务。1.1.2 spss的安装的安装一、启动一、启动Windows Windows 后，把后，把SPSS SPSS 系统安装软盘（或光盘）插入软驱（或光驱）系统安装软盘（或光盘）插入软驱（或光驱），并找到，并找到SPSSSPSS的安装程序的可执行文件的安装程序的可执行文件Setup.exeSetup.exe。二、双击二、双击 Setup.exe Setup.exe 文件，安装程序向导将给出每一步操作的提示。在出现文件，安装程序向导将给出

7、每一步操作的提示。在出现WelcomeWelcome（欢迎）（欢迎）窗口后，选择窗口后，选择NextNext进入下一步。进入下一步。三、安装程序显示三、安装程序显示Software License AgreementSoftware License Agreement对话框时，选择对话框时，选择YesYes接受显示接受显示的协议条款。的协议条款。1.2 spss1.2 spss操作入门操作入门1.2.1 spss1.2.1 spss软件的启动与退出软件的启动与退出n n单击单击Windows Windows 的的开始开始按钮，在按钮，在程序程序菜单项菜单项SPSS for SPSS f

8、or WindowsWindows中找到中找到SPSS 10.0 for WindowsSPSS 10.0 for Windows并单击。并单击。1.2.2 SPSS的的5个窗口个窗口（1 1）数据编辑窗口（）数据编辑窗口（SPSS Data EditorSPSS Data Editor）Spss处理数据的工作全在此窗口进行。（2）结果管理窗口（SPSS Output viewer）此窗口用于存放分析结果。左边是目录区，右边是内容区。（3 3）草稿结果窗口（）草稿结果窗口（SPSS Draft ViewerSPSS Draft Viewer）草稿结果是结果的一种简化文本格式。实际上就是WORD

9、所兼容的rtf超文本格式，因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。（4）语法编辑窗口（SPSS Syntax Editor）（5）脚本窗口（SPSS Script Editor）1.2.3 SPSS的四种运行方式的四种运行方式一、菜单对话方式一、菜单对话方式首先打开首先打开SPSSSPSS软件，然后选择菜单软件，然后选择菜单File Open fileFile Open file。然后，利用菜单Analyze Descriptive Statistics Frequencies，二、程序方式在Syntax编辑窗口中键入以下程序：Get file=c:program files

10、spssemployee data.sav.Frequencies variables=jobcat/order=analysis。只需要选择菜单Run All，运行该程序也一样会出现相同的分析结果。三、Include命令方式当编写Syntax程序时，如果发现将要编写的程序语句正好是另一个Syntax文件的内容；或者发现所需要的程序语句其实是几个Syntax文件的总和是，除了可以通过“Copy”、“Paste”的方法利用资源，生产一个新的Syntax文件外，还可以利用Include命令。Include c:sytaxsample.sps.四、四、spss Production Faccilit

11、y spss Production Faccility 方式方式在Windows的程序菜单中，spss菜单组除了有“spss for windows”项之外，还有一个“spss production facility”。（1）单击Syntax框下的“Add”按钮，到C盘根目录下打开“syntaxsample”。（2）单击Syntax框下的“Edit”按钮，对程序进行编辑。（3）单击右下角的“uesr prompts”按钮，添加对程序的交互分析界面。（4）单击“Browse”按钮制定结果保存路径，单击“export options”按钮还可以制定结果保存格式。1.2.4 spss的四种输出结果的

12、四种输出结果n n1、表格格式n n2、文本格式n n3、标准图与交互图n n4、结果的保存和导出第第2 2章章数据录入与数据获取数据录入与数据获取本章主要解决两个问题：第一个问题，根据问题类型的不同，将会从开放题、单选题和多选题的录入方式为例进行介绍。第二个问题，重点介绍如何用SPSS直接读取Excel类型和文本格式的数据，以及如何用ODBC接口读取数据库文件。n n2.1.1 2.1.1 统计软件中数据的录入格式统计软件中数据的录入格式n n（1 1）不同观测对象的数据不能在同一记录中出现，即同一）不同观测对象的数据不能在同一记录中出现，即同一观测数据应当独占一行。观测数据应当独占一行。

13、n n（2 2）每一个观测量指标或影响因素只能占据一列的位置，）每一个观测量指标或影响因素只能占据一列的位置，即同一指标的数量观测值都应当录入到同一个变量中去。即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述数据格式概述即：一个观测占一行，一个变量占一列在录入数据时，归纳为以下三步：第一步：定义变量名；第一步：指定每个变量的各种属性；第一步：录入数据。变量名不能与spss保留字相同，spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍变量属性介绍一、变量的储存类型一、变量的储存类型一、变量的储存

14、类型一、变量的储存类型n nSPSSSPSS中，变量有三种的基本类型：数值型、字符型和日期型。中，变量有三种的基本类型：数值型、字符型和日期型。标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型：数值型的数据是0-9的阿拉伯数字和其他符号，如美元符号、逗号或圆点组成的。字符型：字符型数据的默认显示宽度为8个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。注意：在输入数据时不应输入引号，否则双引号将会作为字符型数据的一部分。日期型：日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多，SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上，S

15、PSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。关于日期型格式的几点说明：“m”在年与日（字母y与d）之间表示月份；在时与秒（字母h与s）之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式，不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期，回车后，系统将自动将输入的格式转化为指定的格式，显示在单元各种。二、变量的测量尺度二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。（1）定类尺度（Nominal Measure

16、ment）：定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。特点：其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。（2）定序尺度（Ordinal Measurement）：定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。特点：由于定序变量只能侧度类别之间的顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只

17、能排序，不能进行运算。（3）定矩尺度（Interval Measurement）：定矩尺度是对事物类别或次序之间间距的测度。特点：不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定居变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。（4）定比尺度（Scale Measurement）：定比尺度是能够测算两个测度值之间比值的一种计量尺度，它的测量结果同定距变量一样表现为数值。特点：定必变量是测量尺度的最高水平，它除了具有其他三种测量尺度的全部特点外，还具有可计算两个侧度至之间笔直的特点，因此它可以进行加、减、乘、除运算，而定

18、居变量值可进行加减运算。三、变量名与变量标签值三、变量名与变量标签值Label：定义变量名标签Value：定义变量值标签四、缺失值四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中，对字符型变量，默认的缺失值为空格；对数值型变量，默认的缺失值为零。2.2 数据的直接录入数据的直接录入n n2.1.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条Data View表可以直接输入观测数据值或存放数据，表的左端列边框显示观测个体的序号，最上端行边框显示变量名。Variable View表用来定义和修改变量的名称、类型及其他属性

19、，如图所示。如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等。在Variable View表中，每一行描述一个变量，依次是：Name：变量名。变量名必须以字母、汉字及开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。Type：变量类型。变量类型有8 种，最常用的是Numeric数值型变量。其它常用的类型有：String字符型，Date日期型,Comma逗号型（隔3位数加一个逗号）等。Width：变量所占的宽度。Decimals：小数点后位数。Label：变量标

20、签。关于变量涵义的详细说明。Values：变量值标签。关于变量各个取值的涵义说明。Missing：缺失值的处理方式。Columns：变量在Date View 中所显示的列宽（默认列宽为8）。Align：数据对齐格式（默认为右对齐）。Measure：数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。为了在统计分析过程中能有效的利用其它软件产生的数据，SPSS软件编辑窗口除可以使用*.sav扩展名数据文件，还可以直接打开和保存下述类型的文件：SPSS DOS版本产生的数据文件*.sys；Excel 报表程序产生的数据文件*.xls；DBASE 数据库格式文件*.dbf

21、；SAS统计软件产生的数据文件。2.2.2 开放题和简单单选题的录入开放题和简单单选题的录入一、在一、在spss中定义变量中定义变量录入数据的第一步是定义变量属性，随后才能进行数据录入。二、开放题的录入二、开放题的录入三、单选题的录入三、单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。2.2.3多选题的录入多选题的录入一、多重二分法（一、多重二分法（Multiple Dichotomy MethodMultiple Dichotomy Method）所谓多重二分法，是在编码的时候，对应每一个选项都要定义所谓多重二分法，是在编码的时候，对应每一个选项都要

22、定义一个变量，有几个选项就有几个变量，这些变量均为二分类，一个变量，有几个选项就有几个变量，这些变量均为二分类，他们各自代表对一个选项的选择结果。他们各自代表对一个选项的选择结果。二、多重分类法（二、多重分类法（Multiple Category MethodMultiple Category Method）多重分类法，也是利用多个变量对一个多选题的答案进行定义，多重分类法，也是利用多个变量对一个多选题的答案进行定义，应该用多少个变量，由被访者实际可能给出的最多答案数而应该用多少个变量，由被访者实际可能给出的最多答案数而定。定。三、多选题录入在三、多选题录入在spss中的实现中的实现2.3 外

23、部数据的获取外部数据的获取SPSS读入非SPSS类型的文件数据，有三种主要方式：直接打开，利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。2.3.1 电子表格数据如何导入电子表格数据如何导入spss中中SPSS中可以直接读入许多常用格式的数据文件，选择菜单File Open Data或直接单击快捷键工具栏上的快捷按钮，系统就会弹出Open File 对话框，单击“文件类型”列表框，在里面能够看到可以直接打开的数据文件格式。2.3.2 文本数据如何导入文本数据如何导入spss中中第一步：首先，在Open File 文件框中选中文件，单击“打开”，系统会自动启动文本倒入向导对话框。第

24、二步：选择“NO”并单击“下一步”按钮。用某种字符区分固定宽度第三步：分别选择“Delimited”和“yes”,然后单击“下一步”按钮。第四步第四步第五步第五步第六步第七步2.4 数据的保存数据的保存n n2.4.1 2.4.1 存为存为spssspss格式格式2.4.2 2.4.2 存为其他数据格式存为其他数据格式第第3 3章章数据管理数据管理n n3.1 3.1 变量级别的数据管理变量级别的数据管理对变量进行操作的内容主要集中于Transform菜单中，包括新变量的生成、记录的排序、对变量进行计数等。计算新变量：就是用Compute过程。变量转换：包括Recode、Visual Ban

25、der、Count、Rank Case、Automatic Recode这五个过程。专用过程：包括建立时间序列、缺失值代替和设定随机种子三个过程。Run Pending Transforming：用于执行编程中被挂起的数据整理操作。计算产生新变量变量值自动编码设定随机数种子创建代替缺失值变量创建时间序列变量运行其它转换程序变量值重新编码创建计数变量观测量排秩连续变量进行分段3.1.1 计算新变量计算新变量n n计算新变量的功能就是在原有计算新变量的功能就是在原有spssspss数据文件的基础上，根据数据文件的基础上，根据用户的要求，使用用户的要求，使用spssspss算术表达式及函数，对所有记

26、录或满算术表达式及函数，对所有记录或满足足SPSSSPSS条件表达式的记录，计算出一个新结果，并将结果存条件表达式的记录，计算出一个新结果，并将结果存入一个用户指定的变量中。入一个用户指定的变量中。n n一、常用基本概念一、常用基本概念 n n（1 1）spssspss算术表达式算术表达式 spssspss算术表达式是由常量、算术表达式是由常量、spssspss变量名、变量名、spssspss的算术运算符、圆括号等组成的式子。的算术运算符、圆括号等组成的式子。n n（2 2）spssspss函数函数 spssspss提供了多达提供了多达7070多种函数，分为八大类：算多种函数，分为八大类：算术

27、函数、统计函数、分布函数、逻辑函数、字符串函数、日术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。期时间函数、缺失值函数和其它函数。n n（3 3）spssspss条件表达式条件表达式通过通过spssspss的算术表达式和函数可以对所的算术表达式和函数可以对所有记录计算一个结果，如果仅希望对部分记录进行计算，则有记录计算一个结果，如果仅希望对部分记录进行计算，则应当利用应当利用spssspss的条件表达式指定对那些记录进行计算。的条件表达式指定对那些记录进行计算。二、二、compute过程的分析实例过程的分析实例n n例例3.1 3.1 统计英语成绩在统

28、计英语成绩在6060分以上的学生的数学和语文的平均分以上的学生的数学和语文的平均成绩。成绩。例3.2 计算工人工资的所得税。学生自己练习。3.1.2 对变量值进行分组合并对变量值进行分组合并一、对连续变量进行分组一、对连续变量进行分组在SPSS中可以将连续变量转换为离散（等级或定序）变量，按照某种一一对应的关系生成新变量值，可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务，但前者给为简单和常用。例3.3 当学生英语成绩小于60时取值为“不及格”，大于等于60且小于70为“及格”，大于等于70且小于80为“较好”，大于等于80为“优秀”。二、分类变量类别的

29、合并二、分类变量类别的合并Recode过程也常用于合并某个分类变量的几个水平为一个水平。将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”，将grade的等级“不及格”转换为“NOPASS”。3.1.3 连续变量的可视化分段连续变量的可视化分段VISUAL Bander 用于将连续变量进行分段，该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段，并采用图形化操作的方式。例3.4 对数学成绩进行分段，假设现在希望按变量math将学生分为5组，60分以下为第一组，60分以上的按照等间距的方式分为4组。3.1.4 将字符变量转换为数值变量将字符变量转换为数值变量n

30、 n用用automatic recodeautomatic recode将字符变量转换为数值变量。将字符变量转换为数值变量。3.1.5 变量的编秩变量的编秩n n所谓编秩，就是对记录按照某个变量值大小来排序。所谓编秩，就是对记录按照某个变量值大小来排序。Rank Rank casecase过程就是用来排序的一个专用过程。过程就是用来排序的一个专用过程。例：根据性别分组计算数学成绩的秩次。3.1.6 Transform菜单中的其它功能菜单中的其它功能n n（1 1）countcount过程过程如如果用户需要对满足果用户需要对满足某项条件的数据进某项条件的数据进行计数，可以使用行计数，可以使用C

31、ountCount命令。命令。先在Target Variable中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到Numeric Variables框中，再单击Define Values按纽，打开Value to Count对话框。Value:输入某个值为清点对象；System-missing:以系统的缺失值为清点对象；System-or user missing:以系统或用户指定的缺失值为清点对象；Range:指定数值的计数区域：其中包括：（）through（）在框内指定下限和上限lowest through（）:在框内只指定上限；（）highest t

32、hrough:在框内只指定下限。（2）random Number Seed过程：过程：用于设定伪随机函数的随机种子。用于设定伪随机函数的随机种子。3.2 文件级别的数据管理（一）文件级别的数据管理（一）数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括：对变量、观测量的编辑处理；对变量数据的变换；对观察量数据整理。（1）简单命令：包括插入变量、插入记录和到达某条记录，他们的功能实际上都可以用鼠标在数据表界面上直接完成，很少会使用菜单来调用。（2）常用的简单过程：包括排序、拆分文件、选择记录和加权记录。（3）变量与数据文

33、件属性导向：用于定义数据字典，或者将于定义的数据字典直接引入当前数据文件。（4）数重构过导向：用于进行数据转置，或者对重复测量数据表进行长型、宽型记录间的转换。（5）文件合并过程：将几个数据文件合并为一个大的spss数据文件，含横向合并和纵向合并两种情况。（6）正交设计过程：实际上是联合分析模块的一部分，用于生成实施联合分析所需要的设计。（7）其他过程：包括定义日期变量过程、数据汇总过程和查找重复记录导向。定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权3.2

34、.1 记录排序记录排序n n一、排序的两种方法一、排序的两种方法：n n（1 1）在数据表格的变量名处单击右键，弹出的右键菜单最后）在数据表格的变量名处单击右键，弹出的右键菜单最后两项就是两项就是“sort Ascending”sort Ascending”和和“Sort Descending”Sort Descending”。n n（2 2）对于多变量排序，则需要使用）对于多变量排序，则需要使用Sort CasesSort Cases过程来进行。过程来进行。n n二、多变量排序需要注意的三点：二、多变量排序需要注意的三点：n n（1 1）在多重排序中，制定排序变量名是很关键的，先指定的）在多

35、重排序中，制定排序变量名是很关键的，先指定的变量在排序时必然优先于后制订的变量。变量在排序时必然优先于后制订的变量。n n（2 2）可以指定按某变量值升序排序的同时按另一变量值降序）可以指定按某变量值升序排序的同时按另一变量值降序排序，或相反。排序，或相反。n n（3 3）排序以后，原来记录数据的排列次序将被打乱。）排序以后，原来记录数据的排列次序将被打乱。3.2.2 记录拆分记录拆分n nSplit File Split File 分割文件的功能是把当前工作分割成两个或两个分割文件的功能是把当前工作分割成两个或两个以上的组，随后的分析将对每个组进行。以上的组，随后的分析将对每个组进行。3.2

36、.3 记录筛选记录筛选n nSelect CasesSelect Cases：当用户不需要分析全部的数据，而是按要求分：当用户不需要分析全部的数据，而是按要求分析其中的一部分，使用该选择。析其中的一部分，使用该选择。All case：选择所有数据；If condition is satisfied:按指定条件选择数据。Random Sample of cases：对观察值进行随机抽样。Use filter variable：用指定变量作过滤。先选择一个变量，系统自动在数据管理器中将该变量值为0的观测单位标上删除记号，系统对标有删除记号的观测单位不作分析。Based on time or cas

37、e range：顺序抽样。单击Range按纽，打开Select Case:Range对话框，用户自行定义从第几个观察值开始抽到第几个观察值结束。3.2.4 3.2.4 加权记录加权记录n nWeight CasesWeight Cases：设定某变量为频数变量。：设定某变量为频数变量。：设定某变量为频数变量。：设定某变量为频数变量。3.2.5 数据汇总数据汇总n n所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量，结果可以存入新数据文件，也可以替换当各变量求指定的描述统计量，结果可以存入新数据文

38、件，也可以替换当前数据文件。前数据文件。一、汇总的概念一、汇总的概念二、进行分类二、进行分类汇总的方法汇总的方法1、打开“data”菜单，选择“Aggregate”，展开aggregate data”对话框。2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量（Break Variables）框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量（Aggregate Variables）框中，即要求这些变量的值进行分类汇总。4、“name&label”（名称与标签）：单击此按钮可以修改组合后所生成新变量名称以及标签：可以在name后面的矩形框中输入新变量名。在

39、Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。5、“Function”（函数）选择此项可以确定汇总变量的描述内容；系统默认函数为平均数。3.3文件级别的数据管理（二）文件级别的数据管理（二）n n3.3.1 3.3.1 数据字典的定义与应用数据字典的定义与应用n n在在大大型型的的数数据据分分析析项项目目中中，数数据据管管理理是是非非常常重重要要的的一一个个环环节节，为为了了保保证证工工作作质质量量，数数据据处处理理人人员员往往往往会会事事先先定定义义好好一一个个非非常常详详细细的的数数据据格格式式，包包括括变变量量格格式式、变变量量标标签签、标标签签值值、缺缺失值

40、定义等，这被称为数据字典。失值定义等，这被称为数据字典。n n一、变量属性定义导向：一、变量属性定义导向：Define Variable Properties Define Variable Properties 具体说来，可以列出所选变量的所有值；分辨没有值标签的值，并且提供自动给出值标签的功能；可以将另一个变量的属性拷贝到所选变量，也可以将所选变量的属性拷贝到其他变量。二、复制数据文件属性导向二、复制数据文件属性导向n nCopy Data Properties Copy Data Properties 过程用于将定义好的数据字典直接应用过程用于将定义好的数据字典直接应用到当前文件中。到当

41、前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中，还可以进行自行定义，只选择某些变量，或者某些属性进行拷贝，这无疑大大提高了连续性项目对原有资源的利用程度。3.3.2 查找重复记录查找重复记录n nIdentifying Duplicate CasesIdentifying Duplicate Cases：用于查找重复记录。：用于查找重复记录。运行结束后，结果窗口会给出本次操作的信息汇总：运行结束后，结果窗口会给出本次操作的信息汇总：运行结束后，结果窗口会给出本次操作的信息汇总：运行结束后，结果窗口会给出本次操作的信息汇总：3.3.3 数据文件的重新排列与转置数据文件的重

42、新排列与转置n n一、数据的长型与宽型格式：一、数据的长型与宽型格式：n n长型格式和宽型格式指的是重复测量数据的两种不同的排列长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。方式。由于重复测量模型可以使用不同的统计模型加以分析，因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。二、长型格式转换为宽型格式：二、长型格式转换为宽型格式：Restructure。选择Data Restructure，系统就会弹出下图导向。三、数据转置三、数据转置n nTransposeTranspose：用于对数进行行列转置，数据文件的转置就是：用于对数进行行列转置，数据文

43、件的转置就是将数据编辑窗口中数据的行列互换，即将记录转为变量，将数据编辑窗口中数据的行列互换，即将记录转为变量，将变量转为记录后，重新显示在数据编辑窗口中。将变量转为记录后，重新显示在数据编辑窗口中。Variable(s)：放入将要行列转置的变量名。在数据文件中，未放入栏中的变量会遗失。字符串变量不能转换，如强迫转换，变量值转变为系统缺失值。Name variable：变量命名栏，在左侧源变量栏中选择一个变量，放入name variable栏，技改变量的数据作为转置后的变量名。3.3.4 多个数据文件的合并多个数据文件的合并n n纵向连接：几个数据集中的数据相加，组成一个新的数据集，新数据集中

44、的纵向连接：几个数据集中的数据相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。记录是原来几个数据集中记录数的总和。n n横向连接：指的是按照记录的次序，或者某个关键变量的数值，将不同数据横向连接：指的是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数是所有原数据集中集中的不同变量合并为一个数据集，新数据集中的变量数是所有原数据集中不重名变量的总和。不重名变量的总和。n n一、数据文件的纵向连接一、数据文件的纵向连接一、数据文件的纵向连接一、数据文件的纵向连接n n纵向合并实质就是将两个数据文件的变量列，按照各个变量名

45、的含义，一一纵向合并实质就是将两个数据文件的变量列，按照各个变量名的含义，一一对应的进行首尾相接。对应的进行首尾相接。n n纵向合并必须遵循两个条件：纵向合并必须遵循两个条件：n n第一，两个合并的第一，两个合并的spssspss数据文件，其内容合并是有实际意义的。数据文件，其内容合并是有实际意义的。n n第二，为方便第二，为方便spssspss数据文件的合并，在不同的数据文件中，最好起相同的名字，数据文件的合并，在不同的数据文件中，最好起相同的名字，变量类型和变量长度也要尽量相同。变量类型和变量长度也要尽量相同。Unpaired variable：不匹配变量栏。指变量名相同而变量定义不同的变

46、量，或变量名不同的变量。Variable in new working data：新工作数据变量栏。Indicate case source as variable：指示记录来源的变量选项/二、数据文件的横向合并二、数据文件的横向合并n n横向合并的实质是将两个数据文件的记录，按照记录对应，横向合并的实质是将两个数据文件的记录，按照记录对应，一一进行左右对接。一一进行左右对接。n n横向合并遵循三个条件：横向合并遵循三个条件：n n第一，如果不是按照记录号对应的规律进行合并，则两个数第一，如果不是按照记录号对应的规律进行合并，则两个数据文件必须至少有一个变量名相同的公共变量，这个变量是据文件必

47、须至少有一个变量名相同的公共变量，这个变量是两个数据文件横向合并的依据，成为关键变量。两个数据文件横向合并的依据，成为关键变量。n n第二，如果是使用关键变量进行合并的对应，则两个数据文第二，如果是使用关键变量进行合并的对应，则两个数据文件都必须事先按关键变量进行升序排列。件都必须事先按关键变量进行升序排列。n n第三，为方便第三，为方便SPSSSPSS文件的合并，在不同的数据文件中，数据文件的合并，在不同的数据文件中，数据含义不相同的列，变量名不应取相同的名称。含义不相同的列，变量名不应取相同的名称。Excluded Variables：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作

48、区中。New Working Data：新工作数据变量栏。Match Case on Key Variable in sort：排序文件中按关键变量匹配记录选项。Both files provide case：由外部文件和当前数据量两者提供记录。External file is keyed table：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。Working Data File is keyed table：当前数据为关键表。Key Variables：关键变量栏，在拒绝变量选择某变量作为关

49、键变量。Indicate case source as variable：指示记录来源的变量选项。第第4 4章章连续性变量的统计描述与参数估连续性变量的统计描述与参数估计计n n4.1 4.1 连续变量的统计描述概述连续变量的统计描述概述n n4.1.1 4.1.1 统计描述中的可用工具统计描述中的可用工具n n（1 1）各种初步汇总描述方法）各种初步汇总描述方法n n频数、百分位数。频数、百分位数。n n（2 2）各种统计描述指标）各种统计描述指标n n均值、标准差、四分位数间距。均值、标准差、四分位数间距。n n（3 3）统计表）统计表n n（4 4）统计图）统计图4.1.2 连续变量的

50、统计描述指标体系连续变量的统计描述指标体系（1）集中趋势（Central Trend）：均数（Mean）中位数（Median）众数（Mode）总合（Sum）（4）其他趋势百分位数指标（Percentile）、M统计量（M-Estimators)、极端值（Outlier）。（2）离散趋势（Dispersion Trend）标准差（Std.Deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E.Mean）（3）分布特征（Distribution Tendency）偏度系数（Skewness）和峰度系数（Kurtosis

展开阅读全文