2022年Spss的数据预处理 .pdf-淘文阁

资源描述

《2022年Spss的数据预处理 .pdf》由会员分享，可在线阅读，更多相关《2022年Spss的数据预处理 .pdf（11页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Spss的数据预处理一、数据预处理的目的：在数据文件建立好后，通常还要对待分析的数据进行必要的预加工处理，这是数据分析过程中不可缺少的一个关键环节。数据的预加工处理是服务与数据分析和建模的，需要解决的问题如下：1、缺失值和异常数据的处理。2、数据的转换处理。数据的转换处理是在原有数据的基础上，计算产生一些含有更丰富信息的新数据或对数据原有分布进行转换等。3、数据抽样。从实际问题、算法或效率等方面考虑，并非收集到的所有数据（个案）在某项分析中都有用途，有必要按照一定的规则从大量数据中选取部分样本参与分析。4、选取变量。并非所有数据项（变量）在某项分析中均有意以，选取部分变量参与分析是必要的。

2、Spss 提供了一些专门的功能辅助用户实现数据的预加工处理工作，通过预处理还可以使用户对数据的总体分布有所了解。二、数据预处理步骤：1、数据的排序：（1）数据排序的目的：a、通常数据编辑窗口中个案的前后次序是由数据数录入的先后顺序决定的，数据排序便于数据的浏览，有助于了解数据取值状况、缺失值数量的多少。、通过数据排序能够快速找到最大值和最小值，进而可以计算出数据的全距，快速把握和比较数据的离散程度。c、通过数据排序能够快速发现数据的异常值。（2）、数据排序的步骤：a、选择菜单：【Date】【 Sort Cases 】b、指定主排序量到【Sort by】框中，并选择【 Sort Order】框

3、中的选项指出名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 11 页 - - - - - - - - - 该变量按升序还是降序排序排序。【 Ascending】表示升序，【Descending 】表示降序。c、如果是多重排序，还要依次指定第二、第三排序变量及相应的排序规则。否则本部可略。排序窗口如下图：图 1 2、变量计算：（1）变量计算的目的：a、通过数据的转换处理，在原有数据的基础上，计算产生一些含量更丰富的新数据。、对数据的原有分布状态进行转

4、换，由于数据分析和建模中某些模型对数据分布有一定的要求，因此可以利用变量计算对原有数据的分布进行转换。c、spss变量计算是在原有数据的基础上，根据用户给出的spss的算术表达式以及名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 11 页 - - - - - - - - - 函数，对所有个案或满足条件的部分个案，计算产生一系列新变量。（2）变量计算的操作步骤：a、选择菜单：【Transform】【 Compute Variable】出现如图 2所示窗口：图 2 b、在【

5、Numeric Exepression】框给出 spss算术表达式和函数。可以手工输入也可以按窗口的按钮算数表达式和函数的输入工作。c、在【 Target Variable 】框中输入存放结果的变量名。、如果用户只希望对符合一定条件的个案计算产生变量，则按if 按钮，出现如图 3 所示的窗口。选择【 Include if case satisfies condition 】选项，然后输入条件表达式，否则本步略去。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 11 页 -

6、 - - - - - - - - 图 3 3、变量的选取：（1）数据选取的目的：a、提高数据的分析效率。b、检验模型。（2）数据选取的步骤：a、【Date】【 Select Case 】b、在【 Select 】框中选择选取方法。如图4 所示：名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 11 页 - - - - - - - - - 图 4 4、计数：（1）计数的目的：把握个案各方面的特征。（2）计数的步骤：a、选择菜单：【Transform】【Count Valu

7、es within Cases 】如图 5 所示：b、选择参与计数的变量到【Numeric Variables 】框中。c、在【Target Variable 】框中输入存放技术结果的的变量名，并在【Target Label】框中输入相应的变量名标签。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 11 页 - - - - - - - - - 图 5 d、按 Define Values 按钮定义计数区间，出现图 6 所示窗口。通过 Add、Remove 按钮完成计数区间

8、的增加、修改和删除。e、如果仅希望对满足条件的个案进行计数，则按if 按钮并输入 spss相应表达式。否则本部可略。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 11 页 - - - - - - - - - 图 6 5、分类汇总：（1）【Date】【 Aggregate】（2）指定分类变量到【 Break Variables】框中，指定汇总变量到【aggregated Variables 】框中，如图 7：（3）按 function 按钮指定对汇总变量计算那些统计量。

9、Spss默认计算均值。（4）制定将汇总结果保存到何处。（5）按 name&Lab 按钮重新指定汇总结果中的变量名或变量名标签。（6）如果希望在结果文件中保存各分类组的个案数则选择【Number of cases 】 . 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，共 11 页 - - - - - - - - - 6、数据分组：（1）【Transform】【 Recode into Dfferent Variables 】（2）选择分组变量到【 Numeric Vari

10、ableOutput】框中。（3）在【 Numeric Variable】框中的【 name】后输入存放分组结果的变量名，并按 change 按钮确认。（4）按 old and new Values按钮进行分组区间定义。如图8 所示：（5）如果只对符合条件的个案进行分组，则按if 按钮输入 spss条件表达式。7、数据转置：（1）【Date】【 transpose 】如图 9 所示：（2）指定数据转置后保留那些变量，将它们们选入【Variables 】框中。（3）指定数据转置后应保留那些变量名。8、加权处理：（1）【Date】【 Weight Cases 】（2）选择【Weight Ca

11、ses by 】选项，并选择某变量作为加权变量到【Frequency Variable】框中。如图 10 所示：名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 11 页 - - - - - - - - - 9、数据拆分：（1）数据拆分的目的：根据指定变量对数据进行分组，它将为以后进行的分组统计分析提供便利。（2）数据分组的步骤：a、【Date】【Split File】如图 11所示：b、选择拆分变量到【 Groups based on 】框中。c、拆分会使后面的分组

12、统计产生两种不同格式的结果。d、如果数据编辑窗口中的数据已经事先安所指定的拆分变量进行了排序，则可以选择【File is already sorted 】项，他可以提高拆分执行的速度，否则选择【Sort the file by grouping Variables】项。三、spss数据预处理应注意的事项：1、数据排序时须注意的事项：（1）数据排序是整行数据排序，而不只是对某列变量进行排序。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 11 页 - - - - - -

13、- - - （2）多重排序中指定排序变量的次序很关键。（3）数据排序以后，原有数据的排列必然别打乱。2、变量计算：（1）如果指定存放计算结果的变量为新变量，spss会自动创建它，如果指定产生的变量已经存在， spss会提问用户是否以计算出的新值覆盖原有旧值。（2）对不满足指定条件的个案，spss不进行变量值计算。对新变量取值为系统缺失值，对已有旧变量，变量值保持不变。3、数据选取：（1 按上述操作步骤完成数据选取后，以后的spss分析操作仅针对那些被选中的个案直到用户再次改变数据选取为止。（2）采用按指定条件选取和随机选取方法进行数据选取后，spss将在数据，编辑窗口中自动生成一个名为fil

14、ter_$的新变量，取值为1或 0。1 表示本条个案被选中， 0 表示为别选中。该变量是spss产生的中间变量，如果删除它，则自动取消样本选取。4、分类汇总：（1）分类汇总中的分类变量可以是多个，此时的分类汇总陈伟多重分类汇总。（2）类似与数据排序，在多重分类汇总中，指定多个分类变量的先后次序是关键的。5、数据的分组：在定义分组区间时，应遵循补充不漏的原则。6、加权处理：一旦指定了加权变量，在以后的分析处理中加权是一直有效的，直到取消加权为止。7、数据拆分：（1）无论进行那种统计分析，都将按拆分变量不同分组分别进行分组计算。如对所有数据进行分析，则需要对所有数据进行重新拆分。（2）对数据可以进行对冲拆分，类似与数据的多重排序，多重拆分的次序取名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 11 页 - - - - - - - - - 决于选择拆分变量的前后次序。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页，共 11 页 - - - - - - - - -

展开阅读全文