2022年SPSS学习笔记 .pdf

上传人:C****o 文档编号:11420731 上传时间:2022-04-18 格式:PDF 页数:26 大小:5.27MB
返回 下载 相关 举报
2022年SPSS学习笔记 .pdf_第1页
第1页 / 共26页
2022年SPSS学习笔记 .pdf_第2页
第2页 / 共26页
点击查看更多>>
资源描述

《2022年SPSS学习笔记 .pdf》由会员分享,可在线阅读,更多相关《2022年SPSS学习笔记 .pdf(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、SPSS 学习笔记描述样本数据一般的,一组数据拿出来,需要先有一个整体认识。除了我们平时最常用的集中趋势外,还需要一些离散趋势的数据。这方面EXCEL 就能一次性的给全了数据,但对于SPSS ,就需要用多个工具了,感觉上表格方面不如EXCEL 好用。个人感觉, 通过描述需要了解整体数据的集中趋势和离散趋势,再借用各种图观察数据的分布形态。对于SPSS提供的 OLAP cubes(在线分析处理表),Case Summary (观察值摘要分析表) ,Descriptives (描述统计) 不太常用, 反喜欢用 Frequencies (频率分析) ,Basic Table (基本报表), Cros

2、stabs (列联表)这三个,另外再配合其它图来观察。这个可以根据个人喜好来选择。一 使用频率分析(Frequencies )观察数值的分布。频率分布图与分析数据结合起来,可以更清楚的看到数据分布的整体情况。以自带文件Trends chapter 13.sav为例,选择Analyze-Descriptive Statistics-Frequencies,把 hstarts选入 Variables,取消在Display Frequency table前的勾,在Chart 里面 histogram ,在 Statistics选项中如图1 图 1分别选好均数 (Mean) , 中位数 (Median

3、) ,众数 (Mode),总数(Sum), 标准差 (Std. deviation),方差 (Variance), 范围 (range) , 最小值 (Minimum) , 最大值 (Maximum), 偏度系数 (Skewness) ,峰度系数 (Kutosis),按 Continue 返回,再按OK ,出现结果如图2 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 26 页 - - - - - - - - - - 图 2表中,中位数与平均数接近,与众数相差不大,分布良好。标准差大,即数据间

4、的变化差异还还小。峰度和偏度都接近0,则数据基本接近于正态分布。下面图3 的频率分布图就更直观的观察到这样的情况图 3精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 26 页 - - - - - - - - - - 二 采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。同样以自带文件Trends chapter 13.sav为例,我们可以观察一下各年的数据总和的对比:1 选择 Graph-Bar-Simple,在“Data in chart are”一项选择Summary of g

5、roups of cases ,然后按 Define ,出现图 4,图 42 选择 Bars Represent-Other statistic(e.g. mean),把 hstarts一项选入Variable里面,把 YEAR, Periodic一项选入Category Axis 项中,并按Change Statistic键,出现图5:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 26 页 - - - - - - - - - - 图 53在 Statistic选项中选 Sum of val

6、ues一项,按 Continue 返回,按OK即可出现图6:图 6从图中可以非常直观的看出1965 年-1975 年间,每年的总体数量对比和各数值多少。三 通过列联表来观察,数据的交错关系。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 26 页 - - - - - - - - - - 以软件自带的文件University of Florida graduate salaries.sav来说明1、选择 Tables-Basic Table ,在弹出对话框中,选择Graduate 到 Summa

7、ries 栏, College到 Down ,Gender 到 Across 栏,如图 7 图 72、选择 Statistics按键,选取Count 和 layer% 到 Cell Statistics一栏,并按Continue键,如图 8 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 26 页 - - - - - - - - - - 图 8三、选择 Layout 按键,选择Summary Variable Labels-In separate labels(汇总的标签,如本例的Gradua

8、te ,放在表外),Statistics Labels-Across top(数据的标签横放在顶部,如本例的Count 和 Layer%),并在 Label groups with value labels only前选择打勾 ( 表示只需要具体的标签名就可以,不需要汇总名,如本例Gender 和 College),如图 9 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 26 页 - - - - - - - - - - 图 9四、选择 Total按键,在 Totals over each g

9、roup variable一项前选勾,则输出表会有增加汇总一栏,如图10 图 10提示, 需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉,多尝试几次就可以看出不同的区别。图11 为输出的表格精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 26 页 - - - - - - - - - - 图 11重要提示 :如果结果变成变量的汇总(SUM ),则先选择Data-Weight Cases,把 Graduate的选项先选入Weight Cases by内,再选回Do not weight

10、 Cases,按 OK即可。对于其他带有编号的一项都可以这样做。这一点不知为何,本人屡次试过总需要这样调整。参考图12 图 12几种常用的统计方法应用一般来说,最最常用的统计分析有假设检验和回归分析,在SPSS中也有很好的对应工具来做这些分析, 但对其基本思路和要求都必须了解,这样才能更灵活的发挥。下面抄录 EXCEL在市场调查中的应用一书中关于这方面的内容:1假设检验目的:是用来 判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。基本思想: 小概率反证法思想。即 P0.01 或 P0.05 在一次试验中基本不会生发。反证法思想是先提出假设 (检验假设H0),再用

11、适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。方法: t 检验, u 检验,秩和检验,卡方检验应用条件: A、各组资料具有可比性B、具正态分布C、方差齐性(即先作F 检验,如F0.1 ,具方差齐性)2方差分析精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 26 页 - - - - - - - - - - 目的:又称为变异系数分析或F检验。用于推断两组或多组资料的总体平均数是否相同,检验两个或多个样本平均数的差异是否具有统计意义( 也可认为是

12、检验多个总体均值是否有显著性差异注 1,这样可能更简单一点) 。基本思想:用组内均方去除组间均方的商,即F 值,与 1 比较,若 F 值接近 1,则说明各验均数间的差异没有统计学意义,否则表示有统计学意义。应用条件: A、各组资料具有可比性B、具正态分布C、方差齐性(即 F检验)提示, 在应用 SPSS中,只要死死的记住一个显著系数0.05 就可以应用 (如果是双尾系数需要除以 2),一般的大于0.05 接受原假设,小于0.05 则拒绝。简单的说,一般结果拒绝就是说样本有差异,样本相对独立,都是表示同一种意思,读这方面书的时候,希望不要让这些名词混乱了思路。SPSS的方差检验中,需要注意下面问

13、题:方差检验中, Post Hoc 键有 LSD的选项:当方差分析F 检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行 多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。2 Independent Samples检验中的Mann-Whitney U 检验与 K Independent Samples中的Kruskal-Walllis(克鲁斯卡尔瓦里斯)H检验法思想类似,常用来作为非参数检验。2 Related Samples非参数检验中,一般有Sign 普通符号检验法和Wilcoxon 威

14、尔科克森符号秩检验法。 前者用于研究的问题只有两个可能的结果:“是”或“非”,并且二者遵从二项分布;后者是普通符号检验法的改进,除了可以检验是非外,还可以了解差异的大小。K Related Samples非参数检验中,主要有Friedman 秩和检验与Cochran Q 检验二种选择,前者是对多个样本是否来自同一总体的检验,而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。附录: SPSS 假设检验方法使用对照表图 13其中相关、配对或有交互作用可以理解为EXCEL 的重复,独立或无交互作用可以理解为EXCEL中的无重复。图13 表大部分参考数据分析与SPSS应用一书,特别说明

15、3回归分析精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 9 页,共 26 页 - - - - - - - - - - 目的:研究一个变量Y与其它若干变量X之间的一种数学工具。它是一组试验或观测数据的基础上, 寻找被随机性掩盖的变量之间的依存关系。A直线回归方程 Yc=a bX B回归关系的检验:求回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。a. 方差分析:基本思想是将总变异分解为SS回归和 SS乘余,然后利用F 检验来判断方程是否成立。b. t检验:基本思想是利用样本回归系数b 与总

16、体平均数回归系数进行比较来判断回归方程是否成立。下面摘录数据分析与SPSS应用一书关于相关回归和时间序列分析一些概念解释。数据变量间主要存在二类关系:一类是函数关系,一类是相关关系。前者是变量间有确定关系,即一个变量的值能够在其他变量取值确定的情况下,按某种函数关系唯一确定; 后者是变量间虽然具有的联系,并非确定关系, 如价格与销量量, 价格高了,销售量可能会上去,但无法确定销售量是多少。通过散点图来观察,如果点都集中在一条直线附近,是线性相关,如果在一条曲线附近,则为非线性相关。如果一个变量因另一个变量的增加而增加,减少而减少, 则二个变量间存在正相关关系,反之则为负相关关系。极端的相关是完

17、全相关和零相关。如某地区购买自行车多少与购买大蒜多少无关,是为零相关。按我的理解, 相关分析就是推断变量与变量之间关系的密切程度,回归就是在相关的基础上,找出变量间的拟合模型,从而进一步推测出未来的趋势和变量。而时间序列则是以时间的作为观察的序列,来推断变量间的关系的一种模型。以自带文件Trends chapter 13.sav为例,说明一下如何应用这三种分析工具。1相关打开 Trends chapter 13.sav 文件,可以看到,这个文件的数据是以时间来排序的,在每个值前增加一行序列号变量,如图14 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名

18、师归纳 - - - - - - - - - -第 10 页,共 26 页 - - - - - - - - - - 图 14一个时间序列的影响因素有四种变动:A长期趋势 (Secular Trend),B季节变动 (Seasonal Variation),C循环变动 (Cyclical Variation),D不规则变动 (Irregular Variation)。我们可以观察一下这些数据是否存在某种关系,打开Graphs-Sequence ,如图 15 图 15精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -

19、第 11 页,共 26 页 - - - - - - - - - - 把 hstarts选入 Variables项,把 No.选入 Time Axis Lables,然后按OK ,出现图16:图 16从图可以看出, 数据总是在一个周期内反复在上下波动,虽然高低的位置不一样,但这种波动显然是随着时间的不同而变化。因此可以察看,因变量与时间的关系如何。选择Data-Define Dates,出现图17 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 12 页,共 26 页 - - - - - - - - - -

20、 图 17在 Year 一栏填入 1965,Month 一栏填入 1,表示数据从1965 年 1 月开始计算。选择 Analyze-Correlate-Bivariate,出现图 18 图 18把 hstarts, Year 和 Month 都选入 Varibales选项,Correlation Coefficients选择 Pearson和 Spearman(其实只需要选Spearman就可以,这里只是试一下,作为比较)。注:相关检验中有Pearson(皮尔森)相关系数和Spearman(斯皮尔曼)等级相关,前者也称皮尔森相关系数,是对 两个定距变量 关系的刻画; 后者是用来考察两个变量中至

21、少有一个定序变量 时的相关关系。Zero-order Correlations(零阶偏听偏相关系数)是按Pearson简单相关系数公式计算得到的相关系数。在皮尔森系数r 是对两个定距变量关系的刻画: 若- 1r 1, |r|越大,表明两个变量之间的相关程度越强。若 0r1,表明两个变量之间存在正相关。若 r=1,则表明变量之间存在着完全正相关的关系。若- 1rRegression-Curve Estimation,出现图 22 图 22精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 15 页,共 26 页

22、 - - - - - - - - - - 把 hatarts选入 Dependents 选项, Independent选择 Time,Models 选择( Linear )线性回归,( Quadratic )二次曲线回归,(Cubic )三次曲线回归,(Exponential)指数回归,选择 Include constant in equation表示方程式有常数项,Plot models则表示用图表示,然后按 OK ,出现图23 图 23线性方程: Y=70.43 0.135X 二次曲线方程:Y=64.171 0.415X-0.02X2三次曲线方程:Y=87.68-1.667X 0.037X

23、2( 0X3) 指数曲线方程:Y=68.229xe0.002从 Sig 值判断,都小于0.05 ,都接受回归成立,这样,只能从R拟合度和F值较大来判断三次曲线方程的拟合程度比较高。注意,如果方程成立的话,想要增加预测,则可以在Save 选项中选择Predicted Values一项,如果还想预测未来的数值,则可以在原表上增加若干行(如 1 行),然后选择 Predict Cases 下面 Predict through,在 Year 填入 1976,在 Month 填入 1,这样就表示预测值到1976 年的一月。如图24 所示。精品资料 - - - 欢迎下载 - - - - - - - - -

24、 - - 欢迎下载 名师归纳 - - - - - - - - - -第 16 页,共 26 页 - - - - - - - - - - 图 24注意,在 Independent选择 Time 和把 ID 选入结果一样,则因为ID 是以时间为序来排,所以结果一样。3时间序列因为 R的似合度分别为0.05 ,0.064 ,0.199 和 0.039 ,都比较低,方程的效果不太好,如果要预测数值还是选择时间序列比较合适,因为从刚才Sequence 的图也可以观察到,数据是以后的时间来波动的变化关系。选择 Analyze-Time Series-Exponential Smoothing,出现图 25

25、 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 17 页,共 26 页 - - - - - - - - - - 图 25把 hstarts选入 Variables选项,并在 Model 选择 Winters (注意, 三种不同的模型的选择:简单指数平滑适用于不包含长期趋势和季节成分的数据;Holt 方法适合于包含长期趋势但不包含季节成分的数据;Winters方法适合于包含季节成分(以及长期趋势)的数据。 EXCEL中只有简单的指数回归,与这里的绝不相同,从这里也可以看到专业分析软件的优势更具体更仔细),

26、又按Save键,如图 26 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 18 页,共 26 页 - - - - - - - - - - 图 26Predict Case选项中选择Predict through,并在 Year 栏填入 1976, month 填入 6,这样就可以得到1976 年 1-6 月份的预测值 (注意,此处与上面的回归不同,不需要增加6 个 ID,不然结果会显示有缺失值)。返回,按Parameters 键,如图27 图 27分别把 Alpha(截距项的平滑系数),Gamma(趋势

27、项的平滑系数)和Delta (季节指数的平滑系数),设为从0 到 1 之间以步长0.05 搜索最优的参数值,其它选项采用默认值。返回按 OK ,出现结果如图28:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 19 页,共 26 页 - - - - - - - - - - 图 28从图可看到平滑指数分别是Alpha 0.75 ,Gamma=0 ,Delta=0 ,而更重要的是,可以直接得到预测值,如图29:图 29除了 Fit一项的预测外,可以得到1976 年 1-6 月的预测结果。同时,可以通过FIT

28、1 的预测情况与上面三次曲线回归方程比较,采用平均绝对误差、均方根误差和平均绝对百分误差的结果选择更佳的答案。与 EXCEL表现的比较和补充这一点是针对像我这样开始只懂得用EXCEL 的人来说。 从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。一、图型的表现力是SPSS 的主要优点之一精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 20 页,共 26 页 - - - - - - - - - - 应该说,EXCEL 的图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现

29、,SPSS就更为详细和准确,这一点据说在所有统计软件中都突出。因为大多的书里面都谈到,这里从略。二、通过 SPSS 检验方差齐性和数据分布假设检验中,采用的t 检验和方差检验都需要满足二个要求,即1样本方差齐性2样本总体呈正态分布在 EXCEL中,提供了 F 检验来检验方差齐性问题。也就是可以先通过F 检验确定方差齐性与否来选择下一步用哪个T 检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布(实际工作中, 只要分布单峰且近似对称分布,也可应用注 2),但要具体确定样本的分布也有难度。这二个问题在SPSS就可以解决。A、用 SPSS检验方差齐性

30、同样以 University of Florida graduate salaries.sav文件作为例子来检验性别数据是否方差齐性a.选择 Analyze-Descriptive Statistics-Explore,再选择Dependent List-Graduate,Factor List-Gender,Display-Both,如图 30 图 30b.点击 Plot 按键,在对话框里选择Boxplots-None ,Spread vs.Level with Levene Test-Untransformed,在 Descriptive选择中取消Stem-and-leaf一项,如图31

31、精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 21 页,共 26 页 - - - - - - - - - - 图 31然后,按 OK键,结果如图32 显示:图 32图 32 中可以看出 , 显著值 sig 都大于 0.05 ,因此不能拒绝H0方差齐性的假设,即数据的方差齐性。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 22 页,共 26 页 - - - - - - - - - - 提示, 在 SPSS中,应用

32、t 检验是不需要单独检验方差齐性问题。结果中就有 Levene 检验的结果,从中就可以选择方差分别作为相等与不等假设时的结果,如图33 图 33而在方差检验中, Option的按键有一个Homogeneity of Variance test的按键,选择后,输出就有方差齐性的检验结果。B、用 SPSS检验样本总体的分布。以软件自带文件World 95 for Missing Values.sav作为例子检验出生率的分布是否服从正态a. 选择 Data-Weight Cases,并把 Birth rate per 1000 people选入 Weight cases by的选项,如图34 图 3

33、4精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 23 页,共 26 页 - - - - - - - - - - b.选择 Analyze-Nonparametric Tests- 1 sample K-S,把 Birth rate per 1000 people选入 test Variable List选项, Test distribution选 Normal,如图 35 图 35c.按 OK可以看到结果如图20,两侧检验率为0,则表示拒绝接受Ho (数据整体服从正态分布)的假设,数据分布不服从正态分布

34、。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 24 页,共 26 页 - - - - - - - - - - 图 36提示,除了正态(Normal)外,还可以检验其它分布,只要在图中选项中选择Uniform (均匀分布), Poisson (泊松分布),Exponential(指数分布)即可。当然,如果样本过大,可能 SPSS 也会拒绝运算。三、感觉在数据和表格处理上,EXCEL 要强一点。像图11 中,想把男性和女性的个数和个数百分比各自合为一列,结果不能做到。又如在运算方面,EXCEL就能直接在单

35、元格上操作,而SPSS则要下拉菜单,不但麻烦,而且观察和调整的效果也不如EXCEL 理想。四、作为专业的统计软件,SPSS感觉比 EXCEL更丰富, 也更准确, EXCEL也有自身方便性的优点。可以根据个人喜欢来选择。最后用毛炳寰先生的劝导来结束这篇东西:1用自己熟悉,有把握的方法来做分析2仔细处理初级数据,所谓“Garbage in ,garbage out”。3引用的时候不需要全部都罗列出来,同时也不用刻意的去搞清楚每一项表示的内容。(对这最后一个,本人有点保留,但也确实在这个探索过程令我沮丧,觉得还是忠言)精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 25 页,共 26 页 - - - - - - - - - - 文档编码:KDHSIBDSUFVBSUDHSIDHSIBF-SDSD587FCDCVDCJUH 欢迎下载 精美文档欢迎下载 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 26 页,共 26 页 - - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁