《SPSS相关分析案例讲解.pdf》由会员分享,可在线阅读,更多相关《SPSS相关分析案例讲解.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 1 相关分析 一、两个变量的相关分析:Bivariate 1相关系数的含义 相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用 r 表示。相关系数的取值范围在1 和+1 之间,即:1r 1。计算结果,若 r 为正,则表明两变量为正相关;若 r 为负,则表明两变量为负相关。相关系数 r 的数值越接近于 1(1 或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果 r=1 或1,则表示两个现象完全直线性相关.如果=0,则表示两个现象完全不相关(不是直线相关)。3.0r,称为微弱相关、5.03.0 r,称为低度相关、8.05.0 r,称为
2、显著(中度)相关、18.0 r,称为高度相关 r 值很小,说明 X 与 Y 之间没有线性相关关系,但并不意味着 X 与 Y 之间没有其它关系,如很强的非线性关系。直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数 R。2常用的简单相关系数(1)皮尔逊(Pearson)相关系数 皮尔逊相关系数亦称积矩相关系数,1890 年由英国统计学家卡尔皮尔逊提出.定距变量之间的相关关系测量常用 Pearson 系数法.计算公式如下:niniiiniiiyyxxyyxxr11221)()()(1)(1)式是样本的相关系数。计算皮尔逊相关系数的数据要求:变量都是服从正态分
3、布,相互独立的连续数据;两个变量在散点图上有线性相关趋势;样本容量30n。(2)斯皮尔曼(Spearman)等级相关系数 2 Spearman 相关系数又称秩相关系数,是用来测度两个定序数据之间的线性相关程度的指标。当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的,其计算过程包括:对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及差额平方,通过公式计算得到相关系数。其计算公式为:16122nndrR (2)(2)式中,Rr为等级相关系数;d为每对数据等级之差;n为样本容量.斯皮尔曼等级相关对数据条件的要求
4、没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。(3)肯德尔(Kendall)等级相关系数 肯德尔(Kendall)等级相关系数是在考虑了结点(秩次相同)的条件下,测度两组定序数据或等级数据线性相关程度的指标.它利用排序数据的秩,通过计算不一致数据对在总数据对中的比例,来反映变量间的线性关系的.其计算公式如下:141nnirK (3)(3)式中,Kr是肯德尔等级相关系数;i是不一致数据对数;n为样本容量.计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等
5、级相关系数的数据要求相同。3相关系数的显著性检验 通常,我们用样本相关系数 r 作为总体相关系数的估计值,而 r 仅说明样本数据的 X 与 Y 的相关程度.有时候,由于样本数据太少或其它偶然因素,使得样本相关系数 r 值很大,而总体的 X 与 Y 并不存在真正的线性关系。因而有必要通过样本资料来对 X 与 Y 之间是否存在真正的线性相关进行检验,即检验总体相关系数是否为零(即原假设是:总体中两个变量间的相关系数为 0).SPSS 的相关 3 分析过程给出了该假设成立的概率(输出结果中的Sig.)。样本简单相关系数的检验方法为:当原假设0H:0,50n时,检验统计量为:211rnrZ (4)当原
6、假设0H:0,50n时,检验统计量为:212rnrt 2 ndf (5)式中,r为简单相关系数;n为观测值个数(或样本容量)。4背景材料 设有 10 个厂家,序号为 1,2,10,各厂的投入成本记为x,所得产出记为y.各厂家的投入和产出如表 7-18-1 所示,根据这些数据,可以认为投入和产出之间存在相关性吗?表 1 10 个厂家的投入产出 单位:万元 厂家 1 2 3 4 5 6 7 8 9 10 投入 产出 20 30 40 60 20 40 30 60 10 30 10 40 20 40 20 50 20 30 30 70 5操作步骤 51 绘制散点图的步骤(1)选择菜单命令“Graph
7、s“Legacy Dialogs“Scatter/Dot,打开Scatter/Dot 对话框,如图 1 所示。图 1 选择散点图窗口(2)选择散点图类型。SPSS 提供了五种类型的散点图。4(3)根据所选择的散点图类型,单击“Define”按钮设置散点图.不同类型的散点图的设置略有差别。简单散点图(Simple Scatter)简单散点图的设置窗口如图 2 所示。图 2 简单散点图的设置窗口 从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标,分别选入 YAxis 和 X-Axis 框中。这两项是必选项。可以把作为分组的变量指定到 Set Markers by 框中,根据该变量取值的
8、不同对同一个散点图中的各点标以不同的颜色(或形状).该项可以省略。把标记变量指定到 Label Cases by 框中,表示将标记变量的各变量值标记在散点图的旁边。该项可以省略。从左侧变量列表框中选择变量到 Panel by 框中作为分类变量,可以使该变量作为行(Rows)或列(Columns)将数据分成不同的组,便于比较。该项可以省略。选择 Use Chart Specifications From 选项,可以选择散点图的文件模板,单击“File”可以选择指定的文件.5 单击“Title”按钮可以对散点图的标题进行设置,单击“Options”按钮可以对缺失值以及是否显示数据的标注进行设置。重
9、叠散点图(Overlay Scatter)重叠散点图能同时生成多对相关变量间统计关系的散点图,首先根据分类变量的不同取值对原始数据进行分类,然后对各分类数据做简单散点图。重叠散点图的设置窗口如图718-3 所示。图 3 重叠散点图的设置窗口 从左侧框中选择一对变量进入 Pairs 框中,其中前一个为图的纵坐标变量(YVariable),后一个作为图的横轴变量(X-Variable),可以通过点击按钮进行横纵轴变量的调换。其他设置与同简单散点图都相同。矩阵散点图(Matrix Scatter)矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系.矩阵散点图的关键是弄清各矩阵单元中
10、的横纵变量。矩阵散点图的设置窗口如图 4 所示。6 图 4 矩阵散点图的设置窗口 把参与绘图的若干变量指定到Matrix Variables 框中。选择变量的先后顺序决定了矩阵对角线上变量的排列顺序。其他设置也与简单散点图相同.三维散点图(3D Scatter)三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数据决定,它以立体图的形式展现三对变量间的统计关系。设置窗口如图 5 所示。7 图 5 三维散点图设置窗口 从左侧的变量列表中指定三个变量分别选入 Y-Axis、X-Axis、Z-Axis 框中.其他设置均与简单散点图相同.单点散点图(Sample Dot)单点散点图生成单个
11、变量的散点图,显示数值型变量的每一个观测值,这些值都堆积在 X 轴附近,由于没有指定 Y 轴,所以数据点的 Y 坐标没有特殊的含义。设置窗口如图 6 所示。8 图 6 单点散点图设置窗口 从左侧变量列表中选择一个变量选入X-Axis Variable 框中。其他设置与简单散点图相同.5-2 计算简单相关系数的操作步骤 通过散点图可以初步判断变量是否具有线性趋势.对具有线性趋势的变量计算相应的简单相关系数的步骤如下:(1)选择菜单命令“Analyze”“Correlate”“Bivariate,打开两变量相关分析的对话框,如图 7 所示.9 图 7 两变量相关分析窗口(2)选入需要进行相关分析的
12、变量进入 Variables 框,至少需要选入两个,如选入“投入”、“产出变量。(3)在 Correlation Coefficients 复选框中选择需要计算的相关系数。主要有:Pearson 复选框:选择进行积距相关分析,即最常用的参数相关分析;Kendalls taub 复选框:计算 Kendalls 等级相关系数;Spearman 复选框:计算 Spearman 相关系数,即最常用的非参数相关分析(秩相关)。(4)Test of Significance 单选框用于确定是进行相关系数的单侧(One-tailed)或双侧(Twotailed)检验,系统默认双侧检验。(5)Flag sig
13、nificant correlations 用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时 P0。05 的系数值旁会标记一个星号,P0.01的则标记两个星号。(6)单击 Options 按钮,弹出 Options 对话框,选择需要计算的描述统计量和统计分析,如图 8 所示。10 图 8 两变量相关分析的 Options 子对话框 在 Statistics 复选框中定义各变量输出的描述统计量。Means and standard deviations 选项表示每个变量的样本均值和标准差;Cross-product deviations and covariances 选项表
14、示各对变量的离差平方和、样本方差、两变量的叉积离差以及协方差阵。叉积离差为 Pearson 相关系数公式中的分子部分;协方差为叉积离差/(n1)。在 Missing Values 单选框中定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。(7)单击“OK按钮完成设置,提交运行。6结果解析 根据背景资料,利用表 1 中的数据,建立 SPSS 数据文件,分别将变量投入
15、、产出选入Variables框中,并在Options子对话框选中Means and standard deviations选项和 Crossproduct deviations and covariances选项,其他选择默认。结果如表2、表 3 所示。6-1 表 2 为描述统计量,表 3 为相关分析结果。从表 3 中可以看出皮尔逊相关系数为 0。759,即投入与产出的相关系数为 0.759,双侧检验的 P 值为 0.011,明显小于 0.05,拒绝二者不相关的原假设.因此,我们可以得出结论:可以认为投入与产出之间存在正相关,当投入增加时,产出也会相应增加。表2 描述统计量 Descripti
16、ve Statistics 11 Mean Std。Deviation N 投入 22.00 9.189 10 产出 45.00 14.337 10 表3 简单相关系数分析结果 Correlations 投入 产出 投入 Pearson Correlation 1.759*Sig。(2tailed).011 Sum of Squares and Cross-products 760.000 900。000 Covariance 84.444 100.000 N 10 10 产出 Pearson Correlation.759 1 Sig。(2tailed)。011 Sum of Squares
17、 and Cross-products 900.000 1850.000 Covariance 100。000 205.556 N 10 10*。Correlation is significant at the 0。05 level(2tailed).6-2 调用 Bivariate 过程命令时允许同时输入两个变量或两个以上变量,但系统输出的是变量间两两相关的相关系数.二、偏相关分析:Partial 1偏相关分析的含义 在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响有时候会使相关分析的结果变得不那么可靠.因此,引入了偏相关分析的方法。偏相关分析,也称净相关分析,是指在研究
18、两个变量之间的线性相关关系时,将与这两个变量有联系的其他变量控制不变的统计方法.根据控制变量的个数,偏相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等等。其中,零阶偏相关分析是指没有控制变量的相关分析,即一般的相关分析。一阶偏相关分析是指有一个控制变量的相关分析,二阶偏相关分析是指有两个控制变量的偏相关分析,其他高阶偏相关分析以此类推。2偏相关系数 12 进行偏相关分析时要用到偏相关系数.偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时,分别同因变量线性相关程度的指标。偏相关系数的取值范围亦在1+1 之间,其计算公式分别为:当有一个控制变量为2x时,变量1x和y之
19、间的一阶偏相关系数为:)1)(1(22212212121xxyxxxyxyxxyxrrrrrr (6)3对偏相关系数的检验方法 在偏相关分析中,由于两个变量之间的相关系数是在固定(控制)了一个或几个变量后进行的,考虑到这种因素及抽样误差的影响,其检验统计量为:212rknrt (7)式中,r是特定的偏相关系数;n为观测值个数;k为控制变量个数;2kn为自由度。4背景材料 某汽车制造商从某月中随机抽出 10 天的电力消耗量、温度、日产量等有关资料,数据如表 4 所示。结合多年管理经验,对电力消耗量、温度、日产量的关系做出相关分析.表 4 某汽车制造商的电力消耗量、温度、日产量等数据表 电力消耗(
20、千瓦)温度(华氏)日产量 12 11 13 9 14 10 12 11 14 11 83 79 85 75 87 81 84 77 85 84 120 110 128 101 105 108 110 107 112 119 5操作步骤 51 选择菜单命令“Analyze”“Correlate”“Partial,打开偏相关分析的对话框,如图 9 所示。13 图 9 偏相关分析窗口 5-2 选入需要进行偏相关分析的变量进入Variables框中,至少需要选入两个。5-3 选择需要在偏相关分析时进行控制的协变量进入 Controlling for 框中,如果不选入,则进行的就是普通的相关分析。54
21、在 Test of Significance 单选框中确定是进行相关系数的单侧(Onetailed)或双侧(Two-tailed)检验,一般选双侧检验.55 Display actual significance level复选框用于表示在结果中给出确切的P值,一般选中。5-6 单击 Options 按钮,弹出 Options 对话框,选择需要计算的描述统计量和统计分析。如图 10 所示。14 图 10 偏相关分析的 Options 子对话框(1)Statistics 复选框用于定义可选的描述统计量。其中,Means and standard deviations表示每个变量的样本均值和标准差
22、;Zero-order correlations表示输出包括控制变量在内所有变量的相关矩阵。(2)Missing Values 单选框用于定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。系统默认为前者,以充分利用数据.6结果解析 这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,在Options 子对话框中选中 Means and standard
23、 deviations 选项,其他选择系统默认。具体分析结果见表 4、表 5 所示。61 表 5 偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗与温度之间的偏相关系数为 0.815,概率 P 值为 0.0070。05,从而表明两者之间有高度的相关关系。表4 偏相关分析描述统计量Descriptive Statistics Mean Std.Deviation N 电力消耗 11。70 1.636 10 温度 82.00 3。887 10 日产量 112。00 8。083 10 表5 偏相关系数表Correlations Control Variables 电力消耗 温度 日产量 电力
24、消耗 Correlation 1.000.815 Significance(2tailed).。007 df 0 7 温度 Correlation.815 1.000 Significance(2tailed)。007.df 7 0 15 6-2 表 6 的输出结果是在分析时,除了原有的设置外,在 Options 子对话框中还选中Zeroorder correlations选项的分析结果.表6中结果表明,在没有控制变量的情况下,电力消耗与温度之间的简单相关系数为 0.838,概率 P 值为 0.0020。05,也表明两者之间有高度的相关关系。可见,偏相关分析的结论与简单相关分析的结论基本一致,
25、但在有些时候,偏相关分析的结论与简单相关分析的结论可以不一致。6 Correlations Control Variables 电力消耗 温度 日产量 nonea 电力消耗 Correlation 1.000.838。361 Significance(2tailed).。002.305 df 0 8 8 温度 Correlation.838 1。000.506 Significance(2-tailed).002。.136 df 8 0 8 日产量 Correlation。361.506 1.000 Significance(2-tailed)。305。136。df 8 8 0 日产量 电力消耗 Correlation 1.000.815 Significance(2tailed)。007 df 0 7 温度 Correlation。815 1.000 Significance(2-tailed)。007.df 7 0 a.Cells contain zeroorder(Pearson)correlations。