《第八章-SPSS的相关分析.ppt》由会员分享,可在线阅读,更多相关《第八章-SPSS的相关分析.ppt(36页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本章内容8.1 8.1 相关分析概述相关分析概述8.2 8.2 绘制散点图绘制散点图8.3 8.3 计算相关系数计算相关系数8.4 8.4 偏相关分析偏相关分析8.1 相关分析概述 客观事物之间的关系大致可归纳为两大类客观事物之间的关系大致可归纳为两大类:(1)函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。(2)相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。(3)相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。双变量关系强度测量的主要指标双变量关系强
2、度测量的主要指标8.2 绘制散点图 (1 1)相相关关分分析析通通过过图图形形(散散点点图图)和和数数值值(相相关关系系数数)两两种种方方式式,有有效效地地揭揭示示事事物物之之间间相相关关关关系系的的强强弱程度弱程度和和方向方向。(2 2)散点图散点图 它它将将数数据据以以点点的的形形式式画画在在直直角角坐坐标标系系上上,通通过过观观察察散散点点图图能能够够直直观观地地发发现现变变量量间间的的相相关关关关系系及及它它们的们的强弱程度强弱程度和和方向方向。2.操作步骤(1 1)绘制散点图前,先将数据按一定的方式组织:每个变量)绘制散点图前,先将数据按一定的方式组织:每个变量设置为相应的设置为相应
3、的SPSSSPSS变量。变量。(2 2)Graphs-Legacy Dialogs-Scatter/Dot:Graphs-Legacy Dialogs-Scatter/Dot:提供四种提供四种类型的散点图类型的散点图simple Scatter-simple Scatter-简单散点图简单散点图overlay Scatter-overlay Scatter-重叠散点图重叠散点图matrix Scatter-matrix Scatter-矩阵散点图矩阵散点图3-D Scatter-3-D Scatter-三维散点图三维散点图(3 3)简单散点图)简单散点图(simple Scatter)(sim
4、ple Scatter)表示表示一对变量一对变量间统计关系的散点图间统计关系的散点图将纵轴变量选入将纵轴变量选入Y AxisY Axis,将横轴变量选入将横轴变量选入X AxisX Axis,将将分分组组变变量量选选入入Set Set markers markers by:by:用用该该变变量量将将样样本本数数据据分分组组,并并在在一一张张图图上上用用不不同同颜颜色色绘绘制制若若干干个个散点图。散点图。将将标标记记变变量量选选入入Lable Lable Cases Cases byby,将将标标记记变变量量的的各变量值标记在散点图相应点的旁边。各变量值标记在散点图相应点的旁边。指指定定一一个个
5、分分类类变变量量到到panel panel byby,分分别别绘绘制制该该变变量量不同取值下的多张散点图。不同取值下的多张散点图。(4 4)重叠散点图)重叠散点图(overlay Scatteroverlay Scatter)表示表示多对变量多对变量间统计关系的散点图间统计关系的散点图 两两个个变变量量为为一一对对,前前一一个个为为纵纵轴轴变变量量,后后一一个个为为横轴变量,并可通过横轴变量,并可通过 按钮进行横轴变量的调换。按钮进行横轴变量的调换。将将标标记记变变量量选选入入Lable Lable Cases Cases byby,将将标标记记变变量量的各变量值标记在散点图相应点的旁边。的各
6、变量值标记在散点图相应点的旁边。指指定定一一个个分分类类变变量量到到panel panel byby,分分别别绘绘制制该该变变量不同取值下的多张散点图。量不同取值下的多张散点图。以方形矩阵的形式分别显示多对变量间统计关系的散点图以方形矩阵的形式分别显示多对变量间统计关系的散点图 需弄清各矩阵单元中的横纵变量。需弄清各矩阵单元中的横纵变量。括号中,前一个变量为纵轴变量,后一个变量为横轴变量括号中,前一个变量为纵轴变量,后一个变量为横轴变量对角线格子,显示参与绘图的变量。对角线格子,显示参与绘图的变量。在第三行第三列,则第三行的所有图形都以在第三行第三列,则第三行的所有图形都以 为纵轴,为纵轴,第
7、三列的所有图形都以第三列的所有图形都以 为横轴。为横轴。(5 5)矩阵散点图()矩阵散点图(matrix Scattermatrix Scatter)指指定定参参与与绘绘图图的的若若干干变变量量到到matrix matrix VariablesVariables,选选择择变变量量的的先先后后顺顺序序决决定定了了其其在在矩矩阵阵对对角角线线的的排排列列顺序。顺序。将将分分组组变变量量选选入入Set Set markers markers by:by:用用该该变变量量分分组组,并在一张图上用不同颜色绘制若干个散点图。并在一张图上用不同颜色绘制若干个散点图。将将标标记记变变量量选选入入Lable L
8、able Cases Cases byby,将将标标记记变变量量的的各变量值标记在散点图相应点的旁边。各变量值标记在散点图相应点的旁边。(6 6)三维散点图)三维散点图(3-D Scatter)(3-D Scatter)以以立立体体图图的的形形式式表表示示三三对对变变量量间间统统计计关关系系的的散散点点图图,指指定定三三个个变变量量,分分别别选选入入X X AxisAxis、Y Y Axis Axis、Z AxisZ Axis将将分分组组变变量量选选入入Set Set markers markers by:by:用用该该变变量量分分组组,并在一张图上用不同颜色绘制若干个散点图。并在一张图上用不
9、同颜色绘制若干个散点图。将将标标记记变变量量选选入入Lable Lable Cases Cases byby,将将标标记记变变量量的的各变量值标记在散点图相应点的旁边。各变量值标记在散点图相应点的旁边。3 其他功能(1 1)图形的交互绘制)图形的交互绘制Graphs-Chart BuilderGraphs-Chart Builder 在在 GalleryGallery选选 项项 卡卡 中中 选选 择择 Scatter/Dot,Scatter/Dot,拖拖 动动 Sample Sample ScatteScatte图标到绘制区域,用鼠标拖动相关变量到图标到绘制区域,用鼠标拖动相关变量到X X轴和
10、轴和Y Y轴。轴。(2)散点图的调整在需调整的散点图上双击鼠标,进入图形编辑窗口。在需调整的散点图上双击鼠标,进入图形编辑窗口。Option-Bin ElementOption-Bin Element:数据点的合并数据点的合并“棒状”的绘制Elements-Fit Line at Total:Elements-Fit Line at Total:选择选择”棒状棒状”的样式的样式:(a)(a)LinearLinear-线性回归线性回归(b)(b)QuadraticQuadratic-二项式回归二项式回归(c)(c)CubicCubic-三项式回归三项式回归应用案例利利用用“住住房房状状况况调调查
11、查”数数据据,分分析析家家庭庭收收入入与与计计划划面积之间的关系。面积之间的关系。分析:分析:(1 1)可通过散点图大致了解两者关系。)可通过散点图大致了解两者关系。(2 2)只有一对变量,用简单散点图。)只有一对变量,用简单散点图。1.1.利用相关系数进行变量间利用相关系数进行变量间线性关系线性关系的分析通常需要完成以下两的分析通常需要完成以下两个步骤:个步骤:(1 1)计算样本相关系数)计算样本相关系数r r;相关系数相关系数r r的取值在的取值在-1-1+1+1之间。之间。r0r0表示两变量存在正的线性相关关系;表示两变量存在正的线性相关关系;r0r0.8|r|0.8表示两变量有较强的线
12、性关系;表示两变量有较强的线性关系;|r|0.3|r|0.3表示两变量表示两变量之间的线性关系较弱。之间的线性关系较弱。(2 2)对样本来自的两总体是否存在)对样本来自的两总体是否存在显著的显著的线性关系线性关系进行推断。进行推断。抽样随机性抽样随机性 样本容量小样本容量小8.3 8.3 计算相关系数计算相关系数 2.2.对不同类型的变量应采用不同的相关系数来度量,常用的相对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有关系数主要有PearsonPearson简单相关系数、简单相关系数、SpearmanSpearman等级相关系数等级相关系数和和Kendall Kendall
13、相关系数等。相关系数等。(1 1)PearsonPearson简单相关系数(适用于两个变量都是简单相关系数(适用于两个变量都是定距型变量定距型变量)Pearson Pearson简单相关系数的检验统计量为:简单相关系数的检验统计量为:(2)Spearman等级相关系数SpearmanSpearman等级相关系数用来度量等级相关系数用来度量定序定序变量间的线性相关关变量间的线性相关关系。系。设设计计思思想想与与PearsonPearson简简单单相相关关系系数数相相同同,只只是是数数据据为为非非定定距距的的,故故计计算算时时并并不不直直接接采采用用原原始始数数据据 ,而而是是利利用用数数据据的的
14、秩秩,用用两两变变量量的的秩秩 代代替替 代代入入PearsonPearson简单相关系数计算公式。简单相关系数计算公式。于是其中的于是其中的 和和 的取值范围被限制在的取值范围被限制在1 1和和n n之间,且之间,且可被简化为:可被简化为:如果两变量的正相关性较强,它们秩的变化具有同步性,于如果两变量的正相关性较强,它们秩的变化具有同步性,于是是 的值较小,的值较小,r r趋向于趋向于1 1;如果两变量的正相关性较弱,它们秩的变化不具有同步性,如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是于是 的值较大,的值较大,r r趋向于趋向于0 0;小样本下,在零假设成立时,小样本下,在零假
15、设成立时,SpearmanSpearman等级相关系数服从等级相关系数服从SpearmanSpearman分布;分布;在大样本下,在大样本下,SpearmanSpearman等级相关系数的检验统计量为等级相关系数的检验统计量为Z Z统计统计量,定义为量,定义为 Z Z统计量近似服从标准正态分布。统计量近似服从标准正态分布。3.Kendall相关系数(1 1)用非参数检验方法度量)用非参数检验方法度量定序定序变量间的变量间的线性相关线性相关关系关系(2 2)利用变量秩计算)利用变量秩计算一致一致对数目对数目U U和和非一致非一致对数目对数目V V。当两个变量具有较强的正相关关系,则一致对数目较大
16、,当两个变量具有较强的正相关关系,则一致对数目较大,非一致对数目较小;非一致对数目较小;当两个变量具有较强的负相关关系,则一致对数目较小,当两个变量具有较强的负相关关系,则一致对数目较小,非一致对数目较大;非一致对数目较大;当两个变量相关性较弱,则一致对数目和非一致对数目当两个变量相关性较弱,则一致对数目和非一致对数目大致相等。大致相等。Kendall Kendall 相关系数相关系数在小样本下,在小样本下,KendallKendall相关系数服从相关系数服从KendallKendall分布;分布;在大样本下,在大样本下,KendallKendall相关系数的检验统计量为相关系数的检验统计量为
17、Z Z统计量为:统计量为:Z Z统计量近似服从标准正态分布。统计量近似服从标准正态分布。4.计算相关系数的基本操作(1 1)相关分析用于描述两个变量间关系的密切程度,其特点)相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。是变量不分主次,被置于同等的地位。(2 2)AnalyzeCorrelateAnalyzeCorrelate命令项中有三个相关分析子命令:命令项中有三个相关分析子命令:BivariateBivariate相关分析,用于进行两个或多个变量间的相相关分析,用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。关分析,如为多个变
18、量,给出两两相关的分析结果。PartialPartial偏相关分析,当进行相关分析的两个变量的取偏相关分析,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数变量进行控制,输出控制其他变量影响后的偏相关系数 DistancesDistances相似性测度(距离),用于对各样本点之间相似性测度(距离),用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。聚类分析和因子分
19、析等的预分析。Bivariate相关分析步骤相关分析步骤(1 1)选择菜单)选择菜单AnalyzeAnalyzeCorrelateCorrelateBivariateBivariate,出,出现窗口:现窗口:(2 2)把参加计算相关系数的变量选到)把参加计算相关系数的变量选到VariablesVariables框。框。(3 3)在)在Correlation CoefficentsCorrelation Coefficents框中选择计算哪种相关系数框中选择计算哪种相关系数(4 4)在在Test Test of of SignificanceSignificance框框中中选选择择输输出出相相关
20、关系系数数检检验验的的双双边(边(Two-TailedTwo-Tailed)概率)概率p p值或单边(值或单边(One-TailedOne-Tailed)概率)概率p p值。值。(5 5)选选中中Flag Flag significance significance correlationcorrelation选选项项表表示示分分析析结结果果中中除除显显示示统统计计检检验验的的概概率率p p值值外外,还还输输出出星星号号标标记记,以以标标明明变变量间的相关性是否显著;不选中则不输出星号标记。量间的相关性是否显著;不选中则不输出星号标记。(6 6)在在 OptionOption按按 钮钮 中中
21、的的 StatisticsStatistics选选 项项 中中,选选 中中 Cross-Cross-product product deviations deviations and and covariancescovariances表表示示输输出出两两变变量量的的离离差平方和、样本方差和协方差。差平方和、样本方差和协方差。5.5.相关分析应用举例相关分析应用举例 利用利用“住房状况住房状况”数据,计算家庭收入与计划面积之数据,计算家庭收入与计划面积之间的相关系数。间的相关系数。分析:分析:(1 1)家庭收入与计划面积均属)家庭收入与计划面积均属定距定距变量,变量,(2 2)计算)计算Pea
22、rsonPearson简单相关系数。简单相关系数。8.4 偏相关分析8.4.1 8.4.1 偏相关分析和偏相关系数偏相关分析和偏相关系数 (1 1)简单相关系数研究两变量间线性相关性,若还存在其)简单相关系数研究两变量间线性相关性,若还存在其他因素影响,其往往他因素影响,其往往夸大夸大变量间的相关性,不是两变量间变量间的相关性,不是两变量间线性相关强弱的真实体现。线性相关强弱的真实体现。(2 2)例如,研究商品的)例如,研究商品的需求量需求量、价格价格和和消费者收入消费者收入之间的之间的线性关系时,需求量和价格的相关关系实际还包含了消费线性关系时,需求量和价格的相关关系实际还包含了消费者收入对
23、价格和商品需求量的影响。此时,单纯利用简单者收入对价格和商品需求量的影响。此时,单纯利用简单相关系数来评价变量间的相关性是不准确的,需要在相关系数来评价变量间的相关性是不准确的,需要在剔除剔除其他相关因素影响的条件下计算变量间的相关。偏相关的其他相关因素影响的条件下计算变量间的相关。偏相关的意义就在于此。意义就在于此。(3 3)偏相关分析也称净相关分析,它在)偏相关分析也称净相关分析,它在控制其他变量控制其他变量线性线性影响的条件下分析两变量间的线性关系,所采用的工具是影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数偏相关系数。(4 4)控制变量个数为)控制变量个数为1 1时,偏相
24、关系数称一阶偏相关;当控时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为的个数为0 0时,偏相关系数称为零阶偏相关,也就是简单时,偏相关系数称为零阶偏相关,也就是简单相关系数。相关系数。偏相关系数的分析步骤偏相关系数的分析步骤(1 1)计算样本的偏相关系数)计算样本的偏相关系数 假设有三个变量假设有三个变量y y、x1x1和和x2x2,在分析,在分析x1x1和和y y之间的净相关之间的净相关时,需控制时,需控制x2x2的线性作用,则的线性作用,则x1x1和和y y之间的一阶偏相关定义之间的一阶偏相关定义
25、为:为:偏相关系数的取值范围及大小含义与相关系数相同。偏相关系数的取值范围及大小含义与相关系数相同。(2 2)对样本来自的两总体是否存在显著的净相关进行推)对样本来自的两总体是否存在显著的净相关进行推断,检验统计量为:断,检验统计量为:其中,其中,r r为偏相关系数,为偏相关系数,n n为样本数,为样本数,q q为阶数。为阶数。t t统计统计量服从量服从n-q-2n-q-2个自由度的个自由度的t t分布。分布。8.4.2 偏相关分析的基本操作(1 1)选择菜单)选择菜单AnalyzeAnalyzeCorrelateCorrelatePartialPartial(2 2)把参与分析的变量选择到)
26、把参与分析的变量选择到VariablesVariables框中。框中。(3 3)选择一个或多个控制变量到)选择一个或多个控制变量到Controlling forControlling for框中。框中。(4 4)在)在Test of SignificanceTest of Significance框中选择输出偏相关检验的框中选择输出偏相关检验的双尾概率双尾概率p p值或单尾概率值或单尾概率p p值。值。(5 5)OptionOption按钮中的按钮中的StatisticsStatistics选项,选中选项,选中Zero-order Zero-order CorrelationsCorrelations表示输出零阶偏相关系数。表示输出零阶偏相关系数。(6 6)SPSSSPSS将自动进行偏相关分析和统计检验,并将结果显将自动进行偏相关分析和统计检验,并将结果显示到输出窗口。示到输出窗口。8.4.3 偏相关分析的应用举例 利用利用”住房状况住房状况“数据,将数据,将”家庭常住人口数家庭常住人口数“作作为控制变量,分析家庭收入和计划面积的偏相关系为控制变量,分析家庭收入和计划面积的偏相关系数。数。分析:分析:(1 1)控制变量)控制变量-家庭常住人口数家庭常住人口数(2 2)利用偏相关分析实现)利用偏相关分析实现