6第六章 相关分析.ppt

上传人:hyn****60 文档编号:88426487 上传时间:2023-04-26 格式:PPT 页数:33 大小:283KB
返回 下载 相关 举报
6第六章 相关分析.ppt_第1页
第1页 / 共33页
6第六章 相关分析.ppt_第2页
第2页 / 共33页
点击查看更多>>
资源描述

《6第六章 相关分析.ppt》由会员分享,可在线阅读,更多相关《6第六章 相关分析.ppt(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第五章第五章 双变量关系描述统计双变量关系描述统计相关分析与检验相关分析与检验双变量的关系有关与无关v寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即:有关与无关。v在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二者无关。性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。的取值并未发生变化,因此性别与

2、考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。自变量的不同取值在因变量上有差异,两变量有关。表述:统计结果显示,当性别取值不同时,收入变表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。量的取值发生了变化,因此性别与月收入有关。自变量因变量双变量的关系双变量的关系关系强度测量关系强度测量变量关系强度的含义变量关系强度的含义:指两个变量相关程指两个变量相关程度的高低。统计学中是以准实验的思想度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的

3、角度来分析变量相关的。通常从以下的角度分析:分析:A)两变量是否相互独立。两变量是否相互独立。B)两变量是否有共变趋势。两变量是否有共变趋势。C)一变量的变化多大程度上能由另一变一变量的变化多大程度上能由另一变量的变化来解释。量的变化来解释。双变量关系强度测量的主要指标双变量关系强度测量的主要指标双变量的关系双变量的关系关系的性质关系的性质直线相关与曲线相关正相关与负相关完全相关与完全不相关第一节 列联相关一、列联分析的基本原理一、列联分析的基本原理自变量发生变化,因变量取值是否也发自变量发生变化,因变量取值是否也发生变化。生变化。比较边缘百分比和条件百分比的差别比较边缘百分比和条件百分比的差

4、别。列联表的格式列联表的格式自变量因变量人数行百分比列百分比总百分比边缘百分比边缘百分比条件百分比卡方测量的原理卡方测量的原理卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积应等于各自独立发生的概率乘积在列联表中,这一定理就具体转化为:在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两等于各自边缘的概率乘积。反之,则两变量有关,或,两变量不独立。变量有关,

5、或,两变量不独立。示例示例151565 5观察值边缘概率边缘概率边缘概率期望条件概率 9 9-9-9残差由此可见,期望值(独立模型)与观察值期望值(独立模型)与观察值的差距越大,说明两变量越不独立,也就的差距越大,说明两变量越不独立,也就越有相关。越有相关。因此,卡方的表达式如下:卡方的取值在0之间。卡方值越大,关联性越强。在SPSS中,有Pearson X2和相似比卡方(Likelihood Ratio X2)两种。二、二、列联表分析过程主要功能:主要功能:调用列联表分析过程可进行计数资料和某些等级资料的列联表分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一个三

6、维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。在分析中可对二维和多维列联表资料进行统计描述和x2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test),且有单双侧(One-Tail、Ywo-Tail)、对数拟然比检验(Likelihood Ratio)以及线性关系的Mantel-Haenszel x2检验。三、列联表分析过程 列联表分析程序 按Analyze-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。如图431该框中的变量该框中的变量作为分布表中作为分布表中的行变量,必的

7、行变量,必须是数值型或须是数值型或字符型等分类字符型等分类变量。变量。该框中的变量作该框中的变量作为控制变量,决为控制变量,决定频数分布表中定频数分布表中的层,可有多个的层,可有多个控制变量,如要控制变量,如要增加新的控制变增加新的控制变量,按量,按Next 键,键,要修改以前的变要修改以前的变量按量按Previous 键键显示每显示每一组中一组中各变量各变量的分类的分类条形图。条形图。只输出只输出统计量,统计量,不输出不输出多维列多维列联表。联表。见图见图4-32见图见图4-33见图见图4-34图图431 Crosstabs 对话框对话框进行行和列变量相互独立的假进行行和列变量相互独立的假设

8、检验,有多种检验法。(注设检验,有多种检验法。(注)进行相关系数的检验,有两项结果显示:Pearson相关系数和 Spearman相关系数适用于定类变量的统计量:适用于定类变量的统计量:基于卡方检验基础上对相关性的基于卡方检验基础上对相关性的检验检验用来描述相关性用来描述相关性当用自变量预测因变量时,此系当用自变量预测因变量时,此系数反映这种预测降低错误的比率。数反映这种预测降低错误的比率。显示不确定系数,表示用一个变显示不确定系数,表示用一个变量来预测其他变量时降低错误的比量来预测其他变量时降低错误的比率率适用于定序变量:适用于定序变量:Gamma系数反映两个有序变量系数反映两个有序变量间的

9、对称相关性。间的对称相关性。是是Gamma检验的非对称推广。检验的非对称推广。对有序变量和秩变量相关性的对有序变量和秩变量相关性的非参数检验。非参数检验。与与Kendalls tau-c相似相似适用于定序变量:适用于定序变量:用于检验相关性用于检验相关性用于检验两个评估人对同一对象的评估用于检验两个评估人对同一对象的评估是否具有一致系。是否具有一致系。检验某事件发生和某因子之间的关系检验某事件发生和某因子之间的关系进行两个相关的二值变量的非参数检验进行两个相关的二值变量的非参数检验进行一个二值因素变量和一个二值响应进行一个二值因素变量和一个二值响应变量的独立性检验。变量的独立性检验。图432

10、Crosstabs的Statistics 对话框图图433 Crosstabs的的Cell Display 对话框对话框选择在列联表中输出的统计量,选择在列联表中输出的统计量,包括观测量数、百分比、残差包括观测量数、百分比、残差输出观测量的实际数量输出观测量的实际数量如果行和列变量在统计如果行和列变量在统计上是独立的或不相关的,上是独立的或不相关的,那么会在单元格中输出期那么会在单元格中输出期望的观测值的数量。望的观测值的数量。输出单元格中观测量的数目占输出单元格中观测量的数目占整行全部观测量数目的百分比整行全部观测量数目的百分比输出单元格中观测值的数目占输出单元格中观测值的数目占整列全部观测

11、量数目的百分比整列全部观测量数目的百分比输出单元格中观测量的数目占输出单元格中观测量的数目占全部观测量数目的百分比全部观测量数目的百分比计算非标准化残差计算非标准化残差计算标准化残差计算标准化残差计算调整后残差计算调整后残差图图434 Table Format 对话框对话框决定各行的排列顺序:决定各行的排列顺序:各行的排列按升序各行的排列按升序各行的排列按降序各行的排列按降序三、例三、例 为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:表表4-18 吸烟和慢性支气管炎调查表吸烟和慢性支气管炎调查表患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121输入数据:变量h为采得的

12、数据;变量x为是否吸烟:1为吸烟,2为不吸烟;变量n为是否患病:1为患病,2为不患病。数据文件名为“Crosstab.sav”。在Data菜单中选Weight Cases项,打开Weight Cases对话框。Weight Cases by,再将变量h选入Frequence Variable 框,单击OK完成加权。按Analyze-Descriptive Statistics-Crootabs 顺序打开 Crootabs 主对话框。将x变量 选入Row框作为行变量,将n变量 选入Column 框作为列变量。打开Statistics对话框,选中Chi-squareContingency coef

13、ficient和Phi and CramersV复选框,单击Continue返回。单击Cell按钮,打开Cell display对话框,选中observed和Expected 复选框,单击Continue返回;单击OK。1、操作步骤 表4-19是统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。从表4-20列联表中可看出,吸烟人中患病者有43人,比期望值33.9大,不吸烟人中患病者只有13人,比期望值22.1小。输出结果如表419:表表419 吸烟与患病统计摘要表吸烟与患病统计摘要表2、输出结果及分析、输出结果及分析表表4-20 吸烟与患病列联表吸烟与患病列联表表表4-21 卡方检验卡方

14、检验 表4-21是卡方检验表,从表4-21中可看出,Chi-Square值为7.469,显著值为0.0060.05,应否定零假设,即认为吸烟与患慢性支气管炎是不独立的。由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,还可用Fisher精确检验。其双侧检验显著值为0.007。表422是对称性检验表,通过度量对称性来得到有效的观测个数,本例为339。表422 对称性检验表第二节第二节 相关分析相关分析 可采用相关分析和非参数相关分析过程。可选择计算积距相关系数、Spearman秩相关系数和Kendall秩相关系数。检验的假设为相关系数为0。可选择是单尾检验还是双尾检验。一、相关分析 C

15、orrelate菜单相关分析用于描述两个变量间联系的密切程度,其特点是变量不分主次,被置于同等的地位。在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令Bivariate过程、Partial过程、Distances过程,分别对应着相关分析、偏相关分析和相似性测度的三个spss过程。相关分析相关分析Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。Distances过程用于对同一

16、变量各观察单位间的数值或各个不同变量间进行相似性或不相似性分析,一般不单独使用,而作为因子分析等的预分析。二、二、Bivariate相关分析相关分析在进行相关分析时,散点图是重要的工具,分析前应先做散点图,以初步确定两个变量间是否存在相关趋势,该趋势是否为直线趋势,以及数据中是否存在异常点。否则可能的出错误结论。Bivariate相关分析的步骤:相关分析的步骤:输入数据后,依次单击AnalyzeCorrelateBivariate,打开Bivariate Correlations对话框如图51图图51 Bivariate Correlations 对话框对话框不清楚变量之间是正相关不清楚变量之

17、间是正相关还是负相关时选择此项。还是负相关时选择此项。清楚变量之间是正相关还清楚变量之间是正相关还是负相关时可选择此项。是负相关时可选择此项。计算积距相关系数,计算积距相关系数,连续性变量才可采用。连续性变量才可采用。计算计算Kendall秩相关秩相关系数,适合于定序变系数,适合于定序变量或不满足正态分布量或不满足正态分布假设的等间隔数据。假设的等间隔数据。计算计算Spearman秩相秩相关系数,适合于定序关系数,适合于定序变量或不满足正态分变量或不满足正态分布假设的等间隔数据。布假设的等间隔数据。在输出结果中,相关系在输出结果中,相关系数的右上角上有数的右上角上有“”则表示显著性水平为则表示

18、显著性水平为0.05;右上角上有;右上角上有“”则表示显著性水平则表示显著性水平为为0.01。见图见图52图图52 Optins 对话框对话框对每一个变量对每一个变量输出均值、标准输出均值、标准差和无缺省值的差和无缺省值的观测数。观测数。对每一个变量对每一个变量输出交叉距阵和输出交叉距阵和协方差距阵。协方差距阵。计算某个统计量时,在计算某个统计量时,在这一对变量中排除有缺省这一对变量中排除有缺省值的观测值。值的观测值。对于任何分析,有缺省对于任何分析,有缺省值的观测值都会被排除。值的观测值都会被排除。观测观测 号号12345678910体重体重(克)(克)8372699090959091757

19、0鸡冠重鸡冠重(毫克)(毫克)564218845610790683148连续变量相关分析实例数据表连续变量相关分析实例数据表相关分析实例相关分析实例1、连续变量的相关分析实例、连续变量的相关分析实例 十只小鸡的体重与鸡冠的数据如表所示(数据文件:小鸡(相关)小鸡(相关).sav):分析步骤1)输入数据,依次单击)输入数据,依次单击AnalyzeCorrelateBivariate,打开打开Bivariate Correlations对话框对话框2)选择)选择weight 和和coronary变量进入变量进入 Variables框框中。中。3)在)在Correlation Coefficient

20、s栏内选择栏内选择Pearson。4)在)在Test of Significance栏选择栏选择Two-tailed。5)选择选择Flag significant correlation。6)单击单击Options按钮,选择按钮,选择Mean and standard deviations、Cross-product deviations and covariances、Exclude cases pairise选项。选项。7)单击)单击OK完成。完成。描述性统计量表,如下:描述性统计量表,如下:从表中可看出,变量weight的均值为82.50,标准差为10.01,观测数为10;变量coronaryt的均值为60.00,标准差为27.60,观测数为10;结果分析结果分析 从表中可看出,Pearson相关系数为0.865,即小鸡的体重与鸡冠的相关系数为0.865,这两者之间不相关的双尾检验值为0.001。体重观测值的协方差为100.278,而鸡冠重观测值的协方差为761.556,体重和鸡冠重的协方差为239.111。从统计结果可得到,小鸡的体重与鸡冠重之间存在正相关关系,当小鸡的体重越大时,则小鸡的鸡冠越重。并且,否定了小鸡的体重与鸡冠重之间不相关的假设。Pearson相关系数距阵相关系数距阵

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁