《相关回归#.ppt》由会员分享,可在线阅读,更多相关《相关回归#.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、相关回归#现在学习的是第1页,共27页1.基本原理基本原理 1.1线性相关线性相关(Linear correlation)在在医医学学研研究究中中常常常常需需要要分分析析两两个个因因素素间间是是否存在线性关系。否存在线性关系。例如:身高与体重、父子身高的关系例如:身高与体重、父子身高的关系列联系数:列联系数:分类变量或等级变量分类变量或等级变量线性相关分析:线性相关分析:两变量为正态随机变量两变量为正态随机变量现在学习的是第2页,共27页 1相关系数相关系数(Pearson correlation coefficient):表示相关的密切程度和方向。表示相关的密切程度和方向。资料要求:两个变量
2、均是资料要求:两个变量均是随机随机变量,服从变量,服从正态正态分布分布 现在学习的是第3页,共27页现在学习的是第4页,共27页 相关系数的假设检验相关系数的假设检验 现在学习的是第5页,共27页 3.等级相关(等级相关(Spearmam 等级相关)等级相关)不服从双变量正态分布,总体分布未知不服从双变量正态分布,总体分布未知或原始数据用等级表示时,计算等级相或原始数据用等级表示时,计算等级相关系数。关系数。查查rs界值表,下结论。界值表,下结论。现在学习的是第6页,共27页4.分析的一般步骤分析的一般步骤 1)绘制散点图)绘制散点图 2)计算相关系数)计算相关系数 3)对相关系数进行检验)对
3、相关系数进行检验 4)结果的解释。)结果的解释。现在学习的是第7页,共27页相关的解释相关的解释1)相相关关分分析析中中对对变变量量的的选选择择及及统统计计结结果果的的解解释释一一定定要要结结合合专专业业背背景景,切切不不可可把把任任意意两两个个变变量量拉拉在在一一起起盲盲目目下下结结论论。例例如如:孩孩子子的的身身高与树高。高与树高。实实际际上上是是时时间间变变量量与与两两者者的的潜潜在在联联系系造造成成了了子高与树高相关的假象。子高与树高相关的假象。2)统计学上的关联性,不一定是因果联系。)统计学上的关联性,不一定是因果联系。现在学习的是第8页,共27页 1.2 线性回归线性回归(Line
4、ar regression)1.线性回归的概念:线性回归的概念:一个变量随着另一个变量变化的线性关系一个变量随着另一个变量变化的线性关系.自变量自变量(independent variable):可自由取值的变量可自由取值的变量(也称为解释变量也称为解释变量(explanatory variable)。如儿童年龄如儿童年龄,记为记为X;因变量因变量(dependent variable):受另一变量制约的变受另一变量制约的变 量称为量称为(也称反应变量也称反应变量(response variable))。)。如儿童身高如儿童身高,记为记为Y。如果如果Y与与X的关系呈线性关系的关系呈线性关系-用
5、线性回归描述两者的用线性回归描述两者的数量依存关系。数量依存关系。现在学习的是第9页,共27页 2.线性回归的条件线性回归的条件1)线性)线性(linear)2)独立)独立(independent)3)正态)正态(normal)4)等方差)等方差(equal variance)最重要的是真实的最重要的是真实的”因果关系因果关系”现在学习的是第10页,共27页 3.回归关系回归关系 如如年年龄龄与与身身高高,某某一一年年龄龄儿儿童童,身身高高有有高高有有低低,但但随随年年龄龄增增加加,身身高高有有增加趋势。增加趋势。找找到到一一个个描描述述变变量量之之间间变变化化的的数数学学表达式,称为线性回归
6、方程。表达式,称为线性回归方程。现在学习的是第11页,共27页4.线性回归方程:采用最小二乘法准则求得;线性回归方程:采用最小二乘法准则求得;表达式为:表达式为:a:截距:截距(intercept),表示,表示X=0时时,Y的平均水平。的平均水平。b:回回 归归 系系 数数(regression coefficient)或或 斜斜 率率(slope),表表示示X每每变变化化一一个个单单位位,y平平均均改改变变b个单位个单位现在学习的是第12页,共27页回归方程的假设检验回归方程的假设检验 方差分析或与其等价的方差分析或与其等价的t检验来进行检验来进行n回回1,残残n-2n s为回归的剩余标准差
7、为回归的剩余标准差现在学习的是第13页,共27页决(确)定系数决(确)定系数(coefficient of determination)或相关指或相关指数数(correlation index),常记为,常记为R2,其取值在其取值在0到到1之间,无单位。之间,无单位。它它反反映映了了回回归归贡贡献献的的相相对对程程度度,也也就就是是在在Y的的总总变变异异中回归所能解释的百分比。中回归所能解释的百分比。如如此此例例中中父父亲亲身身高高的的信信息息大大约约可可解解释释儿儿子子身身高高变变异异性性的的86%,还还有有约约14%的的一一部部份份变变异异不不能能用用父父亲亲身身高高来来解解释。释。实实际
8、际应应用用中中我我们们通通常常通通过过它它的的数数值值大大小小反反映映回回归归或或相相关的实际效果。关的实际效果。现在学习的是第14页,共27页5.分析的一般步骤:分析的一般步骤:1)绘制散点图)绘制散点图2)计算回归系数)计算回归系数3)对回归系数进行检验)对回归系数进行检验4)写出线性回归方程)写出线性回归方程5)结果的解释)结果的解释现在学习的是第15页,共27页6.线性回归方程的应用:线性回归方程的应用:1)描述因变量依赖自变量变化而变化的数量)描述因变量依赖自变量变化而变化的数量关系;关系;2)由易测的变量值()由易测的变量值(X)估算难测的变量值)估算难测的变量值();();3)进
9、行预测;)进行预测;4)建立较精确的正常值范围。)建立较精确的正常值范围。应应用用线线性性回回归归与与相相关关应应注注意意分分析析要要有有实实际际意意义义及正确解释结果。及正确解释结果。现在学习的是第16页,共27页1.3 曲线估计(曲线估计(Curve Estimation)如两变量间为非线性关系,可用曲线估计如两变量间为非线性关系,可用曲线估计。现在学习的是第17页,共27页2.操作步骤操作步骤例例1:测测得得20名名男男生生和和其其父父亲亲的的身身高高如如下下,试试做做线线性性相相关分析。关分析。现在学习的是第18页,共27页1.1 数据输入或调用数据输入或调用1.直接输入直接输入 在在
10、Newdata窗窗里里直直接接输输入入数数据据,进进行行分分析析。数数据据量少时适用。量少时适用。2.数据库调用数据库调用File Open data,屏屏幕幕出出现现打打开开文文件件对对话话窗窗,在在文文件件类类型型窗窗中中可可选选择择打打开开数数据据库库的的类类型型,如如DBASE,FOXBASE,EXCEL等等,当当 然然 也也 可可 以以 是是SPSS的的 数数 据据 文文 件件(*.SAV)。)。现在学习的是第19页,共27页1.2 绘制散点图(绘制散点图(Scatterplot)调用过程调用过程Graphs Scatter Scatterplot 有四种选择:有四种选择:Simpl
11、e是是简单散点图简单散点图,只显示一对相关变量的散点图;,只显示一对相关变量的散点图;Overlay是是重叠散点图重叠散点图,可显示多对相关变量的散点图;,可显示多对相关变量的散点图;Matrix是是散点图矩阵散点图矩阵,在矩阵中显示多个散点图,在矩阵中显示多个散点图 3-D是是三维散点图三维散点图,可显示三个变量之间的散点图。,可显示三个变量之间的散点图。这这里里选选择择Simple,单单击击define,进进入入下下一一对对话话窗窗Scatterplot。选选择择Y轴和轴和X轴变量,单击轴变量,单击OK,得到散点图如下:,得到散点图如下:现在学习的是第20页,共27页现在学习的是第21页,
12、共27页1.3 相关分析相关分析1.调用相关分析过程调用相关分析过程Analyze Correlate有有Bivariate、Partial和和Distances三种选择三种选择Bivariate过过程程是是Correlate菜菜单单中中用用得得最最多多的的一一个个过过程,它用于程,它用于两个变量两个变量间的线性相关分析间的线性相关分析Partial过过程程是是偏偏相相关关分分析析,计计算算出出的的相相关关系系数数为为偏偏相相关系数,它用于关系数,它用于多个变量多个变量相互之间的线性相关分析相互之间的线性相关分析Distances过程是作过程是作距离分析距离分析现在学习的是第22页,共27页2
13、.假设我们现在做父亲和儿子身高的相关分析。假设我们现在做父亲和儿子身高的相关分析。选选择择Bivariate,这这时时出出现现相相关关分分析析窗窗,将将相相应应的的变变量选进右边窗口,下面有三种指标,量选进右边窗口,下面有三种指标,Pearson:进进行行积积距距相相关关分分析析,即即最最常常用用的的参参数数相相关分析,默认输出项;关分析,默认输出项;Kendalls tau-b:计计算算Kendalls等等级级相相关关系系数数,这这是是一一个个反反映映分分类类变变量量一一致致性性的的指指标标,只只能能在在两两变变量均属于量均属于有序分类有序分类时使用;时使用;Spearman:计计算算Spe
14、arman相相关关系系数数,即即最最常常用用的的非参数相关分析(非参数相关分析(秩相关秩相关)。现在学习的是第23页,共27页1.4 回归分析回归分析1.调用回归分析过程调用回归分析过程Analyze Regression有有linear(线性线性),curve estimation(曲线曲线估估计)计),logistic,probit(正态概率正态概率单位)单位),nonlinear(非线性非线性),weight estimation(加(加权估计)和权估计)和2-stage least square(两阶段最小(两阶段最小二乘估计)二乘估计),optimal scaling(最优尺度回归最
15、优尺度回归分析分析)等选择,现主要介绍线性回归和曲线估计。等选择,现主要介绍线性回归和曲线估计。现在学习的是第24页,共27页例例7.2 仍仍以以父父子子身身高高为为例例,试试对对资资料料进进行行回归分析。回归分析。调用过程调用过程Analyze Regression linear,进进入入回回归归对对话话窗窗,将将父父亲亲身身高高选选入入自自变变量量(Independent),儿儿子子身身高高选选入入因因变变量量(Dependent),点击),点击OK即可。即可。现在学习的是第25页,共27页对话框介绍:对话框介绍:1)Dependent框框:用用于于选选入入回回归归分分析析的的因因变变量量,只只能选入一个。能选入一个。2)Independent(s)框:选择一个或多个自变量。)框:选择一个或多个自变量。3)Method框是设定模型中自变量的筛选方法:框是设定模型中自变量的筛选方法:现在学习的是第26页,共27页可见,复相关系数可见,复相关系数R=0.930确定系数确定系数R2=0.864SE=2.30 模模型型的的方方差差分分析析F=114.513(P0.001);回归方程为;回归方程为;=74.165+0.570X现在学习的是第27页,共27页