《线性相关与回归.ppt》由会员分享,可在线阅读,更多相关《线性相关与回归.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、线性相关与回归 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 直线相关直线相关 直线相关直线相关 称简单相关。用于研究两个随机变称简单相关。用于研究两个随机变量与之间相关关系及密切程度。适量与之间相关关系及密切程度。适用于双变量正态分布用于双变量正态分布(bivariate bivariate normal distribution)normal distribution)资料。两变量资料。两变量X X、Y Y间的相关关系可用散点图直观说明,间的相关关系可用散点
2、图直观说明,而相关分析就是用相关系数对这种关系而相关分析就是用相关系数对这种关系给以定量的描述。给以定量的描述。相关系数相关系数 直线相关系数又称积差相关系数直线相关系数又称积差相关系数(coefficient of product-moment coefficient of product-moment correlation)correlation),简称相关系数。创用于简称相关系数。创用于F.Y.Edgeworth(1892)F.Y.Edgeworth(1892),样本相关系数样本相关系数用用r r表示,总体相关系数用表示,总体相关系数用表示。表示。样本相关系数的计算样本相关系数的计算
3、相关系数的计算公式为:相关系数的计算公式为:例例9-19-1测得某地岁儿童测得某地岁儿童1010人的人的体重体重(kg)kg)与体表面积与体表面积(10(103 3cmcm2 2)资料见下资料见下表,试以此样本资料计算体重与体表面表,试以此样本资料计算体重与体表面积的相关系数。积的相关系数。相关系数的假设检验相关系数的假设检验 根据样本计算出的相关系数根据样本计算出的相关系数r r,是是总体相关系数总体相关系数的估计值。从的估计值。从=0=0(无无直线相关)的总体中抽取样本,其直线相关)的总体中抽取样本,其r r不不一定为一定为0 0。因此,得到。因此,得到r r00后,由于存后,由于存在抽样
4、误差,则有必要检验在抽样误差,则有必要检验r r是否来自是否来自=0=0的总体,以判定两变量间是否有直的总体,以判定两变量间是否有直线相关关系。线相关关系。在进行假设检验时,无效假设在进行假设检验时,无效假设H H0 0为:为:=0,=0,即两变量间无直线相关关系;即两变量间无直线相关关系;备择假设备择假设H H1 1为:为:00,两变量间有直两变量间有直线相关关系。常用的假设检验方法是线相关关系。常用的假设检验方法是t t检验,检验统计量检验,检验统计量t t值的计算公式如下:值的计算公式如下:例例9-2 9-2 就例就例9-19-1资料,问某地资料,问某地4 4岁岁儿童体重与体表面积间是否
5、有直线关系儿童体重与体表面积间是否有直线关系?H H0 0:0 0,两变量间无直线相关关系;两变量间无直线相关关系;H H1 1:00,两变量间有直线相关关系。两变量间有直线相关关系。0.050.05。本例本例n=10,n=10,r r=0.9579,=0.9579,按下式计算按下式计算t t值:值:查附表查附表(t t界值表界值表),得,得P P0.001,0.001,按按=0.05=0.05水准拒绝水准拒绝H H0 0,接受接受H H1 1,故可以认故可以认为某地为某地4 4岁儿童体重与体表面积呈正直线岁儿童体重与体表面积呈正直线相关关系。相关关系。同样地,也可按同样地,也可按=n-2n-
6、2直接查直接查(r r界界值表值表)求求P P值。值。因为因为 ,所以所以,结论同结论同t t检检验验P P0.0010.001 总体相关系数总体相关系数的区间估计的区间估计 总体相关系数总体相关系数00时,从这样的时,从这样的总体中抽样计算出的样本相关系数总体中抽样计算出的样本相关系数r r不不服从正态分布,此时,若对服从正态分布,此时,若对r r按下式作按下式作Z Z变换(反双曲正切变换),则变换(反双曲正切变换),则Z Z近似服近似服从标准差为从标准差为 的正态分布。故可的正态分布。故可以按正态分布原理求出以按正态分布原理求出Z Z的的1-1-可信区可信区间,再对间,再对Z Z的可信区间
7、作反变换(双曲的可信区间作反变换(双曲正切变换)得总体相关系数正切变换)得总体相关系数的的1-1-可可信区间。信区间。反双曲正切变换:反双曲正切变换:或或 Z Z的的1-1-可信区间计算公式:可信区间计算公式:缩写缩写 的的1-1-可信区间计算公式:可信区间计算公式:缩写缩写 例例9-3 9-3 已求得某地已求得某地4 4岁儿童岁儿童1010人人的体重与体表面积的相关系数(即样的体重与体表面积的相关系数(即样本相关系数),本相关系数),r r=0.9579=0.9579,求总体相求总体相关系数(即某地关系数(即某地4 4岁儿童的体重与体表岁儿童的体重与体表面积的相关系数)的面积的相关系数)的9
8、5%95%的可信区间。的可信区间。Z Z的的95%95%可信区间为:可信区间为:的的1-1-可信区间为:可信区间为:所以求得所以求得的的95%95%可信区间为可信区间为(0.8271,0.99030.8271,0.9903),其统计学意义为),其统计学意义为按按95%95%的可信程度得到的总体相关系数的可信程度得到的总体相关系数可能存在的一个范围。可能存在的一个范围。应用相关系数时应注意的问题应用相关系数时应注意的问题 1 1样本相关系数与总体相关系数样本相关系数与总体相关系数间存在抽样误差,所以求得样本相关系间存在抽样误差,所以求得样本相关系数后应进行假设检验。数后应进行假设检验。2 2有相
9、关关系不等于因果关系。有相关关系不等于因果关系。有无因果关系还需结合专业知识进一步有无因果关系还需结合专业知识进一步研究。研究。3 3在实际工作中要区别相关的统在实际工作中要区别相关的统计学意义与相关强度。相关有统计学意计学意义与相关强度。相关有统计学意义指该样本相关系数义指该样本相关系数r r来自来自=0=0的总体的总体概率很小,而相关强度表示两变量间相概率很小,而相关强度表示两变量间相互关系的密切程度,用值的大小来反映。互关系的密切程度,用值的大小来反映。直线回归直线回归 直线回归直线回归 直线回归分析是研究两变量直线回归分析是研究两变量X X、Y Y数量数量上线性依存关系的一种统计分析方
10、法。它上线性依存关系的一种统计分析方法。它要求应变量要求应变量Y Y服从正态分布;自变量服从正态分布;自变量X X是一是一个可以精确测量和严格控制的变量,也可个可以精确测量和严格控制的变量,也可以是一个服从正态分布的变量。直线回归以是一个服从正态分布的变量。直线回归分析的任务就是求解分析的任务就是求解X X、Y Y变量的回归方程,变量的回归方程,并用此方程来反映并用此方程来反映X X、Y Y两变量的线性依存两变量的线性依存关系。关系。建立直线回归方程的基本原理建立直线回归方程的基本原理 在散点图中可以设想出无数条直线在散点图中可以设想出无数条直线代表这些点的直线趋势,但是在这些直代表这些点的直
11、线趋势,但是在这些直线中,我们希望找出一条最具代表性的线中,我们希望找出一条最具代表性的直线,如果有一条直线它满足散点图上直线,如果有一条直线它满足散点图上的每一点到该直线的的每一点到该直线的纵向距离的平方和纵向距离的平方和最小即最小(此即数学上的最小二乘法最小即最小(此即数学上的最小二乘法原理)原理)这样一个条件,那么我们认为这这样一个条件,那么我们认为这样一条直线是最有代表性的。该直线回样一条直线是最有代表性的。该直线回归方程的表达式为:归方程的表达式为:式中式中X X为自变量,(读为自变量,(读hathat)为应变为应变量量Y Y的估计值。的估计值。a a为直线在为直线在Y Y轴上的截距
12、,轴上的截距,即即X=0X=0时的值。时的值。b b为直线的斜率,称为回为直线的斜率,称为回归系数,表示归系数,表示X X变动一个单位时,变动一个单位时,平均平均变动的单位数。变动的单位数。在满足最小二乘法原理,即在满足最小二乘法原理,即 最小的前提下,用微积分学知识可推最小的前提下,用微积分学知识可推出出a a、b b的计算公式为:的计算公式为:建立直线回归方程的步骤建立直线回归方程的步骤 1 1用实测数据绘制散点图用实测数据绘制散点图 2 2计算回归系数计算回归系数b b与截距与截距a a,下面以例下面以例9-19-1资料说明建立直线回资料说明建立直线回归方程的具体步骤:归方程的具体步骤:
13、过点过点(12(12,5.3832)5.3832)与与(15(15,6.0990)6.0990)可在直角坐标系上作直线。若纵坐标、可在直角坐标系上作直线。若纵坐标、横坐标无折断时,将此直线左端延长与横坐标无折断时,将此直线左端延长与纵轴相交,交点的纵坐标必然等于截距纵轴相交,交点的纵坐标必然等于截距a a,同时所绘直线必然通过同时所绘直线必然通过 。这。这两点可以用来核对直线绘制是否正确。两点可以用来核对直线绘制是否正确。回归系数的假设检验回归系数的假设检验 样本回归系数样本回归系数b b是总体回归系数是总体回归系数的估计值。从的估计值。从=0=0(无直线回归关系)无直线回归关系)的总体中抽取
14、样本,由于存在抽样误差,的总体中抽取样本,由于存在抽样误差,其其b b不一定等于不一定等于0 0。因此,得到。因此,得到b0b0后,后,必须检验必须检验b b是否来自是否来自=0=0的总体,以判的总体,以判定两变量间是否存在直线回归关系。定两变量间是否存在直线回归关系。回归系数的假设检验常用回归系数的假设检验常用t t检验,检验,检验统计量值的计算公式为:检验统计量值的计算公式为:仍以例仍以例9-19-1资料说明建立直线回归资料说明建立直线回归方程后对回归系数的假设检验步骤:方程后对回归系数的假设检验步骤:根据对例根据对例9-19-1资料进行回归分析的资料进行回归分析的结果可得到如下数据:结果
15、可得到如下数据:1 1 建立检验假设并确定检验水准建立检验假设并确定检验水准H H0 0:0 0,即体重与体表面积间无直即体重与体表面积间无直 线回归关系;线回归关系;H H1 1:00,即体重与体表面积间有直即体重与体表面积间有直 线回归关系。线回归关系。=0.05=0.05。2.计算检验统计量计算检验统计量3.确定确定P P值,作出推断结论值,作出推断结论 查附表查附表(t t界值表界值表):):因为,因为,,故故P P0.0010.001,所以按所以按=0.05=0.05水准拒绝水准拒绝H H0 0,接接受受H H1 1。说明体重与体表面积间存在直线说明体重与体表面积间存在直线回归关系。
16、这里值得注意的是:对同一回归关系。这里值得注意的是:对同一资料,相关系数与回归系数的假设检验资料,相关系数与回归系数的假设检验是等价的,即是等价的,即 。直线回归方程的用途直线回归方程的用途 1 1两变量间存在直线关系时,直两变量间存在直线关系时,直线方程可定量地描述两变量间的线性线方程可定量地描述两变量间的线性依存关系。依存关系。2 2根据直线回归方程由已知变量根据直线回归方程由已知变量值估计未知变量值:如统计预测。值估计未知变量值:如统计预测。应用直线回归方程时应注意的问题应用直线回归方程时应注意的问题 1 1求出样本资料的直线回归方程求出样本资料的直线回归方程后应进行假设检验。后应进行假
17、设检验。2 2应用直线回归方程时,要注意应用直线回归方程时,要注意方程只适用于自变量方程只适用于自变量X X的样本数据波动的样本数据波动范围,不能任意外延其应用范围。范围,不能任意外延其应用范围。等级相关等级相关 等级相关等级相关 第一节介绍的积差相关系数适用于第一节介绍的积差相关系数适用于双变量正态分布的资料,但有时其中一双变量正态分布的资料,但有时其中一个甚至两个变量都不服从正态分布,这个甚至两个变量都不服从正态分布,这时需用非参数相关分析方法。时需用非参数相关分析方法。本节介绍由本节介绍由spearmanspearman提出的秩相提出的秩相关分析方法。本方法适用于下列情况:关分析方法。本
18、方法适用于下列情况:不服从双变量正态分布而不宜不服从双变量正态分布而不宜作积差相关分析的资料;作积差相关分析的资料;总体分布类型未知的资料;总体分布类型未知的资料;原始数据是按等级分类的资料。原始数据是按等级分类的资料。例例9-2 9-2 某医院调查了某医院调查了1212例病人的例病人的血小板浓度和出血症状两方面的资料,血小板浓度和出血症状两方面的资料,试以此样本资料计算秩相关系数。试以此样本资料计算秩相关系数。表中出血症状是按等级分类的资表中出血症状是按等级分类的资料,称为等级资料,所以应采用秩相料,称为等级资料,所以应采用秩相关系数来描述血小板浓度与出血症状关系数来描述血小板浓度与出血症状
19、之间的关系。之间的关系。本资料中出血症状这一变量相同本资料中出血症状这一变量相同秩次较多,有秩次较多,有1111个,占总观察病例数个,占总观察病例数的的91.7%(11/12)91.7%(11/12)。秩相关系数计算步。秩相关系数计算步骤为:骤为:若相同秩次总数不多于观察总例若相同秩次总数不多于观察总例数的数的25%25%,可以采用简易公式计算秩相,可以采用简易公式计算秩相关系数,此时,要计算出关系数,此时,要计算出 d di i2 2,本例已本例已计算出,计算过程及结果见表计算出,计算过程及结果见表9-29-2第第(7 7)和第()和第(8 8)列,)列,=402.5=402.5,n n=1
20、2=12。代代入简易公式式即可计算出秩相关系数入简易公式式即可计算出秩相关系数=1-6402.5/(12=1-6402.5/(123 3-12)=-0.4073-12)=-0.4073,此例简易公式计算出的秩相关系数此例简易公式计算出的秩相关系数的绝对值明显小于校正式计算值,这是的绝对值明显小于校正式计算值,这是由于本例相同秩次总数太多(多于由于本例相同秩次总数太多(多于25%25%)所致,所以对相同秩次出现次数)所致,所以对相同秩次出现次数较多的资料,计算秩相关系数时勿必用较多的资料,计算秩相关系数时勿必用简易公式计算,以免产生较大的误差。简易公式计算,以免产生较大的误差。曲线回归曲线回归曲
21、线回归曲线回归 在医学研究中经常遇到两变量间在医学研究中经常遇到两变量间不呈直线关系的资料,所以我们就无不呈直线关系的资料,所以我们就无法直接应用直线回归分析来研究这种法直接应用直线回归分析来研究这种类型的资料;但是,我们可以通过适类型的资料;但是,我们可以通过适当的变量变换,使不呈直线关系的资当的变量变换,使不呈直线关系的资料直线化(料直线化(rectificationrectification)。)。曲线直曲线直线化扩大了直线回归的应用范围,线化扩大了直线回归的应用范围,1 1曲线拟合(曲线拟合(curve fittingcurve fitting)曲线直线化是曲线拟合的重要手曲线直线化是
22、曲线拟合的重要手段之一。对于某些非线性资料,可通过段之一。对于某些非线性资料,可通过适当的变量变换使之直线化,用直线回适当的变量变换使之直线化,用直线回归分析方法求出归分析方法求出a a、b b的大小,再还原为的大小,再还原为原始变量,即可得到拟合的曲线方程。原始变量,即可得到拟合的曲线方程。2 2直接使用变量变换后的直线直接使用变量变换后的直线回归回归 在卫生检验工作中,若两变量呈在卫生检验工作中,若两变量呈曲线趋势,常对变量进行变量变换使曲线趋势,常对变量进行变量变换使之直线化,然后求出新变量的直线化之直线化,然后求出新变量的直线化回归方程,绘制标准曲线(工作曲线)回归方程,绘制标准曲线(
23、工作曲线),直接用于指导实践。,直接用于指导实践。曲线拟合步骤曲线拟合步骤 选定曲线类型选定曲线类型 变量变换变量变换 按最小二乘法原理求直线化方程按最小二乘法原理求直线化方程将直线化的方程转换为曲线方程,作将直线化的方程转换为曲线方程,作曲线图。曲线图。选定曲线类型选定曲线类型 先在坐标纸上绘制散点图,结合先在坐标纸上绘制散点图,结合专业知识选取恰当的曲线类型。比如专业知识选取恰当的曲线类型。比如两变量间当变量两变量间当变量X X(自变量)增大,自变量)增大,Y Y(应变量)随之增大(或减少)得越应变量)随之增大(或减少)得越来越快。这时可拟合指数曲线或对数来越快。这时可拟合指数曲线或对数曲
24、线。曲线。变量变换变量变换 若曲线类型是指数曲线,只须对若曲线类型是指数曲线,只须对Y Y进行对数变换;若曲线类型是对数曲进行对数变换;若曲线类型是对数曲线,只须对线,只须对X X进行取对数变换。变换后进行取对数变换。变换后都分别使两变量间呈直线关系。都分别使两变量间呈直线关系。如指数曲线:如指数曲线:Y=eY=e(A+BX)(A+BX),若两边取若两边取自然对数后,有自然对数后,有Y=A+BX(Y=A+BX(此处此处YY代代表表lnY),lnY),说明说明YY与与X X存在直线关系,所存在直线关系,所以我们可以对以我们可以对Y Y取对数变换后进行直线取对数变换后进行直线回归分析。回归分析。如
25、对数曲线:如对数曲线:Y=A+BlnX,X0Y=A+BlnX,X0,若若对对X X进行取对数变换,有进行取对数变换,有Y=A+BXY=A+BX(此此处处XX代表代表lnXlnX),),说明说明Y Y与与XX存在直存在直线关系,所以我们可以对线关系,所以我们可以对X X取对数变换取对数变换后进行直线回归分析。后进行直线回归分析。按最小二乘法原理求直线化方程按最小二乘法原理求直线化方程 根据前面介绍的直线回归分析方法,根据前面介绍的直线回归分析方法,求出变量变换后的直线回归方程求出变量变换后的直线回归方程Y=a+bXY=a+bX(YY和和XX是原始变量是原始变量Y Y和和X X经经适当变量变换后的新变量)。在卫生检验适当变量变换后的新变量)。在卫生检验工作中,可直接应用此直线化方程而不必工作中,可直接应用此直线化方程而不必将它还原为曲线方程。将它还原为曲线方程。将直线化的方程转换为曲线方将直线化的方程转换为曲线方程,作曲线图。程,作曲线图。曲线直线化的关键是找到使曲线曲线直线化的关键是找到使曲线函数直线化的变量变换方法,而后的函数直线化的变量变换方法,而后的计算分析方法与前述的直线回归分析计算分析方法与前述的直线回归分析方法完全相同,故在本节不作具体实方法完全相同,故在本节不作具体实例介绍。例介绍。相关与回归分析流程图相关与回归分析流程图