《《回归与相关》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《回归与相关》PPT课件.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章 回归与相关回归与相关Linear Regression and Correlation引言引言医学工作科研研究的目的医学工作科研研究的目的:1.研研究究某某指指标标的的特特征征(平平均均水水平平、发发生生率率等等)并并比比较较该该指指标标组组间间均均数数(率率)的差别。的差别。2.了了解解两两个个、或或多多个个指指标标之之间间是是否否有有相相关关关关系系,以以解解释释和和预预测测(用用一一个个指指标预测另一指标的高低)。标预测另一指标的高低)。表2-1 108例高血压患者治疗后临床记录例高血压患者治疗后临床记录编号编号 年龄年龄 性别性别 治疗组治疗组 舒张压舒张压 体温体温 疗
2、效疗效 X1X1 X2X2 X3 X3 X4 X5X4 X5 X6X6 1 37 男男 A 11.27 37.5 显效显效 2 45 女女 B 12.53 37.0 有效有效 3 43 男男 A 10.93 36.5 有效有效 4 59 女女 B 14.67 37.8 无效无效 。100 54 男男 B 16.80 37.6 无效无效8名健康成人血清胆固醇(名健康成人血清胆固醇(mmol/l)与)与低密度脂蛋白(低密度脂蛋白(g/l)结果)结果编号编号 胆固醇(胆固醇(X X)脂蛋白(脂蛋白(Y Y)1 4.271 4.27 0.8 0.82 5.172 5.17 1.23 1.233 5.6
3、93 5.69 1.31 1.314 5.174 5.17 1.33 1.335 3.775 3.77 0.68 0.686 5.176 5.17 1.12 1.127 5.667 5.66 1.29 1.298 3.318 3.31 0.46 0.46 第二节:第二节:直线相关直线相关 (Linear Correlation)一、直线相关的概念一、直线相关的概念1.两指标来自同一个体两指标来自同一个体,一个指标的数据一个指标的数据增大,其另一个指标数字也增大或减少,增大,其另一个指标数字也增大或减少,为两个变量(指标)有相关关系。为两个变量(指标)有相关关系。2.变量关系类型的了解变量关系类
4、型的了解用两变量数据的散点图(图用两变量数据的散点图(图7-3),反映),反映关系的类型(线性或非线性),统计中关系的类型(线性或非线性),统计中用用相关系数相关系数描述关系的密切程度。描述关系的密切程度。母血TSH 脐带血脐带血TSH编号 X Y 1 1.21 3.90 2 1.30 4.50 3 1.39 4.20 4 1.42 4.83 5 1.47 4.16 6 1.56 4.93 7 1.68 4.32 8 1.72 4.99 9 1.98 4.70 10 2.10 5.20讲义例讲义例7-1研究同一母研究同一母亲与婴儿的亲与婴儿的母血TSH 与 脐带血脐带血TSH的关系的关系母血母
5、血TSH值与脐带血值与脐带血TSH值的关系散点图值的关系散点图(1.2,3.9)二、相关系数的意义二、相关系数的意义pearson(皮尔逊)相关系数(皮尔逊)相关系数(pearson correlation coefficient):):用用 r表示(积差法相关系数)表示(积差法相关系数)pearson r 系数的意义系数的意义:是描述是描述两个计量变量值直线两个计量变量值直线关系的密切关系的密切程度和方向的统计指标程度和方向的统计指标。相关系数(相关系数(r)的意义)的意义r系数的值无单位,波动范围为系数的值无单位,波动范围为 -1 1。|r|=1,表示完全相关,线性函数关系(见讲义图,表示
6、完全相关,线性函数关系(见讲义图7-3中的(中的(e)和()和(f)。)。|r|越接近越接近1,表示两变量关系越密切(点子接近,表示两变量关系越密切(点子接近一条直线)。一条直线)。|r|=0,表示两变量无相关关系和直线相关关系,表示两变量无相关关系和直线相关关系(见图(见图c、g、h)。)。系数的符号系数的符号r为正,表示正相关关系,即为正,表示正相关关系,即x值的增加,值的增加,y 也增也增加,反之为负相关加,反之为负相关。两指标(两指标(X,Y)数据关系的散点图)数据关系的散点图图图a、c为正相关关系为正相关关系图图a图图b图图c图图d图图b、d为负相关关系为负相关关系三、相关系数的计算
7、三、相关系数的计算 X和和Y的离均差积和的离均差积和(7-17)母血母血TSH 脐带血脐带血TSH X Y X2 Y2 XY 1.21 3.90 1.46 15.2 4.72 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20合计合计15.83 45.73 25.80 210.73 73.14例表,分别计算下列公式:例表,分别计算下列公式:=25.80-15.832/10=0.7411=73.14-15.83 45.73/10=0.7494=210.73-45.732
8、/10=1.6067相关系数的计算相关系数的计算r为正值,表示随着为正值,表示随着母血的TSH的增加,其 脐脐带血带血TSH的含量也增加,关系为正相关关系的含量也增加,关系为正相关关系四、相关系数(四、相关系数(r)假设检验)假设检验相关系数(相关系数(r)为样本数据计算)为样本数据计算,r的大小也的大小也存在抽样误差,统计对存在抽样误差,统计对r做统计检验,推断做统计检验,推断 两变量的总体是否有相关关系。两变量的总体是否有相关关系。检验检验r的方法:的方法:1.查表法(附表查表法(附表13,243页页)2.相关系数(相关系数(r)的)的t检验公式计算法检验公式计算法等价等价1.查表法方法与
9、步骤方法与步骤1)建立假设:)建立假设:H0:=0,即两变量(总体相关系数,即两变量(总体相关系数=0)无相关)无相关关系关系H1:0,两变量有相关关系,两变量有相关关系,=0.052)查表()查表(243页):页):确定自由度(确定自由度(v)=n-2=10-2=8,本例样本相关系数本例样本相关系数 r=0.68070.632,P0.05结论:在结论:在=0.05水准上,水准上,P0.05,拒绝,拒绝H0假设,假设,母血母血TSH 与与 脐带血脐带血TSH有相关关系存在。有相关关系存在。方法方法2:tr检验检验H0:=0,即两变量(总体相关系数,即两变量(总体相关系数=0)无相关)无相关关系
10、关系H1:0,两变量有相关关系,两变量有相关关系,=0.05样本相关系数的样本相关系数的t 检验检验结论:本例结论:本例p0.05,即,即母血TSH 与脐带血脐带血TSH有有相关关系存在。相关关系存在。相关系数的解释与应用相关系数的解释与应用:1.相关系数(相关系数(r)描述两个变量的线性协)描述两个变量的线性协同变化关系,不表示因果关系。同变化关系,不表示因果关系。何者做何者做X或或Y,计算的,计算的r相同。相同。2.在例数相等时,不同指标相关关系可在例数相等时,不同指标相关关系可做比较,做比较,r越大,表示两变量关系越密切。越大,表示两变量关系越密切。3.应在有统计检验结果的前提下,得出应
11、在有统计检验结果的前提下,得出有无相关关系的结论。有无相关关系的结论。例:体重、胸围、呼吸差与肺例:体重、胸围、呼吸差与肺活量的关系活量的关系对象对象 体重体重 胸围胸围 身高身高 肺活量肺活量编号编号 X1 X2 X3 Y1 48.5 73.7 166.4 33.82 49.5 73.9 167.3 34.1.46.4 76.2 160.5 32.9.174 44.9 73.8 158.7 29.70 例:相关分析(例:相关分析(Correlation Analysis)体重体重 胸围胸围 身高身高 肺活量肺活量 X1 X2 X3 YX1 1 0.1717 0.6409 0.6954X2 1
12、 0.4522 0.5863X3 1 0.7288X4 1第一节、直线回归第一节、直线回归一、一、“回归回归”的由来的由来二、直线回归的概念二、直线回归的概念直直线线回回归归是是用用数数学学方方程程表表达达出出两两个个变变量量(X增增加加,Y也也增增加加)变变化化的的数数量量关关系系,称为回归分析。回归方程:称为回归分析。回归方程:回归关系与函数关系回归关系与函数关系函数关系:函数关系:X与与Y值为一一对应的确值为一一对应的确切关系。表达式:切关系。表达式:回归关系:回归关系:X与与Y值间关值间关系不为一一对应,回归方程表达非系不为一一对应,回归方程表达非确切关系两变量的数量变化关系确切关系两
13、变量的数量变化关系XY回归方程与回归线回归方程与回归线三、回归方程的求法三、回归方程的求法回归方程中符号的意义:回归方程中符号的意义:X:为自变量(事先确定,常为原因变量):为自变量(事先确定,常为原因变量)Y:应变量(:应变量(Y变量,为结果变量)变量,为结果变量)a:截距(当:截距(当x=0时,时,y的值)的值)b:回归系数(斜率),其统计意义:回归系数(斜率),其统计意义:X指标增指标增加一个单位,加一个单位,Y平均增加(或减少)平均增加(或减少)b个单位。个单位。a,b均可为负值和有单位。均可为负值和有单位。为当为当X=X0时,时,Y的平均预测值。的平均预测值。10名正常孕妇妊娠时间(
14、周名正常孕妇妊娠时间(周,X)与血清载脂蛋白()与血清载脂蛋白(g/L,Y)编号编号 X Y X X Y X2 2 Y Y2 2 XYXY 1 4 1 4 0.95 0.95 2 8 2 8 0.98 0.98 3 12 3 12 1 1 4 16 1.04 4 16 1.04 5 20 5 20 1.07 1.07 6 24 1.1 6 24 1.1 7 28 7 28 1.17 1.17 8 32 1.18 8 32 1.18 9 36 1.2 9 36 1.210 4010 40 1.32 1.32合计合计 220 11.02 220 11.02 6160 12.2431 254.60
15、6160 12.2431 254.60b0b 0直线回归方程的计算直线回归方程的计算回归方程:回归系数的计算:回归系数的计算:截距的计算:截距的计算:公式公式7-2公式公式7-3母血母血TSH 脐带血脐带血TSH X Y X2 Y2 XY 1.21 3.90 1.46 15.2 4.72 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20合计合计15.83 45.73 25.80 210.73 73.14母血与脐带血母血与脐带血TSH的回归系数计算步骤的回归系数计算步
16、骤1).计算出:计算出:2)计算回归系数()计算回归系数(b)3)计算截距()计算截距(a)4)表达本例回归方程:表达本例回归方程:四、在散点图上绘制回归线四、在散点图上绘制回归线方法:在自变量(方法:在自变量(x)范围内,取两个)范围内,取两个X值,值,例:取例:取X1=1.3,Y的估计值的估计值 =4.29 X2=2.0,=4.99在图上确定(在图上确定(1.3,4.29),(),(2.0,4.99)两点连线。两点连线。母血母血TSH值与脐带血值与脐带血TSH值的关系散点图值的关系散点图(Mu/L)(Mu/L)血血清清载载脂脂蛋蛋白白(g/l)妊娠时间(周)妊娠时间(周)图12-2 正常孕
17、妇妊娠时间(周正常孕妇妊娠时间(周,X)与血清载脂蛋白含量)与血清载脂蛋白含量五、回归系数(五、回归系数(b)的假设检验)的假设检验检验的假设检验的假设:H0:=0,即总体回归系数为,即总体回归系数为0,两变量无相关关,两变量无相关关系系H1:0,总体回归系数不为,总体回归系数不为0,=0.05方法:方法:1.tb检验方法检验方法,2.查表法查表法(用(用 r 检验代替检验代替 b 的检验,简便)的检验,简便)关系:本例关系:本例 r=0.6807,P0.053.方差分析法做检验方差分析法做检验公式公式12-7回归系数的假设检验回归系数的假设检验(图(图7-2,Y的平方和的分解示意)的平方和的
18、分解示意)XYY变量的差异变量的差异由于由于X的增加引起的增加引起Y变化变化的部分,回归系数作用的部分,回归系数作用其他因素其他因素的作用的作用H0:=0,H1:0,方差分析做检验的实例计算见方差分析做检验的实例计算见99页页 回归中回归中 Y变量变异的分解变量变异的分解回归系数方差分析的计算回归系数方差分析的计算P0.05回归系数回归系数t检验检验回归系数的标回归系数的标准误准误剩余标准差剩余标准差回归系数与相关系数假设两者的关系:同一回归系数与相关系数假设两者的关系:同一资料的资料的 tb=tr,则二者概率(,则二者概率(p1=p2)相等,)相等,方差分析的方差分析的 F=t2,本例:本例
19、:F=6.908=2.6282结论:在结论:在=0.05水准上,水准上,P0.05,拒绝,拒绝H0,母血母血TSH值与脐带血值与脐带血TSH值有直线回归关值有直线回归关系,在母血的系,在母血的TSH值值1.21-2.10范围内,母血范围内,母血TSH值每增加一单位(值每增加一单位(ml/l)脐带血)脐带血TSH值值平均增加平均增加0.9973(ml/l)单位。单位。四、直线回归的应用四、直线回归的应用1.反映Y指标依赖指标依赖X指标变化的平均数量关系指标变化的平均数量关系例:正常孕妇妊娠时间(周,例:正常孕妇妊娠时间(周,X)与血清载脂蛋)与血清载脂蛋白(白(g/L)的回归关系:)的回归关系:
20、结论:正常孕妇妊娠时间每增加一周,其血清载结论:正常孕妇妊娠时间每增加一周,其血清载脂蛋白平均增加脂蛋白平均增加0.0094(g/L)。)。例:母血例:母血TSH值与脐带血值与脐带血TSH值有直线回归关系,值有直线回归关系,母血母血TSH值每增加一单位(值每增加一单位(ml/l)脐带血)脐带血TSH值值平均增加平均增加0.9973(ml/l)单位。单位。2.预测:通过回归方程,用预测:通过回归方程,用X值预测。值预测。例:儿童给药根据体表面积,建立儿童体重(例:儿童给药根据体表面积,建立儿童体重(X,kg)与体表面积()与体表面积(Y)的回归方程。)的回归方程。当当X=XI,代入方程,计算,代
21、入方程,计算Y为预测值为预测值设回归方程为:设回归方程为:某儿童体重为某儿童体重为10kg,其体表面积预测为,其体表面积预测为 Y=2+510=523.计算个体值计算个体值X=X0时,时,Y值的值的95%的分布范的分布范围围当X=X0时,Y值的标准差,公式见7-15六、回归与相关的区别和联系六、回归与相关的区别和联系(104页)页)(一)区别(一)区别1.回归分析要求确定出回归分析要求确定出 X指标和指标和Y指标,相关指标,相关分析无要求。分析无要求。2.回归与相关说明的问题不同。回归与相关说明的问题不同。3.回归系数有单位(单位不同时不能比较)回归系数有单位(单位不同时不能比较)相关系数无单
22、位(在例数接近,可以比较)相关系数无单位(在例数接近,可以比较)二、联系二、联系1.同一资料有同一资料有r与与b的符号一致。的符号一致。2.二者的假设检验结果相等,二者的假设检验结果相等,tb=tr33.回归系数与相关系数的关系(见讲义)回归系数与相关系数的关系(见讲义)决定系数(r2)反映了在反映了在Y的变异中,由于的变异中,由于X的变化(回归的的变化(回归的作用)在作用)在Y变量总的平方和中的比例。或变量总的平方和中的比例。或Y的的变化能被变化能被X的变化所解释的比例。的变化所解释的比例。小结:小结:计算相关回归的步骤计算相关回归的步骤1.绘制散点图,观察数据是否有直线趋势?绘制散点图,观
23、察数据是否有直线趋势?如为直线趋势:可计算直线相关与回归系数如为直线趋势:可计算直线相关与回归系数2.计算计算 r 或回归方程(事先确定或回归方程(事先确定X变量)变量)3.对对 r 或或 b 做统计检验(可用做统计检验(可用r系数的检验)系数的检验)4.结论:如统计检验的结论:如统计检验的P,表示二者有相关关,表示二者有相关关系或回归关系系或回归关系5.绘制回归线和方程在散点图上。绘制回归线和方程在散点图上。CASIOfx-100计算器计算器计算相关系数(计算相关系数(r)的步骤)的步骤步骤:步骤:1.MODE MODE 2 进入回归分析进入回归分析2.Lin 12.SHIFT AC =清除
24、数据清除数据3.输数据输数据 X Y 1.21 ,3.9 M+数据输入数据输入 1.30 ,4.5 M+1.39 ,4.2 M+3.SHIFT r 显示相关系数(r)SHIFT 7 显示截距显示截距 SHIFT 8 显示回归系数显示回归系数预测:预测:X=1.21,Y=?1.21 SHIFT 显示预测值显示预测值 4.19 CASIOfx-3600计算器计算器计算相关系数(计算相关系数(r)的步骤)的步骤步骤步骤 键盘键盘 说明说明1 MOOD LR 进入线性回归系数模式进入线性回归系数模式2 SHIFT AC 清除数据清除数据3 112 XDYD 1.43 RUN 数据输入数据输入 123 XDYD 1.60RUN 126 XDYD 2.04 RUN4 SHIFT 9 显示相关系数显示相关系数5 SHIFT 8 显示截距显示截距SHIFT 8 显示回归系数显示回归系数Kout 6 显示显示XY预测:预测:X=120,Y=?120 显示预测值显示预测值