9- 第九章双变量回归与相关20111018.ppt

上传人:hyn****60 文档编号:70486444 上传时间:2023-01-20 格式:PPT 页数:99 大小:1.91MB
返回 下载 相关 举报
9- 第九章双变量回归与相关20111018.ppt_第1页
第1页 / 共99页
9- 第九章双变量回归与相关20111018.ppt_第2页
第2页 / 共99页
点击查看更多>>
资源描述

《9- 第九章双变量回归与相关20111018.ppt》由会员分享,可在线阅读,更多相关《9- 第九章双变量回归与相关20111018.ppt(99页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第九章双变量回归与相关Linear Regression and Correlation何何 倩倩卫生统计学教研室卫生统计学教研室2023/1/202 1.1.数值变量的统计学描述和统计学推断数值变量的统计学描述和统计学推断 2.2.分类变量的统计学描述和统计学推断分类变量的统计学描述和统计学推断 Review前面各章我们讨论的问题,都只涉及到一个变量,前面各章我们讨论的问题,都只涉及到一个变量,如体重、血压、脉搏、血糖。如体重、血压、脉搏、血糖。2023/1/203指标变量之间关系的研究p糖尿病病人的血糖与其胰岛素水平的关系糖尿病病人的血糖与其胰岛素水平的关系 p某人群年龄的变化与其收缩压的

2、关系某人群年龄的变化与其收缩压的关系p药物剂量与动物死亡率药物剂量与动物死亡率pBRCA1BRCA1和和BRCA2BRCA2基因型与乳腺癌发生的关系基因型与乳腺癌发生的关系p幽门螺旋杆菌感染与胃癌发病之间的关系幽门螺旋杆菌感染与胃癌发病之间的关系。2023/1/204 4 总体:无限或有限对变量值总体:无限或有限对变量值 样本:从总体随机抽取的样本:从总体随机抽取的n n 对变量值对变量值 (X1,Y1),(X2,Y2),(Xn,Yn)目的:研究目的:研究X X和和Y Y的数量关系的数量关系 方法:回归与相关方法:回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关双变量计量资

3、料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值什么是相关分析和回归分析?什么是相关分析和回归分析?变变量量之之间间的的关关系系 关联性关联性associationassociation 依存性依存性relationshiprelationship常数常数:数学模型:数学模型:Y=f(X)Y=f(X)相关分析相关分析回归分析回归分析2023/1/206 6第一节第一节 直线回归直线回归 Linear regressionLinear regression第二节第二节 直线相关直线相关 Linear correlationLinear correlation第三节第三节 秩相关秩相关

4、 Rank correlationRank correlation ContentContent 2023/1/207第一节 直线回归一、直线回归的概念二、直线回归方程的求法三、直线回归中的统计推断2023/1/208一、直线回归的概念pY Y 应变量,响应变量应变量,响应变量 (dependent variable,response variable)(dependent variable,response variable)pX X 自变量,解释变量自变量,解释变量 (independent variable,explanatory variable)(independent variab

5、le,explanatory variable)p直线回归的形式:直线回归的形式:2023/1/209 9 例例9-1 9-1 某某地地方方病病研研究究所所调调查查了了8 8名名正正常常儿儿童童的的尿尿肌肌酐酐含含量量(mmol/24hmmol/24h)如如表表9-19-1。估估计计尿尿肌肌酐酐含含量量(Y Y)对其年龄()对其年龄(X X)的回归方程。)的回归方程。表表9-1 89-1 8名正常儿童的年龄(岁)与尿肌酐含量(名正常儿童的年龄(岁)与尿肌酐含量(mmol/24hmmol/24h)2023/1/2010年龄年龄自变量(自变量(X X );尿肌酐含量尿肌酐含量应变量(应变量(Y Y

6、)样本回归方程样本回归方程理论回归方程理论回归方程(9-1)(9-2)2023/1/20111.a 为回归直线在为回归直线在 Y 轴上的截距。轴上的截距。a 0:直线与纵轴的交点在原点的上方;直线与纵轴的交点在原点的上方;a 0:交点在原点的下方;交点在原点的下方;a=0:回归直线通过原点。回归直线通过原点。a=0a 0XY2023/1/201212b00:直直线线从从左左下下方方走走向向右右上上方方,Y 随随 X 增大而增大;增大而增大;b00b0b=02023/1/2013Linear IndependentNormal Equal yxLINE2023/1/2014二、直线回归方程的求法

7、 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。(X,Y)2023/1/2015最小二乘法(least square estimation)(9-3)(9-4)保证各实测点至直线的纵向距离的平方和最小保证各实测点至直线的纵向距离的平方和最小2023/1/201616 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。表表9-1 89-1 8名正常儿童的年龄(岁)与尿肌酐含量(名正常儿童的年龄(岁)与尿肌酐含

8、量(mmol/24hmmol/24h)2023/1/20172023/1/2018解题步骤2023/1/201919X与与Y的离均差积和的离均差积和2023/1/2020202023/1/2021212023/1/2022回归系数和回归方程的意义及性质回归系数和回归方程的意义及性质p b b 的意义的意义p a a 的意义的意义p 的意义的意义p 的意义的意义p 的意义的意义2023/1/2023b 的意义的意义p斜率斜率(slope)p 年龄每增加年龄每增加1 岁岁,则尿则尿肌酐肌酐平均增加平均增加0.1392(mmol/24h)pb 的单位为的单位为(Y的单位的单位/X的单位的单位)202

9、3/1/2024a 的意义的意义pa 截距截距(intercept,constant)pX=0 时,时,Y的估计值的估计值pa的单位与的单位与Y值相同值相同p当当X可能取可能取0时,时,a才有实际意义。才有实际意义。2023/1/2025估计值估计值 的意义的意义pX=10X=10时时,=3.0537,=3.0537,即即 年年 龄龄 为为 1010岁岁 儿儿 童童,其其 尿尿 肌肌 酐酐 估估 计计 为为3.0537(mmol/24h);3.0537(mmol/24h);p给定给定X X时,时,Y Y的估计值。的估计值。p当当 时,时,2023/1/2026p 为残差:点到直线的纵向距离。为

10、残差:点到直线的纵向距离。的意义的意义2023/1/2027p残差平方和残差平方和 (residual sum of squares).(residual sum of squares).p综合表示点距直线的距离。综合表示点距直线的距离。p在所有的直线中,回归直线的残差平方和是最小在所有的直线中,回归直线的残差平方和是最小的。的。(最小二乘最小二乘)p p 的意义的意义2023/1/202828三、直线回归中的统计推断样本回归方程样本回归方程理论回归方程理论回归方程 0?(一)回归方程的假设检验2023/1/20292023/1/20301方差分析X P(X,Y)Y应变量应变量Y总变异的分解总

11、变异的分解2023/1/2031Y Y 的总变异分解的总变异分解p未引进回归时的总变异:未引进回归时的总变异:(sum of squares about the mean of Y)p引进回归以后的变异引进回归以后的变异(残差残差):):(sum of squares about regression)p回归的贡献,回归平方和:回归的贡献,回归平方和:(sum of squares due to regression)2023/1/2032Y Y 的总变异分解的总变异分解 2023/1/2033检验统计量检验统计量F2023/1/203434式中2023/1/203535方差分析实例(例9-2

12、)2023/1/203636 表9-2 方差分析表 列出方差分析表如表9-2。表9-2 方差分析表 2023/1/20372.t 检验回归系数的标准误回归系数的标准误回归的剩余标准差回归的剩余标准差2023/1/2038t 检验实例2023/1/2039注意:2023/1/2040回归问题的区间p回归系数的可信区间回归系数的可信区间p总体均数总体均数 的可信区间的可信区间p个体个体Y Y 值的预测区间值的预测区间2023/1/2041知识点回顾p均数的可信区间:均数界值标准误p个体的预测区间(参考值范围):均数界值标准差2023/1/2042(二)总体回归系数总体回归系数 的可信区间估计的可信

13、区间估计p根据 t 分布原理估计:0.13922.4470.0304 (0.0648,0.2136)(mmol24h-1/岁)2023/1/2043 的可信区间估计的可信区间估计 p根据 t t 分布原理:样本 总体Y Y的总平均给定X X时Y Y的平均2023/1/2044X X0 0=12=12时,求 的95%95%可信区间p =9.5,lXX=42,=0.1970。p当X=12时,=1.6617+0.139212=3.3321,2023/1/2045Y Y 值的预测区间估计值的预测区间估计 p给定 X X 时 Y Y 的估计值是 Y Y 的均数的一个估计。p给定X X 时 Y Y 值的预

14、测区间是 Y Y 值的可能范围。pY 值的100(1-)%预测区间:2023/1/2046X X0 0=12=12时,求Y 的95%95%预测区间p =9.5,lXX=42,=0.1970。p当X=12时,=1.6617+0.139212=3.3321,2023/1/2047 的可信区间与的可信区间与Y Y的预测区间的预测区间p可信区间是针对条件均数的,而预测区间是针对Y 的取值范围的。pX=12时,的可信区间为:(3.080,3.584)(mmol24h),表示:年龄为12岁的儿童,估计其平均尿肌酐为3.3321,95可信区间为(3.080,3.584)(mmol24h)。p X=12时,Y

15、 的预测区间为:(2.788,3.876)(mmol24h),表示:年龄为12岁的儿童,估计有95的儿童尿肌酐在(2.788,3.876)(mmol24h)之间。2023/1/2048结论:p年龄为年龄为1212岁的儿童,估计有岁的儿童,估计有9595的儿童尿肌酐在的儿童尿肌酐在(2.788(2.788,3.876)(mmol3.876)(mmol24h)24h)之间,平均尿肌酐之间,平均尿肌酐为为3.33213.3321,9595可信区间为可信区间为(3.080(3.080,3.584)(mmol3.584)(mmol24h)24h)。2023/1/20499595 的可信区间与的可信区间与

16、 个体个体 Y Y 的预测区间图的预测区间图2023/1/2050第二节 直线相关一、直线相关的概念二、相关系数的意义与计算三、相关系数的统计推断四、直线回归与相关应用的注意事项2023/1/205151 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。目的:研究 两个变量X,Y数量上的依存(或相关)关系。特点:统计关系一、直线相关的概念2023/1/205252二、相关系数的意义与计算 1.意义:意义:相关系数相关系数(correlation coeff

17、icient)又称)又称Pearson积差相关系数,用来说明具有直线关系积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。的两变量间相关的密切程度与相关方向。2023/1/205353正相关正相关负相关负相关完全相关完全相关零相关零相关2023/1/2054542.计算:样本相关系数的计算公式为(9-18)2023/1/2055表表9-3 15例正常成年人体重(例正常成年人体重(kg)与双肾总体积()与双肾总体积(ml)的测量值)的测量值例9-5 某医师测量了15名正常成年人的体重(kg)与CT双肾总体积(ml)大小,数据如表9-3所示。据此回答两变量是否有关联?其方向与密

18、切程度如何?编号体重(kg)双肾总体积(ml)编号体重(kg)双肾总体积(ml)143217.22967263.46274316.181069276.53351231.111180341.15458220.961248261.00550254.701338213.20665293.841485315.12754263.281554252.08857271.732023/1/2056第一步:绘制散点图2023/1/205757由公式算得,按公式(9-18)第二步:计算lxx=2555.733,lyy=20270.495,lxy=6301.038 2023/1/205858三、相关系数的统计推断(

19、一)相关系数的假设检验(9-19)2023/1/205959检验步骤本例n=15,r=0.8754,按公式(9-19)同一资料同一资料,tr=tb2023/1/206060(二)总体相关系数的可信区间 2023/1/206161具体步骤如下:2023/1/206262 例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。再按公式(9-22)将z作反变换,得到双肾总体积与体重的总体相关系数95%可信区间为(0.6584,0.9579)。2023/1/206363决定系数决定系数(coefficient of determination)定义为回归平方和与总平方和之比,计算公式为:(9

20、-23)取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。2023/1/2064642023/1/2065 A correlation coefficient was calculated at the first anniversary 四、直线回归与相关应用的注意事项2023/1/206666 1根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分;直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为

21、X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。2023/1/2067672023/1/2068682进行相关、回归分析前应绘制散点图第一步(1)散点图可考察两变量是否有直线趋势;(2)可发现离群点(outlier)。散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。202

22、3/1/2069693资料的要求 直线相关分析要求 X与Y 服从双变量正态分布;直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;*对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X,一般情况下两个回归方程不相同)。e0残差示意图0000eeee2023/1/207272 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范

23、围一般不应超出样本中自变量的取值范围。4结果解释及正确应用 2023/1/2073第三节 秩相关(非参数统计方法)一、适用条件二、Spearman秩相关2023/1/207474一、适用条件双变量计量资料:双变量计量资料:资料不服从双变量态分布;总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据(一个或两个变量值)用等级表原始数据(一个或两个变量值)用等级表示的资料。示的资料。2023/1/207575二、Spearman秩相关 1.意义:等级相关系数 rs 用来说明两个变量间直线相关关系的密切程度与相关方向。2023/1/2076763.计算公式(9-25)(9-26

24、)(P721)2023/1/2077772023/1/207878表9-4 某省1995年到1999年居民死因构成与WYPLL构成2023/1/207979检验步骤2023/1/208080二、相同秩较多时 rs 的校正公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。(9-27)2023/1/208181、(9-18)PiXQiY2023/1/2082SPSS的实现数据库(例9-1)2023/1/2083SPSS的实现(散点图制作)分析步骤Graphs Scatter/Dot Simple Scatter2023/

25、1/2084SPSS的实现(散点图制作)分析步骤2023/1/2085SPSS的实现(散点图制作)结果2023/1/2086SPSS的实现(直线回归)分析步骤Analyze Regression Linear2023/1/2087SPSS的实现(直线回归)分析步骤2023/1/2088SPSS的实现(直线回归)分析步骤2023/1/2089SPSS的实现(直线回归)分析步骤2023/1/2090SPSS的实现(直线回归)分析步骤2023/1/2091SPSS的实现结果解释决定系数 R2=0.778此例中年龄可解释尿肌酐含量变异性的77.8另外约22的变异不能用年龄来解释。2023/1/2092

26、SPSS的实现结果解释F=20.968,P=0.004按=0.05水准拒绝H0,接受H1,可以认为尿肌酐含量与年龄之间有直线关系。2023/1/2093SPSS的实现结果解释总体回归系数总体回归系数 的可信区间估计的可信区间估计2023/1/2094SPSS的实现(直线相关)分析步骤Analyze Correlate Bivariate2023/1/2095SPSS的实现(直线相关)分析步骤2023/1/2096SPSS的实现(直线相关)结果解释2023/1/209797p相关和回归的联系与区别;相关和回归的联系与区别;p注意事项注意事项小结小结 概念系数求法统计推断直线回归直线回归直线相关直线相关秩相关秩相关98谢谢!谢谢!2023/1/209999

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁