《最新卫生统计学直线相关与回归幻灯片.ppt》由会员分享,可在线阅读,更多相关《最新卫生统计学直线相关与回归幻灯片.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Dec,8,2009前言单变量统计单变量统计(univariate statistics):描:描述某一变量的统计特征或比较该变量的述某一变量的统计特征或比较该变量的组间差别,如组间差别,如t、u、F检验检验双变量统计双变量统计(bivariate statistics):研:研究两个变量之间的关系如何。究两个变量之间的关系如何。 糖尿病人的血糖与胰岛素水平糖尿病人的血糖与胰岛素水平 年龄与高血压年龄与高血压 抗菌药的浓度与琼脂糖抑菌斑的直径抗菌药的浓度与琼脂糖抑菌斑的直径二、直线回归方程的求法二、直线回归方程的求法 最小二乘估计法:要求各实测点到回最小二乘估计法:要求各实测点到回归直线的纵向
2、距离的平方和最小。归直线的纵向距离的平方和最小。 2XYXXXXYYlblXXnXbnYXbYa/ )(/ )(离均差积和n)Y)(X(XY)YY)(XX(lXYn)X(X)XX(lXX222n)Y(Y)YY(lYY222表10110名胎儿的股骨径长度和出生体重的数据编号编号(1)股骨径长度股骨径长度X(cm)()(2)出生体重出生体重Y(g)(3)XY(4)X2(5)Y2(6)16.50272017680.042.25739840026.80284019312.046.24806560037.20345024840.051.841190250047.12316022499.250.69998
3、560056.90283019527.047.61800890067.87398031322.661.931584040076.56247016203.243.03610090085.79174010074.633.52302760096.39248015847.240.836150400107.00332023240.049.0011022400合计合计68.1328990200545.8466.968750270068.136.81310XXn28990289910YYn2222()68.13()466.962.7910XXXlXXXn 1.绘制散点图绘制散点图 由散点图(图由散点图(图1
4、01)可见,两变量)可见,两变量 间呈直线趋势,故进行下列计算。间呈直线趋势,故进行下列计算。2.计算统计指标计算统计指标: X、 Y、 XY、 X2、 Y2 、 、lXX、lYY与与lXY。 xy2222()28990()87502700346069010YYYlYYYn ()()68.13 28990()()200545.83036.9310XYXYlXX Y YXYn 3036.931088.512.79XYXXlbl2899 1088.51 6.8134516.99a Y bX 3.求回归系数求回归系数b、截距、截距a,列出方程。,列出方程。 4516.99 1088.51YX 根据回
5、归方程式作图,在自变量根据回归方程式作图,在自变量X X取值取值范围内任取两个范围内任取两个X X值,带人方程式,得值,带人方程式,得Y Y的的估计值,连接两点,即回归直线。估计值,连接两点,即回归直线。回归直线过(回归直线过(0,a)和()和( , )。)。XY4.绘制直线回归直线绘制直线回归直线(0,-4516.99)和()和(6.813,2899) YYttYtYteYYtOYYXtXX 三、回归分析中的统计推断三、回归分析中的统计推断点的纵坐标被回归直线与均数点的纵坐标被回归直线与均数 截成三段:截成三段:Y1.方差分析方差分析()YY()YYY()()YYYYYY()()YYY YY
6、Y第一段:第一段:第二段:第二段:第三段:第三段:2()()0YY YY222()()()YYY YYY22/YXYXXXXXSSblllb l回所有点平方求和,因所有点平方求和,因有有SS总总 = SS回回 + SS剩剩 总总= 回回+ 剩剩 总总=n-1 回回=1 剩剩=n-2 反映了Y的总变异度反映了Y的总变异中可以用X和Y的直线关系解释的那部分变异反映除了X对Y的线性影响之外一切因素对Y的变异作用/SSMSFSSMS回回回剩剩剩 回回=1, 剩剩=n-2构造检验统计量构造检验统计量1n2n表表10.2 回归分析的方差分析表回归分析的方差分析表niiYY12niiYY12niiYY12误
7、差回归MS/MSniiiYY12niiin/YY122变异来源变异来源离均差平方和离均差平方和自由度自由度均方均方F总总 回回 归归1误误 差差 其中:其中:lyyyySS2总xyblyySS2)(回回总误差SSSSyySS2) ((1)建立假设:)建立假设: H0:0,胎儿的股骨径长度与胎儿体重之间无直线回归关系胎儿的股骨径长度与胎儿体重之间无直线回归关系 H1:0 ,胎儿的股骨径长度与胎儿体重之间有直线回归关系胎儿的股骨径长度与胎儿体重之间有直线回归关系 0.05 (2)计算检验统计量)计算检验统计量22/3305742.71YXYXXXXXSSblllb l回3460690yylSS总
8、SS剩剩SS总总SS回回34606903305742.71154947.29SS3305742.71MS1170.67SS154947.29MS8F回回回剩剩剩表表10.3 例例10.2资料的方差分析计算表资料的方差分析计算表变异来源变异来源SSMSF总变异总变异 34606909回回 归归 3305742.7113305742.71170.67剩余剩余154947.29819368.41查附表查附表3.1方差分析表,得方差分析表,得F0.05,(1,8)=5.32,F F0.05,(1,8),所以所以P0.05,按,按0.05水准,拒绝水准,拒绝H0,接受,接受H1,故认,故认为胎儿的股骨径
9、长度与胎儿体重之间存在直线回归关为胎儿的股骨径长度与胎儿体重之间存在直线回归关系。系。 (3)确定)确定P值,作出统计推断值,作出统计推断式中式中Sb为回归系数的标准误,计算公式为:为回归系数的标准误,计算公式为:bbsbsbt02,)(XXssXYb2.t检验检验 n2式中式中SY,X为为Y的剩余标准差,扣除的剩余标准差,扣除X的影响后的影响后Y的变异指标,计算公式:的变异指标,计算公式: 2,()22Y XYYSSsnn剩2)(YY2222)()()()(XXYYXXYYYY为为Y的剩余平方和的剩余平方和,计算公式为:计算公式为:01088.5113.0683.32bbtS2,()1549
10、47.29139.172n28Y XYYSSSn剩,2139.17S83.322.79()Y XbSXX n-2=8 3.直线回归的区间估计直线回归的区间估计(1)总体回归系数)总体回归系数 的区间估计的区间估计 /2,(2)/2,(2)(,)nbnbbtSbtS例例103 试用例试用例101所计算的样本回归系数所计算的样本回归系数b1088.51估计其总体回归系数估计其总体回归系数 的的95%可信区可信区间。间。(1088.512.30683.32,1088.512.30683.32)(896.37,1280.65)(2)Y的区间估计的区间估计 (2)(2)(,)nnYYY tS Y tS2
11、0.2()1()Y XYXXSSnXX例例104 用例用例10.1所求直线回归方程,试计算当所求直线回归方程,试计算当X7.00cm时,时, 的的95%可信区间。可信区间。 Y当当X7.00时,时,4516.99 1088.513102.58YX 21(7.00 6.813)139.1746.69102.79YS(3102.582.30646.69,3102.582.30646.69)(2994.91,3210.25)g(3)个体)个体Y值的容许区间值的容许区间 (2)(2)(,)nYnYY tS Y tS20.2()11()YY XXXSSnX X 例例105 用例用例104中的数据进一步计
12、算当中的数据进一步计算当X7.0时,时,个体个体Y值的值的95%容许区间。容许区间。21(7.00 6.813)139.171146.79102.79YS(3102.582.306146.79,3102.582.306146.79) (2764.08,3441.08)g4.直线回归方程的应用直线回归方程的应用(1)描述两变量的依存关系)描述两变量的依存关系(2)利用回归方程进行预测)利用回归方程进行预测(3)利用回归方程进行统计控制)利用回归方程进行统计控制(4)应用回归方程应注意的问题)应用回归方程应注意的问题1)做回归分析要有实际意义)做回归分析要有实际意义2)在进行直线回归分析前,应绘制
13、)在进行直线回归分析前,应绘制散点图散点图 3)直线回归方程的适用范围一般为)直线回归方程的适用范围一般为自变量的取值范围自变量的取值范围 线性相关(线性相关(linear correlation ) 又称简单相关(又称简单相关(simple correlation) 用相关系数(用相关系数(r)来表示两个变量间的直线关系。)来表示两个变量间的直线关系。线性相关的性质可由散点图来直观地说明线性相关的性质可由散点图来直观地说明 一、线性相关和相关系数的概念一、线性相关和相关系数的概念适用于服从双变量正态分布的双随机变量。适用于服从双变量正态分布的双随机变量。第二节第二节 直线相关直线相关0 r
14、1-1 r 0 0r = 0正相关正相关负相关负相关零相关零相关r = -1完全相关完全相关零相关零相关完全相关完全相关零相关零相关零相关零相关r = 1.r = 0r = 0r = 0二、相关系数的意义二、相关系数的意义相关系数(相关系数(correlation coefficient)又称为积)又称为积差相关系数(差相关系数(coefficient of productmoment correlation) 它是说明具有直线关系的两变量间相关关系它是说明具有直线关系的两变量间相关关系的密切程度与相关方向的指标。相关系数的密切程度与相关方向的指标。相关系数r没有单位,没有单位,1r1 。计算
15、计算r的公式为:的公式为: YYXXXYlllYYXXYYXXr22)()()(2222()()/() /() /XYXYnXXnYYn三、相关系数的计算三、相关系数的计算3036.930.97732.79 3460690r 例例108 就例就例101资料试计算胎儿股骨径资料试计算胎儿股骨径长度和胎儿体重的相关系数。长度和胎儿体重的相关系数。由例由例101中已计算出的中已计算出的lXX2.79、lYY3460690、lXY3036.93按公式按公式(1020)计算计算四、相关系数的假设检验四、相关系数的假设检验H0: 0 H1: 0 0.05rSrt0212nrSr n2 例例109 就例就例
16、108所得所得r值,检验胎儿股骨径值,检验胎儿股骨径长度和胎儿体重间是否有直线相关关系。长度和胎儿体重间是否有直线相关关系。建立假设检验:建立假设检验:H0:0 H1:0 0.05计算检验统计量计算检验统计量20.977313.061 0.9773102t n28查查t界值表,得界值表,得P0.05,拒绝,拒绝H0。相关:相关关系相关:相关关系 1.区别区别 (1 1)资料要求不同)资料要求不同回归:型(回归:型(Y Y正态分布)、正态分布)、II II型都可以。型都可以。相关:相关:II II型资料(双变量正态分布)型资料(双变量正态分布) (2)应用情况不同)应用情况不同回归:依存关系回归
17、:依存关系五、直线回归与相关的区别和联系五、直线回归与相关的区别和联系(1) 方向一致方向一致(2)假设检验等价)假设检验等价(3)用回归解释相关)用回归解释相关(4)的平方称为决定系数()的平方称为决定系数(coefficient of determination):反映了):反映了Y的总变异中由的总变异中由X变量可变量可以解释的部分。以解释的部分。222/XYXYXXXX XYYYSSlllrlll回和SS2.联系联系Dec,8,2009直线回归与相关应用的注意事项直线回归与相关应用的注意事项根据专业知识确定自变量和应变量;根据专业知识确定自变量和应变量;不能把毫无关联的两种现象勉强作回归
18、或相关;不能把毫无关联的两种现象勉强作回归或相关;在研究两变量之间的密切程度时,不但要求总体相在研究两变量之间的密切程度时,不但要求总体相关系数关系数0,而且要求样本的,而且要求样本的r不能太小,否则即使不能太小,否则即使假设检验认为两变量之间有直线相关关系,但由于假设检验认为两变量之间有直线相关关系,但由于r太小,而使得这种关系变得毫无意义太小,而使得这种关系变得毫无意义|r|0.70 高度相关,高度相关,0.4|r|0.70 0.70 中度相关,中度相关, |r|0.4 0.4 低度相关低度相关要绘制散点图要绘制散点图直线回归用于预测时,其适用范围一般不超过样本直线回归用于预测时,其适用范
19、围一般不超过样本中自变量的取值范围中自变量的取值范围(3)特别是有率或构成比等相对数作)特别是有率或构成比等相对数作变量,或本来就是等级资料。变量,或本来就是等级资料。(1)不服从双变量正态分布;)不服从双变量正态分布;(2)总体分布类型未知;)总体分布类型未知;第三节第三节 等级相关等级相关总体等级相关系数的假设检验总体等级相关系数的假设检验 H0:s0 H1:s0,或单侧,或单侧s0) 1(6122nndrs相关系数相关系数rs的公式为:的公式为:1surn当当n50时时直接查直接查r rs s界值表。界值表。当当n50时时相同秩次较多时,相同秩次较多时,r rs s的校正:的校正:323
20、3(3)/6()(3)/62(3)/62XYsXYnTTdrnTnTDec,8,2009第五节第五节 曲线拟合曲线拟合医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。当散点图中应变量Y和自变量X间表现出非线性趋势时,可以通过曲线拟合(curve fitting)方法来刻画两变量间数量上的依存关系。Dec,8,2009一、曲线拟合的基本方法一、曲线拟合的基本方法据专业知识及过去经验(或文献)选择曲线类型。算术格纸、半对数格纸、双对数格纸等,将实测数据制成点图。目前已使用不多。如果既无前人经验作参考,又无合适的格纸可作散点图趋势分析,则可先在普通格纸上绘点图,再根据各点分布趋势用试配法来选择曲线类型。Dec,8,2009二、曲线拟合的一般步骤二、曲线拟合的一般步骤画散点图,配适当的曲线方程画散点图,配适当的曲线方程选用适当的方法求曲线方程的参数(一选用适当的方法求曲线方程的参数(一般都用统计软件计算)般都用统计软件计算)Dec,8,2009例题1013Dec,8,2009Dec,8,2009Dec,8,2009Dec,8,2009模型的拟合优度指标决定系数调整的决定系数残差均方平方根(MSE, 小)