《统计分析法2.ppt》由会员分享,可在线阅读,更多相关《统计分析法2.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Biostatistics西南大学生命科学学院生物统计学BiostatisticsBiostatistics西南大学生命科学学院Part 4 统计分析方法Biostatistics西南大学生命科学学院内 容n显著性检验的基本原理n两个样本的差异显著性检验n方差分析n相关与回归分析3Biostatistics西南大学生命科学学院4.4 回归与相关分析(Regression and correlation)4Biostatistics西南大学生命科学学院变量间的关系变量间的关系完全确定性关系不完全确定关系5Biostatistics西南大学生命科学学院变量间的关系变量间的关系变量间存在着完全确定性
2、的关系,可以用精确的数学表达式来表示。如长方形的面积(S)与 长(a)和 宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。6Biostatistics西南大学生命科学学院变量间的关系变量间的关系变量间不存在完全的确定性关系,不能用精确的数学公式来表示。如动物的体长与体重的关系;植物生长期与生物量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。7Biostatistics
3、西南大学生命科学学院相关变量间的关系相关变量间的关系n因果关系,即一个变量的变化受另一个或几个变量的影响。如植株的生长速度受遗传特性、营养水平、管理条件等因素的影响;n平行关系,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系等都属于平行关系。8Biostatistics西南大学生命科学学院n统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为因变量。n包括一元回归分析、多元回归分析。相关变量间关系的研究9Biostatistics西南大学生命科学学院回归模型的类型回归模型的类型10Bios
4、tatistics西南大学生命科学学院 回归分析的任务是揭示出呈因果关回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制因程,由自变量(原因)来预测、控制因变量(结果)。变量(结果)。11Biostatistics西南大学生命科学学院n统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。相关变量间关系的研究12Biostatistics西南大学生命科学学院相关分析相关分析13Biostatistics
5、西南大学生命科学学院内 容一元线性回归与相关分析一元非线性回归多元回归回归与相关分析的正确应用14Biostatistics西南大学生命科学学院一元线性回归及相关分析15Biostatistics西南大学生命科学学院一元线性回归分析一元线性回归分析n涉及一个自变量的回归n因变量与自变量之间为线性关系,可用一条线性方程来表示q被预测或被解释的变量称为因变量(dependent variable)或响应变量(response variable),用y表示q用来预测或用来解释因变量的一个或多个变量称为自变 量(independent variable)或 解 释 变 量(explanatory va
6、riable),用x表示16Biostatistics西南大学生命科学学院一元线性回归方程的拟合一元线性回归方程的检验相关分析17Biostatistics西南大学生命科学学院1 1、一元线性回归方程的拟合、一元线性回归方程的拟合 对于两个相关变量,一个变量用X表示,另一个变量用Y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。18Biostatistics西南大学生命科学学院(x、y)的散点图19Biostatistics西南大学生命科学学院 从散点图可以看出
7、:两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。20Biostatistics西南大学生命科学学院 例1:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。NaCl含量X(g/kg土壤)0 0.8 1.6 2.4 3.2 4.0 4.8干重Y(mg/dm2)80 90 95 115 130 115 13521Biostatistics西南大学生命科学学院
8、散散 点点 图图22Biostatistics西南大学生命科学学院每一 NaCl 含量下干物重 10 次重复值 NaCl含量(克/1000克土壤)00.81.62.43.24.04.8 干 重(mg/dm2)重 复 值 1 2 3 4 5 6 7 8 910 80100 75 89 91 79101 85 83 79 90 85107 93103 92 78105 93 85 95 89115 92115120 95 95105 98 115 94103110113108121110108111 130106103110128131117121114116 115125128143132121
9、129112120130 13513712812715513214811713413223Biostatistics西南大学生命科学学院散散 点点 图图XY24Biostatistics西南大学生命科学学院 在实际应用时,不可能无限重复实验,在散点图上,只能作出少数有限个点。在点子比较少的情况下,表示两变量间的关系的直线可以画出许多条,其中哪一条是最好的呢?25Biostatistics西南大学生命科学学院 若 X 是可控制的变量,在实验无限重复之后,则可以得到在xi的 Y 的条件平均数 YX,这些平均数构成一条直线。在在X的每一个水平上,都有一个的每一个水平上,都有一个 Y 的分布。的分布。
10、由由于于实实验验无无限限重重复复的的假假设设是是无无法法实实现现的的,因因此此直直线的两个参数线的两个参数 和和 是两个未知的常数。是两个未知的常数。一元线性回归模型一元线性回归模型26Biostatistics西南大学生命科学学院对于Y的每一个观察值,可以用以下模型描述:其中其中 e e i 在散点图上,表示在在散点图上,表示在 c c i 处处Y 的观的观察值察值yi与与m mc c i a abcbc i之差,该差值为一随之差,该差值为一随机误差。对于各机误差。对于各c c i,e e i是相互独立且服从同是相互独立且服从同一正态分布一正态分布N(0,s s2)的随机变量。的随机变量。a
11、 a为直线为直线的截距的截距(intercept),b b为斜率为斜率(slope)。27Biostatistics西南大学生命科学学院 一般情况下,只能通过实验或调查获得有限对数据。因此,得不到真正的和b。只能求出它们的估计值a和b,从而得到一条估计的直线,上上式式称称为为Y对对 X 的的线线性性回回归归方方程程(regression equation);b是是 直直 线线 的的 斜斜 率率,称称 为为 回回 归归 系系 数数(regression coefficient);a称称 为为 回回 归归 常常 数数(regression constant)。参数和b的估计28Biostatist
12、ics西南大学生命科学学院 怎样通过实际数据,得到总体回归怎样通过实际数据,得到总体回归a a和和b b的最好点估计值的最好点估计值a和和b?29Biostatistics西南大学生命科学学院 平均数有一个特性,即在各种离差平方和中,以距平均数的离差平方和最小。在回归问题中,则在 ci 处Y 的实际观察值 yi 对它们的条件平均数 mci abci 离差平方和最小。因此,观察值与回归估计值之间的离差平方和L(yiyi)2 达到最小时的回归线作为最好的回归线。换句话说,选择的a和b,应该使L最小。这种方法称为最小二乘法。最小二乘法(method least square)30Biostatist
13、ics西南大学生命科学学院eia+bxiyia a、b b应应使使回回归归估估计计值值 与与实实际际观观测测值值y y的的偏偏差差平平方方和和最小最小(最小二乘法最小二乘法)。31Biostatistics西南大学生命科学学院 为残差为残差32Biostatistics西南大学生命科学学院n 误差平方和、剩余平方和(residual sum of squares).n综合表示点距直线的距离。n在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)33Biostatistics西南大学生命科学学院即:34Biostatistics西南大学生命科学学院整理得关于a、b的正规方程组:n n 解正
14、规方程组,得:解正规方程组,得:35Biostatistics西南大学生命科学学院SXY:X和和Y的的校正交叉乘积和校正交叉乘积和(corrected sum of cross products)SXX:X的的校正平方和校正平方和(corrected sum of squares for X)SYY:关于:关于Y 的的总校正平方和总校正平方和(total corrected sum of squares for Y)36Biostatistics西南大学生命科学学院37Biostatistics西南大学生命科学学院 例1:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内
15、无机盐的累积,抑制植物的生长。下表是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响(Y)。NaCl含量X(g/kg土壤)0 0.8 1.6 2.4 3.2 4.0 4.8干重Y(mg/dm2)80 90 95 115 130 115 13538Biostatistics西南大学生命科学学院散散 点点 图图39Biostatistics西南大学生命科学学院例例1 1:将原始数据整理后列出下表:将原始数据整理后列出下表:X X=X-2.4 X2 Y Y=Y-110 Y2 XY 0 -2.4 5.760.8 -1.6 2.561.6 -0.8 0.642.4 0 03.
16、2 0.8 0.644.0 1.6 2.564.8 2.4 5.76 0 17.92 80 -30 900 72 90 -20 400 32 95 -15 225 12115 5 25 0130 20 400 16115 5 25 8135 25 625 60 -10 2600 20040Biostatistics西南大学生命科学学院41Biostatistics西南大学生命科学学院42Biostatistics西南大学生命科学学院用用Excel进行回归分析进行回归分析选择选择“工具数据分析”选项选项在分析工具中选择在分析工具中选择“回归”,然后选择,然后选择“确定”当对话框出现时当对话框出现
17、时在在“Y值输入区域”方框内键入方框内键入Y的数据区域的数据区域在在“X值输入区域”方框内键入方框内键入X的数据区域的数据区域在在“置信度”选项中给出所需的数值选项中给出所需的数值在在“输出选项”中选择输出区域中选择输出区域在在“残差”分析选项中选择所需的选项分析选项中选择所需的选项用Excel进行回归分析(例题7.1)43Biostatistics西南大学生命科学学院2 2、一元线性回归方程的检验、一元线性回归方程的检验回归系数的检验(t检验)方差分析相关系数的检验44Biostatistics西南大学生命科学学院相关分析相关分析(correlation analysis)45Biostat
18、istics西南大学生命科学学院相关关系相关关系46Biostatistics西南大学生命科学学院简单相关分析简单相关分析 进行线性相关分析的基本任务在于根据X、Y的实际观测值,计算表示两个相关变量X、Y间线性相关程度和性质的统计量相关系数r并进行显著性检验。47Biostatistics西南大学生命科学学院相关关系示意图48Biostatistics西南大学生命科学学院相关系数的分析相关系数的分析相关系数q指由于回归因素引起的变差与总变差之比的平方根。q由回归因素所引起的变差,在总变差中的比例越大,回归的成份就越大,这两个变量间的相关越密切。49Biostatistics西南大学生命科学学院
19、相关系数相关系数(取值及其意义取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加50Biostatistics西南大学生命科学学院相关系数取值的意义相关系数取值的意义 相关系数r的绝对值v大于或等于0.8,高度相关v0.50.8 ,中度相关v0.30.5,低度相关v0.3以下,可视为不相关n但这种解释必须建立在对相关系数进行显著性检验的基础之上。51Biostati
20、stics西南大学生命科学学院相关系数的检验相关系数的检验相关系数的检验qt检验qz变换q查表法(附表12):若rr,则两变量相关显著。52Biostatistics西南大学生命科学学院53Biostatistics西南大学生命科学学院例1中:r=0.929,查表得r0.01=0.874,rr0.01,故相关极显著,回归方程有效。用用Excel计算计算相关系数相关系数54Biostatistics西南大学生命科学学院相关系数与回归系数的关系相关系数与回归系数的关系从相关系数计算公式的导出可以看到:相关变量X与Y的相关系数r是Y对X的回归系数与X对Y的相关系数bxy的几何平均数:55Biosta
21、tistics西南大学生命科学学院n直线回归分析将二个相关变量区分为自变量和因变量,侧重于寻求它们之间的联系形式直线回归方程;直线相关分析不区分自变量和因变量,侧重于揭示它们之间的联系程度和性质计算出相关系数。两种分析所进行的显著性检验都是解决Y与X间是否存在直线关系。n因而二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。56Biostatistics西南大学生命科学学院 在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。57Biostatistics西南大学生命科学学院回归分析与相关分析的区别回归分析与相关分析的区别相关分析
22、相关分析:1.确定现象间或变量间有无关系以及相关关系呈现的形态或类型;2.确定相关关系的密切程度(r)。3.变量 x 变量 y 处于平等的地位;4.变量 x 和 y 都是随机变量。回归分析:回归分析:确定变量间的数量依存关系(回归方程);根据回归方程进行预测和控制。变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量。58Biostatistics西南大学生命科学学院一元非线性回归一元非线性回归(curvilinear regression)59Biostatistics西南大学生命科学学院一
23、元非线性回归的拟合一元非线性回归的拟合原则q通过适当变换(transformation),将曲线转化为直线,求出直线回归方程;q变量反转换,得到曲线回归方程。60Biostatistics西南大学生命科学学院一元非线性回归的拟合一元非线性回归的拟合方法(对数变换、倒数变换、概率对数变换等)q专业知识判断q散点图q曲线拟合61Biostatistics西南大学生命科学学院一元非线性回归的检验一元非线性回归的检验剩余平方和(误差平方和)相关指数62Biostatistics西南大学生命科学学院一元非线性回归的检验一元非线性回归的检验剩余平方和(误差平方和)q剩余平方和越小,回归效果越好q需用原始数
24、据计算63Biostatistics西南大学生命科学学院一元非线性回归的检验一元非线性回归的检验相关指数qR2越接近1,两变量相关性越好q需用原始数据计算64Biostatistics西南大学生命科学学院 绘制散点图,根据图形和专业知识选取曲线类型(可同时绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)选取几类)按曲线类型,作曲线直线化变换按曲线类型,作曲线直线化变换建立变换数据间的建立变换数据间的直线回归方程直线回归方程直线回归方程直线回归方程 (假设检验,计算相关指数)(假设检验,计算相关指数)比较相关指数选取比较相关指数选取“最佳最佳”方程方程写出曲线方程写出曲线方程曲线拟合
25、的步骤65Biostatistics西南大学生命科学学院 66Biostatistics西南大学生命科学学院常见的曲线回归方程 对数:幂函数:或 指数函数:多项式:或 logistic:或 67Biostatistics西南大学生命科学学院n例2:某地大气中氰化物测定结果如下表,试拟合回归曲线。污染距离x50100150200250300400500氰化物浓度y0.6870.3980.200.1210.090.050.020.01Excel分析分析68Biostatistics西南大学生命科学学院多元回归多元回归(multiple regression)69Biostatistics西南大学生
26、命科学学院 在回归问题中,一个量只受一种因素影响的情况是较少的,往往是很多因素共同影响一个量。特别是当几个自变量之间还存在相关时,只考虑一个自变量与因变量的关系,往往得不到正确的结果。必须同时考虑几个因素的共同作用,才能得到比较正确的结论。这就是我们要讨论的多元回归问题。多元线性回归(multiple linear regression)70Biostatistics西南大学生命科学学院多元线性回归模型多元线性回归模型71Biostatistics西南大学生命科学学院多元线性回归拟合多元线性回归拟合逐步回归分析(stepwise regression analysis)q选择最优回归方程:方程
27、中包含全部对Y显著的变量,而不包含对Y不显著的变量。72Biostatistics西南大学生命科学学院 在所考虑的全部因素中,按对Y作用显著程度的大小,由大到小逐个引入到回归方程中。在已引入回归方程的变量中,找出偏回归平方和的最小的一个,在给定F水平下做显著性检验,以决定是否需从方程中剔除,在剔除了所有不显著变量之后,从那些不在回归方程的变量中,选择在引入回归方程后,使回归平方和增加最多的那个变量,并在给定的F 水平下做检验,若是显著的,则引入回归方程中。引入之后,再对回归方程做检验。并剔除方程中不显著因素。如此进行,直到回归方程中全部变量均不能剔除,又没有新变量可以引入时为止。逐步回归的基本
28、做法73Biostatistics西南大学生命科学学院回归与相关分析的正确应用回归与相关分析的正确应用74Biostatistics西南大学生命科学学院 1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或因变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。75Biostatistics西南大学生命科学学院 2、其余变量尽量保持一致 由于自然界各种事物间的相互联系
29、和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平。否则,回归分析和相关分析可能会导致完全虚假的结果。76Biostatistics西南大学生命科学学院 3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量X的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。77Biostatistics西南大学生命科学学院 4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能
30、会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。78Biostatistics西南大学生命科学学院 5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量X和Y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。79Biostatistics西南大学生命科学学院 6、一个显著的回归方程并不一定具有实践上的预测意义 如一个资料X、Y 两个变量间的相关系数r=0.5,在df=24时,r0.01(24)=0.496r0.01(24),表明相关系数极显著。而r2=0.25,即X变量或Y变量的总变异能够通过Y变量或X变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。80Biostatistics西南大学生命科学学院n植株生长周数与高度数据如下:n试作一元线性回归分析,计算相关系数并作检验。周数X1234567高度Y(cm)5131623333840练练 习习 题题81Biostatistics西南大学生命科学学院82