《2022年生物统计学4 .pdf》由会员分享,可在线阅读,更多相关《2022年生物统计学4 .pdf(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、53 第七章回归分析第一节回归和相关的概念方差分析检验一个或多个因子对某一生物变量是否有影响,只涉及一种变量。两个以上变量之间的定量关系的统计分析需要回归分析来解决。在自然界,两个或多个变量相互制约、相互依存的现象很常见。变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个变量或几个变量的制约,如微生物的繁殖速度受温度、湿度、光照等因素的影响,子女的身高是受着父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高与体重之间的关系,兄弟身高之间的关系等都属于平行关系。设有两个随机变量X 和 Y,如果变量X 的每一个可能的值,都有随机变量Y 的一个分布
2、相对应,则称随机变量Y对变量 X存在回归 Regression 。 X 也是随机变量时,X和 Y相互存在回归关系,这两个随机变量间就存在相关Correlation关系。在实际应用中,并不严格区分相关和回归。在回归和相关分析中,必然注意下面一些问题,以防止统计方法的误用。 (1)变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。回归和相关只能作为一种统计分析手段,帮助认识和解释事物的客观规律,决不能把风马牛不相及的资料凑到一起进行分析; (2)由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其他变量的影响,因此,在研究两个变量之间的关系时
3、,要求其余变量尽量保持在同一水平,否则,回归和相关分析就可能会导致不可靠甚至完全虚假的结果。例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围一定较小,当体重在变化时,其结果就会相反; (3)在进行回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的准确性,一般至少有5 对以上的观测值。同时变量x 的取值范围要尽可能大一些,这样才容易发现两个变量间的回归关系; (4)回归与相关分析一般是在变量一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间的关系类型可能会发生改变,所以回归预测必须限制自变量Y 的取值区间,外推要谨慎,否则会得出错误的结果。第二节一元线
4、性回归研究两个随机变量的关系时首先要收集成对数据。7.1 研究土壤中NaCl 的含量对植物单位叶面积物质干重的影响时,收集到如下成对数据。问二者的回归关系如何?NaCl 的含量单位叶面积干重80 90 95 115 130 115 135 根据数据作散点图,分析:1. X与 Y 的关系密切否?2. 线性还是曲线关系?3. 有无偏精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 18 页54 离过大的点?从图中可以看出,二者有直线关系,如何求出离差最小的直线,正是本章介绍的主要内容。1. 回归方程和回归显著性:bxayixnx1iyny12
5、)()(xxyyxxbiiixbya2. 显著性检验:SSenSSeSSnSSeSSrMSeMSrFTn)2)() 1/(1/2, 1pFF;。回归关系显著。3. b和a的显著性检验:b:SxxMSebsbtb,2ndf式中:bS:回归系数标准误X的校正平方和21)(niixxxxS误差均方:2nbSSMSeXYYYY的校正平方和21)(niiYYyyS校正交叉乘积和)( )(1yyxxSiniiXY精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 18 页55 )(,2双侧ntt时拒绝0H。a:)1(2XXaSxnMSeasat,2nd
6、f)(,2双侧ntt时拒绝0H。题 7.1 的计算结果:16.11b79.81xbya57.31)2)(2, 1SSenSSeSSFTnb:618.5SxxMSebsbtb,52ndfa:27.14)1(2XXaSxnMSeasat,52ndf回归方程:xy16.1179.81,回归达极显著水平。采用 Statistica软件包中的Linear Regression。1 按下列图作数据库;2 在 Analysis中选 Resume Analysis,打开 Model Definition,单击 Variable窗口,选择自变量和因变量。点击OK 。3. 在下一窗口中点击Regression s
7、ummary窗口,可以出现下列图中下方的结果窗口。4. 假设要作图,点击Residual Analysis,可出现下一个窗口,点击Bivariate Correlation, 在下一窗口中选定X和 Y轴的变量,点击OK 可以得到上一页的一张回归图。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 18 页56 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 18 页57 第三节 一元非线性回归分析直线关系是两变量间最简单的一种关系。更多的数据需要借助于一条曲线来描述。例如,细菌的繁
8、殖速率与温度,作物产量与施肥量等都属这种类型。生物学中变量间的曲线关系通常有对数函数曲线、指数函数曲线、幂函数曲线、S型曲线等多种形式,许多曲线类型可以通过数据转换化成直线形式,利用直线回归方法配合直线回归方程,然后再转换成曲线回归方程。但也有一些很难直线化的非线性关系,一般要借助统计软件来解决。1. 指数回归关系:bxaeybxaylnln将y取自然对数后,求其在x上的直线回归。计算方法同上。7.2 测得不同温度下棉铃虫的产卵数,求二者的回归关系。温度 x21 23 25 27 29 32 35 产卵数 y7 11 21 24 66 115 325 yyln/采用 Statistica软件包
9、中的Linear Regression。按下列图作数据库;其它操作同上。结果如下:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 18 页58 2. 幂函数关系:baxyxbaylnlnln计算yln在xln上的直线回归关系。7.3 研究烘烤时间对烟叶叶绿素含量( 干重的 ppm)的影响,结果如下: 时间 x 12 15 19 25 32 35 38 41 46 49 58 含量 y 1743 1108 634 531 416 408 402 400 376 354 353 试进行回归分析。先作散点图:在Graphs 中选 Custom
10、 2D Graphs; 然后在对话框中选坐标轴和曲线类型,点 OK即可。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 18 页59 从图中可以看出,二者呈幂函数关系。分别取自然对数后进行线性回归,结果如上表。回归达极显著水平,回归方程为9633.014019xy3. S 型曲线:)(1axbeconsty有些曲线难以转化为直线时,可以采用统计软件的Nonlinear Estimation进行回归运算。7.3 肉鸡生长过程的资料如下:时间x:周;体重y:kg 时间 x 1 2 3 4 5 6 7 体重 y 先作散点图,根据曲线形态选择S
11、型曲线模型。 在 Analysis中选择 Nonlinear Estimation 选择 User-specified regression,点 OK;在下一窗口中点击Function to be; 输入回归方程,点OK 。在以下两个对话框中直接点OK ,即出现结果对话框。相关系数出现。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 18 页60 在这一对话框中,点击Paramter estimates,可以得到曲线回归方程中的各个参数的值。点击 Fitted 2D function & observed Vals,可以得到曲线回归图。
12、本例的回归结果为)649. 2(152. 11729.2xey精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 18 页61 4. 多项式回归 Polynomical regression将曲线化为直线,需事先明确两变量间的函数关系,有时这种关系很难确定,这时可采用多项式方程去模拟。kkxbxbxbxbay.33221一般不超过5 次多项式,它有4 个拐点;最简单的是二次多项式,它是抛物线,有一个拐点。人工计算,一般令:xx1,22xx,33xx,kkxx, 将多项式化为多元一次方程后,再进行回归。多元线性回归见第五节。采用软件计算时,可
13、以同上例选择Nonlinear Estimation进行回归运算。74 小网箱养鲤的密度与个体净增重关系的研究资料,作增重对密度的回归。从散点图已知有两个拐点,可选用三次多项式。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 18 页62 结果如下:3200012357.015608. 0552.658.9615xxxy在 380-465 尾/ 米3密度范围内,个体增重接近,建议采用460 尾/ 米3的密度进行养殖。第四节相关(Correlation)一、相关系数(Correlation coefficient) 两个变量之间的线性回归
14、是否显著,可以通过检验回归系数b 的显著性和方差分析来确定,另一个衡量标志就是相关系数r 。相关系数是由于回归因素所引起的变差与总变差之比的平方根。r 越大,两变量相关越密切。YYXXXYYYXXXYYYXYYYRSSSSSSSbSSSSr2YYXXXYSSSr22, 由于xxxyyyeSSSSS2,所以,yyeSSSr12可见,12r,1r,当0eSS时,1r,完全相关;当yyeSSS时,0r,完全不相关。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 18 页63 0r,正相关;0r负相关。二、相关系数的显著性检验1t检验:212
15、rnrt;2ndf2 相关系数检验表r 或 R临界值表表中设05.0和01.0两个显著水平, 剩余自由度2ndf; 独立自变量个数k,一元回归1k。从表中查出r值,当rr时,变量间显著相关。3相关系数与回归系数的关系自变量因变量回归系数xyxxxySSbyxyyxySSbbbSSSSSSryyxxxyyyxxxy24相关指数Correlation index相关系数是线性回归程度的标志,在配曲线时,我们常用相关指数22rR作为曲线的配合指标。第五节多元回归与多元相关分析前面所讨论的回归和相关,无论是线性和非线性的,都是因变量y 在一个自变量x 上的回归或相关,可统称为一元回归或一元相关。但在许
16、多实际问题中,影响因变量的因素常常不只是一个。例如,影响害虫盛发期的生态因素有温度、湿度、雨量等;作物的籽粒产量与其三个构成因素,即穗数、粒数、粒重有关;家畜的体重与其体长、胸围有关。为了研究因变量夕与多个自变量之间的关系,必须进步研究多元回归与多元相关的问题。多元回归与多元相关也称为复回归与复相关。kkxbxbxbxbay.332211在上述多元一次方程中,a为常数项,kbbbb,.,321分别被称为y对kxxxx,.,321的偏回归系数 Partial regression coefficient ,它表示当其它自变量都固定时,该自变量每变化一个单位,而使因变量平均改变的数值。精选学习资料
17、 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页,共 18 页64 75 小麦的主穗重1x和有效蘖数2x对单株产量y的影响,求y对1x和2x的回归方程。同样采用统计软件linear regression,自变量选择2 个即可。回归方程为:218414.09484.05425.0 xxy精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 18 页65 2多元线性回归方程的显著性检验在一元回归中, 回归的显著程度可用相关系数r来表示; 在多元回归中, 可用复相关系数R来表示,计算方法同r。yyeyyR
18、SSSSSSR1kndf1从 r 或 R临界值表中查出R值,当RR时,变量间显著相关。复相关系数Multiple correlation coeffient反映因变量与所有自变量之间回归的密切程度,但是,我们还经常需要了解因变量与各个自变量两两之间的关系。由于多变量间的复杂的回归关系,两变量间的简单相关系数往往不能反映两变量间的真正关系。所以要在其它变量保持不变的情况下,计算出它们的相关系数,即偏相关系数partial correlation coefficient 。偏相关系数的显著性检验,可用相关系数检验法,在1kndf下查1k的r值,当rr时,偏相关显著。上例中, 复相关系数R=0.87
19、60, 2k, 1212151kndf。复相关关系密切。在结果对话框中,点击partial coefficient,可得偏相关系数。从结果中可以看出,有效糵数与单株产量回归关系显著,主穗重未达显著水平。第六节逐步回归 Stepwise regression对于一个多变量资料,在很多情况下,往往既包含对因变量y有显著线性效应的自变量,又含有对y不具有显著效应的自变量,例如前述例7.5 的二元线性回归方程中,自变量1x即主穗重的偏回归系数不显著。在进行多元线性回归分析时,必须将不具有显著效应的自变量看作是多余的予以舍去,以使所得到的多元线性回归方程中的自变量对因变量y均具有显著效应,这样的回归方程
20、叫做最优( 在被研究的自变量范围内) 多元线性回归方程。只有用最优回归方程才能比较简洁准确地分析和预测因变量y的反应。最优回归方程需通过逐步回归分析才能获得,逐步回归有两种方式:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 13 页,共 18 页66 (1) 从m元回归分析开始,每步舍去一个不显著且偏回归平方和又最小的自变量,在每次舍去一个偏回归不显著且平方和最小的自变量后,须对回归方程和各自变量重新进行假设检验,如此反复,直到回归方程所包含的自变量全部显著为止,此时所建立的回归方程即为最优回归方程。( 称为向后回归Backward stepwi
21、se) (2) 从一元回归分析开始,按各自变量对y作用的次序,依次每步仅选入一个对y作用显著的自变量,且每引入一个自变量后,对在此之前已引入的自变量进行重新检验,有不显著者即舍弃,直到选入的自变量都显著,而未被选入的自变量都不显著为止,此时建立的回归方程即为最优回归方程。( 称为向前回归Forward stepwise) 在统计软件包中,Linear regression 有逐步回归的功能。在选择了线性回归功能后,出现 Model definition对话框中,除了定义多个自变量和一个因变量外,在方法Method中将 Standard 改选为 Forward stepwise或 Backwar
22、d stepwise即可。 改选后,下方的 Stepwise Multiple Regression栏目将变为可改选状态,可以选择。结果如下:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 14 页,共 18 页67 第八章协方差分析第一节协方差分析的意义和作用一、协方差分析的意义在方差分析中,所接触到的各种处理多数都是人为控制的。但是,在生物学研究中,有时会遇到某些变量很难或不可能人为控制。例如,在研究不同饲料对动物增重的实验中,动物体重很难保持一致,同时体重与生长又密切相关。此时不能再用方差分析推断处理间的差异,而应采用协方差分析。在协方差分析
23、中,通常将处理效应如上例的动物增重称为反应变量Response variable(y), 而与y有线性回归关系的另一变量如上例的动物初始体重称为伴随变量concomitant variable或协变量 Covariate (x) 。协方差分析通过y与x之间的线性关系或可化为直线的曲线关系,调整观察的反应变量。这种调整可以降低协变量引起的误差平方和的加大,容易检验出反应变量在不同处理之间所存在的真正差异。因此,协方差分析是一种调整无法控制又影响效应值的变量的方差分析。是将回归分析和方差分析结合起来的一种统计方法。上例的实验结果如下:处理水平有三个三种饲料。假设不考虑初始体重,进行方差分析,结果是
24、三种饲料对增重有极显著影响。三种饲料增重量最大的是2A,其次是3A,最小的是1A。统计软件有协方差分析的功能,先计算公共回归系数*b ,根据下式调整y值。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 15 页,共 18 页68 )(*xxbyyii,再对y进行方差分析。软件使用方法如下: 1建立下列图所示的数据库;2打开 ANOVA/MANOVA程序同方差分析; 3点 Covariates,选择自变量、反应变量和协变量,点OK 。在结果对话框内,点All effects,可得下列图。饲料对增重的影响极显著,比直接作方差分析的显著程度有所增加。在结
25、果对话框内,点Output option,可打开一个对话框,选中左下角Analysis of Covariance的两个选项回归结果和调整平均数。然后点Specific effect/Means/Graphs。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 16 页,共 18 页69 在打开的Regression Results对话框中,点B-weights and beta weights ,可得下表,公共回归系数为。回归显著。假设在上图中点OK 。可得增重和初始体重的平均值,击该表左上角的 Continue ,可得各组的调整平均数。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 17 页,共 18 页70 从上表可以看出,三种饲料增重量最大的是2A,其次是1A,最小的是3A。显然与方差分析的结果不同。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 18 页,共 18 页