生物统计学4.doc

上传人:asd****56 文档编号:74630862 上传时间:2023-02-27 格式:DOC 页数:18 大小:851.50KB
返回 下载 相关 举报
生物统计学4.doc_第1页
第1页 / 共18页
生物统计学4.doc_第2页
第2页 / 共18页
点击查看更多>>
资源描述

《生物统计学4.doc》由会员分享,可在线阅读,更多相关《生物统计学4.doc(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七章 回归分析第一节 回归和相关的概念方差分析检验一个或多个因子对某一生物变量是否有影响,只涉及一种变量。两个以上变量之间的定量关系的统计分析需要回归分析来解决。在自然界,两个或多个变量相互制约、相互依存的现象很常见。 变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个变量或几个变量的制约,如微生物的繁殖速度受温度、湿度、光照等因素的影响,子女的身高是受着父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高与体重之间的关系,兄弟身高之间的关系等都属于平行关系。 设有两个随机变量X和Y,如果变量X的每一个可能的值,都有随机变量Y的一个分布相对应

2、,则称随机变量Y对变量X存在回归(Regression)。 X也是随机变量时,X和Y相互存在回归关系,这两个随机变量间就存在相关(Correlation)关系。在实际应用中,并不严格区分相关和回归。 在回归和相关分析中,必然注意下面一些问题,以避免统计方法的误用。 (1)变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必须由各具体学科本身来决定。回归和相关只能作为一种统计分析手段,帮助认识和解释事物的客观规律,决不能把风马牛不相及的资料凑到一起进行分析; (2)由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其他变量的影响,因此,在研究两个变量之间的关系时,要求

3、其余变量尽量保持在同一水平,否则,回归和相关分析就可能会导致不可靠甚至完全虚假的结果。例如人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围一定较小,当体重在变化时,其结果就会相反; (3)在进行回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的准确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的回归关系; (4)回归与相关分析一般是在变量一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间的关系类型可能会发生改变,所以回归预测必须限制自变量Y的取值区间,外推要谨慎,否则会得出错误的结果。第二节 一元线性回归研究

4、两个随机变量的关系时首先要收集成对数据。7.1 研究土壤中NaCl的含量对植物单位叶面积物质干重的影响时,收集到如下成对数据。问二者的回归关系如何?NaCl的含量0.00.81.62.43.24.04.8单位叶面积干重809095115130115135根据数据作散点图,分析:1. X与Y的关系密切否?2. 线性还是曲线关系?3. 有无偏离过大的点?从图中可以看出,二者有直线关系,如何求出离差最小的直线,正是本章介绍的主要内容。1. 回归方程和回归显著性: 2. 显著性检验:。回归关系显著。3. 和的显著性检验: , 式中:回归系数标准误X的校正平方和 误差均方:Y的校正平方和 校正交叉乘积和

5、时拒绝。:, 时拒绝。题7.1的计算结果: : , :, 回归方程:,回归达极显著水平。采用Statistica软件包中的Linear Regression。1 按下图作数据库;2 在Analysis中选Resume Analysis,打开Model Definition,单击Variable窗口,选择自变量和因变量。点击OK。3. 在下一窗口中点击Regression summary窗口,可以出现下图中下方的结果窗口。4. 若要作图,点击Residual Analysis,可出现下一个窗口,点击Bivariate Correlation, 在下一窗口中选定X和Y轴的变量,点击OK 可以得到上

6、一页的一张回归图。第三节 一元非线性回归分析 直线关系是两变量间最简单的一种关系。更多的数据需要借助于一条曲线来描述。例如,细菌的繁殖速率与温度,作物产量与施肥量等都属这种类型。生物学中变量间的曲线关系通常有对数函数曲线、指数函数曲线、幂函数曲线、S型曲线等多种形式,许多曲线类型可以通过数据转换化成直线形式,利用直线回归方法配合直线回归方程,然后再转换成曲线回归方程。但也有一些很难直线化的非线性关系,一般要借助统计软件来解决。1. 指数回归关系: 将取自然对数后,求其在上的直线回归。计算方法同上。7.2 测得不同温度下棉铃虫的产卵数,求二者的回归关系。温度(x)21232527293235产卵

7、数(y)7112124661153251.94592.39793.04453.17814.18974.74495.7838采用Statistica软件包中的Linear Regression。按下图作数据库;其它操作同上。结果如下:2. 幂函数关系: 计算在上的直线回归关系。7.3 研究烘烤时间对烟叶叶绿素含量(干重的ppm)的影响,结果如下:时间x1215192532353841464958含量y17431108634531416408402400376354353试进行回归分析。先作散点图:在Graphs中选Custom 2D Graphs;然后在对话框中选坐标轴和曲线类型,点OK即可。

8、从图中可以看出,二者呈幂函数关系。分别取自然对数后进行线性回归,结果如上表。回归达极显著水平,回归方程为3. S型曲线: 有些曲线难以转化为直线时,可以采用统计软件的Nonlinear Estimation进行回归运算。7.3 肉鸡生长过程的资料如下:时间x:周;体重y:kg时间x1234567体重y0.300.861.732.202.472.672.80先作散点图,根据曲线形态选择S型曲线模型。在Analysis中选择Nonlinear Estimation选择User-specified regression,点OK;在下一窗口中点击Function to be;输入回归方程,点OK。在以

9、下两个对话框中直接点OK,即出现结果对话框。相关系数出现。在这一对话框中,点击Paramter estimates,可以得到曲线回归方程中的各个参数的值。点击Fitted 2D function & observed Vals,可以得到曲线回归图。本例的回归结果为 4. 多项式回归(Polynomical regression)将曲线化为直线,需事先明确两变量间的函数关系,有时这种关系很难确定,这时可采用多项式方程去模拟。一般不超过5次多项式,它有4个拐点;最简单的是二次多项式,它是抛物线,有一个拐点。人工计算,一般令:,,将多项式化为多元一次方程后,再进行回归。多元线性回归见第五节。采用软件

10、计算时,可以同上例选择Nonlinear Estimation进行回归运算。74 小网箱养鲤的密度与个体净增重关系的研究资料,作增重对密度的回归。从散点图已知有两个拐点,可选用三次多项式。结果如下:在380-465尾/米3密度范围内,个体增重接近,建议采用460尾/米3的密度进行养殖。第四节 相关(Correlation)一、相关系数(Correlation coefficient)两个变量之间的线性回归是否显著,可以通过检验回归系数b的显著性和方差分析来确定,另一个衡量标志就是相关系数(r)。相关系数是由于回归因素所引起的变差与总变差之比的平方根。r越大,两变量相关越密切。 , 由于,所以,

11、可见,当时,完全相关;当时,完全不相关。,正相关;负相关。二、相关系数的显著性检验1 检验:;2 相关系数检验表(r或R临界值表) 表中设和两个显著水平,剩余自由度;独立自变量个数,一元回归。从表中查出值,当时,变量间显著相关。3相关系数与回归系数的关系自变量 因变量 回归系数 4相关指数(Correlation index)相关系数是线性回归程度的标志,在配曲线时,我们常用相关指数()作为曲线的配合指标。第五节 多元回归与多元相关分析 前面所讨论的回归和相关,无论是线性和非线性的,都是因变量y在一个自变量x上的回归或相关,可统称为一元回归或一元相关。但在许多实际问题中,影响因变量的因素常常不

12、只是一个。例如,影响害虫盛发期的生态因素有温度、湿度、雨量等;作物的籽粒产量与其三个构成因素,即穗数、粒数、粒重有关;家畜的体重与其体长、胸围有关。为了研究因变量夕与多个自变量之间的关系,必须进步研究多元回归与多元相关的问题。多元回归与多元相关也称为复回归与复相关。 在上述多元一次方程中,为常数项,分别被称为对的偏回归系数(Partial regression coefficient),它表示当其它自变量都固定时,该自变量每变化一个单位,而使因变量平均改变的数值。75 小麦的主穗重()和有效蘖数()对单株产量()的影响,求对和的回归方程。同样采用统计软件linear regression,自变

13、量选择2个即可。回归方程为:2多元线性回归方程的显著性检验在一元回归中,回归的显著程度可用相关系数来表示;在多元回归中,可用复相关系数来表示,计算方法同。 从r或R临界值表中查出值,当时,变量间显著相关。复相关系数(Multiple correlation coeffient)反映因变量与所有自变量之间回归的密切程度,但是,我们还经常需要了解因变量与各个自变量两两之间的关系。由于多变量间的复杂的回归关系,两变量间的简单相关系数往往不能反映两变量间的真正关系。所以要在其它变量保持不变的情况下,计算出它们的相关系数,即偏相关系数(partial correlation coefficient)。偏

14、相关系数的显著性检验,可用相关系数检验法,在下查的值,当时,偏相关显著。上例中,复相关系数R=0.8760, , 。复相关关系密切。在结果对话框中,点击partial coefficient,可得偏相关系数。从结果中可以看出,有效糵数与单株产量回归关系显著,主穗重未达显著水平。第六节 逐步回归(Stepwise regression) 对于一个多变量资料,在很多情况下,往往既包含对因变量有显著线性效应的自变量,又含有对不具有显著效应的自变量,例如前述例7.5的二元线性回归方程中,自变量即主穗重的偏回归系数不显著。在进行多元线性回归分析时,必须将不具有显著效应的自变量看作是多余的予以舍去,以使所

15、得到的多元线性回归方程中的自变量对因变量均具有显著效应,这样的回归方程叫做最优(在被研究的自变量范围内)多元线性回归方程。只有用最优回归方程才能比较简洁准确地分析和预测因变量的反应。 最优回归方程需通过逐步回归分析才能获得,逐步回归有两种方式:(1)从元回归分析开始,每步舍去一个不显著且偏回归平方和又最小的自变量,在每次舍去一个偏回归不显著且平方和最小的自变量后,须对回归方程和各自变量重新进行假设检验,如此反复,直到回归方程所包含的自变量全部显著为止,此时所建立的回归方程即为最优回归方程。(称为向后回归Backward stepwise)(2)从一元回归分析开始,按各自变量对作用的次序,依次每

16、步仅选入一个对作用显著的自变量,且每引入一个自变量后,对在此之前已引入的自变量进行重新检验,有不显著者即舍弃,直到选入的自变量都显著,而未被选入的自变量都不显著为止,此时建立的回归方程即为最优回归方程。(称为向前回归Forward stepwise)在统计软件包中,Linear regression 有逐步回归的功能。在选择了线性回归功能后,出现Model definition对话框中,除了定义多个自变量和一个因变量外,在方法(Method)中将Standard改选为Forward stepwise或Backward stepwise即可。改选后,下方的Stepwise Multiple Re

17、gression栏目将变为可改选状态,可以选择。结果如下:第八章 协方差分析第一节 协方差分析的意义和作用一、协方差分析的意义在方差分析中,所接触到的各种处理多数都是人为控制的。但是,在生物学研究中,有时会遇到某些变量很难或不可能人为控制。例如,在研究不同饲料对动物增重的实验中,动物体重很难保持一致,同时体重与生长又密切相关。此时不能再用方差分析推断处理间的差异,而应采用协方差分析。在协方差分析中,通常将处理效应(如上例的动物增重)称为反应变量(Response variable)(),而与有线性回归关系的另一变量(如上例的动物初始体重)称为伴随变量(concomitant variable)

18、或协变量(Covariate)()。协方差分析通过与之间的线性关系(或可化为直线的曲线关系),调整观察的反应变量。这种调整可以降低协变量引起的误差平方和的加大,容易检验出反应变量在不同处理之间所存在的真正差异。因此,协方差分析是一种调整无法控制又影响效应值的变量的方差分析。是将回归分析和方差分析结合起来的一种统计方法。上例的实验结果如下:处理水平有三个(三种饲料)。若不考虑初始体重,进行方差分析,结果是三种饲料对增重有极显著影响(F=11.17)。三种饲料增重量最大的是,其次是,最小的是。统计软件有协方差分析的功能,先计算公共回归系数(),根据下式调整值。,再对进行方差分析。软件使用方法如下:

19、(1)建立下图所示的数据库;(2)打开ANOVA/MANOVA程序(同方差分析);(3)点Covariates,选择自变量、反应变量和协变量,点OK。在结果对话框内,点All effects,可得下图。饲料对增重的影响极显著,F=31.07,比直接作方差分析的显著程度有所增加。在结果对话框内,点Output option,可打开一个对话框,选中左下角Analysis of Covariance的两个选项(回归结果和调整平均数)。然后点Specific effect/Means/Graphs。在打开的Regression Results对话框中,点B-weights and beta weights,可得下表,公共回归系数为2.4016。回归显著。若在上图中点OK。可得增重和初始体重的平均值,击该表左上角的Continue,可得各组的调整平均数。从上表可以看出,三种饲料增重量最大的是,其次是,最小的是。显然与方差分析的结果不同。70

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁