《2022年生物统计学4.docx》由会员分享,可在线阅读,更多相关《2022年生物统计学4.docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品学习资源第七章 回来分析第一节 回来和相关的概念方差分析检验一个或多个因子对某一生物变量是否有影响,只涉及一种变量;两个以上变量之间的定量关系的统计分析需要回来分析来解决;在自然界,两个或多个变量相互制约、相互依存的现象很常见;变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个变量或几个变量的制约,如微生物的繁衍速度受温度、湿度、光照等因素的影响,子女的身高是受着父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高与体重之间的关系,兄弟身高之间的关系等都属于平行关系;设有两个随机变量X 和 Y,假如变量 X 的每一个可能的值,都有随机变量Y
2、 的一个分布相对应,就称随机变量Y 对变量 X 存在回来 Regression ; X 也是随机变量时, X 和 Y 相互存在回来关系,这两个随机变量间就存在相关Correlation关系;在实际应用中,并不严格 区分相关和回来;在回来和相关分析中,必定留意下面一些问题,以防止统计方法的误用;(1) 变量间是否存在相关以及在什么条件下会发生什么相关等问题,都必需由各详细学科本身来打算;回来和相关只能作为一种统计分析手段,帮忙熟悉和说明事物的客观规律,决不能把风马牛不相及的资料凑到一起进行分析;(2) 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到很多其他变量的影响,因此,在
3、争论两个变量之间的关系时,要求其余变量尽量保持在同一水平,否就,回来和相关分析就可能会导致不行靠甚至完全虚假的结果;例如人的身高和胸围之间的关系,假如体重固定,身高越高的人,胸围肯定较小,当体重在变化时,其结果就会相反;(3) 在进行回来与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5 对以上的观测值;同时变量x 的取值范畴要尽可能大一些,这样才简洁发觉两个变量间的回来关系;(4) 回来与相关分析一般是在变量肯定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间的关系类型可能会发生转变,所以回来猜测必需限制自变量Y 的取值区间, 外推要谨慎,否就会得
4、出错误的结果;其次节一元线性回来争论两个随机变量的关系时第一要收集成对数据;7.1 争论土壤中 NaCl 的含量对植物单位叶面积物质干重的影响时,收集到如下成对数据;NaCl 的含量单位叶面积干重809095115130115135问二者的回来关系如何?依据数据作散点图,分析:1. X与 Y 的关系亲密否? 2.线性仍是曲线关系? 3.有无偏欢迎下载精品学习资源离过大的点?从图中可以看出,二者有直线关系,如何求出离差最小的直线,正是本章介绍的主要内容;1. 回来方程和回来显著性:yabx欢迎下载精品学习资源x1x nxib1iyyinix yiy xx 2aybx欢迎下载精品学习资源欢迎下载精
5、品学习资源2. 显著性检验:MSr /SSr/ 1SSSSe n2欢迎下载精品学习资源FT欢迎下载精品学习资源1, n 2MSe/SSe/ n1SSe欢迎下载精品学习资源欢迎下载精品学习资源FF ; p;回来关系显著;欢迎下载精品学习资源3. b 和 a 的显著性检验:欢迎下载精品学习资源b : tb sbb,dfn2MSeSxx欢迎下载精品学习资源欢迎下载精品学习资源式中: Sb :回来系数标准误n2SbS欢迎下载精品学习资源X 的校正平方和Sxxxii 1nx误差均方:2MSeYYXYn2n欢迎下载精品学习资源Y 的校正平方和SYY yii 1y校正交叉乘积和SXY xii 1x yiy欢
6、迎下载精品学习资源欢迎下载精品学习资源tt n2, 双侧 时拒绝aH 0 ;a欢迎下载精品学习资源a : t,dfn2欢迎下载精品学习资源sa1MSen2xSXX欢迎下载精品学习资源欢迎下载精品学习资源tt n 2,双侧 时拒绝H 0 ;欢迎下载精品学习资源欢迎下载精品学习资源题 7.1 的运算结果:b11.16aybx81.79欢迎下载精品学习资源欢迎下载精品学习资源F1, n 2SSTSSe n2SSe31.57欢迎下载精品学习资源欢迎下载精品学习资源b : tb sbab MSe Sxxa5.618 ,dfn25欢迎下载精品学习资源a : tsaMSe 1n2xSXX14.27 ,dfn
7、25欢迎下载精品学习资源回来方程: y81.7911.16x ,回来达极显著水平;欢迎下载精品学习资源采纳 Statistica软件包中的 Linear Regression;1. 按以下图作数据库;2. 在 Analysis中选 Resume Analysis,打开 Model Definition,单击 Variable窗口,挑选自变量和因变量;点击OK;3. 在下一窗口中点击Regression summary窗口,可以显现以下图中下方的结果窗口;4. 假设要作图,点击ResidualAnalysis,可显现下一个窗口,点击BivariateCorrelation,在下一窗口中选定X 和
8、 Y 轴的变量,点击 OK 可以得到上一页的一张回来图;欢迎下载精品学习资源欢迎下载精品学习资源第三节 一元非线性回来分析直线关系是两变量间最简洁的一种关系;更多的数据需要借助于一条曲线来描述;例如, 细菌的繁衍速率与温度,作物产量与施肥量等都属这种类型;生物学中变量间的曲线关系通常有对数函数曲线、指数函数曲线、幂函数曲线、S 型曲线等多种形式,很多曲线类型可以通过数据转换化成直线形式,利用直线回来方法协作直线回来方程,然后再转换成曲线回来方程;但也有一些很难直线化的非线性关系,一般要借助统计软件来解决;欢迎下载精品学习资源1. 指数回来关系:yaebx欢迎下载精品学习资源ln yln abx
9、将 y 取自然对数后,求其在x 上的直线回来;运算方法同上;y/ln y采纳 Statistica软件包中的 Linear Regression;按以下图作数据库;其它操作同上;结果如下:7.2 测得不同温度下棉铃虫的产卵数,求二者的回来关系;温度 x21232527293235产卵数 y711212466115325欢迎下载精品学习资源欢迎下载精品学习资源2. 幂函数关系:yaxb欢迎下载精品学习资源欢迎下载精品学习资源ln yln ab ln x欢迎下载精品学习资源欢迎下载精品学习资源运算 lny 在 lnx 上的直线回来关系;欢迎下载精品学习资源7.3 争论烘烤时间对烟叶叶绿素含量 干重
10、的 ppm的影响,结果如下 :时间 x1215192532353841464958含量 y17431108634531416408402400376354353试进行回来分析;先作散点图:在 Graphs 中选 Custom 2D Graphs; 然后在对话框中选坐标轴和曲线类型, 点 OK即可;欢迎下载精品学习资源从图中可以看出,二者呈幂函数关系;分别取自然对数后进行线性回来,结果如上表;欢迎下载精品学习资源回来达极显著水平,回来方程为consty14019x0.9633欢迎下载精品学习资源3. S型曲线:yb x a1e欢迎下载精品学习资源有些曲线难以转化为直线时,可以采纳统计软件的Non
11、linearEstimation进行回来运算;7.3肉鸡生长过程的资料如下:时间x:周;体重 y: kg时间 x1234567体重 y先作散点图, 依据曲线形状挑选S 型曲线模型; 在 Analysis中挑选 NonlinearEstimation挑选 User-specified regression,点 OK;在下一窗口中点击Function to be; 输入回来方程,点 OK;在以下两个对话框中直接点OK,即显现结果对话框;相关系数显现;欢迎下载精品学习资源在这一对话框中,点击Paramter estimates,可以得到曲线回来方程中的各个参数的值;点击 Fitted 2D func
12、tion & observed Vals,可以得到曲线回来图;欢迎下载精品学习资源本例的回来结果为2.729y1. 152 x1e2.649 欢迎下载精品学习资源4. 多项式回来 Polynomical regression将曲线化为直线,需事先明确两变量间的函数关系,有时这种关系很难确定,这时可采纳多项式方程去模拟;欢迎下载精品学习资源yab1xb x2b x3.b xk欢迎下载精品学习资源23k一般不超过 5 次多项式,它有4 个拐点;最简洁的是二次多项式,它是抛物线,有一个拐点;欢迎下载精品学习资源人工运算,一般令:x1x , x2x 2 , xx 3 , xxk , 将多项式化为多元一
13、次欢迎下载精品学习资源3k方程后,再进行回来;多元线性回来见第五节;采纳软件运算时,可以同上例挑选Nonlinear Estimation进行回来运算;7 4 小网箱养鲤的密度与个体净增重关系的争论资料,作增重对密度的回来;从散点图已知有两个拐点,可选用三次多项式;欢迎下载精品学习资源欢迎下载精品学习资源结果如下:y9615.865.552x0.15608x 20.00012357x3欢迎下载精品学习资源在 380-465 尾/ 米 3 密度范畴内,个体增重接近,建议采纳460 尾/ 米 3 的密度进行养殖;第四节一、相关系数 Correlation coefficient相关 Correla
14、tion两个变量之间的线性回来是否显著,可以通过检验回来系数b 的显著性和方差分析来确定,另一个衡量标志就是相关系数r ;相关系数是由于回来因素所引起的变差与总变差之比的平方根; r 越大,两变量相关越亲密;2rSSRSYYbSXYSYYSXYSXX SYYr 2SXY2SxySXY SXX SYY2SXX SYY, 由于 SSeSyy,所以, r 2Sxx1SSe Syy可见, r 21 , r1,当 SSe0 时, r1,完全相关;当 SSeSyy 时, r0 ,完全不相关;欢迎下载精品学习资源r0,正相关; r0 负相关;二、相关系数的显著性检验欢迎下载精品学习资源1. t 检验: tr
15、n2; dfn21r 2欢迎下载精品学习资源2. 相关系数检验表r 或 R临界值表欢迎下载精品学习资源表中设0.05 和0.01两个显著水平, 剩余自由度 dfn2 ;独立自变量个数 k ,欢迎下载精品学习资源一元回来 k1 ;欢迎下载精品学习资源从表中查出 r 值,当 rr 时,变量间显著相关;欢迎下载精品学习资源3. 相关系数与回来系数的关系自变量因变量回来系数Sxy欢迎下载精品学习资源xyyxSxybSxxSxybSyyS2xy欢迎下载精品学习资源rSxx Syyb bSxx Syy欢迎下载精品学习资源欢迎下载精品学习资源4. 相关指数 Correlation index相关系数是线性回
16、来程度的标志,在配曲线时,我们常用相关指数的协作指标;R 2r2作为曲线欢迎下载精品学习资源第五节 多元回来与多元相关分析前面所争论的回来和相关,无论是线性和非线性的,都是因变量 y 在一个自变量 x 上的回来或相关,可统称为一元回来或一元相关;但在很多实际问题中,影响因变量的因素常常不只是一个;例如,影响害虫盛发期的生态因素有温度、湿度、雨量等;作物的籽粒产量与其三个构成因素,即穗数、粒数、粒重有关;家畜的体重与其体长、胸围有关;为了争论因变量夕与多个自变量之间的关系,必需进步争论多元回来与多元相关的问题;多元回来与多元相关也称为复回来与复相关;欢迎下载精品学习资源yab1x1b2 x2b3
17、x3.bk xk欢迎下载精品学习资源欢迎下载精品学习资源在上述多元一次方程中,a为常数项,b1, b2 ,b3,.,bk 分别被称为 y 对x1 , x2 , x3,.xk 的偏欢迎下载精品学习资源回来系数 Partial regression coefficient,它表示当其它自变量都固定时,该自变量每变化一个单位,而使因变量平均转变的数值;欢迎下载精品学习资源欢迎下载精品学习资源75 小麦的主穗重的回来方程;x1和有效蘖数x2 对单株产量 y 的影响,求 y 对 x1和 x2欢迎下载精品学习资源同样采纳统计软件linear regression,自变量挑选 2 个即可;欢迎下载精品学习资
18、源回来方程为: y0.54250.9484x10.8414x2欢迎下载精品学习资源欢迎下载精品学习资源2多元线性回来方程的显著性检验在一元回来中, 回来的显著程度可用相关系数r 来表示; 在多元回来中, 可用复相关系数R 来表示,运算方法同RSSRSyy1r ;SSeSyydfn1k从 r 或 R 临界值表中查出R 值,当 RR复相关系数 Multiple correlation coeffient时,变量间显著相关;反映因变量与全部自变量之间回来的亲密程度,但是,我们仍常常需要明白因变量与各个自变量两两之间的关系;由于多变量间的复杂的回来关系,两变量间的简洁相关系数往往不能反映两变量间的真正
19、关系;所以要在其它变量保持不变的情形下,运算出它们的相关系数,即偏相关系数partial correlationcoefficient;偏相关系数的显著性检验,可用相关系数检验法, 在 dfnk1 下查 k1的 r值,当 rr时,偏相关显著;上例中, 复相关系数 R=0.8760,k2 ,dfnk1152112 ;复相关关系密切;在结果对话框中,点击partial coefficient,可得偏相关系数;从结果中可以看出,有效糵数与单株产量回来关系显著,主穗重未达显著水平;第六节逐步回来 Stepwise regression对于一个多变量资料,在很多情形下,往往既包含对因变量y 有显著线性效
20、应的自变量,欢迎下载精品学习资源又含有对 y 不具有显著效应的自变量,例如前述例7.5的二元线性回来方程中,自变量主穗重的偏回来系数不显著;在进行多元线性回来分析时,必需将不具有显著效应的自变量x1即欢迎下载精品学习资源看作是余外的予以舍去,以使所得到的多元线性回来方程中的自变量对因变量y 均具有显著效应,这样的回来方程叫做最优 在被争论的自变量范畴内 多元线性回来方程;只有用最优回来方程才能比较简洁精确地分析和猜测因变量y 的反应;最优回来方程需通过逐步回来分析才能获得,逐步回来有两种方式:欢迎下载精品学习资源(1) 从 m 元回来分析开头, 每步舍去一个不显著且偏回来平方和又最小的自变量,
21、在每次舍去一个偏回来不显著且平方和最小的自变量后,须对回来方程和各自变量重新进行假设检验,如此反复,直到回来方程所包含的自变量全部显著为止,此时所建立的回来方程即为最优回来方程; 称为向后回来Backward stepwise(2) 从一元回来分析开头,按各自变量对y 作用的次序,依次每步仅选入一个对y 作用显著的自变量,且每引入一个自变量后,对在此之前已引入的自变量进行重新检验,有不显著者即舍弃,直到选入的自变量都显著,而未被选入的自变量都不显著为止,此时建立的回来方程即为最优回来方程; 称为向前回来 Forward stepwise在统计软件包中, Linear regression有逐步
22、回来的功能;在挑选了线性回来功能后,显现 Model definition对话框中,除了定义多个自变量和一个因变量外,在方法Method中将 Standard 改选为 Forward stepwise或 Backward stepwise即可;改选后,下方的 Stepwise Multiple Regression栏目将变为可改选状态,可以挑选;结果如下:欢迎下载精品学习资源欢迎下载精品学习资源一、协方差分析的意义第八章 协方差分析第一节协方差分析的意义和作用欢迎下载精品学习资源在方差分析中,所接触到的各种处理多数都是人为掌握的;但是,在生物学争论中,有时会遇到某些变量很难或不行能人为掌握;例
23、如,在争论不同饲料对动物增重的试验中,动物体重很难保持一样,同时体重与生长又亲密相关;此时不能再用方差分析推断处理间的差异,而应采纳协方差分析;在协方差分析中,通常将处理效应如上例的动物增重称为反应变量Response variable y , 而与 y 有线性回来关系的另一变量如上例的动物初始体重称为相伴变量concomitant variable或协变量 Covariate x ;协方差分析通过 y 与 x 之间的线性关系或可化为直线的曲线关系,调整观看的反应变量;这种调整可以降低协变量引起的误差平方和的加大,简洁检验出反应变量在不同处理之间所存在的真正差异;因此,协方差分析是一种调整无法
24、掌握又影响效应值的变量的方差分析;是将回来分析和方差分析结合起来的一种统计方法;上例的试验结果如下:处理水平有三个三种饲料;假设不考虑初始体重,进行方差分析,结果是三种饲料对增重有极显著影响;三种饲料增重量最大的是A2 ,其次是 A3 ,最小的是A1 ;欢迎下载精品学习资源统计软件有协方差分析的功能,先运算公共回来系数b* ,依据下式调整 y 值;欢迎下载精品学习资源yyib x*ix,再对 y 进行方差分析;软件使用方法如下: 1建立以下图所示的数据库; 2打开 ANOVA/MANOV程A序同方差分析;3点 Covariates,挑选自变量、反应变量和协变量,点OK;在结果对话框内,点All
25、effects,可得以下图;饲料对增重的影响极显著,比直接作方差分析的显著程度有所增加;在结果对话框内,点Output option,可打开一个对话框,选中左下角Analysis of Covariance的两个选项回来结果和调整平均数;然后点 Specific effect/Means/Graphs;欢迎下载精品学习资源在打开的 RegressionResults对话框中,点 B-weightsand betaweights ,可得下表, 公共回来系数为;回来显著;假设在上图中点OK;可得增重和初始体重的平均值,击该表左上角的 Continue ,可得各组的调整平均数;欢迎下载精品学习资源欢迎下载精品学习资源从上表可以看出,三种饲料增重量最大的是分析的结果不同;A2 ,其次是A1 ,最小的是A3 ;明显与方差欢迎下载