高等生物统计学课件.ppt

上传人:wuy****n92 文档编号:54729179 上传时间:2022-10-29 格式:PPT 页数:125 大小:985KB
返回 下载 相关 举报
高等生物统计学课件.ppt_第1页
第1页 / 共125页
高等生物统计学课件.ppt_第2页
第2页 / 共125页
点击查看更多>>
资源描述

《高等生物统计学课件.ppt》由会员分享,可在线阅读,更多相关《高等生物统计学课件.ppt(125页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第2章 回归分析与相关分析回归分析与相关分析(Regression analysis and correlation analysis)2.1 回归与相关2.3 协方差分析2.4 多元线性回归2.2 简单回归复习与提高2.5 通径分析与偏相关分析2.6 逻辑(logistic)回归 回归与相关 在生物科学研究中,经常会遇到探讨共处于一个统一体中变量之间的关系问题,其目的就是想了解变量之间是否有因果关系或相关关系。系统中变量之间相依关系因果关系相关关系回归分析相关分析对于变量之间的因果关系,统计学的任务是查明因果关系是否存在,若存在,判定强弱,并找出揭示这种关系的模型,用于预测、控制、优化。对于

2、相关关系(又叫相依关系),统计学的任务是找出刻画这种关系强弱的指标,并用于判定这种关系存在性及强弱。前者就是回归分析,后者就是相关分析。相关关系相关关系如人的血压Y与年龄X之间的关系,一般来说,年龄越大血压越高,但年龄相同的两个人的血压不一定相等。又如某农作物的亩产量Y与施肥量X之间有一定的关系,但施肥量相同,亩产量却不一定相同。这样的例子在实际中举不甚举。相关关系是两个随机变量之间的平行关系,它们要么互为因果,要么具有共同的因。相关关系概念相关关系度量指标相关关系度量指标线性相关关系检验相关关系检验例题 设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X

3、与Y的线性相关关系强弱。X20222426283032343638Y314376436495585615671733755835例题 设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系是否可认为是,并给出其95%置信区间。回归关系与回归分析回归关系回归关系在相关关系中,如果关心的是容易测定或控制变量X对变量Y的决定作用大小,将X看成一个普通变量,这时变量X与Y之间就成为回归关系。回归模型回归模型如果普通变量x与随机变量Y具有回归关系,则Y除过受变量x的作用以外,还受到控制不严格和未知因素的作用。所以,x与Y应满足关系式对于回归模型,显然有

4、回归方程反映了因变量回归方程反映了因变量 随自变量随自变量 的变化而变化的变化而变化的平的平均变化情况均变化情况。回归模型分类回归模型分类回归分析回归分析研究一个随机变量与一个或几个可控变量之间回归关系,从而找出回归关系的模型,用于预测、优化和控制,这种统计方法称为回归分析。回归分析主要解决三个问题:提供建立具有回归关系的变量之间的数学关系式(称为经验公式)的一般方法;判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著;利用所得到的经验公式进行预测和控制。简单回归复习与提高一元线性回归模型一元线性回归模型一元线性经验回归方程及其建立一元线性经验回归

5、方程及其建立最小二乘法最小二乘法(The least square method)最小二乘法估计量的统计性质最小二乘法估计量的统计性质由于样本满足回归模型,从而一定有所以,又正态分布的性质有:进而有一元线性回归有关检验一元线性回归有关检验离差平和分解离差平和分解回归显著性检验回归显著性检验F检验检验T检验检验相关系数相关系数检验检验截距检验截距检验例 为了研究大豆脂肪含量 和蛋白质含量 的关系,测定了10种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据。分别两组观测数据建立蛋白质含量对脂肪含量的回归方程。15.416.317.518.920.021.022.815.817.919.142.

6、4142.6141.3139.6439.7337.3735.3342.4839.3339.9243.1943.7345.3140.7641.1735.1335.7041.8642.3738.07回归直回归直线间与相关系数间比较线间与相关系数间比较两条回归直线间比较两条回归直线间比较在生物科学研究中,人们经常要了解物种之间是否存在共同生物学基础。这种问题的探讨是以回归线的比较为基本工具。回归线比较包括平行检验、共截距检验、重合检验等。平行平行检验检验共截距共截距检验检验重合重合检验检验所谓回归线重合检验就是在平行检验接受平行的情况下,两回归线合并估计斜率,在进行共截距检验。例 对由两组观测数据建

7、立蛋白质含量对脂肪含量的回归线进行比较。多条回归直线间比较多条回归直线间比较重合重合分析分析平行平行分析分析共截距共截距分析分析注意:k条回归线的共截距分析方法略作改进就可以用于检验k条回归线是否过指定点。具体做法如下:肥料测定数据(xij,yij)和平均A1 x1j 47 58 53 46 49 56 54 44 y1j 54 66 63 51 56 66 61 5040746750.87558.375A2 x2j 52 53 64 58 59 61 63 66 y2j 54 53 67 62 62 63 64 6947649459.50061.750A3 x3j 44 48 46 50 5

8、9 57 58 53 y3j 52 58 54 61 70 64 69 6641549451.87561.7501298145554.08360.625三种施肥试验下y对x回归线分析变异来源(1)Lx1x1(2)Ly1y1(3)Lx1y1斜率(3)/(1)截距自由度剩余离差和总剩余离差和A1A2A3180.875178.00230.875293.875223.500313.500226.375195.00257.7501.25161.09551.1164-5.2979-3.43263.836566610.55439.876425.746646.1773平行性589.750830.875675.

9、1251.1515-0.2100-6.76712.01352048.8305重合性945.833891.625765.7500.809616.839222271.6709两条相关系数间比较两条相关系数间比较在生物科学研究中,人们经常要探讨某个试验指标受不同控制因素影响关系的强弱。这一问题在相当普遍情况下,可以通过相关系数的比较得以解决。协方差分析(Analysis of covariance)生物科学研究试验,大部分情况下是自然试验,或观测试验。试验指标除受人们关心的、严格控制因素影响以外,很多情况下会受到无法控制的可测量因素指标的影响。如果在对试验指标受严格控制因素影响的探索试验中,忽视这种

10、无法控制的可测量因素指标对试验结果的作用,无疑会由试验数据得到虚假结论。例如前面我们介绍的苹果树产能受施肥影响的实验中,如果忽视苹果树产能受基础产能影响,直接由施肥后的产量数据进行方差分析,会得到下列结论:变异来源离差平房和自由度均方F肥料间60.750230.3750.7677|t|变量 自由度 偏回归系数 标准误 t值 P值Intercept 22 5.94327 2.82859 2.10 0.0473 X2 22 0.35147 0.20420 1.72 0.0993 X3 22 -0.27059 0.12139 -2.23 0.0363 糖尿病人血糖与其他血液理化指标回归的偏回归系数t

11、检验糖尿病人血糖与其他血液理化指标回归的偏回归系数F检验标准化回归系数标准化回归系数标准化回归系数标准化回归系数 变量变量回归系数回归系数b bj j标准化标准化回归系数回归系数b bj jljj标准差标准差S SX1X10.142450.14245 0.07758 0.0775866.010366.01031.5934 1.5934 X2X20.351470.35147 0.30931 0.30931172.3648172.36482.5748 2.5748 X3X3-0.27059-0.27059-0.33948-0.33948350.3106350.31063.6706 3.6706 X

12、4X40.63820.6382 0.39774 0.3977486.440786.44071.8234 1.8234 Y Y222.5519222.55192.9257 2.9257 1.1.残差标准差(残差标准差(Root MSE)反映了回归方程的精度,其值越小说明回归效果越好。三、其他有关评价指标与评价三、其他有关评价指标与评价三、其他有关评价指标与评价三、其他有关评价指标与评价2.2.决定系数(决定系数(determination coefficient)说明所有自变量能解释说明所有自变量能解释Y变化的百分比。取值变化的百分比。取值(0,1),越,越接近接近1模型拟合越好模型拟合越好3.

13、3.复相关系数复相关系数复相关系数复相关系数(multiple correlation(multiple correlation coefficientcoefficient)说明所有自变量与Y间的线性相关程度。即观察值Y与估计值之间的相关程度。如果只有一个自变量,此时 4.4.校正决定系数(校正决定系数(校正决定系数(校正决定系数(Adjusted determination coefficientAdjusted determination coefficient)回归方程的优化(自变量的选择)回归方程的优化(自变量的选择)1.变量多增加了模型的复杂度2.计算量增大3.估计和预测的精度下降

14、4.模型应用费用增加一、全局择优法一、全局择优法一、全局择优法一、全局择优法根据一些准则(criterion)建立 “最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;CpCp接近(接近(接近(接近(p+1p+1)模型为最优)模型为最优)模型为最优)模型为最优)AIC(Akaikes Information Criterion)准则;AICAIC越小越好越小越好越小越好越小越好1.Cp准则的计算公式准则的计算公式2.AICAIC准则的计算公式准则的计算公式二、选优法方法二、选优法方法二、选优法方法二、选优法方法双向筛选;引入有意义的变量

15、(前进法),剔除无意义变量(后退法).前进法前进法前进法前进法自变量从无到有、从少到多。1.Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(p小)则引入。2.在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。后退后退法法法法先将全部自变量放入方程,然后逐步剔除。1.偏回归平方和最小的变量,作F检验及相应的p值,决定它是否剔除(p大);2.建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果.逐步回归法逐步回归法逐步回归法逐步回归法逐步回归法与前进法、后退法有所

16、不同,它是一种对回归方程中自变量的双向筛选。该方法通过先引入有意义的自变量,后剔除无意义变量这种过程的反复重复,直至既没有有意义自变量可引入回归方程,也没有无意义变量从回归方程剔除为止。注意:注意:入选标准愈低,能进入模型的变量愈少。糖尿病人血糖与其他血液理化指标的逐步回归过程演示模型模型UQLyyy与与x482.714482.7144139.8375139.8375222.5519222.5519y与与x169.425169.4251153.1267153.1267222.5519222.5519y与与x246.787346.7873175.7645175.7645222.5519222.5

17、519y与与x357.913357.9133164.6386164.6386222.5519222.5519逐步回归第一步逐步回归第一步逐步回归第一步逐步回归第一步从方程中无自变量开始,选取一元回归回归离差平方和最大的自变量,作F 检验以决定是否选入方程。X4入选逐步回归第二步逐步回归第二步逐步回归第二步逐步回归第二步模型模型UUiQFiP-Valuey与与x482.7144 82.7144 y与与x4,x1107.7903 107.7903 25.0759 25.0759 114.7615114.76155.24415.24410.03110.0311y与与x4,x2107.4074 107

18、.4074 24.6931 24.6931 115.1444115.14445.14695.14690.03260.0326y与与x4,x3106.5683 106.5683 23.8539 23.8539 115.9836115.98364.93604.93600.03600.0360在第一步基础上,分别引入一个尚未进入方程的自变量,选引入后回归离差平方和最大者;对已进入回归方程的自变量检验偏回归显著性,从而确定是否要剔除自变量。模型模型UUiQFiP-Valuey与与x169.425138.3652 8.02330.0085y与与x482.7144 25.07595.24410.0311y

19、与与x4,x1107.7903 114.7615剔出x1x1入选逐步回归第三步逐步回归第三步逐步回归第三步逐步回归第三步在第二步基础上,重复第二步的过程。模型模型UUiQFiP-Valuey与与x4,x1107.7903 y与与x4,x1,x2113.6472 5.8569y与与x4,x1,x3121.7480 13.9897 100.80383.18470.0875变变量量模型模型UUiQFiP-Valuey与与x4,1,3121.7480 100.804x1 1y与与x4,3106.568315.1797 3.46350.0756x3y与与x4,1107.7903 13.9577 3.18

20、47 0.0870 x4y与与x1,31,394.202627.5454 6.2849 0.0197剔出x3x3入选逐步回归第四步逐步回归第四步逐步回归第四步逐步回归第四步在第三步基础上,重复第二步的过程。模型模型UUiQFiP-Valuey与与x4,1,3,2133.710711.9627 88.84122.9624 0.099y与与x4,1,3121.7480 变变量量模型模型UUiQFiP-Valuey与与x4,1,3,2133.7107 88.8412 x2 2y与与x4,1,3 121.7480 11.9627 x1 1y与与x4,3,2133.0978 0.6129 0.1518

21、0.7006 x3 3y与与x4,1,24,1,2113.6472 20.0635 x4y与与x1,3,21,3,2105.9167 27.7940 剔出x1x2入选逐步回归第五步逐步回归第五步逐步回归第五步逐步回归第五步在第四步基础上,检验是否还有自变量需要剔出。变量变量模型模型UUiQFiP-Valuey与与x4,3,2133.0978 89.4540 x4 4y与与x3,2100.8292 32.2686 x3 3y与与x4,2107.4074 25.6904 6.6054 0.0171 x2 2y与与x4,3106.5683 26.5295 没有可剔出的变量了变变异来源异来源自由度自由

22、度SSMSFP-Value回归3133.09844.36611.41*0.0001*残差2389.4543.889总变异26222.5519多元回归应用的条件多元回归应用的条件多元回归应用的条件多元回归应用的条件观察个体数n与变量个数m的比例一般至少应为:n/m510残差分析残差分析残差分析残差分析(检验应用条件检验应用条件检验应用条件检验应用条件)用标准化残差发现异常点用标准化残差发现异常点用标准化残差发现异常点用标准化残差发现异常点一般,观测点的标准化残差绝对值大于一般,观测点的标准化残差绝对值大于2,就认为该,就认为该观测点为观测点为异常点异常点(outlier也称离群值也称离群值)多重

23、复共线性及其应对方法多重复共线性及其应对方法多重复共线性及其应对方法多重复共线性及其应对方法 多元线性回归中,若自变量间存在较强的线性相关关系,使一个或几个自变量可以由另外的自变量线性表示时,则称自变量间存在有复共线性(Multi-Colinearity)。复共线性的存在,可使得回归系数最小二乘估计方差加大,回归系数估计稳定性差,有时甚至会严重背离实际情况,结果分析困难。复共线性危害的认识复共线性危害的认识复共线性危害的认识复共线性危害的认识现从该系统中,随机抽取10个个体,观测数据如下。试就这些数据建立经验回归方程,并比较经验回归系数与其理论值。x11.11.41.71.71.81.81.9

24、2.02.32.4x21.11.51.81.71.91.81.82.12.42.5y16.316.819.218.019.520.921.120.920.322.0复共线性存在性的识别复共线性存在性的识别复共线性存在性的识别复共线性存在性的识别显然,复共线性有下列危害统计上会使经验回归系数严重不稳定;应用上,会使回归系数的符号与专业知识推断不符,自变量的重要性与专业认识不符。1.符号检验法符号检验法 若某自变量在多元回归模型中的偏回归系数的符号与相应简单回归系数(或简单相关系数)的符号相反,表明有多重共线性存在,并确定该变量为引起多重共线性的变量。2.简单相关系数矩阵法简单相关系数矩阵法 根据

25、简单相关系数确定多重共线性的严重程度。一般认为相关系数在 0.6 以上均可导致多重共线性。3.决定系数法决定系数法 整个方程决定系数R2高,但各自变量对应的回归系数均不显著,则一定有复共线性。4.方差膨胀因子方差膨胀因子(the variance inflation factor,VIF)法:方差膨胀因子表达式为VIFi=1/(1-Ri2)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。5.条件数与特征分析法条件数与特征分析法 在自变量的观测值构成的设计矩阵X中,求出自变量相关系数矩阵R的特征值,如果某个特征值很小(如小于0.05),或所

26、有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。对多重共线性的两点认识:在实际中,多重共线性是一个程度问题而不是有无的问题,有意义的区分不在于有和无,而在于多重共线性的程度。多重共线性是针对固定的自变量而言,是一种样本的特征,而非总体的特征。消除多重共线性的方法:1.增加样本容量;2.利用先验信息改变;3.筛选自变量,删除不必要的自变量或采用逐步回归;4.针对性估计法:岭回归(Ridge regression)主成分分析(Principal components analysis)偏最小二乘回归法(Partial least squares regression)La

27、sso(The least absolute shrinkage and selectionoperator)回归以下对4种针对性方法简要介绍如下复共线性处理方法复共线性处理方法复共线性处理方法复共线性处理方法岭回归岭回归(Ridge regression)岭回归法是1970年Hoerl(霍尔)和Kennard(凯南德)提出来的方法。主要用以引入偏误为代价,换取估计量方差的减小,回归系数估计以下列方式实现主成分分析主成分分析(Principal components analysis)主成分回归法是另外一种常用的处理多重共线性的有偏估计方法,它通过提取主成分,将解释变量集合转化为相互正交的少数

28、几个主成分变量,试图通过降维消除解释变量之间的多重共线性,然后再实施最小二乘回归。偏最小二乘回归法偏最小二乘回归法(Partial least squares regression)偏最小二乘回归是1983年由和提出,其原理也是通过提取主成分方式来降维以消除多重共线性。在提取主成分过程中,偏最小二乘法不同于主成分回归法,它要求所提取的主成分满足两个原则:(1)尽可能大地代表设计阵X中的变异信息;(2)提取出的主成分对因变量Y的解释能力达到最强。Lasso 回归法回归法Lasso 回归是1996年Tibshiran提出来的方法。回归系数估计以下列方式实现2.5 通径分析与偏相关分析通径分析有关量

29、的计算1.通径系数计算2.直接决定系数与间接决定系数计算3.xj对y的决策系数计算4.xj对y的直接决定系数检验例题例题2.6 逻辑(logistic)回归在生物科学研究中,我们经常会遇到一种现象的发生与多个因素有关的问题,这些因素有些可能是定量的、有些可能是定性的,并且他们之间还有可能有存在混杂作用。分析这些因素对我们所关心现象出现概率的影响作用,并建立反映这种影响作用的数量表到形式最有效统计工具就是Logistic回归。Logistic回归概念回归概念 Logistic 回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。它适合于某

30、类现象发生的成因分析。Logistic回归是目前常用的,一个较好的,控制混杂因素的多因素分析方法。它与多元回归分析差别在于响应变量是二值或多值离散变量,自变量既可以是分类,也可以是定量变量。Logistic回归模型回归模型在m个自变量的作用下所关心现象发生的概率记作:则Logistic回归模型取值范围 概率P:01,logitP:。若令:则Logistic回归模型转化为:Logistic回归模型的图形Logistic回归模型的生物学意义常数项 表示自变量均为0时所关心现象出现与不出现概率比的自然对数。回归系数 表示自变量 改变一个单位时 logitP 的改变量。优势率优势率OR(Odds ratio)生物学衡量因素作用大小的比数比指标。计算公式为:优势率优势率OR 与回归系数的关系与回归系数的关系 Logistic回归的数据结构回归的数据结构 Logistic回归模型的参数估计回归模型的参数估计 回归系数的MLE某一因素Xj两个不同水平c1,c0的优势比优势比估计优势比估计 Logistic回归实例回归实例吸烟、饮酒与食道癌关系的病例对照调查资料以下是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试建立食道癌患病情况与吸烟、饮酒之间关系的Logistic回归方程。经Logistic回归计算后得:Logistic回归模型的假设检验回归模型的假设检验

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁