《高级生物统计021(精品).ppt》由会员分享,可在线阅读,更多相关《高级生物统计021(精品).ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design第一节多元线性回归(Multiplelinearregression)任务:研究一个依变量与多个自变量间的任务:研究一个依变量与多个自变量间的线性关系:线性关系:如农作物产量与产量构成因素:穗数、粒如农作物产量与产量构成因素:穗数、粒数、粒重的关系,病虫害的发生期与生态因素:数、粒重的关系,病虫害的发生期与生态因素:温度、湿度、雨量的关系。温度、湿度、雨
2、量的关系。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design一、多元线性回归方程的建立Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design (一)数学模型设设 y 与与x1、x2、xm间存在线性关系间存在线性关系
3、y=0 0+1x1+2x2+mxm+x1、x2、xm可以观测的一般变量或随机可以观测的一般变量或随机变量;变量;y 可以观测的随机变量;可以观测的随机变量;随机变量,相互独立,且都服从随机变量,相互独立,且都服从N(0,2)。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design x1x2 xmyx11x21xm1y1x12x22xm2y2x1nx2nxmnyn(一)建立多元线性回归方程设变量设变量 x1、
4、x2、xm (自变量自变量)、y(依变量依变量)有有n 组观测数据,见下表,组观测数据,见下表,Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design 假定依变量假定依变量 y 与自变量与自变量x1,x2,xm间间存在线性关系,则存在线性关系,则 y 与与x1,x2,xm间的元间的元线性回归方程为:线性回归方程为:(21)Copyright2006-2010SichuanAgriculturalUniver
5、sityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design由n 组实际观测数据,根据最小二乘法的原理确定元线性回归方程中的b0,b1,b2,bm,即b0,b1,b2,bm应使实际观测值与回归估计值的偏差平方和最小。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design令Q为关于b0,b1,b2,bm的m+1元
6、函数。根据微分学中多元函数求极值的方法,若使达到最小,应有(i=1,2,m)Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design经整理得Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design由方程组(2-2)中的第一个
7、方程可得 即其中,Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design若记并将分别代入方程组(2-2)中的后m个方程,经整理可得到关于b1,b2,bm的正规方程组(normalequations)为:Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and E
8、xperimental Design 解正规方程组(2-4)即可得b1,b2,bm,而 于是得到元线性回归方程:Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design m元线性回归方程的图形为m+1维空间的一个平面,称为回归平面(regressionplane);b0称为回归常数项(regressionconstant),当x1=x2=xm=0时,在有实际生物学意义时,b0表示y的起始值;bi(i=1,2,
9、m)称为依变量y对自变量xi的偏回归系数(partialregressioncoefficient),表示除自变量xi以外的其余个自变量都固定不变时,自变量xi每变化1个单位,依变量y平均变化的单位数量,确切地说,当bi0时,自变量xi每增加1个单位,依变量y平均增加bi个单位;当bit0.05(50)、|tb2|t0.05(50)、|tb3|F0.01(1,50),Fb2F0.05(1,50),Fb3F0.05(1,50),表明偏回归系数b1极显著,偏回归系数b2、b3不显著。这与t检验的结果一致。Copyright2006-2010SichuanAgriculturalUniversity
10、AllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design 也可以把上述偏回归系数显著性检验的F检验与检验结果列成方差分析表的形式。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design4、剔除一个自变量并重新建立二元线性回归方程 对于建立的三元线性回归方程,经显著性检验,回归方程极显著,偏回归系数b1极显著,b2、
11、b3不显著。因为Fb2Fb3,所以剔除自变量x2(胴体长),重新建立瘦肉量y对眼肌面积x1、膘厚x3的二元线性回归方程。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design 根据(2-22)式计算和,这里i=2,j=1,3。由(2-23)式计算:于是重新建立的二元线性回归方程为:Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved
12、 高级生物统计与试验设计Advanced Biostatistics and Experimental Design 现在对二元线性回归方程即二元线性回归关系进行显著性检验 列出方差分析表,进行F检验。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design对新的偏回归系数 和 进行显著性检验 首先应用(2-21)式计算关于、的正规方程组系数矩阵的逆矩阵的主对角线上的各元素,这里i=2,j、k=1、3。Cop
13、yright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design各个偏回归平方和为 列出方差分析表,进行F检验。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design于是我们得到最优二元线性回归方程为表明:猪的瘦肉量与眼肌面积、膘厚的线
14、性回归关系极显著。当膘厚保持不变时,眼肌面积每增加1cm2,瘦肉量平均增加0.1297kg;当眼肌面积保持不变时,膘厚每增加1cm,瘦肉量平均减少0.7544kg。该回归方程的离回归标准误 。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design四、最优回归方程的选择 最优回归方程指在最优回归方程指在m元线性回归分析中,包含元线性回归分析中,包含所有对所有对 y 影响显著的自变量、不包含对影响显著的自变量、
15、不包含对 y 影响不显影响不显著自变量的回归方程。著自变量的回归方程。选择最优回归方程的方法有下面四种:选择最优回归方程的方法有下面四种:Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design 1、逐个比较 从从所所有有可可能能的的自自变变量量组组合合的的线线性性回回归归方方程程中中挑挑选最优者。选最优者。如:如:y,x1、x2、x3、x4 包包含含一一个个自自变变量量的的回回归归方方程程,有有C41=4个
16、个,它它们们分别包含:分别包含:x1;x2;x3;x4。包包含含二二个个自自变变量量的的回回归归方方程程,有有C42=6个个,它它们们分别包含:分别包含:x1,x2;x1,x3;x1,x4;x2,x3;x3,x4。包包含含三三个个自自变变量量的的回回归归方方程程,有有C43=4个个,它它们们分分别别包包含含:x1,x2,x3;x1,x2,x4;x1,x3,x4;x2,x3,x4。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experi
17、mental Design包含四个包含四个 自变量的回归方程,有自变量的回归方程,有C44=1个,即个,即包含:包含:x1,x2,x3,x4从从2 4-1=15 个方程中选出最优者。个方程中选出最优者。若有若有10 个个 自变量,则应从自变量,则应从2 10-1=1023个个 方方程中选择。这种方法计算量太程中选择。这种方法计算量太 大大,无实用价值。,无实用价值。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental
18、Design2、逐个剔逐个剔出出从从 包包 含含 全全 部部 自变量的回归方程中逐次剔自变量的回归方程中逐次剔 出不出不显著的自变量,直到显著的自变量,直到 只包含对只包含对 y 影影 响显著的自变响显著的自变量为止。量为止。这个方这个方 法实法实 际际 上常采用,但计算量较大。上常采用,但计算量较大。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design3、逐个引进 从从一一个个自自变变量量开开始始把把变
19、变量量逐逐个个引引入入回回归归方方程程,每每一一步步都都是是将将在在当当时时的的情情形形对对 y 影影响响最最大大的的那那个个自自变变量量引引入入回回归归方方程程,且且这这个个自自变变量量在在刚刚引引入入方方程程时时一一定要经过检验是显著的。定要经过检验是显著的。用用此此方方法法最最后后得得到到的的不不一一定定是是最最优优回回归归方方程程;且从第二步起都要计算偏相关系数,计算麻烦且从第二步起都要计算偏相关系数,计算麻烦。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Bio
20、statistics and Experimental Design4、逐步回归 按按自自变变量量对对 y 作作用用的的显显著著程程度度,从从大大到到小小地地依依次次逐逐个个地地引引入入回回归归方方程程,引引入入自自变变量量的的条条件件是是:该该自自变变量量的的偏偏回回归归平平方方和和经经检检验验是是显显著著的的。同同时时每每引引入入一一个个新新自自变变量量后后,要要对对先先引引入入的的各各个个自自变变量量逐逐个个检检验验,将将偏偏回回归归平平方方和和变变为为不不显显著著的的自变量剔除。自变量剔除。Copyright2006-2010SichuanAgriculturalUniversityAllRightsReserved 高级生物统计与试验设计Advanced Biostatistics and Experimental Design优点:不需计算偏相关系数,计算较简便;每优点:不需计算偏相关系数,计算较简便;每一步都作检验,保证最后的方程中所有自变量对一步都作检验,保证最后的方程中所有自变量对y 影响都是显著的。影响都是显著的。注意注意:在进行逐步回归分析时,先要确定临界:在进行逐步回归分析时,先要确定临界F值:值:F(1,n-1-k)k估计可能入选方程的自变量个数,估计可能入选方程的自变量个数,可选择可选择0.25或或 0.20、0.10