《轻松学习生物统计和数量遗传学(李奉令).pdf》由会员分享,可在线阅读,更多相关《轻松学习生物统计和数量遗传学(李奉令).pdf(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 前 言 前 言 育种中应该怎样用统计?为什么国内植物育种选择的成效低,就应该低吗,不应该的话,错在什么地方?难道真的是误差导致的吗?“经验育种”为什么会准?经验育种灵验就是数量遗传学有效,这样的说法根据是什么?你用过配合力吗,你怀疑过统计吗?你怀疑过配合力吗?生物统计的核心是什么?数量遗传学和生物统计是什么关系?这些问题,在下面的文章里面都能回答。由于工作需要,必须掌握生物统计知识,一些学习心得记录下来,相信对需要学习生物统计的朋友,会有些帮助,还有一个原因就是 1991 年在北京农业大学农学系上学的时候,生物统计没有学好,所以需要补上这一课。下面列出的几篇文章,之前在网上个人博客或空间中有
2、放,但看起来不系统,不调理,所以集在一起,看起来更方便,与网上内容略有不同。如果你学习生物统计、数量遗传学有困惑,或者你没有学明白生物统计,那读读这几篇文章,你一定有收获。北京中农博思科技发展有限公司 李奉令 目 录 目 录 一、方差.2 二、F分布F测验.4 三、方差分析表中神奇的2.8 四、两种方差分析方法比较.11 五、平衡&不平衡.13 六、生物统计和数量遗传学的核心-平均数&离差.15 七、植物育种应该重视育种值而不是配合力.16 八、教科书错误提醒.19 一、方差一、方差 让我们从方差开始 生物统计,有些乱,真的有些乱,表现在两个方面,1、一些统计教科书,没有交代清楚生物统计的全貌
3、,挑取常用的一些统计分析方法,比如试验设计、方差分析中的方法,就开始切入进去,平方和分解来分解去,不少学习者,分解分解着就感觉迷失了。一会儿这样分解,一会儿又那样分解,不禁要问,为什么?统计概念很多很杂,理解上易导致歧义,区组随机和随机区组,你说含义一样吗?如果不一样,区别是什么,当我们理解一个概念都要重复思考比较一番的时候,这个统计方法的应用如何会不打折扣呢?2、生物统计自身在发展,解决问题的理论和方法在发展完善中,加上,生物统计往数量遗传学上靠,往分子遗传上发展,问题看起来就眼花缭乱了。国内还有一个不好的现象,一些教师和学生将学习统计知识,转向了学好 SAS、SPSS、MATLAB,这是很
4、糟糕的,这样越学会越无知的。现代统计科学的奠基人是 Ronald Fisher,方差分析 ANOVA,是他创立的,F 分布是他提出的,并以其姓氏的第一个字母命名的。“1919 年他任职于 Rothamsted 农业实验场(Rothamsted Experimental Station),他负责的主要工作是植物播殖实验的设计,希望透过尽量少的时间、成本与工作量,得到尽量多的有用资讯;另外是要整理该实验场 60 年来累积的实验资料。”农业院校的学生是很熟悉这一场景的,Ronald Fisher 在一农场工作,他需要去比较所种植材料的差异,于是他找到了这么一种衡量种植材料差异的方法,方差分析。生物统
5、计,定是联系生产实际的科学,所以学习理解它,也要立足生产实际。如果你是 Ronald Fisher,两块形状大小一样的试验地,分别种植品种 A、B,A B (田间种成这个样子)收获计产,A 产量高,B 产量低,你获得了两个试验观测值,A 产量=120,B 产量=110,这样的数据结果能说明什么呢?也许 A 真的比 B 好,比 B 产量高。这样的推断可靠吗,可靠性有多高?假设还是由你来扮演 Ronald Fisher,6 块形状大小一样的试验地,分别种植品种 A、B 两个品种,这次,种成这个样子,A1 B1 A2 B2 A3 B3 收获计产,对应产量是这样的 A1=135,B1=129,A2=1
6、00,B2=103,A3=122,B3=140 A B 1 135 129 2 100 103 3 122 140 是 A 产量高呢,还是 B 产量高呢?这样的数据结果能说明什么呢?进行一下数学计算分析,会来的更科学(A1+A2+A3)3=(135+100+122)3=119=A0(B1+B2+B3)3=(129+103+140)3=124=B0 平均数更能代表综合水平,所以很自然使用到了,算术平均数。A1-A0=135-119=16 A2-A0=100-119=-19 A3-A0=122-119=3 16+(-19)+3=0,这样的计算明显没有意义。算了也是白算。162+(-19)2+32=
7、626 B1-B0=129-124=5 B2-B0=103-124=-21 B3-B0=140-124=16 52+(-21)2+162=722 这样在平均数以外,你又有了另一个指标,可以来衡量比较 AB 两个品种,注意一个细节,722626,但是这个计算结果是 A 的每一个观测值和其自身平均数做减法后,平方,累加求和的结果。如果,A 品种的观测值数量和 B 不相同,比如,A 品种意外导致,绝收一棵,产量是 0,722 和 626 就没法直接比较了。所以更普遍的意义,更一般的比较最好从 A,B 群体平方和的比较,精确到单株平均平方和的比较,于是采用产量平均数类似的思路,6262=313 722
8、2=361 这就是方差。为什么不是象前面3,而是2 呢?因为是算离差的平均,而不是算几个数的平均数,如果算平均数,有几个数就除几,离差的平均用了一个平均数来产生离差,所以要-1。应该(3-1)。这也可以来理解为什么方差自由度是 n-1 的原因。回到前面的例子,数据整理一下,看的更清楚 A B 平均数 119 124 方差 313 361 平均数,代表了平均水平,方差,描述了群体内的个体间的差异程度。用离差可以更真实准确地描述差异,但是离差有正负,数学计算不方便 用方差的好处是:都是正值,计算方便了;放大了离差效果,有的人说好有的说不好就两说了。二、二、F 分布分布 F 测验测验 理解了 F 测
9、验,你才能真正明白方差分析。方差分析首先要通过平均数计算出方差,有了方差,可以对试验的结果给出初步的判断。下表是上篇文章里的试验结果。A B 平均数 119 124 方差 313 361 平均数,代表了平均水平,方差,描述了群体内的个体间的差异程度。B 品种产量平均数高于 A 品种,说明 B 品种的产量比 A 品种高;B 品种的方差高于 A 品种,说明,B 品种群体表现一致性又不如 A 品种。分析到这个水平,是不是就可以了呢?让我们做一个荒唐的假定,A,B 是同一品种。不错,A,B 是同一品种,从专业角度,马上我们意识到,AB 间的差异不是由基因效应造成的。由于环境的差异,导致了 A、B 两个
10、试验材料出现了差异。比如,地块土壤差异、小气候差异、人为施肥、灌溉、除草等等差异导致了最终的差异,尽管我们通过区组技术尽量控制了土壤差异,当然还有在测量环节的差异。现在,我们搞不清楚 A、B 是不是基因型一致的同一品种,如何来判定 A、B 间的差异究竟是由环境单独导致的还是环境+AB 间基因型差异共同导致的呢?F 测验就是解决这个问题的。当然,必须给出的前提条件是试验没有人为因素的干扰,就是在试验地块进行同样标准的农艺操作。去除人为因素导致的干扰,剩下的就是品种因素+环境因素+测量误差导致的,简单考虑就是品种因素+环境因素。那地块差异是不可改变的,而且差异是一定存在的,如果有办法将环境因素中的
11、地块效应单独分离出来,就更好了,这就是区组设计,区组效应。区组举个例子说明:两个区组,分别安排在甲乙两地,甲地肥沃,乙地贫瘠,自然收获产量甲地好于乙地,如果我们是农民,靠种地卖粮生计,那自然乐于到甲地耕种,可我们是布置了一个试验,用区组效应来对应甲乙两地的产量平均差异,因为甲地庄稼长的都好,乙地庄稼长的都差,就可以刨除区组间差异,我们关注的是区组内差异,甲地品种间差异,乙地品种间差异。F=(x12/n1)/(x22/n2)X1、x2 对应的是平方和,n1、n2 分别是各自的自由度,这就是 F 分布的定义。很明显 F 分布就是两个方差之比。既然要搞清楚 A、B 间的差异究竟是不是由误差引起的,那
12、就进行 F 分布研究,统计学家获得了不同自由度 n1、n2 下的 F 分布,绘制了 F 分布曲线,给出了概率密度函数。从应用的层面,我们使用起来就简单了,因为,我们可以计算得出两个需要比较的方差,并且这两个方差的自由度,我们也是很清楚的。另一方面,统计学家为我们研制了 F 分布,更进一步,在统计书后附录了 F 分布表,F 分布表是,F分布的缩略版,好在通常够用。F 分布明确告诉用户,在分子自由度 n1,分母自由度 n2 已知的情况下,5%、1%概率的 F 临界值,什么意思,就是你计算的 F 值如果大于了 F 临界值,那就意味着,只有 5%或者 1%的概率会出现大于 F 临界值的情况,而你做的试
13、验偏偏出现了这种情况,就是达到了 5%或者 1%的显著了,所以可以比较肯定的断定,95%的可能或者 99%的可能,你也要检验的那个效应应该是存在的。多说一点,在所举例的这个试验中,用总平均数跟每一个观测值的离差,再累加平方和,得到总的平方和,减去 A 的平方和,减去 B 的平方和,剩下的就是 AB 两个品种的效应导致的离差平方和。观测值 平均数 A 135 100 122 119 B 129 103 140 124 A 内部的平方和 626 B 内部的平方和 722 总平均数=121.5 总平方和=1385.5 计算品种效应导致的离差平方和,可以用 总平方和-A 内部平方和(A 群体环境离差平
14、方和)-B 内部平方和(A 群体环境离差平方和)剩余的就只有 A 品种与总平均数的离差平方和和 B 品种与总平均数的离差平方和。1385.5-626-722=37.5 这是一种计算方法和思路 A 的平均数 119 B 的平均数 124 3*(121.5-119)2+(121.5-124)2)=37.5 这是另一种计算思路。小结一下,我们把例子试验当成 AB 品种效应差异试验来看,当然这是一个很简单甚至没有意义的试验,关键在于我们通过这个设计来了解统计试验。总差异=品种造成的差异+环境差异 总差异=品种 A 造成的差异+品种 B 造成的差异+环境差异 或者 换一种说法 总差异=品种 A 效应+品
15、种 B 效应+环境效应 从上述平方和分解可以看出,品种效应是用品种平均数-总体平均数,如 A 品种的效应计算,121.5-119,所以方差分析可以说还是用平均数在做比较,而也只有平均数可以更好的代表试验材料。在例子试验中,品种 A 这个试验对象,A 的平均数,代表了 A,依据平均数得到了离差平方和,这部分平方和是 A 品种内部的,本试验中没有设计区组,所以 3 个观察值是单纯的重复观测值,这就说明,3 个观察值间的差异,只是反应了观测误差,由于农业试验的开放性,这部分误差又不全是测量误差,我们叫它环境误差,这部分误差以离差平方和的形式构成了试验总误差的一部分,离差和误差在此就不好区分了,好在一
16、个平方和都容纳了它们,同理,B 品种内部的离差,也是一样的性质,而在本例子试验中,B 品种内部离差+A 品种内部离差,构成了试验的环境误差。离差,误差,习惯性就叫误差了。进行 F 测验,找准环境误差是很重要的,本例子试验中,B 品种内部离差+A 品种内部离差=环境误差()这就是 F 测验的分母了,那么把谁放上去呢?本试验中是,是 A 还是 B 呢?打住,不能是 A 也不能是 B,为什么?应该是 AB 两个处理间的差异,作为一项放到分子上去。学生物统计不能忘了自己是搞农业的,如果把 A 的效应放上去,是什么意思呢,你想想这样做的生物意义,没有必要。可以这样理解,作为产量试验,只要有产量,一定有效
17、应,都有效应了,而且是看的见的产量,难道还需要试验区检验吗,因为分母是环境效应啊,所以无论 A、B 放在分子上都没有实际意义,但是 AB 两个品种效应是不是有明显差异,确是有意义的。这就象栽培试验,两块玉米地,一个做对照喷水,一个喷尿素,你说这样的试验着眼点是不是研究两个玉米地产量平均数的差异。准确地说是 两个玉米地的产量平均数与总平均数有差异,分别产生出了离差平方和。把这两个离差平方和合并,除以自由度,构成均方,用环境效应做分母,进行 F 测验,结果达到显著了,显著的原因,不是因为喷水的对照玉米地,而是喷尿素的玉米地,那如何知道究竟是哪个玉米地贡献的离差平方和导致了显著,这就需要多重比较了。
18、需要注意的问题是:F 测验用得是“均方”,就是平方和自由度,因为平方和是累加的,在观测值数量不同的时候,怎么可以进行比较,除以自由度,就把平方和反应的差异对应到试验单株上了,就可以公平比较了,或者说,方差自由度,得到的是单个方差,这样才有可比性。这样理解,在平方和自由度分解的时候,你就不会搞不清楚自由度应该是多少了,平方和是由几个观测值累积的,自由度就是这个数-1。本试验中,总自由度=6-1 A 品种内自由度,3-1 B 品种内自由度,3-1 所以误差自由度,(3-1)+(3-1)=4 有两个品种,所以品种效益差异的自由度,2-1 三、方差分析表中神奇的三、方差分析表中神奇的2 统计教科书中,
19、会给出不同试验设计的方差分析表,以单因素随机区组为例 可以看到,区组效应和处理效应都比试验误差多出一个效应值,从表面上来看,就习惯性说成,F 测验需要额外的一项放到分子上去。但是下面简单说一些个人的看法,供朋友们参考。1、F 测验是两个方差之比,F=(x12/n1)/(x22/n2),F 测验的分子如何容纳两项?2、方差分析遵循,总变异平方和=误差平方和+效应平方和,既然这样,效应平方和如果又包含了误差效应平方和?3、方差分析的线性模型,y=+a+,同样是效应可加性,也不存在效应包含环境误差的说法。4、进行 F 测验的时候,直接将分解出来的效应作为 F 测验的分子。实际 F 测验就是这么做的,
20、并没有将分母加到分子上去。5、翻开统计教科书后的 F 分布表,所有的 F 临界值都大于 1,为什么有时方差分析计算出来的 F 值1?6、方差分析中不同效应的获得来自于跟总平均的离差,不同平均数本身是包含误差的,这一点毋庸置疑,但是,平均数间的离差,可以认为抵消了误差的影响,所以才获得了处理的效应,所以,处理效应不应该再包含有误差成分。7、方差分析的线性数学模型 这是基于方差分析的线性模型,推导方差分析表中效应成分的过程,图中划波浪线的位置,明显有问题,出现了一个平均误差,ti 估计的是处理的效应,从ti计算过程可以清楚的看到,是处理相应的平均数与总平均的离差计算而来,总平均含有误差,处理平均数
21、也含有误差,这是可以理解和接受的,这两个误差如果都假设为平均误差,那么在离差计算后,也不应该存在处理效应中了。图中推导,由于在ti中额外引入一个不该有的平均误差,于是,推导出方差分析表中在处理效应位置出现了不该有的误差。以单因素随机区组试验为例,对处理的效应,进行 F 测验,如果没有达到显著,就说明处理的效应对应的变异相对分母(试验环境误差效应)来说,没有达到统计上的显著,F 值 1,说明处理效应小于误差效应,否定的是处理效应显著的假设,而不是否定处理效应的存在。F 值=1,说明分子的效应大小=分母的效应大小,就是处理的效应和环境误差的效应是一样大小,这样怎么能可靠呢,一个效应的大小要超出试验
22、本身误差的效应,否则,怎么能足够可信呢,而超出越多,F 值越大,就越可信这个效应是实实在在存在的,也许是由于这样的原因,于是,就在方差分析表中,处理效应的地方出现了一个不该出现的误差。方差分析表处理效应中这个不该出现的误差效应,使统计的理解应用容易出现偏差和混乱。效应的位置从统计模型本身不应该有这个误差的出现,从试验的角度,如果效应值都超不过这个,对效应不敢接受。线性模型,方差分析估计中,Henderson 方差分析方法使用中,有时估计出来的 2 0!2 0,这是荒唐的事情,出现这个错误的根本原因,就是 Henderson 方差分析估计,依据的是方差分析表中的2,而这个2,本身就是不存在的,之
23、所以有时估计出来的误差方差是大于 0 的,仅是因为,试验的效应方差大于了误差方差,而当试验的效应方差小于误差方差的时候,就会得到负数的误差方差。统计不好学,跟这些不规范的表述不无关系。当然,统计学家也可能会犯错误。四、两种方差分析方法比较四、两种方差分析方法比较 方差分析,可以用这样的模型来描述 Yij=+i+eij 这是一个线性模型,组分可加,所以就可以拆分。Ronald Fisher 发展的平方和分解方法,是标准的方差分析方法,所以直到今天,一直在用,生物统计教材主要教授的就是这种方法。由于方差分析模型本身就是线性模型,自然会考虑用线性模型的分析方法,进行计算,于是线性方程组、矩阵计算就出
24、现在了方差分析里面。线性模型的方法,目前让人眼花缭乱,各种概念、算法满天飞,头大。让我们来比较一下这两种方法 平方和分解法:是依据试验目的和生物意义,基于平均数和离差,进行变异的对应分解。线性模型法:将观测值用模型分解,以离差平方和最小,建立最小二乘方程组,回归的思想,既然是以离差平方和最小为建立方程的前提,所以,获得的解,就是不同平均数。因为离差平方和最小=0,而等于 0,就只有平均数才行。Yij=+i+eij 为总体平均,的约束条件为=0+i,就是对应的不同平均数。与方差分析方法中的所有观测值平均数不同,两者不等,要注意。两种方法,其实解决的是一个问题,方差分析问题,可以说,线性模型法是用
25、函数的方式来解决未知数问题,所以需要解方程。对生物统计来说,如果要进行方差分析,用平方和分解法完全可以了。线性模型的解,就是一组方差分析的平均数,由于线性模型用回归的方法,所以会有残差,用以图示线性模型回归的效果,但读者要注意,正是由于这一点,线性模型的方差准确性不如方差分析方法。有的教科书,说方差分析方法是简单的方法,线性模型是高级统计,实在不敢苟同。至于所谓的线性模型可以应对不平衡数据而平方和方法不能的说法,下篇文章详述其谬误 方差分析的方法用在遗传学上,就是数量遗传学了,这种说法可能不是很准确,但也差不了太多。数量遗传学对基因平均效应的定义,是这样的 基因平均效应:群体内接受了某个基因的
26、所有个体的平均基因型值距群体平均的离差称为该基因的平均效应。就是两个平均数的离差。前一篇文章里面,例子试验中 A 品种的均值与总平均数的离差,在这里就可以对应 A 基因的平均效应。离差平方和最小,建立最小二乘方程组就是回归的思想。根据试验数据拟合一个经验方程就是求回归方程的过程。线性模型很重要的一个应用是 Henderson 的混合模型方程 Henderson 在线性模型最小二乘方程组的基础上,给出了著名的混合模型方程,能同时给出 BLUP,BLUE 混合模型方程,就是包含了固定效应和随机效应两种效应,BLUP,最佳线性无偏预测 BLUE,最佳线性无偏估计 固定效应,是可以估计的,随机效应我们
27、只能说成是预测,方差分析里面有固定模型,随机模型,于是就有了这固定效应和随机效应 区分固定和随机其实很简单,从你要做的试验本身出发,比如,要考察一个玉米品种的产量水平,而这个品种的纯度不清楚,种到地里的种子只能是品种的一个样本,或者用极端的情况来说明,一个玉米品种,你只种了 1 粒种子下去,来考察这个玉米品种,你觉得踏实吗?不稳妥,那就种 5 粒种子下去,感觉好些了,可是如果能种 1000 粒下去,你明显会更踏实,这就是样本容量在增大,越增大越有代表性,可惜没有办法无限增大,所以必然是一个抽样样本,区别是样本容量,于是你试验中获得的产量就是个随机效应,因为抽样不同,就会有变化,这就是随机模型。
28、在这个例子里面试验的目的是考察玉米的产量真实水平,而抽样会对试验有直接影响。同样是产量,比如品种比较试验,选定一些品种进行产量比较试验,试验的目的就是找出好品种淘汰差品种,结果出来后,一些品种被淘汰了。这个试验里面品种就是固定效应,只需要考虑试验本身,只需要考虑试验范围内的品种表现,也许存在某个品种很好,但是参试的样品差,导致好品种被淘汰了,进行品种比较试验,就需要存在参试品种代表性没有问题的假设,因为试验的目的是比较品种的优劣,这是试验的关键。再回到 Henderson 混合方程上来 该方程更多的用在数量遗传学中育种值估计。由于构建 Henderson 混合方程需要在矩阵中加上试验方差分量的
29、比值,所以估计方差分量是应用Henderson 混合方程的前提。有时为简单,就使用经验值代替方程中需要的方差分量,而计算该方差分量就要用到一些很复杂的数学方法 这些方法有 Henderson 自己给出的方差分析估计法 极大似然估计(ML)限制极大似然估计(REML)最小范数二次无偏估计(MINQUE)五、平衡五、平衡&不平衡不平衡 讲两种不平衡 分别是 区组的平衡和不平衡 试验数据的平衡和不平衡 区组的平衡和不平衡 在随机区组和拉丁方等设计中,任一个区组中都包含着所有的试验处理,这种区组称为完全区组 在科学试验中,由于受到试验条件的限制,有时一个区组中无法容纳全部的试验处理,而只能容纳其中一部
30、分,这种区组称为不完全区组。这样的区组设计称为不完全区组设计。BIB 设计 不完全区组设计种类很多,其中应用非常广泛的设计之一是平衡不完全区组设计(Balanced Incomplete Block Design),简称 BIB 设计 BIB 设计示例 v=4,k=2,r=3,b=6,=1 组 组 组(组 组 组(1)1,2 (3)1,3 (5)1,4(2)3,4 (4)2,4 (6)2,3 其中阿拉伯数字1,2,3,4表示处理,(1),(2),(6)表示区组罗马数字,表示重复号。根据以上符号可写出这个BIB设计如下:其中阿拉伯数字1,2,3,4表示处理,(1),(2),(6)表示区组罗马数字
31、,表示重复号。根据以上符号可写出这个BIB设计如下:区组 处理区组 处理 1 2 3 4 5 6 1 11y 13y 15y 2 21y 24y 26y3 32y33y 36y4 42y 44y45y 格子设计(Lattice Design)在农业试验设计中,经常会碰到由于试验处理较多,或者受试验条件的限制,而在一个重复中容纳不了较多试验处理的情况。这时可以采用格子试验设计。比如,在作物育种试验中,处理数非常多,可以达到几十个,乃至几百个品系、杂交子代或无性系。若采用区组设计,过多的处理数会导致区组过大,区组控制失败,带来很大的试验误差。需采用一种试验设计方法格子设计(Lattice Desi
32、gn)简单格子设计示例 区组区组 重复重复 I 112324563789 区组区组 重复重复 II 414752586369 试验数据的平衡和不平衡 一个设计好的试验,由于试验以外的原因,导致部分数据缺失,就使原来所谓平衡的数据变成了不平衡。以下内容权做探讨,请读者自行甄别观点对错。本来应该采集到的数据缺失了,造成了所谓的不平衡现象,但并不影响试验数据的分析,影响的只是原先设计好的试验参数。方差分析的本质是析因,以平均数,获得各种离差,平方后累加,一个需要累加的求和计算难道对累加数量会有严格要求吗?有几个观测值,就累加几个,缺了怎么就有影响了。方差=离差平方和自由度,缺了数据,离差平方和和自由
33、度同步减小,不影响方差。F=(x12/n1)/(x22/n2)F 测验=方差 1/方差 2 从 F 测验定义公式来看,也看不出缺失数据会不接受,因此不受缺失数据影响 而方差的本质是离差平方和自由度,就是单株单个离差的变异幅度,观测值平衡也好,不平衡也罢,最后都要化成单株变异比较,因此缺失数据丝毫不影响方差分析。所以设计好的试验,数据部分缺失,就相应调整方差计算参数就好了,少几个自由度就减几个。因此不建议采用缺区估计的方法。拉丁方试验如果缺失数据,会感觉影响了试验的正交性,但是从拉丁方试验方差分析表,以及F 测验本身来说,真没有什么影响。就是说,数据的缺失,对获取试验完整信息是有损失的,但对试验
34、分析来说,没有任何影响。线性模型中丝毫看不出应对缺失数据的策略,有观测值就是有效应,就在对应设计矩阵出写入1,否则写入 0,这跟离差平方和有数据就累加,缺失就不加没有丝毫差别。六、生物统计和数量遗传学的核心六、生物统计和数量遗传学的核心-平均数平均数&离差离差 离差 是方差的基础,离差的平方和与自由度的商就是方差,生物统计其实就是研究观测值与平均数离差的科学。只不过我们总是利用方差来进行计算分解,所以方差分析是生物统计的重要内容。离差同样是数量遗传学的重要内容,将生物统计的离差分析套路应用到数量遗传学就是了。数量遗传学几个重要的概念解读 基因平均效应:群体内接受了某个基因的所有个体的平均基因型
35、值距群体平均的离差称为该基因的平均效应。育种值:如果一个个体与来自群体内的许多个体随机交配,则该个体的育种值为其子代均值与群体平均离差的两倍。狭义遗传率:加性遗传效应方差占表型方差的比率。一般配合力 以产量为例,一个组合的产量均值与试验中所有组合的产量均值离差,就是这个组合的一般配合力。数量遗传学中各种方差,遗传方差、环境方差,加性方差、显性方差、上位性方差 基因型方差、配合力方差,等等,本质都是不同的离差。所以可以这样说,生物统计、数量遗传学,本质就是平均数和离差的应用 毕竟最有代表性的就是平均数。七、植物育种应该重视育种值而不是配合力七、植物育种应该重视育种值而不是配合力 植物育种两件事,
36、选育优良自交系和品种比较。品种比较用方差,选自交系用育种值。品种比较:可以用方差分析的方法很好的应对,因为其核心是比较,所以设计试验,从概率的角度来推断是否有明显差异存在,进而进行多重比较。选育优良自交系:就是要选出一个好的自交系出来,或者常规育种,选一个性状优良的纯系出来。选育优良自交系,往往依赖感觉、经验、就是所说的“经验育种”,解决好了这个问题,就可以使育种工作明显提升成效。“经验育种”选择的核心是平均数,为什么这样说,人在衡量一个育种材料优劣的时候,很自然是采用“平均数”高低来评判材料的,所以经验育种有效,但是,在多个性状,在有差异,有离差存在的情况下,平均数的综合评判就会有困难,育种
37、家凭经验育种,只能押宝重要性状,产量、抗病性、生育期等,这时再去考虑扩大育种规模,可能就是灾难了。无论是方差分析还是数量遗传学,本质都是平均数和离差,经验育种是定性的选择,难以实现精准,所以只能是经验的积累试错。经验育种可以把握平均数,把握离差就不行了,学育种的我们都知道,纯系选择无效,因为纯系的离差是环境造成的,育种家面对的选择群体显然不是纯系,杂交分离群体,这样的群体离差有两部分,环境离差+基因型离差。育种家追求的是针对基因型差异的选择,希望牢牢锁定这部分进行选择,这是一些简单的道理,也很好理解。什么叫基因型离差,就是因基因不同从而导致的离差 基因平均效应:群体内接受了某个基因的所有个体的
38、平均基因型值距群体平均的离差称为该基因的平均效应。育种值:理论定义:一个个体的育种值,就是它所携带的基因的平均效应的总和。实际定义:如果一个个体与来自群体内的许多个体随机交配,则该个体的育种值为其子代均值与群体平均离差的两倍。育种值是不能够直接度量的,能够知道的只是包含育种值在内的各种遗传效应和环境效应共同作用得到的表型值,因此只能利用统计分析方法,通过表型值和个体间的亲缘关系来对育种值进行估计,这就是估计育种值。设想一个纯系群体,引进了一个没有过的新个体 A,进行杂交,产量出现了明显的提高,提高的产量部分(离差)就是这个个体 A 的新基因的平均效应,这部分离差的 2 倍,就是个体 A 的育种
39、值。提高的这部分产量,由于试验环境相当,因而离差的计算去除了环境的影响,所以提高的这部分产量是由于基因的变化产生的。还是这个群体,用 A 进行再一次的杂交,这次产量没有变化,相对这个群体来说,这次 A 的基因的平均效应=0,育种值=0,因为,离差=0。育种值有正负,比如产量我们希望越高越好,所以产量均值的提高,就是育种值的累积过程,假定株高,我们希望越矮越好,那随着株高的降低,就是负的育种值的累积过程。象上面这个例子,经验育种不用进行数量遗传学分析也可以实现同样的判断,因为太明显存在差异了,但是如果,这个例子中,引入新个体 A 后,尽管有新的育种值累积,产量有提高可是不明显,不太好区分是环境效
40、应还是基因型效应,经验育种就麻烦了,但是数量遗传学却可以借助方差分析的手段,分离出环境效应,借助 F 测验,以概率风险来分辨基因效应是否显著存在,估计育种值,在此基础上来决定育种下一步方向。选育优良自交系或者常规育种,是一个明显的蜕变过程,变化体现在育种材料的外在性状的变化,反应的是内在基因型的改变。而这个过程就是一步一步育种值的累积,每一个性状,在向着育种家希望的方向累积,或增或减。数量遗传学中遗传效应可以进一步剖分为基因的加性效应、显性效应和上位效应。能够稳定遗传给下一代的只有加性效应。育种值就是对应着基因的加性效应,作为父母本,这部分效应的一半会遗传给下一代的,作为纯系个体,这部分效应会
41、稳定遗传。所以育种值应该成为育种家关注的重点。翻开家畜育种学,动物育种学可以看到,很大篇幅在介绍育种值,如何计算、估计育种值,利用育种值,动物育种的成就稳步提升,成绩斐然,而植物育种领域,难觅育种值的踪影。你思考过这个问题吗?难道育种值对动物育种极其有效,对植物育种效果很差吗?为什么植物育种领域,配合力使用较广,不用育种值呢?配合力是一个很另类的应用,比如玉米育种配组合,骨干自交系确定下来,去挑选配套的自交系,后代表现好的,就是配合力高。看看下面这个表格,育种流程中,配合力仅是配组合的一个环节需要使用,因为,骨干自交系都确立了,尽力扩大配组合规模,别的什么都不用做了。自交系选育材料 育种值 自
42、交系 育种值 骨干自交系 配合力 品种 靠育种值把握方向 靠育种值把握方向 商业筛选 动物育种很少提到配合力,植物育种配合力却大行其道,当引起重视。配合力是对交配双方而言的,一般配合力,特殊配合力都是针对杂交组合而言的。一个交配材料的一般配合力就是该材料在试验中多个组合的产量平均数。在交配群体变化的情况下,配合力会跟着变化,可是基因型没有变化,所以说有的数量遗传学教材中提到的配合力能够反映交配材料的基因加性效应,是育种值的一半,好像有问题。配合力仅能说明交配群体之间的一种配合能力关系,不能简单的把这种能力关系上升到基因型层面。但实际育种中,遵循配合力育种,为什么会有实效呢?因为计算配合力实际上
43、是在计算估计育种值,配合力也是用离差在进行计算,也是跟平均数的离差,这些都跟育种值的计算方法有相通之处。配合力方法本身有以下几点弱于育种值:1、遗传理论不明晰,应用局限于组配间配合能力表现,理论局限性明显 2、使用离差计算,无法分离误差环境效应 3、计算过程无法利用材料间的亲缘关系 4、配合力模型中,一般配合力效应,可以部分对应育种值效应,但特殊配合力效应却把方向打散了。配合力在植物育种中,之所以有效果,是在糊涂的使用配合力,将配合力等同于育种值在用,翻开植物育种教科书,“早期配合力测定”,“亲本的配合力”,“亲本具有两方面的特征:一方面是其自身的表现;另一方面是作为亲本其后代的表现,即亲本的
44、配合力(combining ability)”亲本的配合力影响决定了后代的表现,不就是基因的传递、育种值的传递吗?在植物育种中,配合力概念错用,在不该使用配合力的育种环节使用配合力,将植物育种的方向搞乱了。仅是在育种后期,自交系都没得选了,固定下来之后,用确定的骨干自交系,跟其余自交系组配,寻找好的组合的时候,也许需要用用配合力分析方法,但提醒一句,正确的做法有两个,不是用配合力,而是用品种比较的方差分析方法和育种值,因为这两个方法,都可以考虑数据中的误差,都远胜于配合力的分析结果,农业试验不考虑环境误差,你觉得行吗。上面表格仅是为了说明对比,在表格的最后放上去了配合力,那里也不应该出现配合力
45、。育种值的定义,计算,均基于,数量遗传学的基本模型,表现型值=基因型值+环境效应+随机误差 P=G+E+e 基因型值的加性效应就是育种值 因此育种值的计算,会用到亲缘关系矩阵,会利用系谱信息。比如,利用系谱,计算一个材料的父本的育种值 经验育种遇到的障碍是有时不好分辨真实的基因效应,所以导致了选择的盲目性和低效率。在植物育种中,采用育种值指标,则可以紧紧抓住变异的核心,使育种工作方向清晰。育种值的使用,在选育自交系的工作中,可以起到关键作用。植物育种中,可以利用已有数据估计材料的育种值,而这些应用在动物育种领域早已成为主流,让我们拭目以待植物育种的巨变。Henderson 于 20 世纪 40
46、 年代提出了,BLUP 的线性混合模型方程,用于动物育种值的估计,受计算机没有普及限制,70 年代,动物育种才开始广泛使用这一方法,美国于 90 年代开始,将这一方法应用于植物育种。让我们向配合力说再见!八、教科书错误提醒八、教科书错误提醒 植物育种需要向动物育种虚心学习,但是在翻阅动物育种著作过程中发现了一些明显错误,特在此刊出,请见谅了。1、家畜育种学刘榜主编 中国农业出版社 2007 年 8 月第 1 版 P119,“其中,g11 和 g12 分别为第一个性状和第二个性状的加性遗传方差”,这句话中的 g12 应为 g22。P119,这页中部,混合模型方程组,等号右边的矩阵应是两项内容相加。X1y1r11+X1y2r12 X2y2r12+X2y2r22 Z1y1r11+Z1y2r12 Z2y2r12+Z2y2r22 2、数量遗传与动物育种王金玉 陈国宏 主编 东南大学出版社 2004 年 8 月第 1 版 P6,ai=0,bi=0,约 束 条 件 错 误 的 等 同 为 a1+a2+a3=0,b1+b2=0,应 该 是 15 个 观 测 值 的 累 加 和=0,4a1+6a2+5a3=0;7b1+8b2=0;