《数量性状的分子标记QTL定位的原理和方法讲义.doc》由会员分享,可在线阅读,更多相关《数量性状的分子标记QTL定位的原理和方法讲义.doc(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流数量性状的分子标记QTL定位的原理和方法讲义.精品文档. 数量性状的分子标记(QTL定位的原理和方法讲义)作物中大多数重要的农艺性状和经济性状如产量、品质、生育期、抗逆性等都是数量性状。与质量性状不同,数量性状受多基因控制,遗传基础复杂,且易受环境影响,表现为连续变异,表现型与基因型之间没有明确的对应关系。因此,对数量性状的遗传研究十分困难。长期以来,只能借助于数理统计的手段,将控制数量性状的多基因系统作为一个整体来研究,用平均值和方差来反映数量性状的遗传特征,无法了解单个基因的位置和效应。这种状况制约了人们在育种中对数量性状的遗传操纵能力。
2、分子标记技术的出现,为深入研究数量性状的遗传基础提供了可能。控制数量性状的基因在基因组中的位置称为数量性状基因座(QTL)。利用分子标记进行遗传连锁分析,可以检测出QTL,即QTL定位(QTL mapping)。借助与QTL连锁的分子标记,就能够在育种中对有关的QTL的遗传动态进行跟踪,从而大大增强人们对数量性状的遗传操纵能力,提高育种中对数量性状优良基因型选择的准确性和预见性。因此,QTL定位是一项十分重要的基础研究工作。1988年,Paterson等发表了第一篇应用RFLP连锁图在番茄中定位QTL的论文。之后,随着分子标记技术的不断发展以及许多物种中分子连锁图谱的相继建成,全世界出现了研究
3、QTL的热潮,每年发表有关QTL研究的论文数量几乎呈指数增长(图5.1),显示了该研究领域的勃勃生机。目前, QTL定位研究已在许多重要作物中展开,并且进展迅速。本章主要介绍QTL定位的原理和方法。图5.119861998年期间国际上每年发表有关QTL研究的论文的数量. 数据从英国BIDS信息系统检索得到第一节 数量性状基因的初级定位QTL定位就是检测分子标记(下面将简称为标记)与QTL间的连锁关系,同时还可估计QTL的效应。QTL定位研究常用的群体有F2、BC、RI和DH。这些群体可称为初级群体(primary population)。用初级群体进行的QTL定位的精度通常不会很高,因此只是初
4、级定位。由于数量性状是连续变异的,无法明确分组,因此QTL定位不能完全套用孟德尔遗传学的连锁分析方法,而必须发展特殊的统计分析方法。80年代末以来,这方面的研究十分活跃,已经发展了不少QTL定位方法。一、QTL定位的基本原理和方法孟德尔遗传学分析非等位基因间连锁关系的基本方法是,首先根据个体表现型进行分组,然后根据各组间的比例,检验非等位基因间是否存在连锁,并估计重组率。QTL定位实质上就是分析分子标记与QTL之间的连锁关系,其基本原理仍然是对个体进行分组,但这种分组是不完全的。根据个体分组依据的不同,现有的QTL定位方法可以分成两大类。一类是以标记基因型为依据进行分组的,称为基于标记的分析法
5、(marker-based analysis; Soller and Beckmann 1990);另一类是以数量性状表型为依据进行分组的,称为基于性状的分析法(trait-based analysis;Keightley and Bulfield 1993)。(一)基于标记的分析法如果某个标记与某个QTL连锁,那么在杂交后代中,该标记与QTL之间就会发生一定程度的共分离,于是,在该标记的不同基因型中,QTL的基因型频率分布(分离比例)将不同(图5.2),因而在该标记的不同基因型之间,在数量性状的分布、均值和方差上都存在差异。基于标记的分析法正是通过检验标记的不同基因型之间的这些差异来推知标记
6、是否与QTL连锁的。在分子标记技术出现之前提出的基于标记的分析法主要是针对单标记分析的,即每次只分析一个标记,这是因为当时可利用的遗传标记(主要是形态标记和生化标记)数量稀少,难以在一个试验群体中建立起完整的标记连锁图谱。随着高密度分子标记连锁图谱的出现,单标记分析方法暴露出了不能充分利用分子标记图谱所提供的遗传信息的缺点。为了能更好地挖掘分子标记图谱的潜力,更多、更准确地定位出QTL,科学家们相继开发出了许多新的QTL定位方法,总的趋势是朝着多标记分析(即同时用多个标记进行分析)的方向发展。根据所采用的统计遗传模型,现有的基于标记的分析方法大体上可分成四类,即:均值差检验法、性状标记回归法、
7、性状QTL回归法及性状QTL标记回归法。这些方法的原理将在后面分别介绍。图5.2DH群体中某QTL的基因型QQ和qq在连锁标记基因型MM和mm中的频率分布(分离比例). r为标记与QTL间的重组率. 仅当r = 0.5(亦即标记与QTL间没有连锁)时, QQ和qq在MM和mm中的频率分布才相同(二)基于性状的分析法虽然数量性状在一个分离群体(如DH群体)中是连续变异的,但如果淘汰大多数中间类型,则高值和低值两种极端表型的个体就可以明确地区分开来,分成两组。对每个QTL而言,在高值表型组中应存在较多的高值基因型(如QQ),而低值组中应存在较多的低值基因型(如qq;图5.3)。如果某个标记与QTL
8、有连锁,那么,该标记与QTL之间就会发生一定程度的共分离,于是其基因型分离比例(频率分布)在两组中都会偏离孟德尔规律(图5.3)。用卡平方测验方法对两组或其中一组检验这种偏离,就能推断该标记是否与QTL连锁。图5.3基于性状的分析法和分离体分组混合分析法的原理. 在DH群体中,与QTL连锁的遗传标记的两种基因型的分离比例在高值组和低值组中都会偏离1 : 1的孟德尔分离规律,其电泳带型在高值组DNA和低值组DNA间也会表现出差异, 且分别与高值亲本和低值亲本相似还有一种更简单的做法,就是将高值和低值两组个体的DNA分别混合,形成两个DNA池,然后检验两池间的遗传多态性。在两池间表现出差异的分子标
9、记即被认为与QTL连锁(图5.3)。这种方法称为分离体分组混合分析法(BSA法;Darvasi and Soller 1994;参见第4章)。基于性状的分析方法(特别是BSA法)的突出优点是,可以大幅度减少需要检测的DNA样品的数量,从而降低分子标记分析的费用。它特别适合于对一些抗性(包括抗病、抗虫、抗逆)性状的基因定位,这是因为,抗性鉴定试验常常造成敏感个体(基因型)的死亡,只有具有抗性的个体才能够存活,于是只能对表现抗的极端个体进行分子标记分析,这正好符合基于性状的分析法。基于性状的分析法的缺点是,它只能用于单个性状的QTL定位,且灵敏度和精确度都较低,一般只能检测出效应较大的QTL。因此
10、,基于性状的分析法目前用得不多,主要还是采用基于标记的分析法。下面着重对基于标记的分析法进行介绍。二、均值差检验法均值差检验法的基本思想是检验同一标记座位上不同基因型间数量性状均值的差异,若差异显著,则表明被检标记与QTL连锁。单标记均值差检验法包括t测验法(Simpson 1989)和方差分析法(Soller et al. 1976; 李维明等 1993)。凡是每个标记只有两种基因型的群体(包括BC、DH、RI)都可以使用t测验法。以DH群体为例,由图5.2可知,当某个标记与一个QTL连锁时,两种标记基因型(MM和mm)的性状均值(mMM和mmm)分别为: (5.1) (5.2)式中,mQQ
11、和mqq分别是QTL基因型QQ和qq的表型均值,r为标记与QTL间的重组率。比较式(5.1)和(5.2)可以看出,仅当r = 0.5,亦即标记与QTL没有连锁时,才有mMM = mmm();而只要r 0.5,亦即标记与QTL间存在连锁,则总有mMM mmm。而且,r值越小,标记与QTL间连锁越紧密,则mMM与mmm之间的差异就越大。当r = 0,亦即标记与QTL之间完全连锁时,标记基因型间的均值差异达到最大,这时有mMM - mmm = mQQ - mqq。因此,用t测验方法检验两种标记基因型间的数量性状表型均值差异是否显著,就能推断该标记是否与QTL连锁。t值越大,即显著性越高,则连锁越紧密
12、。如果群体中每个标记存在3种基因型(如F2群体),或者尽管群体中每个标记只有两种基因型(如DH、RI群体),但试验中设置了重复(李维明等 1993),则可以采用方差分析的方法来检测标记与QTL之间的连锁关系。以F2群体为例。假设某个标记与一个QTL连锁,采用与图5.2类似的推导方法,可以得到3种标记基因型的性状均值分别为: (5.3) (5.4) (5.5)式中所用符号的含义与式(5.1)和(5.2)的相似。比较式(5.3) (5.5),可以看出,与上面DH群体的情形相似,仅当标记与QTL间的重组率为,亦即标记与QTL间没有连锁时,才有mMM = mMm = mmm();而只要r 0.5,亦即
13、标记与QTL间存在连锁,则总有mMM mMm mmm。因此,用单因素方差分析法检验3种标记基因型间的性状均值差异是否显著,就能推知该标记是否与QTL连锁。标记与QTL间连锁越紧密,则标记基因型间均值的差异就越大,方差分析中F测验得到的F值也越大(即显著性越高)。单标记均值差检验法的优点是简单直观。一般而言,标记离QTL越近,它与QTL间的重组率就越小,则其t值或F值就越大;反之,标记离QTL越远,它与QTL间的重组率就越大,则其t值或F值就越小。因此,根据染色体上各个标记的t值或F值的大小,可以大致判断出QTL的位置。但是,单标记均值差检验法不能估计QTL的具体位置和效应,灵敏度较低,且一般不
14、适用于一条染色体上存在多个QTL的情形。当两个QTL呈相引连锁(即两增效基因连锁在一起或两减效基因连锁在一起)且相距不太远时,由于两QTL的效应相互累加,可能会使得位于两QTL之间的标记表现出最大的t值或F值,从而导致无法识别那两个真实QTL,却错误地认为在它们之间的某个位置上存在一个QTL。这个推断出的QTL显然是虚假的,是一个“幻影QTL”(ghost QTL)。相反,当两个QTL呈相斥连锁(即一个增效基因与一个减效基因连锁在一起)且相距不太远时,由于两QTL的效应相互抵消,可能会使得两QTL附近的标记表现出很小的t值或F值,从而无法检测出这两个QTL。由于这些局限性,目前单标记均值差检验
15、法仅用于对数据的初步分析。对单标记均值差检验法的一种改进方法,是将同一条染色体上各标记的t测验或方差分析联合于一个回归分析之中,称为联合定位法(joint mapping;Wu and Li 1994, 1996a, b)。下面以DH群体为例来说明联合定位法的原理,它也适用于BC和RI群体。至于F2群体的联合定位法,读者可参阅Wu 和 Li (1996b)。从式(5.1)和(5.2)可以得到: (5.6)令y = mMM - mmm,x = 1 2r,b = mQQ - mqq,则式(5.6)可写成 (5.7)可以看出,式(5.7)形式上恰好是一个截距为零的一元线性回归方程。假设Haldane
16、作图函数成立(参见第三章),则有 (5.8)或 (5.9)式中,zM和zQ分别是标记和QTL在染色体上的位置,以厘摩(cM)为单位。在完整的标记连锁图上,每个标记的位置都是已知的。因此,在式(5.9)中,只有QTL的位置zQ是未知的。当zQ值给定时,也就确定了。如果一条染色体上有个标记,那么在zQ值给定的情况下,就有对观察值:(yi, xi), i = 1, 2, , n。这样,就能应用最小二乘法配合方程(5.7)。沿着整条染色体以一定步长(如1 cM)改变zQ的值,必能找到某一点(),使方程(5.7)配合得最好(即剩余平方和RSS达到最小;图5.4)。那么,该点()即为QTL位置的估计值,而
17、得到的回归系数即为QTL效应的估计值。需要指出的是,由于同一条染色体上的标记互相连锁,因而不同观察值yi (i = 1, 2, , n)之间不是相互独立的。因此,应使用广义最小二乘法来配合方程(5.7),才能获得最小估计误差。方程(5.7)可以推广到一条染色体上存在多个(如个)QTL的情形(图5.4),这时方程的形式为: (5.10)式中,bj为第j个QTL的效应值;xj取决于标记与第j个QTL的之间的图距。只要染色体上有足够多的标记,用方程(5.10)原则上可以定位任意多个QTL。图5.4QTL联合定位的一个模拟例子. 连锁图上每隔10cM有一个标记, 黑色三角形示QTL的真实位置, 剩余平
18、方和曲线最低点为QTL的估计位置, 水平点线示, 它与每个QTL的剩余平方和曲线的两个交点确定了该QTL位置的95%置信区间(引自Wu and Li 1996a)联合定位法的优点是综合利用了一条染色体上所有标记的遗传信息,所以提高了灵敏度和精确度,并可同时估计多个QTL的位置和效应,而且与性状分布无关,适用范围广,计算简单。不足之处是使用矩量(均值)而非原始观察数据,因而要求有较大的实验群体。另外,联合定位法对分子标记图谱质量的要求较高,这是它在实际应用中的主要限制因素。三、性状-标记回归法性状-标记回归法是将个体的数量性状表型值对单个标记(Soller et al. 1976)或多个标记(R
19、odolphe and Lefort 1993)的基因型进行回归分析。前者属于单标记分析的方法,可以看作是后者的一种特例,目前已很少使用。所以下面我们只需介绍性状对多标记回归分析的方法。仍以DH群体为例。这时的多标记的性状-标记回归模型为: (5.11)式中,yi为第i个体的性状值;m为模型均值;bj为第j标记的偏回归系数;xij为第i个体第j标记基因型的指示变量,依标记基因型为MM或mm而取值1或0;m为标记个数;ei为随机误差。式(5.11)是一个多元线性回归模型,可以用最小二乘法来配合。偏回归系数的大小反映了各个标记与数量性状的相关程度。一般而言,如果某标记的偏回归达到显著水平,则说明在
20、该标记附近可能存在QTL。但是,性状-标记回归法通常不能给出QTL位置和效应的估计值,除非QTL正好位于标记座位上,这时的偏回归系数就是QTL的效应值。不过,根据各标记回归系数的显著性,能够大致判断出可能存在QTL的染色体区域。值得提到的是,性状-标记回归有一个有趣的统计特性。这就是,在回归中,一个QTL的效应只被其两侧相邻标记的偏回归系数所吸收,而不会影响到该标记区间之外的标记。这一特性非常重要。后面我们将看到,这一特性对提高QTL定位的准确性很有帮助。四、性状-QTL回归法性状-QTL回归法是将个体的数量性状表型值对假设存在的某个或某些QTL的基因型进行回归分析。以DH群体为例,单个QTL
21、的回归模型为: (5.12)式中,yi为第i个体的表型值;m为模型均值;b为QTL的效应;xi为第i个体的QTL基因型的指示变量,依QTL基因型为QQ或qq而取值1或0;ei为随机误差。由于被检QTL的基因型是未知的,因而xi的值实际上是不确定的,或者说是“缺失”的。在这种情况下,只能根据与QTL连锁的标记的基因型来推断xi为1或0的概率,并用似然比检验法来估计参数和检验回归显著性,即 (5.13)或 (5.14)其中L(b = 0)和L(b 0)分别表示b = 0和b 0时的最大似然值(注:LR与LOD之间存在转换关系:LOD 0.217LR)。当似然比统计量LR或LOD的值大于给定的显著阈
22、值时,则认为,即假定的QTL的效应不为零,因而可推断QTL存在。早期的性状-QTL回归分析是利用单个连锁标记来推断xi取值概率的,亦即属于单标记分析的方法(Simpson 1989),目前已很少使用。分子标记技术出现之后,Lander和Botstein(1989)提出了更为准确的方法,即用被检QTL两侧相邻的连锁标记来推断xi取值的概率(表5.1),称为区间定位法(interval mapping)。由表5.1可以看出,xi取值的概率取决于QTL与两侧相邻标记间的重组率或图距。因此,以一定的步长(如1 cM),沿整条染色体逐步改变假设存在的QTL的位置,就能得到LOD(或LR)值沿染色体变化的
23、曲线。大于显著临界值的LOD曲线高峰所对应的染色体位置就是存在QTL可能性最大的位置(图5.5)。表5.1在DH群体中用两侧相邻标记推断QTL基因型概率及其指示变量的期望值标记基因型QQQq期望值M1M1M2M2M1M1m2m2m1m1M2M2m1m1m2m2注:M1-m1和M2-m2分别为QTL左侧和右侧的相邻标记;、和分别为QTL与左侧标记和右侧标记之间及左、右两标记之间的重组率;,其中为符合系数图5.5番茄第10号染色体上果实性状QTL区间定位的一个例子. LOD曲线超过显著阈值(水平线表示)的峰顶为QTL的估计位置. 虚线为果实pH值的LOD曲线,其高峰显示了在染色体端部和中部各存在一
24、个QTL. 下方两条分别为果实重量和果实可溶固形物浓度的LOD曲线, 均没显示QTL的存在(引自Lynch and Walsh 1998)对模型(5.12)的最大似然估计需要进行迭代运算,所以计算上比较繁琐费时。如果让自变量xi取其期望值(表5.1),亦即使xi有个确定值,则模型(5.12)就可用最小二乘法进行配合(Haley and Knott 1992),从而使计算大为简化、速度大为提高。为了便于与原来基于最大似然估计的区间定位法进行比较,在最小二乘估计中也可以用似然比来进行统计显著性检验。这时的似然比统计量为: (5.15)其中n为样本大小(个体数)。研究表明,基于最小二乘估计的区间定位
25、法与基于最大似然估计的区间定位法所得的结果非常接近(Haley and Knott 1992)。区间定位法提出后,得到了广泛应用,对QTL定位研究的发展起到了重要的推动作用。但区间定位法也存在明显的缺点。当一条染色体上同时存在一个以上的QTL时,区间定位法也会出现与前述单标记均值差检验法相似的问题,或者检测到“幻影QTL”(当两个QTL相引连锁时),或者检测QTL的灵敏度(统计功效)降低(当两个QTL为相斥连锁时),这是因为它无法排除被检区间之外的QTL对被检区间的影响。为克服区间定位法的缺点,不少学者提出了改进意见。Haley和Knott(1992)建议同时对多个可能存在的QTL(标记区间)
26、进行回归分析,这时的回归模型形式上与(5.11)相同,但其自变量是QTL而非标记,其基因型指示变量xij也取期望值。该方法的缺点是,必须确定染色体上到底有多少个可能存在的QTL,这往往并不容易,因而在回归模型的选择上带有较大的任意性。另外,配合包含多个QTL的回归模型需要进行多维搜索,这也增加了计算上的难度。Moreno-Gonzalez(1992)提出了另一种方法,先假定所有标记区间都包含一个QTL,且位于区间的中点,然后通过逐步回归分析筛选出偏回归显著的标记区间(QTL)。显然,仅当分子标记图谱较密且标记在染色体上分布较均匀时,这种方法才可能是有效的。五、性状-QTL-标记回归法对区间定位
27、法最有效的改进方法是将它与多标记的性状-标记回归法相结合。根据性状-标记回归中每个QTL的效应只被其两侧相邻标记所吸收的统计特性,可以用被检区间以外的部分(Jansen 1993; Zeng 1994)或全部(Zeng 1994)标记作为回归模型中的余因子(cofactor)来消除其它QTL或遗传背景对被检区间的影响。根据这一思想,Jansen(1993)和Zeng(1994)分别提出了多QTL模型(multiple-QTL model)和复合区间定位法(composite interval mapping),其中复合区间定位法由于直观性较好、计算上易于自动化而被普遍接受和广泛应用,已逐步取代
28、区间定位法。这里仍以DH群体为例,其复合区间定位的统计模型为: (5.16)式中,和分别为被检QTL的效应和基因型指示变量相当于式(5.12)中的b和xi,其它符号的含义与式(5.11)相同。必须注意的是,模型(5.16)中不一定要包含全部的标记。根据前面提到的性状-标记回归的统计特性,理论上只需将可能与QTL相邻因而拥有信息的标记纳入模型中就可以了,这样可增加回归分析的自由度,提高参数估值的准确性。这些作为余因子的标记可以通过用模型(5.11)进行逐步回归分析或其它方法获得的先验知识来选择。不难看出,模型(5.16)实际上是模型(5.11)和(5.12)混合而成的,所以复合区间定位的模型配合
29、和显著性测验与区间定位是基本相似的,其似然比检验为 (5.17)式中符号含义与(5.13)相似。图5.6给出了一个应用复合区间定位法定位QTL的例子。可以看出,与区间定位法相比,复合区间定位法大大提高了QTL定位的精确度,这是复合区间定位方法的突出优点。然而,复合区间定位法对QTL定位精确度的提高是以降低灵敏度(统计功效)为代价的,这是因为与被检标记区间相邻的作为余因子的标记会部分吸收被检区间中QTL的效应。因此,与被检区间靠得太近的标记不宜作为余因子。为了解决这个问题,可以在被检区间的两侧各开设一个“窗口”,只有在该窗口之外的标记才能选作余因子。由于不同的被检区间所要求的合适的窗口宽度可能是
30、不同的,因此在实际应用中,应尝试使用多种窗口宽度,以寻找各个被检区间所适合的窗口宽度。图5.6老鼠X染色体上体重QTL定位的一个例子. 区间定位的LOD曲线(虚线)表现为一个很宽的峰, 而复合区间定位的LOD曲线(实线)则显示两个单独的峰. Bw1和Bw2表示两个可能存在的QTL, 染色体上的黑点示标记的位置(引自Lynch and Walsh 1998)由于复合区间定位的回归模型的参数较多,其计算量比区间定位大大增加。为了简化复合区间定位的计算,可以采取与区间定位法相似的做法,令被检QTL的基因型指示变量取其期望值,这样就可以应用最小二乘法来配合回归模型(Wu et al. 1996b)。基
31、于最小二乘的复合区间定位的似然比统计量为: (5.18)其中m为余因子标记的数量,其它符号含义与(5.15)相似。复合区间定位法最初是针对大样本情况提出来的。但在实际研究中,所用的实验群体往往都不很大。在小样本(特别是个体数少于标记数)的情况下,复合区间定位所需的余因子的选择会发生困难,为了保证足够大的回归自由度,选用的余因子不能太多,而余因子选择的不同又会影响QTL定位的结果。因此,在小样本情况下如何进行复合区间定位是一个需要解决的问题。一种比较可行的策略是(Wu et al. 1999),考虑到各条染色体在遗传上(因而在统计上)是相互独立的,因而可以对每条染色体(而非整个基因组)分别进行复
32、合区间定位。不过,在小样本中,由于抽样误差,不同染色体之间还是可能存在相关性的。因此,在完成复合区间定位之后,最好再用逐步回归分析的方法对所有检测出的QTL进行重新评估,以排除假阳性(Wu et al. 1999)。复合区间定位法可以推广到多性状分析的情形(Jiang and Zeng 1995),称为多性状复合区间定位法(multiple-trait composite interval mapping)。多性状复合区间定位法利用了不同性状间相关的遗传信息,因而具有比(单性状的)复合区间定位法更多的优点:(1)可以提高QTL定位的灵敏度和精确度;(2)可以用来鉴别QTL的紧密连锁和多效性;(
33、3)可以用来分析多年多点试验数据,检测QTL与环境间的相互作用。为了提高计算速度,与(单性状的)复合区间定位法的情况相似,多性状复合区间定位模型也可以用最小二乘法来配合(Wu et al. 1999)。新近还提出了基于混合线性模型(即同时包含固定效应和随机效应的线性模型)的复合区间定位方法(mixed-model-based composite interval mapping;Zhu and Weir 1998)。这种方法的优点是减少了回归自由度对复合区间定位的限制,能够用来估计QTL的上位性效应(即不同等位基因间的互作效应)和QTL与环境的互作效应,从而拓展了复合区间定位法的应用范围。不过
34、,这种方法在检测QTL上位性效应时,必须在基因组上进行二维搜索,因而计算上比较复杂。六、基于性状-标记回归的区间定位前面已提到,在性状-标记回归中,每个QTL的效应只被其两侧相邻标记所吸收。Whittaker等(1996)证明,在只有加性效应的情况下,性状-标记回归与基于最小二乘的复合区间定位法具有等价性,当两个相邻标记的回归系数同号(即同为正或负)时,能够计算出位于它们之间的QTL的位置和效应。以DH群体为例,从模型(5.11)出发,当某个标记区间(k, k+1)中存在一个QTL时,则区间两端标记的偏回归系数(bk和bk+1)将同号,并且有 (5.19) (5.20)式中,rk为第k(即区间
35、左端)标记与QTL间的重组率,r为两标记间的重组率,a为QTL的加性效应。可见,从相邻标记的偏回归系数就足以求出标记区间内QTL的位置和效应。但是,仅根据标记的偏回归系数还不足以确定某个标记区间中是否存在QTL。为此,我们可以采取与复合区间定位法相似的方法,用似然比统计量来检验某个标记区间中QTL是否存在(吴为人等2000),其似然比统计量为:(5.21)式中符号含义与(5.18)相似。利用式(5.21)可以计算出每个标记区间的似然比值,从而可以非常直观地判断出哪个区间内可能存在QTL。研究表明,这种性状-标记回归区间定位法的QTL定位结果与基于最小二乘的复合区间定位法完全相同,但它无需进行全
36、基因组逐点扫描,因而其计算速度极快。因此,在只有加性效应的情况下,完全可以用性状-标记回归区间定位法来代替复合区间定位,以节约大量的计算时间。七、QTL定位的计算机软件从上面的介绍可以看出,QTL定位涉及到相当复杂的统计计算,并需要处理大量的数据,这些工作都必须靠计算机来完成。因此,为了便于从事实际QTL定位研究的遗传育种学家分析他们的试验结果,将各种QTL定位方法编制成通用的计算机软件是十分必要的。第一个推广发行的QTL分析通用软件是Mapmaker/QTL,它是针对区间定位法而设计的。该软件的发行,大大促进了区间定位方法的实际应用。此后,陆续开发出了许多QTL分析软件,如QTL Carto
37、grapher、PLABQTL、Map Manager、QGene、MapQTL等。许多QTL分析软件都可以从因特网上查寻到并免费下载。通过由美国Wisconsin-Madison大学建立的一个WWW连接网站(www.stat.wisc.edu/biosci/linkage.html)可以很方便地连接到许多QTL定位分析软件包。但到目前为止,还没有推出一套中文版的QTL分析软件。为了促进我国的作物QTL定位研究的发展,“九五”期间,863计划作物分子标记辅助育种专题项目开展了中文版的QTL分析通用软件编制工作。该软件称为“QTL工具箱”(QTL KIT),目前已完成第一版,可以提供给我国广大从
38、事QTL定位工作的研究人员试用,并还将不断补充和完善。八、QTL定位的可靠性随着QTL定位研究在各种作物中的广泛开展,人们对QTL定位的可靠性越来越关注。根据已有的研究报道看,尽管不同研究者所使用的实验材料和群体不同,但对同一性状的研究结果还是有相符之处的,特别是一些效应较大的QTL,确实能在不同的实验群体中被检测出来,而且定出的位置也比较相近。这说明QTL定位具有一定的可靠性。吴为人课题组对水稻细菌性条斑病抗性QTL的研究结果为QTL定位的可靠性提供了有力的证据。该研究用同一个高感品种 高抗品种杂交组合(H359 Acc8558),建立了RI和F2两个独立的实验群体,并利用RI群体构建该组合
39、的分子标记(RFLP和AFLP)连锁图谱。对RI群体进行了连续两年的抗性鉴定试验,对所得数据应用复合区间定位方法进行分析,发现了5个在两年试验中都表现出较大效应的QTL。对F2群体则采用BSA法进行分析,共检测到3个QTL。有趣的是,这3个QTL正好包含在从RI群体中发现的那5个效应较大的QTL中。该研究针对同一个杂交组合,采用不同的群体(一个为永久性群体RI;另一个为暂时性群体F2)和不同的分析方法(一种为统计学方法,即复合区间定位法;另一种为生物学方法,即BSA法),定位出相同的QTL。这有力地证明了QTL的真实存在性,同时也说明,至少对效应较大的QTL来说,定位的结果一般是可靠的。许多计
40、算机模拟研究也都表明,只要QTL能被检测出(即达到统计显著水平),则对它的位置估计一般都是比较可靠的,定位结果一般能够用于标记辅助育种(何小红等 2000)。当然,由于受实验群体的限制,QTL初级定位的精确度是有限的,存在较大的置信区间。若要更准确地定位QTL,则必须进行精细定位(参见下一节)。九、提高QTL定位灵敏度和精确度的方法一个QTL的存在是通过它的表型效应体现出来的。因此,一个QTL的效应就象它发出的一种“信号”,通过接收该信号就能获知它的存在。然而,一个QTL的效应并不是孤立存在的,而是混杂在遗传背景(其它QTL)和环境的效应之中。遗传背景和环境的效应就象“噪音”,干扰了信号(目标
41、QTL效应)的检测。要提高QTL定位的灵敏度和精确度,就必须增强信号,减小噪音。选择性基因型测定(selective genotyping)是增强信号(扩大QTL效应)的一种方法(Darvasi and Soller 1992)。其思想是,在一个群体中,选择高、低两种极端表型的个体构成一个子群体,仅对该子群体测定个体的分子标记基因型,用于QTL定位分析,以减少分子标记分析的费用。虽然极端表型子群体的个体数远少于原群体,但其QTL定位灵敏度和精确度却可以不亚于原群体,因为在子群体中,QTL的效应通常被扩大。以DH群体为例,从图5.7可以看出,在原群体中,某QTL的效应(两种基因型间的差值)为mQ
42、Q - mqq;而在极端表型子群体中,该QTL的效应变成,明显增大。图5.7选择性基因型测定增大QTL效应的原理. 实曲线示DH群体中某性状的频率分布, 两虚曲线分别示某QTL两种基因型QQ和qq的性状频率分布, 两端竖线分别表示选择高低极端表型个体的界限, 和分别为原群体中基因型QQ和qq的均值, 和分别为中选个体中基因型QQ和qq的均值(用黑色倒三角形指示)如前所述,QTL定位分析中的噪音有两个来源,一个是遗传背景,一个是环境。环境噪音(误差)是随机的,一般可以通过适当的试验设计(如设置重复)来加以控制。控制遗传背景噪音的方法有两种,一种是实验方法,从试验材料进行控制(参见下一节);另一种
43、是数学方法,从统计上进行控制。例如,复合区间定位法就是利用被检区间以外的标记来消除其它QTL(遗传背景)对被检区间(QTL)的影响的。基于这一原理,Wu等(1998)提出了消除遗传背景噪音的一般方法。其思想是:先利用式(5.11)进行性状-标记回归分析(可以是一般的多元回归分析,模型包括所有的标记;也可以是逐步回归分析,模型最后只包括回归显著的标记),然后对每条(如第s条)染色体计算只包含其净效应的表型值: (5.22)式中,表示对位于第s染色体之外的全部或部分标记求和。可以看出,式(5.22)就象一个过滤器,它将其它染色体上的QTL(遗传背景)的效应滤去。这样,对每条染色体上的QTL就可以用
44、只包含该染色体净效应的表型数据进行定位分析,从而消除了遗传背景噪音的干扰。这种方法可以与已有的所有QTL定位方法配合使用。 这种针对某条染色体滤除遗传背景噪音的统计思想还可以延伸到只针对某个标记区间的情况(吴为人等 2000)。这时式(5.22)仍然适用,只是其中s表示的是标记区间(而非染色体)的序号,因而yi(s)是只包含第s区间净效应的表型值。用这种净表型值对被检区间进行QTL定位,可以显著提高统计功效(灵敏度)。第二节 数量性状基因的精细定位理论研究表明,影响QTL初级定位灵敏度和精确度的最重要因素还是群体的大小。但是,在实际研究中,限于费用和工作量,所用的初级群体不可能很大。而即使没有
45、费用和工作量的问题,一个很大的群体也会给田间试验的具体操作和误差控制带来极大的困难。所以,使用很大的初级群体是不切合实际的。由于群体大小的限制,因此无论怎样改进统计分析方法,也无法使初级定位的分辨率或精度达到很高,估计出的QTL位置的置信区间一般都在10 cM以上(Alpert and Tanksley 1996),不能确定检测到的一个QTL中到底是只包含一个效应较大的基因还是包含数个效应较小的基因(Yano and Sasaki 1997)。也就是说,初级定位的精度还不足以将数量性状确切地分解成一个个孟德尔因子。因此,为了更精确地了解数量性状的遗传基础,在初级定位的基础上,还必须对QTL进行
46、高分辨率(亚厘摩水平)的精细定位,亦即在目标QTL区域上建立高分辨率的分子标记图谱,并分析目标QTL与这些标记间的连锁关系。一、单个QTL的精细定位为了精细定位某个QTL,必须使用含有该目标QTL的染色体片段代换系或近等基因系(简称为目标代换系)与受体亲本进行杂交,建立次级实验群体。一个理想的染色体片段代换系应该是,除了目标QTL所在的染色体片段完整地来自供体亲本之外,基因组的其余部分全部与受体亲本相同(图5.8)。这样,在染色体片段代换系与受体亲本杂交的后代中,仅在代换片段上存在基因分离,因而QTL定位分析只局限在很窄的染色体区域上,消除了遗传背景变异的干扰,这就从遗传和统计两个方面保证了Q
47、TL定位的精确性。例如,日本水稻基因组研究计划成功地应用染色体片段代换系对一个水稻抽穗期主效QTL进行了精细定位,分辨率超过0.5 cM(Yamamoto et al. 1996)。图5.8染色体片段代换系. 图中仅画出与受体亲本有差异的染色体, 其余染色体的组成皆与受体亲本相同精细定位目标QTL的程序是:(1)将目标代换系与受体亲本杂交,建立仅在代换片段上发生基因分离的F2群体(次级群体);(2)调查F2群体中各单株的目标(被研)性状值(表现型);(3)筛选目标代换系与受体亲本间(在代换片段上)的分子标记;(4)用筛选出的分子标记测定F2各单株的标记型(marker-type,即分子标记的基
48、因型);(5)联合表现型数据和标记型数据进行分析,估计出目标QTL与标记间的连锁距离。在初级定位中所用的QTL定位方法均可用于精细定位中的数据分析。由于精细定位的精度达到亚厘摩水平( 1000)。染色体片段代换系一般通过多代回交来建立。在回交过程中,为了对目标QTL所在的染色体区段进行选择,先必须对该QTL进行初级定位,然后通过连锁标记进行跟踪选择,亦即进行标记辅助选择(详见第六章)。很显然,标记辅助选择的可靠性依赖于QTL初级定位的准确性。因此,这种建立目标染色体片段代换系的方法一般只适用于一些效应大的QTL,因为只有效应较大的QTL才能被较准确地定位。在目标QTL区域上能否找到分子标记是进行精细定位的一个限制因素(Tanksley 1993)。为寻找