《序列分析四一一分子进化系统发生分析.ppt》由会员分享,可在线阅读,更多相关《序列分析四一一分子进化系统发生分析.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、序列分析四一一分子进化系统发生分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 最大简约法最大简约法(maximum parsimony,MP)最早最早源于形态性状研究,现在已经推广到分子序列源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡的进化分析中。最大简约法的理论基础是奥卡姆(姆(Ockham)哲学原则,这个原则认为:)哲学原则,这个原则认为:解释解释一个过程的最好理论是所需假设数目最少的那一个过程的最好理论是所需假设数目
2、最少的那一个一个。3.2 最大简约法(最大简约法(MP)最大简约法利用的是信息位点,所谓信息位点就最大简约法利用的是信息位点,所谓信息位点就是指能由位点产生的突变数目把一棵树与其它树区分是指能由位点产生的突变数目把一棵树与其它树区分开来的位点。开来的位点。信息位点必须是至少存在信息位点必须是至少存在2 2种不同碱基且每种碱种不同碱基且每种碱基至少出现两次的位点。基至少出现两次的位点。根据信息位点可构建不同的拓扑进化树,对所有根据信息位点可构建不同的拓扑进化树,对所有可能的拓扑结构进行最小核苷酸替换数总和的计算,可能的拓扑结构进行最小核苷酸替换数总和的计算,算出所需替代数最小的那个拓扑结构,作为
3、最优树。算出所需替代数最小的那个拓扑结构,作为最优树。单一位点单一位点单一位点单一位点:位点上只有一个分类群具有一种不同的核苷酸或:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。氨基酸。对所有的拓扑结构都只能用相同的替代数目表示。对所有的拓扑结构都只能用相同的替代数目表示。单一位点也不提供任何单一位点也不提供任何MP信息。信息。1 12 23 34 45 56 6AATCGAAAAA1 12 23 35 54 46 6AAGCTAAAAA1 12 26 63 34 45 5AACATGAAAA1 12 23 36 64 45 5AAACTGAAAA1 12 23 36 64 45 5AAA
4、CTGAAAT1 12 23 36 64 45 5AAACTGAAAG1.Position 5,7,9为信息位点;为信息位点;2.基于基于position 5的三个的三个MP树树:Tree 1长度是长度是1,Tree 2和和Tree 3的长度是的长度是2;3.Tree 1更为简约:总长:更为简约:总长:4;Tree 2长长5;Tree 3长长6;4.计算结果:计算结果:MP tree的最优结果为的最优结果为Tree 1.MP法适用的问题法适用的问题(1)位点不存在回复突变、平行突变;)位点不存在回复突变、平行突变;(2)被分析的序列较长,核苷酸或氨基酸数目很大;)被分析的序列较长,核苷酸或氨基
5、酸数目很大;(3)序列的相似度较高;)序列的相似度较高;(4)核苷酸或氨基酸替代速率较稳定。)核苷酸或氨基酸替代速率较稳定。优点:优点:不需要在处理核苷酸或者氨基酸替代的时候不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。数据如插入、缺失等序列有用。缺点:缺点:在分析序列上在分析序列上存在较多的回复突变或平行突存在较多的回复突变或平行突变变,而被检验的序列位点数又比较少的时候,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的甚至错误最大简
6、约法可能会给出一个不合理的甚至错误的进化树推导结果。的进化树推导结果。3.3 最大似然法(最大似然法(ML)利用利用ML构建进化树的步骤构建进化树的步骤:1.选取一个特定的替代模型来分析给定的一组序列选取一个特定的替代模型来分析给定的一组序列数据数据;2.使得获得的每一个拓扑结构的似然率都为最大值使得获得的每一个拓扑结构的似然率都为最大值;3.然后再挑出其中似然率最大的拓扑结构作为最优然后再挑出其中似然率最大的拓扑结构作为最优树。树。缺点:巨大的计算量缺点:巨大的计算量优点:具有很好的统计学理论基础,在当样本量很优点:具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小
7、方差。大的时候,似然法可以获得参数统计的最小方差。只要使用了一个只要使用了一个合理的、正确的替代模型合理的、正确的替代模型,最大,最大似然法可以推导出一个很好的进化树结果。似然法可以推导出一个很好的进化树结果。最大似然法(ML)的创始人 杨子恒 2006年英国皇家科学院,大陆旅英学者中获此殊荣的第一人,现为伦敦大学学院统计遗传学教授。出生在甘肃定西地区的通渭县,1980年他考进甘肃农业大学,学的是畜牧专业,“误入”生物领域。后来在北京农业大学读研究生时,选择了与数学关系密切的统计遗传学。一般采用两种以一般采用两种以上方法构建进化上方法构建进化树,无显著区别树,无显著区别可接受。可接受。3.4
8、构建进化树的一般原则构建进化树的一般原则选择选择外群外群(Outgroup)1.选择一个或多个已知与分析序列关系选择一个或多个已知与分析序列关系较远较远的序列作为外群;的序列作为外群;2.外群可以辅助定位树根;外群可以辅助定位树根;3.外群序列必须与剩余序列外群序列必须与剩余序列关系较近关系较近,但外群,但外群序列与其他序列间的序列与其他序列间的差异必须比其他序列之差异必须比其他序列之间的差异更显著间的差异更显著。进化树的可靠性分析进化树的可靠性分析:自展法(自展法(Bootstrap Method)1.从排列的多序列中随机有放回的抽取某一序列,从排列的多序列中随机有放回的抽取某一序列,构成新
9、的排列序列;构成新的排列序列;2.重复上面的过程,得到多组新的序列;重复上面的过程,得到多组新的序列;3.对这些新的序列进行建树,再观察这些树与原始对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。树是否有差异,以此评价建树的可靠性。4.氨基酸与氨基酸与DNA的进化距的进化距离离1.分子进化的分析:基于氨基酸序列的分析分子进化的分析:基于氨基酸序列的分析早于早于DNA序列。序列。2.优势:氨基酸序列更为保守,对年代跨度优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较大的进化分析有帮助;数学模型较DNA更为更为简单;简单;3.p距离:距离:p-dis
10、tance;4.泊松校正,泊松校正,d距离;距离;5.距离;距离;4.1 氨基酸的演化距离氨基酸的演化距离P-distance 令两条蛋白质序列之间的氨基酸差异数为令两条蛋白质序列之间的氨基酸差异数为nd,所有序列的氨基酸数目相同为所有序列的氨基酸数目相同为n,则,则P距离距离不同物种的血红蛋白不同物种的血红蛋白链中不同氨基酸的数目及比例。长度:链中不同氨基酸的数目及比例。长度:140aa所有的插入所有的插入/缺缺失都要删除!失都要删除!泊松校正泊松校正1.序列差异的百分比序列差异的百分比(p)与分歧时间与分歧时间 t 的关系:的关系:t 较较短的时候,回复突变较少,两者大致成线性关系;短的时
11、候,回复突变较少,两者大致成线性关系;当当 t 较大时,回复突变增多,二者成非线性关系;较大时,回复突变增多,二者成非线性关系;2.令令 r 为某一位点每年的氨基酸替代率,并假设所为某一位点每年的氨基酸替代率,并假设所有位点的有位点的 r 都相同:都相同:基本假设基本假设;3.在时间在时间 t 年之后,每个位点替代的平均数为:年之后,每个位点替代的平均数为:rt;给定一个位点,氨基酸替代数给定一个位点,氨基酸替代数 k(k=0,1,2,3,)的的可能性遵循泊松分布,即可能性遵循泊松分布,即4.因此,某一位点氨基酸不变的概率为因此,某一位点氨基酸不变的概率为1.祖先序列未知:不知道当前的序列从何
12、演化而来。祖先序列未知:不知道当前的序列从何演化而来。2.解决方案:对两条已经有解决方案:对两条已经有 t 年分化的序列,一条序年分化的序列,一条序列无替代的概率为:列无替代的概率为:,两条序列则为:,两条序列则为:3.则发生突变的概率为则发生突变的概率为p=1-q;4.泊松校正距离泊松校正距离d=2rt5.因此,因此,d=-ln(1-p),即泊松距离。,即泊松距离。P-距离距离 vs.泊松距离泊松距离距离距离1.p-距离和泊松距离:氨基酸替代率在所有位点是距离和泊松距离:氨基酸替代率在所有位点是相同的;相同的;2.实际情况:功能次要的位点比功能重要的位点替实际情况:功能次要的位点比功能重要的
13、位点替代率更高;代率更高;3.氨基酸替代率的实际观测与氨基酸替代率的实际观测与分布近似符合。分布近似符合。距离是:距离是:a需要估算,一般在需要估算,一般在0.2-3.5之间。一般来说,之间。一般来说,p0.2并且并且a0.65的时候,用的时候,用分布能够得到较好的结果分布能够得到较好的结果1.基因组上存在着多种多样的基因组上存在着多种多样的DNA区域,例区域,例如蛋白质编码区,非编码区,内含子,侧翼如蛋白质编码区,非编码区,内含子,侧翼区,重复片断以及插入序列等;区,重复片断以及插入序列等;2.考虑编码区的考虑编码区的DNA序列的进化演变模型;序列的进化演变模型;3.Jukes-Cantor
14、法与法与Kimura两参数法两参数法4.2 DNA的演化距离的演化距离1.对于两条长度为对于两条长度为n的的DNA序列,不同的碱基对为序列,不同的碱基对为nd;2.核苷酸的改变核苷酸的改变p:转换:转换P、颠换、颠换Q,则:,则:p=P+Q3.当当p较小时,如果核苷酸替代是随机发生的,通常较小时,如果核苷酸替代是随机发生的,通常转换比颠换出现频率高;转换比颠换出现频率高;Jukes-Cantor法得到的两条法得到的两条DNA序列的距离:序列的距离:Kimura法得到的两条法得到的两条DNA序列的距离:序列的距离:4.3 同义与非同义替代同义与非同义替代同义替代:编码区的同义替代:编码区的DNA
15、序列,核苷酸的改变不改序列,核苷酸的改变不改变编码的氨基酸的内容;变编码的氨基酸的内容;非同义替代:核苷酸改变,从而改变编码氨基酸的非同义替代:核苷酸改变,从而改变编码氨基酸的内容。内容。Ka:非同义替代;:非同义替代;Ks:同义替代;:同义替代;序列上所有可能的同义位点序列上所有可能的同义位点(S)和非同义位点和非同义位点(N),通过双序列比对发现存在突变的同义位点通过双序列比对发现存在突变的同义位点(Sd)和非和非同义位点同义位点(Nd),定义:,定义:Ka/Ks含义含义 1.Ka/Ks 1:中性进化;中性进化;2.Ka/Ks 1:阳性选择,适应性进化。阳性选择,适应性进化。4.多数基因为
16、中性进化,约多数基因为中性进化,约1%的基因受到阳的基因受到阳性选择。性选择。5.PAML,MEGA等工具:计算等工具:计算Ka/Ks及统计及统计显著性显著性进化通径法:进化通径法:Nei-Gojobori1.首先需要考虑:潜在的同义首先需要考虑:潜在的同义(S)和非同义位点数和非同义位点数(N)。2.基本假设:所有核苷酸的替代率相等;基本假设:所有核苷酸的替代率相等;3.用用 fi 表示某一个密码子第表示某一个密码子第i位的核苷酸上发生同义位的核苷酸上发生同义替代的比例;替代的比例;(i=1,2,3);4.所有密码子潜在的同义和非同义替代的位点数定所有密码子潜在的同义和非同义替代的位点数定义
17、如下:义如下:,N=3-S;潜在的同义和非同义位点数的估计潜在的同义和非同义位点数的估计1.例如,对于例如,对于Phe,密码密码子子TTT,第三位第三位T变成变成C时为同义替代,变成时为同义替代,变成A/G为非同义替代。因为非同义替代。因此:此:S=0+0+1/3N=3-1/3=8/32.终止密码子忽略不计。终止密码子忽略不计。如如Cys的的TGT,S=0.5Sd与与Nd的计算的计算1.当一对密码子仅存在一个差异时,可以立即判断是同义还是当一对密码子仅存在一个差异时,可以立即判断是同义还是非同义,进化通径只有一种可能;例如对于非同义,进化通径只有一种可能;例如对于GTT(Val)和和GTA(V
18、al),sd=1,nd=0;而对于;而对于ATT(I)和和ATG(M),sd=0,nd=1;2.一对密码子存在两个差异时,有两种进化通径,选取最少需一对密码子存在两个差异时,有两种进化通径,选取最少需要的通径。例如:比较要的通径。例如:比较TTT(Phe)和和GTA(Val):(1)TTT(Phe)GTT(Val)GTA(Val)(2)TTT(Phe)TTA(Leu)GTA(Val)sd=1/2=0.5,nd=3/2=1.5同样,终止密码子不予考虑同样,终止密码子不予考虑3.一对密码子存在三个差异时:六种进化通径。例如:一对密码子存在三个差异时:六种进化通径。例如:比较比较TTG(Leu)和和
19、AGA(Arg):(1)TTG(Leu)ATG(Met)AGG(Arg)AGA(Arg)(2)TTG(Leu)ATG(Met)ATA(Ile)AGA(Arg)(3)TTG(Leu)TGG(Trp)AGG(Arg)AGA(Arg)(4)TTG(Leu)TGG(Trp)TGA(Ter)AGA(Arg)(5)TTG(Leu)TTA(Leu)ATA(Ile)-AGA(Arg)(6)TTG(Leu)TTA(Leu)TGA(Ter)AGA(Arg)通径通径4,6忽略。通径忽略。通径(1),(2),(3),(5)同义替代数目同义替代数目1,0,1,1;非同义替代非同义替代2,3,2,2,因此,因此sd=3/
20、4,nd=9/4.1.编码区:编码区:DNA上编码功能性的基因的部分;上编码功能性的基因的部分;2.非编码区:或称基因组序列,绝大部分无非编码区:或称基因组序列,绝大部分无功能;功能;3.选择压力:选择压力:A.编码区:阳性选择编码区:阳性选择 1%;中性进化:;中性进化:80%;阴;阴性进化:性进化:19%;B.非编码区:非编码区:100%的中性进化;的中性进化;4.4 密码子偏好密码子偏好编码区:密码子编码区:密码子1.对于同义的密码子,第一位少部分可以允许不同,对于同义的密码子,第一位少部分可以允许不同,例如,编码丝氨酸例如,编码丝氨酸Ser的六个密码子:的六个密码子:TCT,TCC,T
21、CA,TCG,AGT,AGC;2.第一位固定后,第二位必须相同;第一位固定后,第二位必须相同;3.第三位绝大多数可以不同第三位绝大多数可以不同 近似随机;近似随机;4.因此:因此:A.第一位:阴性进化占大部分,中性进化占小部第一位:阴性进化占大部分,中性进化占小部分;分;B.第二位:阴性进化;第二位:阴性进化;C.第三位:阴性进化占小部分,中性进化占大部第三位:阴性进化占小部分,中性进化占大部分;分;编码区编码区&密码子密码子:推论推论1.密码子第三位的碱基出现概率接近基因组密码子第三位的碱基出现概率接近基因组序列的碱基频率;序列的碱基频率;2.第二位的碱基出现频率与基因组序列的碱第二位的碱基
22、出现频率与基因组序列的碱基频率相差最大。基频率相差最大。11个细菌基因组与密码子三个位置上个细菌基因组与密码子三个位置上的的GC含量的关系含量的关系细菌基因组的细菌基因组的GC含量:含量:25%75%密码子使用频率密码子使用频率(codon usage)密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性:编码同一个氨基酸的多个同义密码子具有不同的使用编码同一个氨基酸的多个同义密码子具有不同的使用频率频率例例例例:E.coli的的RNA聚合酶聚合酶 缬氨酸缬氨酸Val GTT GTC GTA GTG 55 21 34 34 精氨酸精氨酸Arg CGU CGC
23、 CGA CGG 89 46 1 0为什么会出现密码子使用频率的偏倚性?为什么会出现密码子使用频率的偏倚性?与同功能与同功能tRNA的丰度有关?的丰度有关?突变压力与净化选择双重控制?突变压力与净化选择双重控制?密码子偏好的应用及计算密码子偏好的应用及计算1.基本假设:在高表达的基因中,密码子的选择,基本假设:在高表达的基因中,密码子的选择,更倾向于使用更倾向于使用“优化优化”的同义密码子的同义密码子;2.推论推论1:给定一个物种的一些高表达的基因,我:给定一个物种的一些高表达的基因,我们可以们可以估算优化的同义密码子的分布估算优化的同义密码子的分布;3.推论推论2:接着,我们可以对给定的一个
24、未知基因:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,的序列进行密码子分布的分析,预测该基因的表达预测该基因的表达量量,4.推论推论3:对于一个表达量很低的基因,我们是否:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而能够通过将少量的密码子改变成优化密码子,从而显著显著提高基因的表达量提高基因的表达量?RSCU1.相对同义密码子使用频率相对同义密码子使用频率(relative synonymous codon usage,RSCU);2.定义:观测到的某一密码子的使用次数,除以定义:观测到的某一密码子的使用次数,除以“期望期望”的该密码子出现次
25、数。的该密码子出现次数。编码第编码第i个氨基酸个氨基酸的第的第j个密码子的个密码子的观测值观测值编码第编码第i氨基酸的同义氨基酸的同义密码子的数目密码子的数目编码第编码第i个氨基酸个氨基酸的第的第j个密码子的个密码子的RSCU值值密码子:密码子:the relative adaptation编码第编码第i个氨基酸的第个氨基酸的第j个同义密码子的个同义密码子的“相对相对适应性适应性”:即,该同义密码子的观察值,除以编码该氨即,该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值。基酸的同义密码子的最大值。大肠杆菌大肠杆菌&酵母酵母CAI:Codon Adaptation IndexCAI是
26、比较公认的用来衡量表达水平的是比较公认的用来衡量表达水平的简单参数。简单参数。L为序列的长度5.生物进化理论生物进化理论与分子进化与分子进化5.1 进化理论概述进化理论概述“一个半世纪以前,一个半世纪以前,Charles Darwin可能没有意识到他所给予可能没有意识到他所给予科学的是一件从未有过的强大武科学的是一件从未有过的强大武器,即他的进化理论。科学家用器,即他的进化理论。科学家用这把坚利之剑斩断了无知、迷信这把坚利之剑斩断了无知、迷信和傲慢,这些束缚人类对亿万年和傲慢,这些束缚人类对亿万年来的生命的了解的镣铐。来的生命的了解的镣铐。”美国自然博物馆成立美国自然博物馆成立125周年纪念周
27、年纪念专刊前言专刊前言Charles Darwin(1809-1882)DarwinianDarwinian进化理论告诉了什么?进化理论告诉了什么?进化理论告诉了什么?进化理论告诉了什么?1、遗传和变异遗传和变异遗传和变异遗传和变异 一切生物都能发生变异,至少有一部分变异能够遗传给后代一切生物都能发生变异,至少有一部分变异能够遗传给后代2、自然选择自然选择自然选择自然选择 繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体数目;而在所产生的后代中,那些最具
28、有适应环境条件的有利变异的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,不利变异被淘汰。不利变异被淘汰。“选择选择”不是超自然的上帝的作用。不是超自然的上帝的作用。3、性状分歧;种的形成、绝灭;系统树性状分歧;种的形成、绝灭;系统树性状分歧;种的形成、绝灭;系统树性状分歧;种的形成、绝灭;系统树 性状分歧原理性状分歧原理在同一个种内,个体之间在结构、习性上越是歧异,在同一个种内,个体之间在结构、习性上越是歧异,则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布到更广则在适应不同环境方面愈是有利,因而将会繁育
29、更多的个体,分布到更广的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。新种的形成、种间的竞争、种的绝灭、外界环境的作用新种的形成、种间的竞争、种的绝灭、外界环境的作用 系统树系统树由于性状分歧和中间类型的绝灭,新种不断产生、旧种不由于性状分歧和中间类型的绝灭,新种不断产生、旧种不断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。Darwinian进化理论的三次修正进化理论的三次修正第一次:第一次:“新新新新DarwinianDarwinian主义主义主义主义”1900s,W
30、eismann等,消除等,消除Lamarck的的“获得性遗传获得性遗传”学说、学说、Buffon的的“环境直接作用环境直接作用”学说,强调学说,强调“自然选择自然选择”为进化的为进化的主要因素;主要因素;第二次:第二次:“现代综合论现代综合论现代综合论现代综合论(Modern synthesis)”(Modern synthesis)”1930-40s,遗传学、生物系统学、古生物学的重大贡献:对,遗传学、生物系统学、古生物学的重大贡献:对“自然选择自然选择”、“物种变异物种变异”等概念的新认识。等概念的新认识。适应:繁殖的相对优势适应:繁殖的相对优势 适应度:个体或基因型对后代或后代基因库的相
31、对贡献适应度:个体或基因型对后代或后代基因库的相对贡献 适应和选择:繁殖或基因传递的相对差异适应和选择:繁殖或基因传递的相对差异 第三次:第三次:NOWNOW 原因:现代分子生物学、古生物学的发展。原因:现代分子生物学、古生物学的发展。宏观(对生物进化实际过程的了解):古生物学揭示生命宏观(对生物进化实际过程的了解):古生物学揭示生命进化的规律、进化速度、进化趋势、物种的形成和绝灭进化的规律、进化速度、进化趋势、物种的形成和绝灭 微观:现代分子生物学揭示生物大分子的进化规律和携带微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的物质基础及其复杂结构遗传信息的物质基础及其复杂结构 新的
32、认识:新的认识:1、生物进化过程并非生物进化过程并非“匀速匀速”、“渐变渐变”的,而是的,而是“快速进快速进化化”与与“进化停滞进化停滞”相间;相间;2、生物进化与分子进化都显示出相当大的随机性,自然选择生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进化的主要因素;并非总是进化的主要因素;3、遗传系统本身具有某种进化功能,进化过程中可能存在内遗传系统本身具有某种进化功能,进化过程中可能存在内因的因的“驱动驱动”和和“导向导向”。Continuing进化理论围绕的三个主题进化理论围绕的三个主题进化理论围绕的三个主题进化理论围绕的三个主题1、进化的动力是什么?、进化的动力是什么?2、进
33、化是否有一定的方向?、进化是否有一定的方向?3、进化的速度是否恒定?是渐近的、进化的速度是否恒定?是渐近的还是跳跃的?还是跳跃的?分子进化理论同样必须回答上分子进化理论同样必须回答上述三个问题。述三个问题。5.2 分子进化的两个特点分子进化的两个特点生物大分子进化速率的相对恒定生物大分子进化速率的相对恒定生物大分子进化速率的相对恒定生物大分子进化速率的相对恒定分子进化速率分子进化速率 生物大分子随时间的改变主要表现为核苷酸、蛋生物大分子随时间的改变主要表现为核苷酸、蛋白质的白质的一级结构一级结构的改变,即分子序列中核苷酸、氨基的改变,即分子序列中核苷酸、氨基酸的替换酸的替换,不同物种同源大分子
34、的分子进化速率大体相同不同物种同源大分子的分子进化速率大体相同,分子进化速率远远比表型进化速率稳定分子进化速率远远比表型进化速率稳定,原因?序列的核苷酸或氨基酸替换是否随机过程?原因?序列的核苷酸或氨基酸替换是否随机过程?生物大分子进化的保守性生物大分子进化的保守性生物大分子进化的保守性生物大分子进化的保守性保守性保守性 功能上重要的大分子或大分子的局部在进化速率上明显低功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。于那些在功能上不重要的大分子或者大分子局部。(引起表型发生显著改变的突变发生的频率要低于无明显(引起表型发生显著改变的突变发生的频率
35、要低于无明显表型发生显著改变得突变发生的频率。)表型发生显著改变得突变发生的频率。)氨基酸氨基酸 例:血红蛋白分子的外区的功能要次于内区的功能,外区例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的的进化速率是内区进化速率的10倍。倍。核苷酸核苷酸 例:例:DNA密码子的同义替代频率高于非同义替代频率;内密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸随机替代频率较高。含子上的核苷酸随机替代频率较高。生物大分子进化并非完全随机,存在某种制约因素或机制生物大分子进化并非完全随机,存在某种制约因素或机制?5.3 分子进化中性论分子进化中性论Neutral theo
36、ry of molecular evolution(Kimura&Ohta,1968,1971)(King&Jukes,1969)提出分子层次上的提出分子层次上的“non-Darwinian evolution”“在生物分子层次上的进化改变不是由自然选择作用在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是于有利突变而引起的,而是在连续的突变压之下由选在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成择中性或非常接近中性的突变的随机固定造成的。中的。中性突变是指对当前适应度无影响的突变。性突变是指对当前适应度无影响的突变。”否认自然选择在分子进化中的作用,认为生物
37、大分子否认自然选择在分子进化中的作用,认为生物大分子的进化主要因素是的进化主要因素是机会机会机会机会和和突变压力突变压力突变压力突变压力。分子进化中性论的若干依据分子进化中性论的若干依据1.分子层次上的大多数变异是选择中性的分子层次上的大多数变异是选择中性的 2.蛋白质和核苷酸分子的进化速率高且相对恒蛋白质和核苷酸分子的进化速率高且相对恒定定 3.突变压在分子进化中的作用得到研究证实突变压在分子进化中的作用得到研究证实4.按照群体遗传学的数学模型,自然选择的代按照群体遗传学的数学模型,自然选择的代价太高价太高 分子进化中性论的讨论分子进化中性论的讨论1、中性论是解释分子层次的进化现象、中性论是
38、解释分子层次的进化现象 自然选择只作用于表型,并不直接作用于分子。自然选择只作用于表型,并不直接作用于分子。衡量尺度的区别:分子的显著性改变并不意味着表型的显衡量尺度的区别:分子的显著性改变并不意味着表型的显著性改变。著性改变。中性论只涉及生物大分子一级结构单元的替换,并不包含中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变和解释分子层次的全部改变(如蛋白质三级结构、功能的改变如蛋白质三级结构、功能的改变)2、分子进化的保守性表明选择仍然起作用、分子进化的保守性表明选择仍然起作用 可能之一可能之一负选择的存在:任何发生在重要功能的大分负选择的存在:任何发生在重要功能的
39、大分子或大分子保守区的突变,由于造成适应度的下降而被选择淘子或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用)汰。(随机作用)可能之二可能之二存在某种机制阻止功能重要的大分子或大分存在某种机制阻止功能重要的大分子或大分子保守区的突变产生。(非随机作用)子保守区的突变产生。(非随机作用)3、选择中性突变的复杂调控系统、选择中性突变的复杂调控系统 中性突变的可能原因:复杂的调控机制。基因表中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。达受到内外因素的制约。决定中性突变的调控系统受到自然选择的影响。决定中性突变的调控系统受到自然选择的影响。调控网络的容错能力。调控
40、网络的容错能力。4、选择在分子的适应进化中起作用、选择在分子的适应进化中起作用 在分子层次上可能存在两种进化形式:在分子层次上可能存在两种进化形式:中性进化(导致分子多样性)中性进化(导致分子多样性)适应进化(通过选择实现,导致分子适应)适应进化(通过选择实现,导致分子适应)Ortholog(直系同源物直系同源物):两个基因通过:两个基因通过物种形物种形成成的事件而产生,或,源于不同物种的最近的的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。基因,一般具有相同的功能。Paralog(旁系同源物旁系同
41、源物):两个基因在同一物种:两个基因在同一物种中,通过至少一次中,通过至少一次基因复制基因复制的事件而产生。的事件而产生。Xenolog(异同源物异同源物):由某一个:由某一个水平基因转移水平基因转移事件而得到的同源序列。事件而得到的同源序列。Convergent evolution:通过不同的进化途径获通过不同的进化途径获得相似的功能,或者,功能替代物。得相似的功能,或者,功能替代物。5.4 分子亲缘关系分子亲缘关系paralogsorthologsparalogsorthologsSonnhammer EL,Koonin EV Orthology,paralogy and proposed
42、 classification for paralog subtypes TRENDS Genetics 18(12)20025.5 分子钟(分子钟(Molecular Clock)分子钟分子钟 根据分子系统学研究与古生物学资料相结合,建立生物进根据分子系统学研究与古生物学资料相结合,建立生物进化事件发生的时间表。化事件发生的时间表。假定分子进化速率假定分子进化速率r恒定,则分子进化改变量(替代数目或恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例:替代率)与进化时间成正比。以两条序列为例:d=2 r t其中,其中,t是进化时间,是进化时间,d是这两条序列每个位点的替
43、代数目。是这两条序列每个位点的替代数目。分子钟成立的先决条件:分子钟成立的先决条件:分子进化速率恒定分子进化速率恒定。分子钟成立的证据:分子钟成立的证据:1、至少某些生物大分子(如珠蛋白)的进化速、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;率在相当长的地质时间内的相对稳定、均匀;2、许多不同物种的多种同源大分子在相当长时、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。间内的平均进化速率近似恒定。建立分子钟的大致步骤建立分子钟的大致步骤1、选择所要比较的生物大分子种类、选择所要比较的生物大分子种类 根据研究目标和已掌握的资料,选择进化速率相
44、对恒定、根据研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。速率大小合适、分布范围能涵盖各待比较物种的生物大分子。2、选择所要比较的物种,确定各比较组合及其所代表的进化事、选择所要比较的物种,确定各比较组合及其所代表的进化事件件3、获得生物大分子一级结构的资料、获得生物大分子一级结构的资料4、获得有关的代表性进化事件发生的地质时间数据、获得有关的代表性进化事件发生的地质时间数据5、通过比较大分子一级结构,选择合适的数学模型,计算得到、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异进化产生的分子差异d,通过回归分析等统计
45、方法得到大分子的,通过回归分析等统计方法得到大分子的进化速率进化速率r(t)6、由此可以推断未知进化事件的发生时间、由此可以推断未知进化事件的发生时间Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch lengths进化树,有分支和支长进化树,有分支和支长信息信息
46、进化分支图,进化树进化分支图,进化树Cladograms show branching order-branch lengths are meaningless进化分支图,只用分支进化分支图,只用分支信息,无支长信息。信息,无支长信息。对进化时间的估计对进化时间的估计1.遗传距离遗传距离d的计算:的计算:A.氨基酸序列:氨基酸序列:p-距离,距离,d-距离,距离,-距离;距离;B.DNA序列:序列:Jukes-Cantor距离,距离,Kimura距离;距离;2.物种分歧点:使用考古数据确定共有祖先;物种分歧点:使用考古数据确定共有祖先;确定分化时间确定分化时间T;3.计算分子的分化计算分子的分
47、化/进化的速率:进化的速率:r=d/2T;4.对新的序列,计算分化时间:对新的序列,计算分化时间:Tnew=dnew/2r关于分子钟的讨论和争议关于分子钟的讨论和争议1、对长期进化而言,不存在以恒定速率替换的、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基生物大分子一级结构;(基因功能的改变、基因数目的增加)因数目的增加)2、不存在通用的分子钟;、不存在通用的分子钟;3、争议:、争议:分子钟的准确性分子钟的准确性 中性理论(分子钟成立的基础)中性理论(分子钟成立的基础)虽然很多时候仍然存在争议,但是虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统分子进化确实能阐述一些生物系统发生的内在规律。发生的内在规律。争议例子:分子序列证据与化石证争议例子:分子序列证据与化石证据在人类起源时间上的差异。据在人类起源时间上的差异。