序列的同源比较及分子系统学和分子进化分析.ppt

上传人:wuy****n92 文档编号:86895455 上传时间:2023-04-15 格式:PPT 页数:54 大小:1.27MB
返回 下载 相关 举报
序列的同源比较及分子系统学和分子进化分析.ppt_第1页
第1页 / 共54页
序列的同源比较及分子系统学和分子进化分析.ppt_第2页
第2页 / 共54页
点击查看更多>>
资源描述

《序列的同源比较及分子系统学和分子进化分析.ppt》由会员分享,可在线阅读,更多相关《序列的同源比较及分子系统学和分子进化分析.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第四章第四章序列的同源比较及分子系统学序列的同源比较及分子系统学和分子进化分析和分子进化分析 4/13/20231主要内容主要内容 第一节、序列相似性比较第一节、序列相似性比较第二节、系统发育分析第二节、系统发育分析4/13/20232第一节、序列相似性比较第一节、序列相似性比较一、序列相似性比较简介一、序列相似性比较简介二、序列相似性比较基础知识二、序列相似性比较基础知识三、两个序列相似性比较方法三、两个序列相似性比较方法四、两个序列相似性比较软件与操作四、两个序列相似性比较软件与操作五、多个序列相似性比较软件与操作五、多个序列相似性比较软件与操作4/13/20233 一、序列相似性比较简介

2、一、序列相似性比较简介1、序列比较的根本任务是:、序列比较的根本任务是:发现序列之间的相似性发现序列之间的相似性辨别序列之间的差异辨别序列之间的差异2 2、目的:、目的:相似序列相似序列 相似的相似的结构,相似的功能结构,相似的功能 判别序列之间的同源性判别序列之间的同源性推测序列之间的进化关系推测序列之间的进化关系 4/13/20234 3、序列比较的理论基础:、序列比较的理论基础:进化学说进化学说 一、序列相似性比较简介一、序列相似性比较简介进化分歧进化分歧进化趋同进化趋同直向同源(直向同源(orthologous):不同种属的同源序列,是:不同种属的同源序列,是基因复制的结果。如:基因复

3、制的结果。如:血红素和血红素和血红素。血红素。共生同源共生同源(paralogous):同一种属的同源序列,是:同一种属的同源序列,是物种行成的结果。如:人和鼠的物种行成的结果。如:人和鼠的血红素。血红素。4/13/202354 4、序列比较的基本操作是:、序列比较的基本操作是:比对(比对(比对(比对(alignalign)是指这两条序列中各个字符的一种一一对应关系,是指这两条序列中各个字符的一种一一对应关系,或字符对比排列。序列的比对是一种关于序列相似性或字符对比排列。序列的比对是一种关于序列相似性的定性描述,它反映在什么部位两条序列相似,在什的定性描述,它反映在什么部位两条序列相似,在什么

4、部位两条序列存在差别。最优比对揭示两条序列的么部位两条序列存在差别。最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。最大相似程度,指出序列之间的根本差异。一、序列相似性比较简介一、序列相似性比较简介4/13/20236(1 1)假设有两条长度相近的、来自同一个字母表的序列,它们之间非常相假设有两条长度相近的、来自同一个字母表的序列,它们之间非常相似,仅仅是有一些细微的差别,例如字符的插入、字符的删除和字符替换,似,仅仅是有一些细微的差别,例如字符的插入、字符的删除和字符替换,要求找出这两条序列的差别。这种操作实际应用比较多,例如,有两个实验要求找出这两条序列的差别。这种操作实际应用

5、比较多,例如,有两个实验室同时测定某个基因的室同时测定某个基因的DNADNA序列,其结果可能不一样,需要通过序列比较来序列,其结果可能不一样,需要通过序列比较来比较实验结果。比较实验结果。5 5 5 5、序列比较可以分为四种基本情况、序列比较可以分为四种基本情况、序列比较可以分为四种基本情况、序列比较可以分为四种基本情况(2 2)假设有两条序列,要求判断是否有一条序列的前缀与另一条序列的后假设有两条序列,要求判断是否有一条序列的前缀与另一条序列的后缀相似,如果是,则分别取出前缀和后缀。该操作常用于大规模缀相似,如果是,则分别取出前缀和后缀。该操作常用于大规模DNADNA测序中序测序中序列片段的

6、组装。列片段的组装。一、序列相似性比较简介一、序列相似性比较简介4/13/20237(3 3)假设有两条序列,要求判断其中的一条序列是否是另一条序列的子序假设有两条序列,要求判断其中的一条序列是否是另一条序列的子序列。这种操作常用于搜索特定的序列模式。列。这种操作常用于搜索特定的序列模式。(4 4)假设有两条序列,要求判断这两条序列中是否有非常相似的子序列。假设有两条序列,要求判断这两条序列中是否有非常相似的子序列。这种操作可用于分析保守序列。这种操作可用于分析保守序列。一、序列相似性比较简介一、序列相似性比较简介4/13/20238二、序列相似性比较基础知识二、序列相似性比较基础知识1、字符

7、串的操作、字符串的操作2、编辑距离、编辑距离3、打分矩阵打分矩阵4/13/20239二、序列相似性比较基础知识二、序列相似性比较基础知识1、字符串的操作、字符串的操作特定的符号特定的符号 代表字母表代表字母表 A*代表由字母表代表由字母表A中字符所形成的一系列有限长度序列中字符所形成的一系列有限长度序列或字符串或序列的集合或字符串或序列的集合 a、b、c代表单独的字符代表单独的字符 s、t、u、v代表代表A*中的序列中的序列|s|代表序列代表序列s的长度的长度4/13/202310二、序列相似性比较基础知识二、序列相似性比较基础知识1、字符串的操作、字符串的操作为了说明序列为了说明序列s子序列

8、和子序列和s中单个字符,在中单个字符,在s中各中各字符之间用数字标明分割边界字符之间用数字标明分割边界例如,设例如,设s=ACCACGTA,则,则s可表示为可表示为 0A1C2C3A4C5G6T7A8 4/13/202311二、序列相似性比较基础知识二、序列相似性比较基础知识1、字符串的操作、字符串的操作S的的子序列与子串子序列与子串S的的子序列:选取子序列:选取s中的某些字符(或删除中的某些字符(或删除s中的某些字符)中的某些字符)而形成而形成s的子序列的子序列例如:例如:TTT是是ATATAT的子序列。的子序列。S的子串:是由的子串:是由s中相继的字符所组成。中相继的字符所组成。例如:例如

9、:TAC是是AGTACA的子串,的子串,但不是但不是TTGAC的子串(是子序列)。的子串(是子序列)。子串是子序列子串是子序列 子序列不一定是子串子序列不一定是子串4/13/202312二、序列相似性比较基础知识二、序列相似性比较基础知识2、编辑距离、编辑距离GCATGACGAATCAG TATGACAAACAGCGCATGACGAATCAG TATGAC-AAACAGC 定性的描述定性的描述定量的数值定量的数值相似度相似度距离距离4/13/202313二、序列相似性比较基础知识二、序列相似性比较基础知识2、编辑距离、编辑距离两条序列的相似程度的定量计算相似度相似度,它是两个序列的函数,其值越

10、大,表示两个序列越相似 两个序列之间的距离距离。距离越大,则两个序列的相似度就越小 对于两条长度相等的序对于两条长度相等的序列,海明距离等于对应列,海明距离等于对应位字符不同的个数。位字符不同的个数。使用距离不够灵活:使用距离不够灵活:序列长度可能不同;序列长度可能不同;两条序列中各位置上的字符两条序列中各位置上的字符并一定是真正的对应关系。并一定是真正的对应关系。4/13/202314二、序列相似性比较基础知识二、序列相似性比较基础知识2、编辑距离、编辑距离字符编辑操作(字符编辑操作(EditOperation)字符编辑操作可将一个序列转化为一个新序列字符编辑操作可将一个序列转化为一个新序列

11、 Match(a,a)字符匹配;字符匹配;Delete(a,-)从第一条序列删除一个字符,或在第二条序从第一条序列删除一个字符,或在第二条序 列相应的位置插入空白字符;列相应的位置插入空白字符;Replace(a,b)以第二条序列中的字符以第二条序列中的字符b 替换第一条序列替换第一条序列 中的字符中的字符a,a b;Insert(-,b)在第一条序列插入空位字符,或删除第二条在第一条序列插入空位字符,或删除第二条 序列中的对应字符序列中的对应字符b。4/13/202315二、序列相似性比较基础知识二、序列相似性比较基础知识2、编辑距离、编辑距离ACCGACAATATGCATA ATAGGTA

12、TAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒第二条序列头尾颠倒第二条序列替换成互补碱基第二条序列替换成互补碱基CTAGTCGAGGCAATCTCTTGTCGAAGCAATCACTAGTCGAGGCAATCTGAACAGCTTCGTTAGT 4/13/202316二、序列相似性比较基础知识二、序列相似性比较基础知识2、编辑距离、编辑距离4/13/202317二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵在打分矩阵中,详细地列出各种字符替换的得分,从而在打分矩阵中,详细地列出各种字符替换的得分,从而使得计算序列

13、之间的相似度更为合理。在比较蛋白质时,我使得计算序列之间的相似度更为合理。在比较蛋白质时,我们可以用打分矩阵来增强序列比对的敏感性。打分矩阵是序们可以用打分矩阵来增强序列比对的敏感性。打分矩阵是序列比较的基础,选择不同的打分矩阵将得到不同的比较结果,列比较的基础,选择不同的打分矩阵将得到不同的比较结果,而了解打分矩阵的理论依据将有助于在实际应用中选择合适而了解打分矩阵的理论依据将有助于在实际应用中选择合适的打分矩阵。的打分矩阵。4/13/202318二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵(1)、核酸打分矩阵设)、核酸打分矩阵设DNA序列所用的字母表为序列所用

14、的字母表为 =A,C,G,T a.等价矩阵等价矩阵 b.BLAST矩阵矩阵 c.转移矩阵(转移矩阵(transition,transversion)(嘌呤:腺嘌呤嘌呤:腺嘌呤A,鸟嘌呤鸟嘌呤G;嘧啶:胞嘧啶嘧啶:胞嘧啶C,胸腺嘧啶胸腺嘧啶T)4/13/202319二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵(1)、核酸打分矩阵)、核酸打分矩阵等价矩阵等价矩阵等价矩阵是最简单的一种打分矩阵,其中,相同核苷酸匹配的得分为等价矩阵是最简单的一种打分矩阵,其中,相同核苷酸匹配的得分为“1”,而不同核,而不同核苷酸的替换得分为苷酸的替换得分为“0”(没有得分)。(没有得分)

15、。BLAST矩阵矩阵BLAST是目前最流行的核酸序列比较程序,这也是一个非常简单的矩阵,如果被比的是目前最流行的核酸序列比较程序,这也是一个非常简单的矩阵,如果被比的两个核苷酸相同,则得分为两个核苷酸相同,则得分为“+5”,反之得分为,反之得分为“-4”。转换转换-颠换矩阵颠换矩阵核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤,鸟嘌呤G),它们有两个环;),它们有两个环;另一类是嘧啶(胞嘧啶另一类是嘧啶(胞嘧啶C,胸腺嘧啶,胸腺嘧啶T),它们的碱基只有一个环。如果),它们的碱基只有一个环。如果DNA碱基的变碱基的变化(碱基替换)保持环

16、数不变,则称为转换(化(碱基替换)保持环数不变,则称为转换(transition),如),如AG,CT;如果环;如果环数发生变化,则称为颠换(数发生变化,则称为颠换(transversion),如),如AC,AT等。在进化过程中,转等。在进化过程中,转换发生的频率远比颠换高,其中转换的得分为换发生的频率远比颠换高,其中转换的得分为“-1”,而颠换的得分为,而颠换的得分为“-5”。4/13/202320ATCGA1000T0100C0010G0001等价矩阵表等价矩阵表ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5

17、G-1-5-51转移矩阵转移矩阵BLAST矩阵矩阵二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵4/13/202321(2 2)、蛋白质打分矩阵)、蛋白质打分矩阵)、蛋白质打分矩阵)、蛋白质打分矩阵二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵l(i)等价矩阵等价矩阵l(ii)氨基酸突变代价矩阵氨基酸突变代价矩阵GCM l(iii)疏水矩阵疏水矩阵 l(iv)PAM矩阵(矩阵(Point Accepted Mutation)l(v)BLOSUM矩阵矩阵 (Blocks Amino Acid Substitution Matrices)其中

18、Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。4/13/202322二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵遗传密码矩阵GCM GCM 矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。如果变化一个碱基,就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2 个碱基的改变,则替换代价为2;以此类推。注意,Met 到Tyr 的转变是仅有的密码子三个位置都发生变化的转换。Glx 代表Gly、Gln或Glu,而Asx 则代表Asn 或Asp,X 代表任意氨基酸。G

19、CM常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用。4/13/202323二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵疏水矩阵是根据氨基酸残基替换前后疏水性的变化而疏水矩阵是根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。大的变化,则这种替换得分高,否则替换得分低。4/13/202324二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵PAM

20、矩阵矩阵是第一个广泛使用的最优矩阵,它是基于进化原理的,建立是第一个广泛使用的最优矩阵,它是基于进化原理的,建立在进化的点接受突变模型在进化的点接受突变模型PAM(PointAcceptedMutation)基)基础上,通过统计相似序列比对中的各种氨基酸替换发生率而得到础上,通过统计相似序列比对中的各种氨基酸替换发生率而得到该矩阵。该矩阵。Dayhoff和她的同事们研究了和她的同事们研究了71个相关蛋白质家族的个相关蛋白质家族的1572个突变,发现蛋白质家族中氨基酸的替换并不是随机的,个突变,发现蛋白质家族中氨基酸的替换并不是随机的,由此,断言一些氨基酸的替换比其他替换更容易发生,其主要原由此

21、,断言一些氨基酸的替换比其他替换更容易发生,其主要原因是这些替换不会对蛋白质的结构和功能产生太大的影响。如果因是这些替换不会对蛋白质的结构和功能产生太大的影响。如果氨基酸的替换是随机的,那么,每一种可能的取代频率仅仅取决氨基酸的替换是随机的,那么,每一种可能的取代频率仅仅取决于不同氨基酸出现的背景频率。然而,在相关蛋白中,取代频率于不同氨基酸出现的背景频率。然而,在相关蛋白中,取代频率大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突变已经被进化所接受。这意味着,在进化历程上,相关的蛋白突变已经被进化所接受。这意味着,在进化历程上

22、,相关的蛋白质在某些位置上可以出现不同的氨基酸。质在某些位置上可以出现不同的氨基酸。4/13/202325二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵PAM矩阵矩阵一个一个PAM就是一个进化的变异单位,即就是一个进化的变异单位,即1%的氨基酸改变。但的氨基酸改变。但是,这并不意味着经过是,这并不意味着经过100次次PAM后,每个氨基酸都发生变化,后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸。因此,另外一些氨基酸可能不发生改变。氨基酸。因此,另外一些氨基酸可能不发生改

23、变。4/13/202326二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵两个相同的残基之间的相似性分值越高,比较保守,两个相同的残基之间的相似性分值越高,比较保守,不容易突变;不容易突变;两个相同的残基之间的相似性分值越低,比较容易两个相同的残基之间的相似性分值越低,比较容易突变;突变;两个不同的残基之间的相似性分值越高,两个不同的残基之间的相似性分值越高,进化过程中容易发生互换;进化过程中容易发生互换;两个不同的残基之间的相似性分值为负值,两个不同的残基之间的相似性分值为负值,进化过程中不容易发生互换。进化过程中不容易发生互换。4/13/202327二、序列相似性

24、比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵BLOSUM 矩阵 是由是由Henikoff首先提出的另一种氨基酸替换矩阵,它也是通过统计相似蛋白质序列的首先提出的另一种氨基酸替换矩阵,它也是通过统计相似蛋白质序列的替换率而得到的。替换率而得到的。PAM矩阵是从蛋白质序列的全局比对结果推导出来的,而矩阵是从蛋白质序列的全局比对结果推导出来的,而BLOSUM矩阵则是从蛋白质序列块(短序列)比对而推导出来的。矩阵则是从蛋白质序列块(短序列)比对而推导出来的。但在评估氨基酸替换频率时,应用了不同的策略。基本数据来源于但在评估氨基酸替换频率时,应用了不同的策略。基本数据来源于BLOCKS数

25、据数据库,其中包括了局部多重比对(包含较远的相关序列,与在库,其中包括了局部多重比对(包含较远的相关序列,与在PAM中使用较近的相关序中使用较近的相关序列相反)。列相反)。虽然在这种情况下没有用进化模型,但它的优点在于可以通过直接观察而不是通虽然在这种情况下没有用进化模型,但它的优点在于可以通过直接观察而不是通过外推获得数据。同过外推获得数据。同PAM模型一样,也有一系列的模型一样,也有一系列的BLOSUM矩阵,可以根据亲缘关系矩阵,可以根据亲缘关系的不同来选择不同的的不同来选择不同的BLOSUM矩阵进行序列比较。然而,矩阵进行序列比较。然而,BLOSUM矩阵阶数的意义矩阵阶数的意义与与PAM

26、矩阵正好相反。低阶矩阵正好相反。低阶PAM矩阵适合用来比较亲缘较近的序列,而低阶矩阵适合用来比较亲缘较近的序列,而低阶BLOSUM矩阵更多是用来比较亲缘较远的序列。一般来说,矩阵更多是用来比较亲缘较远的序列。一般来说,BLOSUM-62矩阵适于用矩阵适于用来比较大约具有来比较大约具有62相似度的序列,而相似度的序列,而BLOSUM-80矩阵更适合于相似度为矩阵更适合于相似度为80%左右左右的序列。的序列。4/13/202328二、序列相似性比较基础知识二、序列相似性比较基础知识3、打分矩阵、打分矩阵BLOSUM624/13/202329三、两个序列相似性比较方法三、两个序列相似性比较方法1、矩

27、阵作图法进行序列比较、矩阵作图法进行序列比较 进行序列比较的一个简单的方法是进行序列比较的一个简单的方法是“矩阵作图法矩阵作图法”或或“对角线作图对角线作图”,这种方法是由,这种方法是由Gibb 首先提出。将两条待比较首先提出。将两条待比较的序列分别放在矩阵的两个轴上,一条在的序列分别放在矩阵的两个轴上,一条在Y轴,从下往上,轴,从下往上,一条在一条在X 轴,从左到右,当对应的行与列的序列字符匹配时,轴,从左到右,当对应的行与列的序列字符匹配时,则在矩阵对应的位置作出则在矩阵对应的位置作出“点点”标记。逐个比较所有的字符标记。逐个比较所有的字符对,最终形成点矩阵。对,最终形成点矩阵。4/13/

28、202330相同子串矩阵标记图相同子串矩阵标记图反向序列矩阵标记图反向序列矩阵标记图三、两个序列相似性比较方法三、两个序列相似性比较方法1、矩阵作图法进行序列比较、矩阵作图法进行序列比较4/13/202331多个相同连续子序列矩阵标记图多个相同连续子序列矩阵标记图三、两个序列相似性比较方法三、两个序列相似性比较方法1、矩阵作图法进行序列比较、矩阵作图法进行序列比较4/13/202332 两条序列中有很多匹配的字符对,因而在点矩阵中会形成很两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。当对长并且相似的序列进行比较时,这样的点阵图很多点标记。当对长并且相似的序列进行比较时,这样的点

29、阵图很快会变得非常复杂和模糊。使用滑动窗口代替一次一个位点的比快会变得非常复杂和模糊。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。较是解决这个问题的有效方法。三、两个序列相似性比较方法三、两个序列相似性比较方法1、矩阵作图法进行序列比较、矩阵作图法进行序列比较(a)对人类()对人类(Homosapiens)与黑猩猩()与黑猩猩(Pongopygmaeus)的)的球蛋白基因球蛋白基因序列进行比较的完整点阵图。(序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为行比较的点阵图,其中窗口大小

30、为10个核苷酸,相似度阈值为个核苷酸,相似度阈值为8。4/13/2023332、动态规化算法、动态规化算法 进行序列的两两比对最直接的方法就是生成两条序列所有进行序列的两两比对最直接的方法就是生成两条序列所有可能的比对,分别计算得分(或代价)函数,然后挑选一个可能的比对,分别计算得分(或代价)函数,然后挑选一个得分最高(或代价最小)的比对作为最终结果。得分最高(或代价最小)的比对作为最终结果。但是,两条序列可能的比对数非常多,是序列长度的指数但是,两条序列可能的比对数非常多,是序列长度的指数函数,随着序列长度的增长,计算量呈指数增长。从算法时函数,随着序列长度的增长,计算量呈指数增长。从算法时

31、间复杂性的角度来看,这种比对方法显然不合适。用前面所间复杂性的角度来看,这种比对方法显然不合适。用前面所介绍的点矩阵分析方法,在寻找斜线及斜线组合时,仍然需介绍的点矩阵分析方法,在寻找斜线及斜线组合时,仍然需要较大的运算量。因此,必须设计高效的算法以找出最优的要较大的运算量。因此,必须设计高效的算法以找出最优的比对。比对。著名的著名的Needleman-Wunsch Needleman-Wunsch 算法,就是针对寻求最佳序列算法,就是针对寻求最佳序列比对这一问题所设计的动态规划寻优策略。比对这一问题所设计的动态规划寻优策略。三、两个序列相似性比较方法三、两个序列相似性比较方法4/13/202

32、3342、动态规化算法、动态规化算法三、两个序列相似性比较方法三、两个序列相似性比较方法4/13/2023352、动态规化算法、动态规化算法三、两个序列相似性比较方法三、两个序列相似性比较方法4/13/2023362、动态规化算法、动态规化算法三、两个序列相似性比较方法三、两个序列相似性比较方法求解过程求解过程起点起点终点终点ATTCCGAAGA AGTCGAAGGT从两个序列前端开始从两个序列前端开始逐步推进逐步推进直到两个序列的末端。直到两个序列的末端。4/13/2023372、动态规化算法、动态规化算法三、两个序列相似性比较方法三、两个序列相似性比较方法4/13/2023384/13/2

33、02339四、两个序列相似性比较操作四、两个序列相似性比较操作 1、http:/emboss/align/4/13/202340四、两个序列相似性比较操作四、两个序列相似性比较操作 2、4/13/202341五、多个序列相似性比较操作五、多个序列相似性比较操作 与序列两两比对不一样,与序列两两比对不一样,序列多重比对(序列多重比对(MultipleAlignment)的目标是发现多)的目标是发现多条序列的共性。如果说序列两条序列的共性。如果说序列两两比对比较主要用于建立两条两比对比较主要用于建立两条序列的同源关系和推测它们的序列的同源关系和推测它们的结构、功能,那么,同时比对结构、功能,那么,

34、同时比对一组序列对于研究分子结构、一组序列对于研究分子结构、功能及进化关系更为有用。功能及进化关系更为有用。4/13/202342五、多个序列相似性比较操作五、多个序列相似性比较操作 例如,某些在生物学上有重要意义的相似性只能通过将例如,某些在生物学上有重要意义的相似性只能通过将多个序列对比排列起来才能识别。同样,只有在多序列比对之多个序列对比排列起来才能识别。同样,只有在多序列比对之后,才能发现与结构域或功能相关的保守序列片段。后,才能发现与结构域或功能相关的保守序列片段。对于一系列同源蛋白质,人们希望研究隐含在蛋白质序对于一系列同源蛋白质,人们希望研究隐含在蛋白质序列中的系统发育的关系,以

35、便更好地理解这些蛋白质的进化。列中的系统发育的关系,以便更好地理解这些蛋白质的进化。在实际研究中,生物学家并不是仅仅分析单个蛋白质,而是更在实际研究中,生物学家并不是仅仅分析单个蛋白质,而是更着重于研究蛋白质之间的关系,研究一个家族中的相关蛋白质,着重于研究蛋白质之间的关系,研究一个家族中的相关蛋白质,研究相关蛋白质序列中的保守区域,进而分析蛋白质的结构和研究相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。序列两两比对往往不能满足这样的需要,难以发现多个功能。序列两两比对往往不能满足这样的需要,难以发现多个序列的共性,必须同时比对多条同源序列。序列的共性,必须同时比对多条同源序列。4/

36、13/202343五、多个序列相似性比较操作五、多个序列相似性比较操作 多序列比对的意义多序列比对的意义用于描述一组序列之间的相似性关系,以便了解一用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找个基因家族的基本特征,寻找motif,保守区域等,保守区域等用于描述一个同源基因之间的亲缘关系的远近,应用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中用到分子进化分析中其他应用,如构建其他应用,如构建profile,打分矩阵等,打分矩阵等4/13/202344五、多个序列相似性比较操作五、多个序列相似性比较操作 多序列比对的方法多序列比对的方法同源性分析中常常要通

37、过多序列比对来找出序列之间的相互关同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。复杂且耗时的过程,特别是序列数目多,且序列长的情况下。多序列比对大体上分为两大类:多序列比对大体上分为两大类:1、手工比对、手工比对(辅助编辑软件如(辅助编辑软件如bioedit,seaview,Genedoc等)等):通过

38、辅助软件的不同颜色显示不同残基,靠分析者的观察来改变:通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。手工比对方法在文献中经常看到,因为难免加入一些比对的状态。手工比对方法在文献中经常看到,因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。但在运行经过测主观因素,手工比对通常被认为有很大的随意性。但在运行经过测试并具有较高可信度的计算机程序基础上,结合实验结果或文献资试并具有较高可信度的计算机程序基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,也是非常必要的。料,对多序列比对结果进行手工修饰,也是非常必要的。4/13/202345五、多个序列相似性比

39、较操作五、多个序列相似性比较操作 2、计算机程序自动比对计算机程序自动比对通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态:列比对状态:1、同步法、同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。一般只有

40、在进行少数的较短的序列的比对的时候才会用到这个方法。2、步进法、步进法最常见的就是最常见的就是clustal所采用的方法。其基本思想就是基于相似序列通常具有进所采用的方法。其基本思想就是基于相似序列通常具有进化相关性的这一假设。化相关性的这一假设。Clustal的渐进比对过程:在比对过程中,先对所有的序的渐进比对过程:在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到并在每组之间进行比对,计算相似性分值。根

41、据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。远的序列添加在后面。4/13/202346五、多个序列相似性比较操作五、多个序列相似性比较操作 氨基酸分组及其代表性颜色氨基酸分组及其代表性颜色4/13/202347五、多个序列相似性比较操作五、多个序列相似性比较操作 多序列比对工具多序列比对工具Clustal的应用的应用Clustal是一个单机版的基于渐进比对的多序列比对工具,是一个单机版的基于渐进比对的多序列比对工具,由由HigginsD.G.等开发,

42、有应用于多种操作系统平台的版本。等开发,有应用于多种操作系统平台的版本。Clustal的工作原理的工作原理CLUSTAL是一种渐进的比对方法,先将多个序列两两比是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。建比对,直到所有序列都被加入为止。4/13

43、/202348五、多个序列相似性比较操作五、多个序列相似性比较操作 多序列比对工具多序列比对工具Clustal的应用的应用Clustal输入输出格式输入格式:输入输出格式输入格式:输入序列的格式比较灵活,支持输入序列的格式比较灵活,支持FASTA、PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。等格式。输出格式:输出格式也可以选择,有输出格式:输出格式也可以选择,有ALN、GCG、PHYLIP和和NEXUS等,用户可以根据自己的需要选择合适的输出格式。等,用户可以根据自己的需要选择合适的输出格式。4/13/202349五、多个序列相似性比较操作五、多个序列相

44、似性比较操作 多序列比对工具多序列比对工具Clustal的应用的应用单机操作单机操作ClustalX 4/13/202350五、多个序列相似性比较操作五、多个序列相似性比较操作 多序列比对工具多序列比对工具Clustal的应用的应用网上操作网上操作ClustalWCLUSTAL W http:/4/13/202351五、多个序列相似性比较操作五、多个序列相似性比较操作 多序列比对局限性多序列比对局限性目前,构建多序列比对模型的方法大体可以分为目前,构建多序列比对模型的方法大体可以分为两大类:第一类是基于氨基酸残基的相似性,如物两大类:第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可突变

45、性等;另一类方法则主化性质、残基之间的可突变性等;另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结果。显就是说根据序列的高级结构特征确定比对结果。显然,这两种方法所得结果可能有很大差别。一般说然,这两种方法所得结果可能有很大差别。一般说来,很难断定哪种方法所得结果一定正确,应该说,来,很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的生物学它们从不同角度反映蛋白质序列中所包含的生物学信息。信息。4/13/202352五、多个序列相似性比较操作五、多个序列相似性比较操作 多序

46、列比对局限性多序列比对局限性 基于序列信息和基于结构信息的比对都是非常重要的比对模基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。蛋白质结构除了序列本身带反映蛋白质分子所携带的全部信息。蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。质结构。因

47、此,这也是对完全基于序列数据比对方法批评的主要原因。因此,这也是对完全基于序列数据比对方法批评的主要原因。显然,如果能够利用结构数据,对于序列比对无疑有很大帮助。显然,如果能够利用结构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个比较满我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。意的多序列比对模型。4

48、/13/202353五、多个序列相似性比较操作五、多个序列相似性比较操作 基于序列信息和基于结构信息的比对都是非常重要的比基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。蛋白质结构除不能完全反映蛋白质分子所携带的全部信息。蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天

49、然蛋白质结构。终形成稳定的天然蛋白质结构。因此,这也是对完全基于序列数据比对方法批评的主要原因此,这也是对完全基于序列数据比对方法批评的主要原因。显然,如果能够利用结构数据,对于序列比对无疑有很因。显然,如果能够利用结构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。在大多数情况下,并没有白质三维结构数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,我们只能依靠序列的相似性和一些生物结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。化学特性建立一个比较满意的多序列比对模型。4/13/202354

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁