《序列比对基础与BLAST入门(打分矩阵)复习过程.ppt》由会员分享,可在线阅读,更多相关《序列比对基础与BLAST入门(打分矩阵)复习过程.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、序列比序列比对对基基础础与与BLAST入入门门(打打分矩分矩阵阵)序列比序列比序列比序列比对对的基本原理的基本原理的基本原理的基本原理n n提出比提出比提出比提出比对对要考要考要考要考虑虑的的的的问题问题专业专业n n算法算法算法算法(构建(构建(构建(构建打分矩打分矩打分矩打分矩阵阵)数学数学数学数学n n程序程序程序程序计计算机算机算机算机n n搜索数据搜索数据搜索数据搜索数据库库计计算机算机算机算机n n给给出比出比出比出比对结对结果(比果(比果(比果(比对对分数、分数、分数、分数、显显著性著性著性著性检验检验)打分打分打分打分一、算法与程序一、算法与程序一、算法与程序一、算法与程序n
2、n算法算法算法算法是指按照一定的方式描述是指按照一定的方式描述计计算算过过程或程或处处理理某个某个问题问题的一系列步的一系列步骤骤。n n程序程序程序程序则则是算法的具体是算法的具体实现实现,也就是用某种,也就是用某种计计算算机机语语言言编编写的写的实现实现某个算法的一某个算法的一组组指令集合。指令集合。n n一个算法可能会有多种一个算法可能会有多种一个算法可能会有多种一个算法可能会有多种实现实现的方法的方法的方法的方法。如果算法如果算法的描述或定的描述或定义义明确,那么明确,那么这这些不同的些不同的实现实现方法,方法,即不同的程序即不同的程序应给应给出同出同样样的的结结果。果。二、打分矩二、
3、打分矩二、打分矩二、打分矩阵阵(Scoring MatrixScoring Matrix)简简介介介介n n要要对对两个序列两个序列进进行比行比对对,必,必须须首先打出其相似首先打出其相似性的定量分性的定量分值值,于是需要一个于是需要一个打分矩打分矩打分矩打分矩阵阵。n n矩矩矩矩阵阵(Matrix Matrix):是由是由m m n n个数个数组组成的一个成的一个m m行行n n列的矩形表格。列的矩形表格。矩矩矩矩阵阵(Matrix Matrix)n n某公司生某公司生产产四种四种产产品品A A、B B、C C、D D,第一季度的第一季度的销销量分量分别别如下表所示:如下表所示:n n产品销
4、量(件)产品销量(件)n n月份月份A B C DA B C Dn n 一月一月 300 250 220 180300 250 220 180n n 二月二月 320 230 200 200320 230 200 200n n 三月三月 310 280 210 220310 280 210 220 矩矩矩矩阵阵(Matrix Matrix)n n为为了研究方便,在数学中常把表中的了研究方便,在数学中常把表中的说说明去掉,明去掉,将上表将上表简简化化为为如下的矩形数表:如下的矩形数表:n n由由3434个数个数组组成的一个成的一个3 3行行4 4列的矩形表格。列的矩形表格。此表此表在数学上称在数
5、学上称为为矩矩矩矩阵阵(纵纵横排列的二横排列的二横排列的二横排列的二维维数据表格数据表格数据表格数据表格)。核酸打分矩核酸打分矩核酸打分矩核酸打分矩阵阵-AT-GCAT-GCATGC-ATGCATATATATATAT-ATATAT-GCATGCATGCATGCATGC|CGATCG-ATCG-AT-CG-ATATATATATATGCATATATATGCATGCATGCATGCATn n上述序列比上述序列比对过对过程中,只考程中,只考虑虑了了碱基的同一性碱基的同一性碱基的同一性碱基的同一性,即两个序列之即两个序列之间间完全相同的匹配碱基数目。完全相同的匹配碱基数目。n n可以把可以把这这种只考种
6、只考虑虑碱基同一性的矩碱基同一性的矩阵阵理解理解为为一个一个分数分数值为值为1 1和和0 0的分数矩的分数矩阵阵,即相同残基的分数,即相同残基的分数值值为为1 1,不同残基的分数,不同残基的分数值为值为0 0。用于核酸比用于核酸比用于核酸比用于核酸比对对的的的的简单简单打分矩打分矩打分矩打分矩阵阵A A A AC C C CG G G GT T T TA A A A1 1 1 10 0 0 00 0 0 00 0 0 0C C C C0 0 0 01 1 1 10 0 0 00 0 0 0G G G G0 0 0 00 0 0 01 1 1 10 0 0 0T T T T0 0 0 00 0
7、0 00 0 0 01 1 1 1A A A AC C C CG G G GT T T TA A A A5 5 5 5-4-4-4-4-4-4-4-4-4-4-4-4C C C C-4-4-4-45 5 5 5-4-4-4-4-4-4-4-4G G G G-4-4-4-4-4-4-4-45 5 5 5-4-4-4-4T T T T-4-4-4-4-4-4-4-4-4-4-4-45 5 5 5单单一打分矩一打分矩一打分矩一打分矩阵阵BLASTBLAST打分矩打分矩打分矩打分矩阵阵蛋白蛋白蛋白蛋白质质打分矩打分矩打分矩打分矩阵阵保守性替保守性替保守性替保守性替换换(conservative sub
8、stitutionconservative substitution)通常在某些位点上有一些氨基酸被另外一些通常在某些位点上有一些氨基酸被另外一些理化特性理化特性理化特性理化特性相似相似相似相似的氨基酸所代替,的氨基酸所代替,这这种突种突变变可称可称为为保守性替保守性替保守性替保守性替换换。保守。保守性替性替换换一般不会影响蛋白一般不会影响蛋白质质的的结结构和功能。构和功能。与核苷酸序列比与核苷酸序列比对对不同,氨基酸序列比不同,氨基酸序列比对对不不仅仅要考要考虑虑残基是否残基是否相同相同相同相同,还还要考要考虑虑残基是否残基是否相似相似相似相似以及相似的不同程以及相似的不同程度。度。LAAW
9、AAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE|.|:|:ALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD 1.1.极性中性氨基酸极性中性氨基酸极性中性氨基酸极性中性氨基酸(亲亲水,含水,含水,含水,含羟羟基)基)基)基)2.2.碱性氨基酸碱性氨基酸碱性氨基酸碱性氨基酸氨基酸分类氨基酸分类alanine 丙氨酸丙氨酸AlaAvaline 缬氨酸缬氨酸ValVleucine 亮氨酸亮氨酸LeuLisoleucine 异亮氨酸异亮氨酸 IleIphenylalanine 苯丙氨酸苯丙氨酸PheFproline 脯氨酸脯氨酸ProPmethio
10、nine 甲硫氨酸甲硫氨酸MetMglycine 甘氨酸甘氨酸GlyGtryptophan 色氨酸色氨酸TrpWserine 丝氨酸丝氨酸SerStyrosine 酪氨酸酪氨酸TyrYcysteine 半胱氨酸半胱氨酸CysCasparagine 天冬酰氨天冬酰氨 Asn Nglutarmine 谷氨酰胺谷氨酰胺Gln Qthreonine 苏氨酸苏氨酸ThrTaspartic acid 天冬氨酸天冬氨酸Asp Dglutarmic acid 谷氨酸谷氨酸Glu Earginine 精氨酸精氨酸 ArgRhistidine 组氨酸组氨酸HisHlysine 赖氨酸赖氨酸LysK非极性疏水性非极
11、性疏水性非极性疏水性非极性疏水性氨基酸氨基酸氨基酸氨基酸极性中性氨基酸极性中性氨基酸极性中性氨基酸极性中性氨基酸酸性氨基酸酸性氨基酸酸性氨基酸酸性氨基酸碱性氨基酸碱性氨基酸碱性氨基酸碱性氨基酸(芳香族氨基酸芳香族氨基酸芳香族氨基酸芳香族氨基酸F F、WW、Y Y )(含硫氨基酸(含硫氨基酸(含硫氨基酸(含硫氨基酸C C、MM )王王镜岩岩编生物化学生物化学(第三版)第(第三版)第127页果蝇果蝇 GAKKVIISAP SAD.APM.F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA 人类人类 GAKRVIISAP SAD.APM.F VMGVNHEKYD NSLKIISNA
12、S CTTNCLAPLA 植物植物 GAKKVIISAP SAD.APM.F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA 细菌细菌 GAKKVVMTGP SKDNTPM.F VKGANFDKY.AGQDIVSNAS CTTNCLAPLA 酵母酵母 GAKKVVITAP SS.TAPM.F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA 古细古细 GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA 果蝇果蝇 KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AA
13、QNIIPAST 人类人类 KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST 植物植物 KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST 细菌细菌 KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST 酵母酵母 KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST 古细古细 KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AA
14、ENIIPTST 果蝇果蝇 GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK 人类人类 GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV 植物植物 GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA 细菌细菌 GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA 酵母酵母 GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ET
15、TYDEIKKV 古细古细 GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA 不同物种不同物种3磷酸甘油磷酸甘油醛脱脱氢酶多序列比多序列比对EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTMLSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV VK
16、ENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD.人人类lipocalin(脂(脂质运运载蛋白)家族多序列比蛋白)家族多序列比对GGX XWW模体模体
17、模体模体蛋白蛋白蛋白蛋白质质打分矩打分矩打分矩打分矩阵阵n n我我们们想要衡量氨基酸配想要衡量氨基酸配对对的相似性程度,的相似性程度,这这就就需要有氨基酸相似性的定量需要有氨基酸相似性的定量标标准。准。n n单单一打分矩一打分矩一打分矩一打分矩阵阵满满足不了此种需求。足不了此种需求。n n相似性打分矩相似性打分矩相似性打分矩相似性打分矩阵阵,是基于,是基于远远距离距离进进化化过过程中程中观观察到的残基替察到的残基替换换率,并用不同的分数率,并用不同的分数值值表征不表征不同残基之同残基之间间的相似性程度。恰当的相似性程度。恰当选择选择相似性分相似性分数矩数矩阵阵,可以提高序列比,可以提高序列比对
18、对的敏感度。的敏感度。n nPAMPAM矩矩矩矩阵阵和和BLOSUMBLOSUM矩矩矩矩阵阵。三、三、三、三、PAMPAM矩矩矩矩阵阵n nMargaret Dayhoff Margaret Dayhoff 等研究了等研究了3434种蛋白种蛋白种蛋白种蛋白质质超家族超家族超家族超家族(85%85%以上一致性的序列),通以上一致性的序列),通过这过这些些同源蛋同源蛋同源蛋同源蛋白序列白序列白序列白序列的比的比对对,总结总结出一个氨基酸被另一个氨出一个氨基酸被另一个氨基酸替基酸替换换的概率,从而构建出的概率,从而构建出PAMPAM矩矩矩矩阵阵。谁说女子不如男!三、三、三、三、PAMPAM矩矩矩矩阵
19、阵n nPAMPAM(accepted point mutationaccepted point mutation)可接受点突可接受点突可接受点突可接受点突变变 同源同源同源同源蛋白蛋白质质在在进进化化过过程中会出程中会出现现一个氨一个氨基酸被另一个氨基酸替基酸被另一个氨基酸替换换的的现现象,若此种突象,若此种突变变通通通通过过自然自然自然自然选择选择被种群接受被种群接受被种群接受被种群接受,并可,并可见见于后代于后代的基因的基因组组中,便称中,便称为为可接受点突可接受点突可接受点突可接受点突变变。果蝇果蝇 GAKKVIISAP SAD.APM.F VCGVNLDAYK PDMKVVSNAS
20、CTTNCLAPLA 人类人类 GAKRVIISAP SAD.APM.F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA 植物植物 GAKKVIISAP SAD.APM.F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA 细菌细菌 GAKKVVMTGP SKDNTPM.F VKGANFDKY.AGQDIVSNAS CTTNCLAPLA 酵母酵母 GAKKVVITAP SS.TAPM.F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA 古细古细 GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNS
21、ITPVA 果蝇果蝇 KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST 人类人类 KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST 植物植物 KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST 细菌细菌 KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST 酵母酵母 KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNI
22、IPSST 古细古细 KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST 果蝇果蝇 GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK 人类人类 GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV 植物植物 GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA 细菌细菌 GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYE
23、QIKAA 酵母酵母 GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV 古细古细 GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA 不同物种不同物种3磷酸甘油磷酸甘油醛脱脱氢酶多序列比多序列比对1、Dayhoffs 可接受点突可接受点突变数目(数目(10)Dayhoff(1978)表示在所研究的同源表示在所研究的同源表示在所研究的同源表示在所研究的同源蛋白中,蛋白中,蛋白中,蛋白中,天冬氨酸天冬氨酸天冬氨酸天冬氨酸被被被被谷氨酸谷氨酸谷氨酸谷氨酸替替替替换换,发发生了生了生了
24、生了83108310次次次次2、氨基酸出氨基酸出现频率率Gly8.9%Arg4.1%Ala8.7%Asn4.0%Leu8.5%Phe4.0%Lys8.1%Gln3.8%Ser7.0%Ile3.7%Val6.5%His3.4%Thr5.8%Cys3.3%Pro5.1%Tyr3.0%Glu5.0%Met1.5%Asp4.7%Trp1.0%blue=6 codons;red=1 codon3、氨基酸的相氨基酸的相对突突变几率几率每种氨基酸每种氨基酸发生突生突变的次数除以的次数除以该氨基酸出氨基酸出现的的总次数次数Asn134His66Ser120Arg65Asp106Lys56Glu102Pro56
25、Ala100Gly49Thr97Tyr41Ile96Phe41Met94Leu40Gln93Cys20Val74Trp18Note that alanine is normalized to a value of 100.TrpTrp and CysCys are least mutable.AsnAsn and SerSer are most mutable.三、三、三、三、PAMPAM矩矩矩矩阵阵n nDayhoff Dayhoff 等根据前述等根据前述观观察到的数据(可接受点突察到的数据(可接受点突变变数目、数目、氨基酸出氨基酸出现频现频率率、氨基酸的相氨基酸的相对对突突变变几率几率)构
26、建出)构建出PAM1PAM1突突突突变变概率矩概率矩概率矩概率矩阵阵。n nPAMPAM突突突突变变概率矩概率矩概率矩概率矩阵阵是是PAMPAM打分矩打分矩打分矩打分矩阵阵的基的基础础。n nPAMPAM用来表示相用来表示相对对的的进进化化时间时间。n nPAM1PAM1表示一个表示一个PAMPAM进进化化时间时间,即两个同源蛋,即两个同源蛋白序列有白序列有1 1氨基酸氨基酸发发生生变变化的化的时间时间n nPAM1PAM1突突突突变变概率矩概率矩概率矩概率矩阵阵反映了反映了近近近近缘缘关系(关系(8585氨基氨基酸一致性)蛋白之酸一致性)蛋白之间间氨基酸替氨基酸替换换的的规规律。律。PAM1
27、 突变概率矩阵(万分之一)突变概率矩阵(万分之一)Original amino acid表示一个表示一个表示一个表示一个PAMPAM进进化化化化时间时间内内内内同源序列中的同源序列中的同源序列中的同源序列中的丙氨酸丙氨酸丙氨酸丙氨酸有有有有0.210.21的可能被替的可能被替的可能被替的可能被替换为换为甘氨酸甘氨酸甘氨酸甘氨酸三、三、三、三、PAMPAM矩矩矩矩阵阵n n利用矩利用矩阵阵的乘法,可将的乘法,可将PAM1PAM1矩矩矩矩阵阵自乘若干次自乘若干次得到其他的得到其他的PAMPAM矩矩阵阵。比如。比如PAM1PAM1矩矩矩矩阵阵自乘自乘250250次便得到次便得到PAM250PAM25
28、0矩矩矩矩阵阵。n nPAMPAM后面的数后面的数值值越大,表示氨基酸的越大,表示氨基酸的变变化越大,化越大,进进化距离越化距离越远远。n nPAM250PAM250表示两个同源蛋白序列中,每表示两个同源蛋白序列中,每100100个氨个氨基酸有基酸有250250次次变变化。化。n nPAM250PAM250突突突突变变概率矩概率矩概率矩概率矩阵阵反映了反映了远缘远缘关系(关系(2020氨基酸一致性)蛋白之氨基酸一致性)蛋白之间间氨基酸替氨基酸替换换的的规规律。律。PAM250 突变概率矩阵(突变概率矩阵(%)同源序列中的同源序列中的同源序列中的同源序列中的丙氨酸丙氨酸丙氨酸丙氨酸有有有有121
29、2的可能被替的可能被替的可能被替的可能被替换为换为甘氨酸甘氨酸甘氨酸甘氨酸PAM1 突变概率矩阵(万分之一)突变概率矩阵(万分之一)Original amino acid表示一个表示一个表示一个表示一个PAMPAM进进化化化化时间时间内内内内同源序列中的同源序列中的同源序列中的同源序列中的丙氨酸丙氨酸丙氨酸丙氨酸有有有有0.210.21的可能被替的可能被替的可能被替的可能被替换为换为甘氨酸甘氨酸甘氨酸甘氨酸三、三、三、三、PAMPAM矩矩矩矩阵阵n n人和黑猩猩同源蛋白的比人和黑猩猩同源蛋白的比对对,属,属近近近近缘缘关系的比关系的比较较,PAMPAM 1 1可反映其氨基酸替可反映其氨基酸替换
30、换的的规规律。律。n n人和人和细细菌同源蛋白的比菌同源蛋白的比对对,属,属远缘远缘关系的比关系的比较较,PAMPAM 250250可反映其氨基酸替可反映其氨基酸替换换的的规规律。律。n nPAMPAM后面的数后面的数值值越大,表示氨基酸的越大,表示氨基酸的变变化越大,化越大,进进化距离越化距离越远远。三、三、三、三、PAMPAM矩矩矩矩阵阵n n研究研究PAMPAM矩矩矩矩阵阵的目的是要在序列比的目的是要在序列比对时对时,构建,构建一个一个评评价两条序列相关性的打分系价两条序列相关性的打分系统统。n n为为了便于打分,了便于打分,Dayhoff Dayhoff 将将PAMPAM突突突突变变概
31、率矩概率矩概率矩概率矩阵阵进进行行对对数数数数转换转换,从而构建出了可以,从而构建出了可以实际应实际应用的用的PAMPAM打分矩打分矩打分矩打分矩阵阵。PAM250 PAM250打分矩打分矩打分矩打分矩阵阵(用于(用于(用于(用于远缘远缘关系比关系比关系比关系比对对)PAM250 突变概率矩阵(突变概率矩阵(%)PAM250 PAM250打分矩打分矩打分矩打分矩阵阵(用于(用于(用于(用于远缘远缘关系比关系比关系比关系比对对)氨基酸匹配少,氨基酸匹配少,氨基酸替氨基酸替换换会得到会得到较较少的少的罚罚分分,最,最终会得到一个会得到一个较高高的分数。的分数。PAM10 log oddsscori
32、ng matrix PAM10 PAM10打分矩打分矩打分矩打分矩阵阵(用于近(用于近(用于近(用于近缘缘关系比关系比关系比关系比对对)氨基酸匹配多,匹配氨基酸匹配多,匹配项得分高,最得分高,最终会得到一个会得到一个较高的分数。高的分数。PAM250PAM250与与与与PAM10PAM10的比的比的比的比较较n n远缘远缘关系关系关系关系的蛋白比的蛋白比对对,若用,若用PAM250PAM250打分,由打分,由于氨基酸的替于氨基酸的替换换会得到会得到较较少的少的罚罚分,最分,最终终会得会得到一个到一个较较高的分数。高的分数。n n近近近近缘缘关系关系关系关系的蛋白比的蛋白比对对,若用若用PAM1
33、0PAM10打分,由于打分,由于氨基酸的匹配多,且匹配氨基酸的匹配多,且匹配项项得分高,得分高,则则会得到会得到一个一个较较高的分数。高的分数。构建构建构建构建PAMPAM打分矩打分矩打分矩打分矩阵阵阵阵的的的的过过过过程(程(程(程(Dayhoff Dayhoff 等,等,等,等,19781978)n n构建序列相似(大于构建序列相似(大于8585)的比)的比对对(3434种蛋白种蛋白质质超家族)超家族)n n计计算氨基酸的相算氨基酸的相对对突突变变率(一个氨基酸被其它率(一个氨基酸被其它氨基酸替氨基酸替换换的次数)的次数)n n构建构建PAMPAM突突变变概率矩概率矩阵阵n n将将PAM1
34、PAM1自乘自乘N N次,可以得到次,可以得到PAMPAM(N N)n n取常用取常用对对数,得到数,得到PAMPAM打分矩打分矩阵阵四、四、四、四、BLOSUMBLOSUM矩矩矩矩阵阵阵阵(HenikoffHenikoff夫夫夫夫妇妇妇妇,19921992)n nPAMPAM矩矩矩矩阵阵的的产产生是基于相似性生是基于相似性较较高(高(8585以上)以上)的序列比的序列比对对,那些,那些进进化距离化距离较远较远的矩的矩阵阵(如(如PAM250PAM250)是从初始模型中推算出来而不是直)是从初始模型中推算出来而不是直接接计计算得到的,其准确性受到一定限制。算得到的,其准确性受到一定限制。n n
35、而序列分析的关而序列分析的关键键是是检测进检测进化距离化距离较远较远的序列的序列之之间间是否具有同源性,因此是否具有同源性,因此PAMPAM矩矩矩矩阵阵在在实际实际使使用用时时存在一定的局限。存在一定的局限。四、四、四、四、BLOSUMBLOSUM矩矩矩矩阵阵阵阵(HenikoffHenikoff夫夫夫夫妇妇妇妇,19921992)n nBLOSUMBLOSUM矩矩矩矩阵阵(blocks substitution matrixblocks substitution matrix)模模模模块块替替替替换换矩矩矩矩阵阵。与。与PAMPAM矩矩阵阵相比,相比,BLOSUMBLOSUM矩矩阵阵是根据是
36、根据进进化距离化距离化距离化距离较远较远的蛋白序列的蛋白序列模模模模块块(保守(保守(保守(保守区域)区域)区域)区域)比比对对直接直接计计算得到的。算得到的。n n因此,因此,BLOSUMBLOSUM矩矩矩矩阵阵比比PAMPAM矩矩矩矩阵阵总总的来的来说说要好,要好,尤其是尤其是BLOSUM62BLOSUM62被大多数比被大多数比对对搜索工具搜索工具选选作作为为默默认认的打分矩的打分矩阵阵。n nBLOSUM62BLOSUM62来自于来自于 6262相似度的序列比相似度的序列比对对。n nBLOSUM80BLOSUM80来自于来自于 8080相似度的序列比相似度的序列比对对。Blosum62
37、 scoring matrix(默(默(默(默认认打分矩打分矩打分矩打分矩阵阵)PAM250 PAM250打分矩打分矩打分矩打分矩阵阵(用于(用于(用于(用于远缘远缘关系比关系比关系比关系比对对)小鼠与大鼠的小鼠与大鼠的小鼠与大鼠的小鼠与大鼠的 RBPRBP小鼠与小鼠与小鼠与小鼠与细细菌的菌的菌的菌的lipocalinlipocalin近近近近缘缘关系比关系比关系比关系比对对远缘远缘关系比关系比关系比关系比对对五、五、五、五、PAMPAM与与与与BLOSUMBLOSUM的比的比的比的比较较五、五、五、五、PAMPAM与与与与BLOSUMBLOSUM的比的比的比的比较较n n低低低低值值 PAM
38、PAM矩矩阵阵和和高高高高值值 BLOSUMBLOSUM矩矩阵阵最适合于最适合于近近近近缘缘关系的蛋白比关系的蛋白比对对。n n高高高高值值 PAMPAM矩矩阵阵和和低低低低值值 BLOSUMBLOSUM矩矩阵阵最适合于最适合于远缘远缘关系的蛋白比关系的蛋白比对对。BLASTBLAST上机上机上机上机实习实习内容内容内容内容n n对对于序列于序列3 3,选择选择blastpblastp,将物种限制,将物种限制为为bacteriabacteria,其他参数默其他参数默认认,观观察改察改变变打分矩打分矩阵阵(MatrixMatrix)时时搜搜索索结结果有什么果有什么变变化?化?(记记下下5 5种打
39、分矩种打分矩阵阵的匹配序列的匹配序列总总数并按大小排序)数并按大小排序)BLOSUM BLOSUM4545(9494)BLOSUMBLOSUM6262(6262)BLOSUMBLOSUM8080(4545)PAMPAM7070(1010)PAMPAM3030(1 1)全局比全局比全局比全局比对对与与与与局部比局部比局部比局部比对对的算法的算法的算法的算法n n全局比全局比全局比全局比对对(global alignmentglobal alignment)对对两条核苷酸或氨基酸序两条核苷酸或氨基酸序列的全列的全长进长进行比行比对对。n n局部比局部比局部比局部比对对(local alignmen
40、tlocal alignment)对对两条核苷酸或氨基酸序两条核苷酸或氨基酸序列的一部分列的一部分进进行比行比对对。TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV LPKLAGTWHSMA VNKYLGTWYEIEn n局部比局部比局部比局部比对对通常比全局比通常比全局比通常比全局比通常比全局比对对更有意更有意更有意更有意义义n n因因因因为为它能它能它能它能发现发现序列中的保序列中的保序列中的保序列中的保守区域守区域守区域守区域六、六、六
41、、六、全局比全局比全局比全局比对对与与与与局部比局部比局部比局部比对对的算法的算法的算法的算法n n全局比全局比全局比全局比对对的最的最优优化算法:化算法:Needleman-WunschNeedleman-Wunsch算法算法算法算法 (1970)(1970)n n局局局局部部部部比比比比对对的最的最优优化算法:化算法:SmithSmith-WatermanWaterman算法算法算法算法(1981)(1981)n nFASTAFASTA和和BLASTBLAST是是SmithSmith-WatermanWaterman算法的替算法的替代版本,它代版本,它们们属于一种启属于一种启发发式算法,式
42、算法,优优点是速点是速度快,但没有度快,但没有SmithSmith-WatermanWaterman算法准确。算法准确。BLASTBLAST搜索注意事搜索注意事搜索注意事搜索注意事项项 1 1、BLASTBLAST搜索搜索搜索搜索类类型的型的型的型的选择选择 blastpblastp比比blastnblastn更能更能发现发现序列序列间间的同源关系。的同源关系。(1 1)如果如果查询查询序列序列为为蛋白蛋白质质序列,最好先用序列,最好先用 blastpblastp进进行比行比对对搜索,再用搜索,再用tblastntblastn进进行翻行翻 译译后的比后的比对对搜索。搜索。(2 2)如果如果查询
43、查询序列序列为编码为编码蛋白的蛋白的DNADNA序列,最好用序列,最好用 blastx blastx 进进行翻行翻译译后的蛋白后的蛋白质质序列比序列比对对搜索。若搜索。若 blastx blastx没能得到什么没能得到什么结结果,果,则则可可尝试尝试tblastxtblastx。(3 3)但下列情况但下列情况应应考考虑虑采用采用blastnblastn比比对对搜索:搜索:鉴鉴定一条定一条DNADNA序列的身份,或者序列的身份,或者查询查询序序 列列为为非非编码编码序列序列时时。BLASTBLAST搜索注意事搜索注意事搜索注意事搜索注意事项项 2 2、低复、低复、低复、低复杂杂度区域的度区域的度
44、区域的度区域的过滤过滤 3 3、重复片段的去除、重复片段的去除、重复片段的去除、重复片段的去除 4 4、E E 值值的的的的设设置置置置 5 5、打分矩、打分矩、打分矩、打分矩阵阵的的的的选择选择BLASTBLAST搜索注意事搜索注意事搜索注意事搜索注意事项项6 6、搜索、搜索、搜索、搜索结结果太多怎么果太多怎么果太多怎么果太多怎么办办?n n调调整期望整期望值值;降低;降低 E E 值值n n利用利用Entrez query Entrez query 进进行限制行限制n n限定物种限定物种BLASTBLAST搜索注意事搜索注意事搜索注意事搜索注意事项项7 7、搜索、搜索、搜索、搜索结结果太少
45、怎么果太少怎么果太少怎么果太少怎么办办?n n调调整打分矩整打分矩阵阵;选择选择更高更高PAMPAM值值或更低或更低BLOSUMBLOSUM值值的打分矩的打分矩阵阵n n调调整期望整期望值值;提高;提高 E E 值值n n选择选择特定的数据特定的数据库库(如(如estest、HTGSHTGS等)等)n n选选用其他更加灵敏的用其他更加灵敏的BLASTBLAST搜索工具搜索工具 (如(如PSI-BLAST PSI-BLAST)8 8、比比比比对结对结果的判果的判果的判果的判读读比比比比对结对结果的判果的判果的判果的判读读(统计统计学学学学经验经验专业专业知知知知识识)n nE E值值:E E11
46、0110-4-4 ,E E(0.05/(0.05/数据数据数据数据库库的序列的序列的序列的序列总总数数数数)。比比 如如:E E(0.05/500(0.05/500万万)111010-8 8 参考参考参考参考E E值值:blastnblastn:E E111010-6 6;blastpblastp:E E111010-3 3n n经验经验法法法法则则(针对针对蛋白蛋白蛋白蛋白质质序列):序列):序列):序列):如果两个序列的如果两个序列的长长度都大于度都大于100100,在适当地加入空位之,在适当地加入空位之后,它后,它们们配配对对的的一致性一致性一致性一致性达到达到25%25%以上,以上,则
47、则两个序列相两个序列相关;(关;(DNADNA:一致性一致性一致性一致性达到达到70%70%以上)以上)如果配如果配对对的的一致性一致性一致性一致性小于小于15%15%,则则不管两个序列的不管两个序列的长长度度如何,它如何,它们们都不可能相关;都不可能相关;如果两个序列的如果两个序列的一致性一致性一致性一致性在在15%15%25%25%之之间间,它,它们们可能是可能是相关的也可能不相关(相关的也可能不相关(模糊区模糊区模糊区模糊区)。)。n n专业专业知知知知识识E E 值值与与与与P P 值值的关系的关系的关系的关系E EP P100.9999546050.9932620520.864664
48、7210.632120560.10.09516258(about 0.1)0.050.04877058(about 0.05)0.0010.00099950(about 0.001)0.00010.0001000当当当当E E值值 0.10.1时时,E E P P。E E Value Value(E E值值)与比)与比)与比)与比对结对结果的判果的判果的判果的判读读:在本次搜索中,比在本次搜索中,比对对得分等于或大于得分等于或大于414414分分分分的的随机随机随机随机比比对对数目数目数目数目为为110110-114-114(1e-1141e-114)。)。在本次搜索中,比在本次搜索中,比对对
49、得分等于或大于得分等于或大于414414分分分分属于属于随机随机随机随机比比对对的的概率概率概率概率为为110110-114-114(1e-1141e-114)。)。该该序列与序列与查询查询序列属于序列属于随机匹配随机匹配随机匹配随机匹配的概率的概率为为110110-114-114。该该序列与序列与查询查询序列不可能是序列不可能是随机匹配随机匹配随机匹配随机匹配。该该序列与序列与查询查询序列极可能是序列极可能是同源序列同源序列同源序列同源序列。E E值值是判断两条序列是否同源的重要是判断两条序列是否同源的重要是判断两条序列是否同源的重要是判断两条序列是否同源的重要统计统计学指学指学指学指标标比
50、比比比对结对结果的判果的判果的判果的判读读(统计统计学学学学经验经验专业专业知知知知识识)RBP4 and PAEP:Low bit scoreLow bit score,E value 0.49E value 0.49,24%identity24%identity(“twilight zone”).But they are indeed homologous.Try a BLAST search with PAEP as a query,and find many other lipocalinslipocalins.GTW问题问题n n1 1、什么是序列比、什么是序列比对对?相似性等于同源