《核酸序列相似性分析.ppt》由会员分享,可在线阅读,更多相关《核酸序列相似性分析.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第第2章章 核酸序列分析核酸序列分析2.1 GenBank数据格式数据格式2.2 序列数据库检索序列数据库检索2.3 核酸序列相似性分析核酸序列相似性分析2.4 核酸的多序列比对核酸的多序列比对2.5 构建进化树构建进化树2.6 核酸序列的预测与鉴定核酸序列的预测与鉴定2.7 核酸序列的酶切位点分析核酸序列的酶切位点分析22.1 GenBank数据格式数据格式243)Click“Search”1)Select“nucleotide”2)Enter“U49845”3GenBank数据格式数据格式长度长度分子类型分子类型来源来源更新日期更新日期登录号登录号24作者作者标题标题生物生物杂志杂志4表
2、表2.1 GenBank分类码分类码26PRI RODMAM VRT INV PLNBCT VRL PHGSYN UNA EST PATSTSGSSHTGHTCprimate sequences-rodent sequences-other mammalian sequences-other vertebrate sequences-invertebrate sequences-plant,fungal,and algal sequences-bacterial sequences-viral sequences-bacteriophage sequences-synthetic sequen
3、ces-unannotated sequences-EST sequences(expressed sequence tags)-patent sequences-STS sequences(sequence tagged sites)-GSS sequences(genome survey sequences)-High-throughput genomic sequences-High-throughput cDNA sequencing-灵长类序列啮齿类序列其他哺乳动物序列其他脊椎动物序列无脊椎动物序列植物/真菌/藻类序列细菌序列病毒序列噬菌体序列合成序列未注释序列表达序列标签序列专利序
4、列序列标签位点序列基因组探查序列高通量基因组序列高通量cDNA序列5Features(特性表)(特性表)coding sequences(编码序列)(编码序列)翻译产物翻译产物6GenBank data format(4/4)核苷酸序列核苷酸序列72.2 序列数据库检索序列数据库检索33All Databases下拉菜单提供下拉菜单提供了了分类提取数据分类提取数据的功能。的功能。8用用“序列号序列号”提取提取核苷酸核苷酸数数据据1)选择)选择Nucleotide2)输入)输入“AF310622”3)Click9提取结果(提取结果(1/2)10提取结果(提取结果(2/2)11用用“序列号序列号”
5、提取提取蛋白质蛋白质数数据据1)选择)选择Protein2)输入)输入“P15172”3)Click12提取结果(提取结果(1/2)13提取结果(提取结果(2/2)14Practice请大家回去把刚才讲过的内容练习一遍。请大家回去把刚才讲过的内容练习一遍。152.3 核酸序列相似性分析核酸序列相似性分析38对一个新测定的核酸序列的序列数据,可以通对一个新测定的核酸序列的序列数据,可以通过使用不同的关键词从数据库中检索有用的信过使用不同的关键词从数据库中检索有用的信息,还可以做以下的工作:息,还可以做以下的工作:单条序列的序列特单条序列的序列特征分析;序列的双重比对和数据库检索;多序征分析;序列
6、的双重比对和数据库检索;多序列比对;通过多序列比对分析序列的模块;构列比对;通过多序列比对分析序列的模块;构建进化树。建进化树。162.3.1 相似性搜索相似性搜索39同源性(同源性(homology):):指两条序列在进化上相指两条序列在进化上相关(来自于共同祖先),是一种已经发生的进关(来自于共同祖先),是一种已经发生的进化事件。化事件。取值:取值:Yes or No,需要通过相关分析,需要通过相关分析才能得出结论。才能得出结论。例如:对例如:对bHLH转录因子序列的系转录因子序列的系统发生分析时,如果用不同建树方法得到的树形一致并统发生分析时,如果用不同建树方法得到的树形一致并且自举检验
7、值高于且自举检验值高于50%时,认为序列之间有同源性。时,认为序列之间有同源性。相似性(相似性(similarity):):只是指两条序列之间的只是指两条序列之间的简单相似。简单相似。取值:取值:0 100%,只需通过,只需通过BLAST(或类似的程序)进行估算。(或类似的程序)进行估算。17“同源同源”不一定不一定“相似相似”39人、猫、鲸和蝙蝠的前肢骨骼具有同源性。人、猫、鲸和蝙蝠的前肢骨骼具有同源性。181)BLAST40BLAST:basic local alignment search tool 基本局部比对搜索工具基本局部比对搜索工具Basic BLAST(5种)种)Special
8、ized BLAST(8种)种)Click here19Basic BLAST40blastnblastp20Basic BLAST核酸序列核酸序列Nucleotidesequence蛋白质序列蛋白质序列Proteinsequence核酸序列核酸序列Nucleotidesequences蛋白质序列蛋白质序列Proteinsequencesblastnblastptblastnblastxtblastx查询序列查询序列Query sequence数据库序列数据库序列Database sequences21Basic BLASTblastn:用用核酸核酸序列检索序列检索核酸序列数据库核酸序列数据库
9、blastp:用用蛋白质蛋白质序列检索序列检索蛋白质序列数据库蛋白质序列数据库blastx:把把核酸序列翻译成蛋白质序列核酸序列翻译成蛋白质序列后检索后检索蛋白质序列数据库蛋白质序列数据库 (查询序列查询序列以所有以所有6种读码框翻译后再进行比较)种读码框翻译后再进行比较)tblastn:用用蛋白质蛋白质序列检索序列检索核酸序列数据库核酸序列数据库 (数据库中的核酸序列数据库中的核酸序列以所有以所有6种读码框翻译后与种读码框翻译后与查询序列查询序列比较)比较)tblastx:把把核酸序列翻译成蛋白质序列核酸序列翻译成蛋白质序列后检索后检索核酸序列数据库核酸序列数据库 (查询序列查询序列和和数据
10、库序列数据库序列都以所有都以所有6种读码框翻译后再进行比较)种读码框翻译后再进行比较)226种读码框种读码框 5-TCT TCC TCA AAA TAA AGA AGT ATG GTA ATC-3 5-TCT TCC TCA AAA TAA AGA AGT ATG GTA ATC-3Frame+1 TCT TCC TCA AAA TAA AGA AGT ATG GTA ATCFrame+1 TCT TCC TCA AAA TAA AGA AGT ATG GTA ATCFrame+2 T CTT CCT CAA AAT AAA GAA GTA TGG TAA TCFrame+2 T CTT CC
11、T CAA AAT AAA GAA GTA TGG TAA TCFrame+3 TC TTC CTC AAA ATA AAG AAG TAT GGT AAT CFrame+3 TC TTC CTC AAA ATA AAG AAG TAT GGT AAT CFrame-1 GAT TAC CAT ACT TCT TTA TTT TGA GGA AGA Frame-1 GAT TAC CAT ACT TCT TTA TTT TGA GGA AGA Frame-2 G ATT ACC ATA CTT CTT TAT TTT GAG GAA GA Frame-2 G ATT ACC ATA CTT C
12、TT TAT TTT GAG GAA GA Frame-3 GA TTA CCA TAC TTC TTT ATT TTG AGG AAG A Frame-3 GA TTA CCA TAC TTC TTT ATT TTG AGG AAG A 3 3-AGA AGG AGT TTT ATT TCT TCA TAC CAT TAG -AGA AGG AGT TTT ATT TCT TCA TAC CAT TAG 5 523Specialized BLAST24(1)blastn41Click here.25blastn的界面与相关数据库的界面与相关数据库412)Select database.3)C
13、lick“BLAST”.1)Paste your sequence here (Word,Text or FASTA format)26Blastn databases41请参考表请参考表2.5的说明的说明27Example 2-144使用使用blastn对下面的序列进行相似性检索。对下面的序列进行相似性检索。AAAAGAAAAGGTTAGAAAGATGAGAGATGATAAAGGGTCCATTTGAGGTTAGGTAATATGGTTTGGTATC CCTGTAGTTAAAAGTTTTTGTCTTATTTTAGAATACTGTGATCTATTTCTTTAGTATTAATTTTTCCTTC TG
14、TTTTCCTCATCTAGGGAACCCCAAGAGCATCCAATAGAAGCTGTGCAATTATGTAAAATTTTCAACTG TCTTCCTCAAAATAAAGAAGTATGGTAATCTTTACCTGTATACAGTGCAGAGCCTTCTCAGAAGCACAGA ATATTTTTATATTTCCTTTATGTGAATTTTTAAGCTGCAAATCTGATGGCCTTAATTTCCTTTTTGACAC TGAAAGTTTTGTAAAAGAAATCATGTCCATACACTTTGTTGCAAGATGTGAATTATTGACACTGAACTTA ATAACTGTGTACTGTTCG
15、GAAGGGGTTCCTCAAATTTTTTGACTTTTTTTGTATGTGTGTTTTTTCTTTT TTTTTAAGTTCTTATGAGGAGGGGAGGGTAAATAAACCACTGTGCGTCTTGGTGTAATTTGAAGATTGCC CCATCTAGACTAGCAATCTCTTCATTATTCTCTGCTATATATAAAACGGTGCTGTGAGGGAGGGGAAAAG CATTTTTCAATATATTGAACTTTTGTACTGAATTTTTTTGTAATAAGCAATCAAGGTTATAATTTTTTTT AAAATAGAAATTTTGTAAGAAGGCAATATTAACC
16、TAATCACCATGTAAGCACTCTGGATGATGGATTCCA CAAAACTTGGTTTTATGGTTACTTCTTCTCTTAGATTCTTAATTCATGAGGAGGGTGGGGGAGGGAGGTG GAGGGAGGGAAGGGTTTCTCTATTAAAATGCATTCGTTGTGTTTTTTAAGATAGTGTAACTTGCTTAAAT TTCTTATGTGACATTAACAAATAAAAAAGCTCTTTTAATATTAGATAA 28使用使用blastn的步骤的步骤2)Select“nr/nt”.3)Click“BLAST”.1)Paste your sequence h
17、ere (Word,Text or FASTA format)搜索参搜索参数设定数设定29搜索参数设定搜索参数设定可以在此输可以在此输入生物名称入生物名称30搜索参数设定搜索参数设定可以在此设定可以在此设定E值值可以选择不使用过滤器可以选择不使用过滤器可以选择不同打分矩阵可以选择不同打分矩阵31搜索参数设定搜索参数设定初学者一般不更改设初学者一般不更改设定而选用默认设置,定而选用默认设置,直接点击直接点击BLAST32Wait for a while 33Blastn result(1/4)4434Blastn result(2/4)45比对分值比对分值颜色代码颜色代码35Blastn res
18、ult(3/4)E值越小,相似性越大。值越小,相似性越大。(E值:找出比值:找出比本序列本序列与与查询序列查询序列更相似的概率)更相似的概率)Click here.4536Blastn result(4/4)低复杂度区域用小写字母表示低复杂度区域用小写字母表示查询序列查询序列(核酸)(核酸)数据库序列数据库序列(核酸)(核酸)37Practice 2-1试对以下试对以下DNA序列做序列做blastn分析。分析。gtacgtccgg cctggtggtg ggttcgagcc caacttcatg gtacgtccgg cctggtggtg ggttcgagcc caacttcatg ctctt
19、cgaga agtgcgaggt gaacggtgcg ggggcgcacc ctcttcgaga agtgcgaggt gaacggtgcg ggggcgcacc ctctcttcgc cttcctgcgg gaggccctgc cagctcccag ctctcttcgc cttcctgcgg gaggccctgc cagctcccag cgacgacgcc accgcgctta tgaccgaccc caagctcatc cgacgacgcc accgcgctta tgaccgaccc caagctcatc acctggtctc cggtgtgtcg caacgatgtt gcctggaa
20、ct acctggtctc cggtgtgtcg caacgatgtt gcctggaact ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc cttacagtgc ttgttcgggg cgctccgctgcttacagtgc ttgttcgggg cgctccgctg38(2)blastxClick here.blastx:把把核酸序列翻译成蛋白质序列核酸序列翻译成蛋白质序列后检索后检索蛋白质序列数据库蛋白质序列数据库 (查询序列查询序列以所有以所有6种读码框翻译后
21、再进行比较)种读码框翻译后再进行比较)39blastxClick here.1)Paste your sequence here (Word,Text or FASTA format)40Example 2-2使用使用blastx对下面的序列进行相似性检索。对下面的序列进行相似性检索。gtacgtccgg cctggtggtg ggttcgagcc caacttcatg ctcttcgaga agtgcgaggt gaacggtgcg ggggcgcacc ctctcttcgc cttcctgcgg gaggccctgc cagctcccag cgacgacgcc accgcgctta tga
22、ccgaccc caagctcatc acctggtctc cggtgtgtcg caacgatgtt gcctggaact ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc cttacagtgc ttgttcgggg cgctccgctg41Blastx result数据库序列数据库序列(蛋白质)(蛋白质)查询序列查询序列(翻译成了(翻译成了蛋白质序列,读码框为蛋白质序列,读码框为+2)42(3)tblastxClick heretblastx:把把核酸序列翻译成蛋白质序列核酸序列翻译成蛋白质序列后检索后检索核酸序列数据库核酸序列数据库(查询序列查询序列
23、和和数据库序列数据库序列都以所有都以所有6种读码框翻译后再进行比较)种读码框翻译后再进行比较)43tblastxClick here.1)Paste your sequence here (Word,Text or FASTA format)44Example 2-3使用使用tblastx对下面的序列进行相似性检索。对下面的序列进行相似性检索。gtacgtccgg cctggtggtg ggttcgagcc caacttcatg ctcttcgaga agtgcgaggt gaacggtgcg ggggcgcacc ctctcttcgc cttcctgcgg gaggccctgc cagctc
24、ccag cgacgacgcc accgcgctta tgaccgaccc caagctcatc acctggtctc cggtgtgtcg caacgatgtt gcctggaact ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc cttacagtgc ttgttcgggg cgctccgctg45tblastx result数据库序列数据库序列(原本是核酸(原本是核酸序列,被翻译序列,被翻译成了蛋白质,成了蛋白质,读码框为读码框为+3)查询序列查询序列(翻译成了(翻译成了蛋白质序列,蛋白质序列,读码框为读码框为+1)46Practice请大家回去把刚
25、才讲过的内容练习一遍。请大家回去把刚才讲过的内容练习一遍。47Summary /小结小结1.GenBank数据格式数据格式2.用用“序列号序列号”提取核苷酸数据提取核苷酸数据3.用用“序列号序列号”提取蛋白质数据提取蛋白质数据4.使用使用blastn的步骤的步骤5.blastx6.tblastx48GenBank数据格式数据格式长度长度分子类型分子类型来源来源更新日期更新日期登录号登录号24作者作者标题标题生物生物杂志杂志49用用“序列号序列号”提取提取核苷酸核苷酸数数据据1)选择)选择Nucleotide2)输入)输入“AF310622”3)Click50用用“序列号序列号”提取提取蛋白质蛋
26、白质数数据据1)选择)选择Protein2)输入)输入“P15172”3)Click51使用使用blastn的步骤的步骤2)Select“nr/nt”.3)Click“BLAST”.1)Paste your sequence here (Word,Text or FASTA format)搜索参搜索参数设定数设定52blastxClick here.blastx:把把核酸序列翻译成蛋白质序列核酸序列翻译成蛋白质序列后检索后检索蛋白质序列数据库蛋白质序列数据库 (查询序列查询序列以所有以所有6种读码框翻译后再进行比较)种读码框翻译后再进行比较)53tblastxClick heretblastx:把把核酸序列翻译成蛋白质序列核酸序列翻译成蛋白质序列后检索后检索核酸序列数据库核酸序列数据库(查询序列查询序列和和数据库序列数据库序列都以所有都以所有6种读码框翻译后再进行比较)种读码框翻译后再进行比较)