《生物信息学04 核酸和蛋白质序列为基础的数据库检索..ppt》由会员分享,可在线阅读,更多相关《生物信息学04 核酸和蛋白质序列为基础的数据库检索..ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章核苷酸和蛋白核苷酸和蛋白质序列序列为根底的数据根底的数据库检索索(Sequence-baseddatabase(Sequence-baseddatabasesearching)searching)本章主要内容:本章主要内容:根本概念根本概念BLASTBLAST检索分析方法索分析方法本章重点本章重点难点:点:核酸和氨基酸序列功能分析的根本方法和核酸和氨基酸序列功能分析的根本方法和原理。原理。u序列序列对位排列位排列sequence alignment u将两条或多条序列将两条或多条序列对位排列,突出相似的位排列,突出相似的结构构区域区域 序列序列1序列序列2两条两条DNA序列序列对位
2、位排列排列分析分析 两条蛋白两条蛋白质序列序列对位位排列排列分析分析 v分析功能分析功能 v分析物种分析物种进化化 v检测突突变、插入或缺失、插入或缺失遗传疾病的疾病的检测 v序列延序列延长(电子子PCR)PCR)v序列定位序列定位(STS)(STS)v基因表达基因表达谱分析分析(EST)(EST)u用途用途u序列序列对位排列分析的种位排列分析的种类 v序列序列对库对位排列分析位排列分析 从数据从数据库中中寻找同源序列找同源序列 主要涉及核苷酸数据主要涉及核苷酸数据库和蛋白和蛋白质数据数据库 v两序列两序列对位排列分析位排列分析 v多序列多序列对位排列分析位排列分析一序列一序列对位排列分析的根
3、本原理位排列分析的根本原理1、记分矩分矩阵scoring matrix u记分矩分矩阵中含有两条序列中含有两条序列对位排列位排列时具体使用具体使用的分的分值 u分数越高,两条序列匹配越好分数越高,两条序列匹配越好DNA序列序列对位位记分矩分矩阵序列序列1 A C G T T A G C 序列序列2 A C T T T G G C 记分分 0.9 0.9 -0.1 0.9 0.9 -0.1 0.9 0.9 5.2u蛋白蛋白质序列序列对位排列分析位排列分析记分复分复杂 u一致氨基酸的一致氨基酸的记分不同分不同 v稀有氨基酸稀有氨基酸C,分,分值高高 v普通氨基酸普通氨基酸S,分,分值低低u相似氨基
4、酸也相似氨基酸也记分,如分,如D-E序列序列1 1:TTYGAPPWCSTTYGAPPWCS序列序列2 2:TGYAPPPWSTGYAPPPWS*序列序列1 1:TTYGAPPWCSTTYGAPPWCS序列序列2 2:TGYAPPPWSTGYAPPPWS*u多种多种记分矩分矩阵 v80年代建立的年代建立的PAM矩矩阵如如PAM30、PAM70 v近年建立的近年建立的BLOSUM矩矩阵如如BLOSUM62、BLOSUM80、BLOSUM45基于更敏感的基于更敏感的对位排列分析位排列分析蛋白蛋白质序列序列对位位记分分序列序列1 V D S C Y 序列序列2 V E S C Y 记分分 4 2 4
5、 9 72、空位、空位间隔隔罚分分gap penalty u基因基因进化化过程中程中产生突生突变u序列序列对位位排列排列分析分析时允允许插入空位插入空位v插入插入 v缺失缺失v空位开放空位开放gap opening v空位延伸空位延伸gap extension蛋白蛋白质序列序列对位位记分分序列序列1 V D S -C Y 序列序列2 V E S L C Y 记分分 4 2 4 -11 9 7acgtatgcatgtacgagctac acgtatgcagtacgagctacu空位空位罚分涉及两个参数分涉及两个参数acgtatgcatgtacgagctac acgtatgca-gtacgagct
6、acv BLAST v FASTA v Blitz二序列二序列对库对位排列分析位排列分析u主要主要检索体系索体系u用待分析序列用待分析序列对数据数据库进行相似性分析行相似性分析 u重复重复许屡次的两两序列屡次的两两序列对位排列分析位排列分析 u从数据从数据库中找出所有同源序列中找出所有同源序列1、根本概念、根本概念 1Sequence identity 和和 sequence similarityIdentity:两条序列在同一位点上的核苷酸或两条序列在同一位点上的核苷酸或 氨基酸残基完全相同氨基酸残基完全相同 Similarity(positive):两条序列在同一位点上的两条序列在同一位点
7、上的 氨基酸残基的化学性氨基酸残基的化学性质相似相似 Query:1 IGQAQCSTFRGRIYNETNIDSAFATQRQANCP 32 IGQAQC TF+RIYNET +AFAT +ANCP Sbjet:2 IGQAQCGTFKDRIYNET-TAFATSLRANCP 29 2Global alignment 和和 local alignmentQuery Subject Query Subject Query Subject Global alignment:两条完整的序列相比两条完整的序列相比较 Local alignment:两条序列中相似程度最高的局部两条序列中相似程度最高的局
8、部 相比相比较 3Gapped alignment 和和 ungapped alignmentQuery Subject Query Subject Query Subject Query Subject Gapped alignment:为到达最正确为到达最正确 alignment,序列中参,序列中参加空位加空位 Ungapped alignment:相比较序列的核苷酸或氨基酸:相比较序列的核苷酸或氨基酸 序列连续序列连续 4Alignment score 和和 E(expect)value 衡量两条相比衡量两条相比较序列相似程度的序列相似程度的标准准raw score:原始分,分原始分,分
9、值越大,两个比越大,两个比较序列相似程度越大序列相似程度越大 bit score:采用采用统计学方法以原始分学方法以原始分为根底根底计算的算的 E value:期望得到的、完全由期望得到的、完全由时机机错误造成的、相当于或造成的、相当于或 大于目前分大于目前分值的的alignment 次数次数 v E=10,5e-46=5 10-46,E 值越小越好值越小越好 v 取决与取决与 alignment 分值、相比较序列的长短和分值、相比较序列的长短和 v数据库中数据的数量数据库中数据的数量 5Low-complexity region(低复低复杂性区域,性区域,LCR)核苷酸和蛋白核苷酸和蛋白质序
10、列中短的重复序列或由少数序列中短的重复序列或由少数几种核苷酸或氨基酸残基几种核苷酸或氨基酸残基组成的序列如成的序列如 Poly-A u 数据库中半数以上的序列至少带有一个数据库中半数以上的序列至少带有一个 LCR u Sequence alignment 时应防止时应防止 LCR 相互配对得分相互配对得分 u BLAST 用用“Filter 功能防止比较功能防止比较 LCR v用用 小写字母代表小写字母代表 LCR 中的每个氨基酸残中的每个氨基酸残基或基或核苷酸核苷酸 2.BLAST(Basic Local Alignment Search Tool)检索索 BLAST 分析工具分析工具 uN
11、ucleotide BLAST(blastn等等)uProtein BLAST(blastp,PSI-BLAST,PHI-BLAST)uTranslated BLAST Searches(blastx,tblastn,tblastx等等)uSpecialized BLAST(BLAST 2 Sequences(bl2seq),conserved domain,VecScreen等等)经常常问的的问题 FAQsBLAST programblastn 用核苷酸序列用核苷酸序列检索核苷酸数据索核苷酸数据库 blastp 用氨基酸序列用氨基酸序列检索蛋白索蛋白质数据数据库 blastx 将核苷酸序列通
12、将核苷酸序列通过 6 种种阅读框翻框翻译成不同的氨基成不同的氨基 酸序列酸序列检索蛋白索蛋白质数据数据库 tblastn 将蛋白将蛋白质序列序列译成不同的核苷酸序列成不同的核苷酸序列检索核苷酸索核苷酸 数据数据库 tblastx 将核苷酸序列通将核苷酸序列通过 6 种种阅读框翻框翻译成不同的氨基成不同的氨基 酸序列酸序列检索核苷酸数据索核苷酸数据库数据数据库中的序列也被中的序列也被 翻翻译出不同的氨基酸序列出不同的氨基酸序列 程序程序查询查询数据库数据库简述简述方法方法blastnblastn核酸核酸核酸核酸适合寻找分值适合寻找分值较高的匹配,较高的匹配,不适合远源关不适合远源关系系用检测序列
13、(核酸)搜索核用检测序列(核酸)搜索核酸序列数据库酸序列数据库blastpblastp蛋白质蛋白质蛋白质蛋白质可能找到具有可能找到具有远源进化关系远源进化关系的匹配序列的匹配序列用检测序列(蛋白质)搜索用检测序列(蛋白质)搜索蛋白质序列数据库蛋白质序列数据库blastxblastx核酸核酸(翻译)(翻译)蛋白质蛋白质适合新适合新DNADNA序列序列和和ESTEST序列的分序列的分析析将核酸序列按将核酸序列按6 6种方式翻译成种方式翻译成蛋白质序列后搜索蛋白质序蛋白质序列后搜索蛋白质序列数据库列数据库tblastntblastn蛋白质蛋白质核酸(翻核酸(翻译)译)适合寻找数据适合寻找数据库中尚未
14、标注库中尚未标注的编码区的编码区用检测序列蛋白质搜索由核用检测序列蛋白质搜索由核酸序列数据库按酸序列数据库按6 6种方式翻译种方式翻译成的蛋白质序列数据库成的蛋白质序列数据库tblastxtblastx核酸核酸(翻译)(翻译)核酸(翻核酸(翻译)译)适合分析适合分析ESTEST序序列列将核酸序列按将核酸序列按6 6种方式翻译成种方式翻译成蛋白质序列后搜索由核酸序蛋白质序列后搜索由核酸序列数据库按列数据库按6 6种方式翻译成的种方式翻译成的蛋白质序列数据库蛋白质序列数据库 G F C N *F F T *L N?W L L Q L I L N L A *C M A S A T N S S L S
15、 L M?5 ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC 3 3 TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG 5?P L Q W *N L V *T L A H S R C S I R *L R *H?A E A V L E E S V N I Blastx 的的 6 种种阅读框架框架 BLAST database nr(nucleotide BLAST)GenBank(无无 EST,STS,GSS,HTGS)nr(protein BLAST)GenBank CDS translation+PDB+SwissProt+PIR+PR
16、F)Genomic sequence 基因基因组序列序列 Swissprot蛋白蛋白质数据数据库 estEST 数据数据库 dbstsSTS 数据数据库 pdb蛋白蛋白质三三维结构数据构数据库 pat专利的数据利的数据库BLAST database 继续继续 Whole-genome shotgun reads全基因全基因组shotgun序列序列 Environmental samples环境境样品品 gssGSS 数据数据库 htgsHTGS 数据数据库 如何如何进行行 BLAST 检索?索?u 使用使用 WWW 效效劳 u 使用使用 BLAST email 效效劳(关关闭)1BLASTN
17、u将要将要查询的序列直接粘的序列直接粘贴到序列框中或到序列框中或输入登入登陆号号GI 号号 u选择 database u可可进行其它工程的行其它工程的选择用于分析用于分析 v选择待分析序列的范待分析序列的范围Query subrange v进一步一步选择检索范索范围:Entrez query(如如 protease NOT hivI)u选择分析方法分析方法Program Selection u选择是否用新窗口展示分析是否用新窗口展示分析结果果Show results in a new windowu转变展示分析展示分析结果的格式果的格式v默默认分析分析结果格式果格式 v点点击“Format t
18、hese results,通,通过“Formatting opertions网网页变换格式,如:格式,如:v“Pairwise with dots for identities格式格式 v“Query-anchered with dots for identities格式格式u可在可在“Algorithm parameters栏目中修改参数目中修改参数v不熟悉各种参数不熟悉各种参数时,使用默,使用默认的参数的参数u点点击“Distance tree of results显示示检索到的序列索到的序列之之间的同源关系的同源关系 u在在“Alignments中中选择检索到的序列,点索到的序列,点击“
19、Get selected sequences获得序列得序列 2BLASTP u根本操作同根本操作同 Blastn u检索索结果:包括果:包括Query序列的保守序列的保守结构域构域 u点点击“Multiple alignment将将检索到的索到的序列序列进行多序列排列比照行多序列排列比照 3PSI-BLAST(Position Specific Iterated BLAST)searchv氨基酸序列氨基酸序列检索索 v重复重复检索数据索数据库 被被查询序列(序列(query)BLAST 标准准检索索 alignment sequences(subject)第一步第一步 检索数据索数据库 新的新
20、的 alignment sequences 第二步第二步 可可继续检索循索循环 序列空序列空间查询序列的序列的同源序列同源序列用第一次用第一次BLASTBLAST搜索的某搜索的某击中中项作作为查询序序列列获得的更多得的更多的的进化关系化关系查询序列序列第一次第一次BLASTBLAST搜搜索的索的击中中项序列A序列B序列CPSI-BLAST 检索可能产生不相关的检索结果假阳性,这种假阳性在后续检索中会被放大。排除假阳性需要逐个进行。4PHI-BLAST(Pattern Hit Initiated BLAST)searchu 蛋白质序列,并带有特殊结构蛋白质序列,并带有特殊结构pattern v
21、带有同有同样的特殊的特殊结构构 v 这一一邻近的序列与被近的序列与被查询序列相似序列相似 u 与与 PSIBLAST 相相连,重复,重复检索索 u 检索数据索数据库中相似的蛋白中相似的蛋白质 v 可可查询检测到的特殊到的特殊结构构 5 Translated BLAST ublastx,tblastn,tblastx u根本操作同根本操作同 Blastn BLAST 2 sequences(bl2seq)u NCBI的分析工具 u 对任意两条序列进行对位排列分析 u 允许空位 u 在BLAST主页的“Specialized BLAST栏目中点击“Align进入Bl2seq的分析网页三两序列三两序
22、列对位排列分析位排列分析u序列来源序列来源 v 输入入 Accession number v 直接粘直接粘贴序列序列 u 适用于适用于 blastn,blastp,blastx,tblastn,tblastx vblastn:两条核苷酸序列相比两条核苷酸序列相比较 vblastp:两条蛋白两条蛋白质序列相比序列相比较 vtblastn:比比较蛋白蛋白质序列翻序列翻译成核苷酸序列成核苷酸序列sequence 1和核苷酸序列和核苷酸序列sequence 2 vblastx:比比较核苷酸序列翻核苷酸序列翻译成蛋白成蛋白质序列序列 sequence 1和蛋白和蛋白质序列序列sequence 2 vtb
23、lastx:两条核苷酸序列翻两条核苷酸序列翻译成蛋白成蛋白质序列序列比比较u 结果果格式格式 v 两种两种图形形 v 两序列两序列对位排列位排列 1Z6T_ACAB55584.11Z6T_ACAB55584.15、上机操作、上机操作 1.了解了解BLAST Frequently Asked Questions的答案。的答案。2.用大麦用大麦Mlo基因基因Z83834检索蛋白索蛋白质数数据据库(blastp,blastx)能找到多少同源序列?能找到多少同源序列?3.从以从以Mlo基因的氨基酸序列基因的氨基酸序列检索到的同源索到的同源序列中任取两条序列,用序列中任取两条序列,用BLAST 2 sequences作分析,看它作分析,看它们之之间是否同源,同是否同源,同源区段如何?源区段如何?