《序列相似性搜索ppt课件.ppt》由会员分享,可在线阅读,更多相关《序列相似性搜索ppt课件.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章 序列相似性搜索一、序列相似性搜索的任务和目的一、序列相似性搜索的任务和目的1. 序列相似性搜索的任务序列相似性搜索的任务2. 序列相似性搜索的目的序列相似性搜索的目的二、同源和相似二、同源和相似三、序列的三、序列的BLAST分析分析四、专门的四、专门的BLAST服务器服务器1. 序列比较的任务:序列比较的任务:发现序列之间的相似性发现序列之间的相似性辨别序列之间的差异辨别序列之间的差异2. 目的:目的: 相似序列相似序列 相似的相似的结构,相似的功能结构,相似的功能 判别序列之间的同源性判别序列之间的同源性 推测序列之间的进化关系推测序列之间的进化关系 一、序列相似性搜索的任务和目的一
2、、序列相似性搜索的任务和目的1. 同源(同源(homology)- 具有共同的祖先具有共同的祖先 直向同源(直向同源(Orthologous ) 共生同源(共生同源(paralogous )2.相似(相似(similarity) 同源序列一般是相似的同源序列一般是相似的 相似序列不一定是同源的相似序列不一定是同源的二、同源和相似二、同源和相似一般认为,一般认为,蛋白质序列间至少有蛋白质序列间至少有80个氨基酸左右的区个氨基酸左右的区域有域有25%或更高的同源性或更高的同源性;DNA序列具有序列具有75%以上的以上的同源性有潜在的生物学意义同源性有潜在的生物学意义。三、序列的三、序列的BLAST
3、分析分析BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database.The BLAST algorithm is fast, accurate, and web-accessible.基本局域联配搜寻工具基本局域联配搜寻工具BLASTWebsite of BLASThttp:/www.ncbi.nlm.nih.gov/BLAST/ (BLAST2.0)http:/www2.ebi.ac.uk/blast2/ (WU-Blast2
4、)http:/blast.wustl.edu/ (WU-Blast2)Why use BLAST?BLAST searching is fundamental to understanding the relatedness of any favorite query sequence to other known proteins or DNA sequences.Applications include identifying orthologs and paralogs discovering new genes or proteins discovering variants of g
5、enes or proteins investigating expressed sequence tags (ESTs) exploring protein structure and functionFour components to a BLAST search(1) Choose the sequence (query)(2) Select the BLAST program(3) Choose the database to search(4) Choose optional parametersThen click “BLAST”Step 1: Choose your seque
6、nceSequence can be input in FASTA format, plain text format or as accession numberExample of the FASTA format for a BLAST queryStep 2: Choose the BLAST programStep 2: Choose the BLAST programblastn (nucleotide BLAST)blastp (protein BLAST)blastx (translated BLAST)tblastn (translated BLAST)tblastx (tr
7、anslated BLAST)Choose the BLAST programProgram InputDatabase 1blastnDNADNA 1blastpproteinprotein 6blastxDNAprotein 6tblastnprotein DNA 36tblastxDNA DNADNA potentially encodes six proteins5 CAT CAA 5 ATC AAC 5 TCA ACT 5 GTG GGT 5 TGG GTA 5 GGG TAG5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3
8、3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5Step 3: choose the database nr = non-redundant (most general database)dbest = database of expressed sequence tagsdbsts = database of sequence tag sitesgss = genomic survey sequenceshtgs = high throughput genomic sequenceStep 4a: Select optional s
9、earch parametersCD searchBLAST N searchingStep 4a: Select optional search parametersEntrez!FilterExpectWord sizeorganism增加该值可提高增加该值可提高查询速度查询速度BLAST: optional parameters You can. choose the organism to search turn filtering on/off change the expect (e) value change the word size change the output for
10、matfilteringStep 4b: optional formatting parameters Alignment viewDescriptionsAlignmentstaxonomydatabasequeryprogramtaxonomyBLAST format optionsBLAST format options: multiple sequence alignmentthreshold score = 11EVD parametersBLOSUM matrixEffective search space= mn= length of query x db length10.0
11、is the E valuegap penaltiescut-off parametersWe will get to thebottom of a BLASTsearch in a fewminutesBLASTP Searching with a multidomain protein, polSearching bacterial sequences with polBLAST program selection guidePig growth hormone mRNASequence ID: gb|M22761.1|PIGGHMALength: 878Number of Matches: