《最新序列相似性检索1124PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新序列相似性检索1124PPT课件.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、序列相似性检索11242008-3-17 2 生物信息主要以基因的形式存在于生物信息主要以基因的形式存在于DNADNA分子中,表现为分子中,表现为DNADNA分子上不同的核苷酸顺序。如果核苷酸的排列顺序发生改分子上不同的核苷酸顺序。如果核苷酸的排列顺序发生改变,那么它代表的生物学意义可能也会随之改变。因此,测变,那么它代表的生物学意义可能也会随之改变。因此,测定定DNADNA分子中的核苷酸排列顺序是生物学研究的基本内容之一。分子中的核苷酸排列顺序是生物学研究的基本内容之一。核算序列分析方法,对于揭示基因组数据的生物学意义、研核算序列分析方法,对于揭示基因组数据的生物学意义、研究基因的结构和功能
2、、揭示生命的奥秘具有十分重要的意义究基因的结构和功能、揭示生命的奥秘具有十分重要的意义 序列分析的意义序列分析的意义11/17/2022序列相似性检索BLAST是为从相同和不同的有机体中,提供对比核酸或蛋白质序列,寻找相似性序列片断的工具。通过寻找不同基因的相同序列片段,可以推断最新测定的基因功能、预测基因家族的新成员、探索基因的进化关系,预测蛋白质代码和翻译产物的功能和定位。11/17/2022基本对比基本对比选择对比程序选择对比程序基因组对比基因组对比特殊对比特殊对比11/17/2022将序列数据将序列数据库中的复制库中的复制序列在此粘序列在此粘贴贴11/17/2022复旦大学图书馆文献检
3、索教研室序列对比报告序列对比报告对比资源对比资源类似性图谱类似性图谱11/17/2022复旦大学图书馆文献检索教研室对比积分报告对比积分报告数据库标识符数据库标识符基因定义基因定义类似性积分类似性积分E值为匹配期值为匹配期望值。说明可望值。说明可以找到与搜索以找到与搜索序列相匹配的序列相匹配的其它序列的几其它序列的几率。率。E值越接值越接近零,越不可近零,越不可能找到其它的能找到其它的匹配序列,其匹配序列,其背后的含义就背后的含义就是是E值越少,值越少,匹配度越好匹配度越好11/17/2022复旦大学图书馆文献检索教研室点击可得待检序列与库存点击可得待检序列与库存序列对排序列对排基因表达库链接
4、基因表达库链接单基因库单基因库基因信息库基因信息库11/17/2022人类染色体上的抗肿瘤基人类染色体上的抗肿瘤基因序列对排表因序列对排表11/17/2022对排序列对排序列不一致处不一致处序列对排报告序列对排报告u进入NCBI(http:/www.ncbi.nlm.nih.gov/)u点击“BLAST”后,进入该命令的主界面,然后在“Nucleotide”栏中点击“BLASTn”u进入nucleotide nucleotide BLAST界面,将获得的DNA序列粘贴到“Search”所对应的方框中,随后根据需要在“Options”和“Format”栏中对相关参数进行选择。一般都可以不变。随后
5、点击“BLAST!”u进入Format界面,点击“Format!”u得到比对的结果如左图GenBank数据库中的两个序列比对实例第四讲第四讲多序列对位排列分析多序列对位排列分析多序列对位排列分析多序列对位排列分析 2008-3-17 19 u主要应用于分析基因或蛋白质的进化主要应用于分析基因或蛋白质的进化 u通过分析多个基因或蛋白质序列之间的同源性通过分析多个基因或蛋白质序列之间的同源性确定它们在进化上的关系确定它们在进化上的关系 u分析基因家族中新成员的翻译起始位点和内含分析基因家族中新成员的翻译起始位点和内含子(预测的氨基酸序列的对位排列分析)子(预测的氨基酸序列的对位排列分析)u分析基因
6、或蛋白质的功能分析基因或蛋白质的功能 1.多序列对位排列分析多序列对位排列分析 (multiple sequence alignment)u两条以上序列的对位排列分析两条以上序列的对位排列分析反转录转座子的反转录酶序列片段反转录转座子的反转录酶序列片段u核苷酸序列或氨基酸序列核苷酸序列或氨基酸序列 u可以发现保守的结构域(重要功能位点?)可以发现保守的结构域(重要功能位点?)u多序列排列多序列排列时允许插入空位时允许插入空位uClustalW:目前公认的的最好的进行:目前公认的的最好的进行 Multiple sequence alignment 的方法之一的方法之一 uInternet 上的许
7、多网站具有上的许多网站具有ClustalW分析软件分析软件 u可以下载可以下载 u对要分析的序列的对要分析的序列的输入格式输入格式有要求,有要求,FASTA(Pearson)格式)格式 sequence 1 ATTGCAGTTCGCA sequence 2 ATAGCACATCGCA u分析方法(举例)分析方法(举例)在在Swiss Institute Bioinformatics(SIB)的)的EXPSY分析主页分析主页(http:/www.expasy.ch)的)的“Tools and software package”栏目中点击栏目中点击“Alignment”在在“Alignment”网
8、页网页的的Sequence alignmentMultipleCLUSTALW栏目中选择栏目中选择“My Hits”网站网站多序列对位排列多序列对位排列结果结果 在在ClustalW网页网页粘贴序列,点击粘贴序列,点击“align”点击点击“Optional output formats”中的中的“clustalw(aln)获得文本格式的排列获得文本格式的排列结果结果 24 ClustalX是Clustal多重序列比对程序的Windows版本。它为进行多重序列比对和分析结果提供一个整体的环境。1序列格式 序列利用菜单文件输入,所有的序列必须放到一个文件中,文件格式可以是*.txt格式,如现有6种序列在一个文件中的输入格式上图 2序列载入 打开软件界面中的文件栏,点击“载入序列”,将文件载入ClustalX中。3运行“完全比对”,得到的结果下图注:“*”代表各序列碱基完全匹配,“*”越多表示序列同源性越高,“”代表空位 基于基于ClustalXClustalX的多重序列比对实例的多重序列比对实例结束语结束语谢谢大家聆听!谢谢大家聆听!25