《生物信息学简明教程.pdf》由会员分享,可在线阅读,更多相关《生物信息学简明教程.pdf(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 生物信息学生物信息学 简明教程简明教程 1第一章 概论.3 第二章 生物信息数据库与查询.5 2.1 基因和基因组数据库.5 1.Genbank.5 2.EMBL 核酸序数据库.7 3.DDBJ数据库.7 4.GDB.7 2.2 蛋白质数据库.8 1.PIR 和 PSD.8 2.SWISS-PROT.8 3.PROSITE.9 4.PDB.9 5.SCOP.9 6.COG.9 2.3 功能数据库.10 1.KEGG.10 2.DIP.10 3.ASDB.10 4.TRRD.11 5.TRANSFAC.11 2.4 其它数据库资源.11 1.DBCat.11 2.PubMed.12 第三章 序
2、比对和数据库搜.12 3.1 序两两比对.12 3.2 多序比对.17 第四章 核酸与蛋白质结构和功能的预测分析.18 4.1 针对核酸序的预测方法.18 1.重复序分析.18 2.数据库搜.19 3.编码区统计特性分析.19 4.启动子分析.19 5.内含子/外显子剪接位点.20 6.翻译起始位点.20 7.翻译终止信号.20 8.其它综合基因预测工具.20 9.tRNA 基因识别.21 4.2 针对蛋白质的预测方法.21 1.从氨基酸组成辨识蛋白质.21 2.预测蛋白质的物性质.22 3.蛋白质二级结构预测.22 24.其它特殊局部结构.23 5.蛋白质的三维结构.24 第五章 分子进化.
3、24 5.1 分子进化钟与中性论.24 5.2 进化树.27 5.3 结构进化树.30 1刚体结构叠合比较.30 2多特征结构比较.31 3相关软件.31 第章 基因组序信息分析.32 6.1 基因组序分析工具.32 1.Wisconsin 软件包(GCG).32 2.ACEDB.36 3其它工具.36 6.2 人类和鼠类公共物图谱数据库的使用.36 1物图谱的类型.36 2.大型公用数据库中的基因组图谱.38 3鼠类图谱来源.46 6.3 全基因组比较.48 6.4 SNP 的发现.48 第七章 功能基因组相关信息分析.48 7.1 大规模基因表达谱分析.49 1实验室信息管系统.49 2基
4、因表达公共数据库.51 3大规模基因表达谱数据分析方法.53 7.2 基因组水平蛋白质功能综合预测.55 3第一章第一章 概论概论 当前人类基因组研究已进入一个重要时期,2000 将获得人类基因组的全部序,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。到 1999 12 月 15日发布的第 115 版为止,GenBank 中的 DNA 碱基数目已达 46 亿 5 千万,DNA 序数目达到 535 万;其中 EST 序超过 339 万条;UniGene 的数目已达到 7 万个;已有 25 个模式生物的完整基因组被测序完成
5、,另外的 70 个模式生物基因组正在测序当中;到 2000 1 月 28日为止,人类基因组已有 16%的序完成测定,另外 37.7%的序已经初步完成;同时功能基因组和蛋白质组的大数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。生物信息学是在此背景下发展起来的综合运用生物学、数学、物学、信息科学以及计算机科学等诸多学科的论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确位置以及各 DNA 片段的功能;同时
6、在发现新基因信息之后进蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进药物设计。解基因表达的调控机也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规。它的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。近来的研究表明,基因组仅是基因的简单排,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。目前在数据库中已经有越来越多的模式生物全基因组序,第
7、一个人类染色体全序-第 22 号染色体的测序工作已经在 1999 12 月完成,整个人类基因组计划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供大的第一手材,同时也为基因组研究取得突破性进展提供可能。人类对基因的认识,将从以往的对单个基因的解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面:1.生物信息的收集、存储、管与提供。包括建国际基本生物信息库和生物信息传输的国际联网系统;建生物信息数据质的评估与检测系统;生物信息的在线服务;生物
8、信息可视化和专家系统。42.基因组序信息的提取和分析。包括基因的发现与鉴定,如用国际 EST 数据库(dbEST)和各自实验室测定的相应数据,经过大规模 并计算发现新基因和新 SNPs 以及各种功能位点;基因组中非编码区的信息结构分析,提出论模型,阐明该区域的重要生物学功能;进模式生物完整基因组的信息结构分析和比较研究;用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与 DNA 折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。3.功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模
9、拟,以及蛋白质功能预测的研究。4.生物大分子结构模拟和药物设计。包括 RNA(核核酸)的结构模拟和反义RNA 的分子设计;蛋白质空间结构模拟和分子设计;具有同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于 DNA 结构的药物设计等。5.生物信息分析的技术与方法研究。包括发展有效的能支持大尺作图与测序需要的软件、数据库以及干数据库工具,诸如电子网络等远程通讯工具;改进现有的论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、经网络方法、复杂性分析方法、密码学方法、多序比较方法等
10、;创建一适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建严格的多序比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探DNA 序及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。6.应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序信息检测技术和基于序信息选择表达载体、引物的技术,建与动植物种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。用生物信息学方法进结构功能预测要注意的是同一问题采用同算法,可能产生相同或同的结果
11、。因此,必要清楚某种方法的基本原,而是仅把算法当作一个“黑箱”。因为一种方法可能对特定实很合适,而对另一个则完全对。因此,本章采用原和实用方法并重的原则进介绍。因生物信息学覆盖面广,限于篇幅,本章并未将生物信息学的全部内容详细加以讲述,仅针对与目前分子生物学实验数据分析密相关的生物信息学策及实用工具进扼要介绍,文中涉及问题的详细信息可参考相关网站。生物信息学是新兴发展中的学科,该领域的研究日新月异,书中的描述可能滞后于生物信息学的最新发展为在所难免,作者期望本章的介绍对读者的研究工作有所助。5第二章第二章 生物信息数据库与查询生物信息数据库与查询 近来大生物学实验的数据积,形成当前数以百计的生
12、物信息数据库。它们各自按一定的目标收集和整生物学实验数据,并提供相关的数据查询、数据处的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整和注释;二级数据库是在一级数据库、实验数据和论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整。国际上著名的一级核酸数据库有 Genbank 数据库、EMBL 核酸库和 DDBJ 库等;蛋白质序数据库有 SWISS-PROT、PIR 等;蛋白质结构库有 PDB 等。国际上二级生物学数据库非常多,
13、它们因针对同的研究内容和需要而各具特色,如人类基因组图谱库 GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库 SCOP等等。下面将顺序简要介绍一些著名和有特色的生物信息数据库。2.1 基因和基因组数据库基因和基因组数据库 1.Genbank Genbank 库包含所有已知的核酸序和蛋白质序,以及与它们相关的文献著作和生物学注释。它是由美国国生物技术信息中心(NCBI)建和维护的。它的数据直接来源于测序工作者提交的序;由测序中心提交的大 EST 序和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank 每天会与欧洲分子生物学实验室(EMBL)的数据库,和日本的 DN
14、A 数据库(DDBJ)交换数据,使这三个数据库的数据同步。到 1999 8 月,Genbank 中收集的序数达到 460 万条,34 亿个碱基,而且数据增长的速还在断加快。Genbank 的数据可以从NCBI 的 FTP 服务器上免费下载完整的库,或下载积的新数据。NCBI 还提供广泛的数据查询、序相似性搜以及其它分析服务,用户可以从 NCBI 的主页上找到这些服务。Genbank 库的数据按来源于约 55,000 个物种,其中 56%是人类的基因组序(所有序中的 34%是人类的 EST 序)。每条 Genbank 数据记录包含对序的简要描述,它的科学命名,物种分类名称,参考文献,序特征表,以
15、及序本身。序特征表包含对序生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在干个文件,如细菌类、病毒类、灵长类、啮齿类,以及 EST 数据、基因组测序数据、大规模基因组序数据等 16 类,其中 EST 数据等又被各自分成干个文件。6(1)Genbank 数据检 NCBI 的数据库检查询系统是 Entrez。Entrez 是基于 Web 界面的综合生物信息数据库检系统。用 Entrez 系统,用户仅可以方地检 Genbank 的核酸数据,还可以检来自 Genbank 和其它数据库的蛋白质序数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数
16、据、种群序数据集、以及由 PubMed获得 Medline的文献数据。Entrez 提供方实用的检服务,所有操作可以在网络浏览器上完成。用户可以用 Entrez 界面上提供的限制条件(Limits)、引(Index)、检历史(History)和剪贴板(Clipboard)等功能来实现复杂的检查询工作。对于检获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检获得的序。详细的 Entrez 使用说明可以在该主页上获得。(2)向 Genbank 提交序数据 测序工作者可以把自己工作中获得的新序提交给 NCBI,添加到 Genbank 数据库。这个任务可以由基于 Web 界面的
17、 BankIt 或独程序 Sequin来完成。BankIt 是一系表单,包括联络信息、发布要求、引用参考信息、序来源信息、以及序本身的信息等。用户提交序后,会从电子邮件收到自动生成的数据条目,Genbank 的新序编号,以及完成注释后的完整的数据记录。用户还可以在BankIt 页面下修改已经发布序的信息。BankIt 适合于独测序工作者提交少序,而适合大序的提交,也适合提交很长的序,EST 序和 GSS 序也应用 BankIt提交。BankIt 使用说明和对序的要求可详见其主页面。大的序提交可以由 Sequin 程序完成。Sequin 程序能方的编辑和处复杂注释,并包含一系内建的检查函数来提高
18、序的质保证。它还被设计用于提交来自系统进化、种群和突变研究的序,可以加入比对的数据。Sequin 除用于编辑和修改序数据记录,还可以用于序的分析,任何以 FASTA 或 ASN.1 格式序为输入数据的序分析程序可以整合到 Sequin 程序下。在同操作系统下运的 Sequin 程序可以在 ftp:/ncbi.nlm.nih.gov/sequin/下找到,Sequin 的使用说明可详见其网页。NCBI 的网址是:http:/www.ncbi.nlm.nih.gov。Entrez的网址是:http:/www.ncbi.nlm.nih.gov/entrez/。BankIt 的网址是:http:/ww
19、w.ncbi.nlm.nih.gov/BankIt。Sequin 的相关网址是:http:/www.ncbi.nlm.nih.gov/Sequin/。72.EMBL 核酸序数据库核酸序数据库 EMBL 核酸序数据库由欧洲生物信息学研究所(EBI)维护的核酸序数据构成,由于与 Genbank 和 DDBJ 的数据合作交换,它也是一个全面的核酸序数据库。该数据库由 Oracal 数据库系统管维护,查询检可以通过通过因特网上的序提取系统(SRS)服务完成。向 EMBL 核酸序数据库提交序可以通过基于 Web的 WEBIN工具,也可以用 Sequin 软件来完成。数据库网址是:http:/www.eb
20、i.ac.uk/embl/。SRS的网址是:http:/srs.ebi.ac.uk/。WEBIN 的网址是:http:/www.ebi.ac.uk/embl/Submission/webin.html。3.DDBJ 数据库数据库 日本 DNA数据仓库(DDBJ)也是一个全面的核酸序数据库,与 Genbank 和 EMBL核酸库合作交换数据。可以使用其主页上提供的 SRS 工具进数据检和序分析。可以用 Sequin 软件向该数据库提交序。DDBJ 的网址是:http:/www.ddbj.nig.ac.jp/。4.GDB 基因组数据库(GDB)为人类基因组计划(HGP)保存和处基因组图谱数据。GD
21、B 的目标是构建关于人类基因组的百科全书,除构建基因组图谱之外,还开发描述序水平的基因组内容的方法,包括序变异和其它对功能和表型的描述。目前GDB 中有:人类基因组区域(包括基因、克、amplimers PCR 标记、断点breakpoints、细胞遗传标记 cytogenetic markers、碎位点 fragile sites、EST 序、综合区域 syndromic regions、contigs 和重复序);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig 图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频数据)。GDB
22、数据库以对象模型来保存数据,提供基于 Web 的数据对象检服务,用户可以搜各种类型的对象,并以图形方式观看基因组图谱。GDB 的网址是:http:/www.gdb.org。GDB 的国内镜像是:http:/ 蛋白质数据库蛋白质数据库 1.PIR 和和 PSD PIR 国际蛋白质序数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序信息中心(MIPS)和日本国际蛋白质序数据库(JIPID)共同维护的国际上最大的公共蛋白质序数据库。这是一个全面的、经过注释的、非冗余的蛋白质序数据库,包含超过 142,000 条蛋白质序(至 99 9 月),其中包括来自几十个完整基因组的蛋白质序。所有序数据
23、经过整,超过 99%的序已按蛋白质家族分类,一半以上还按蛋白质超家族进分类。PSD 的注释中还包括对许多序、结构、基因组和文献数据库的交叉引,以及数据库内部条目之间的引,这些内部引帮助用户在包括复合物、酶底物相互作用、活化和调控级联和具有共同特征的条目之间方的检。每季发一次完整的数据库,每周可以得到新部分。PSD 数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR 提供三类序搜服务:基于文本的交互式检;标准的序相似性搜,包括 BLAST、FASTA 等;结合序相似性、注释信息和蛋白质家族信息的高级搜,包括按注释分类的相似性搜、结构域搜 GeneFIND 等。PIR 和 PSD 的网址是:
24、http:/pir.georgetown.edu/。数据库下载地址是:ftp:/nbrfa.georgetown.edu/pir/。2.SWISS-PROT SWISS-PROT 是经过注释的蛋白质序数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序条目构成,每个条目包含蛋白质序、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序的相似性、序残缺与疾病的关系、序变异体和冲突等信息。SWISS-PROT 中尽可能减少冗余序,并与其它 30 多个数据建交叉引用,其中包括核酸序库、蛋白质序库和蛋白质结构库等。用序提取系统(S
25、RS)可以方地检 SWISS-PROT和其它 EBI 的数据库。SWISS-PROT 只接受直接测序获得的蛋白质序,序提交可以在其 Web 页面上完成。SWISS-PROT的网址是:http:/www.ebi.ac.uk/swissprot/。93.PROSITE PROSITE 数据库收集生物学有显著意义的蛋白质位点和序模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序相似性很低,但由于功能的需要保与功能密相关的序模式,这样就可能通过 PROSITE 的搜找到隐含的功能 motif,因此是序分析的有效工具
26、。PROSITE 中涉及的序模式包括酶的催化位点、配体结合位点、与属离子结合的残基、二键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除序模式之外,PROSITE 还包括由多序比对构建的 profile,能敏感地发现序与 profile 的相似性。PROSITE 的主页上提供各种相关检服务。PROSITE的网址是:http:/www.expasy.ch/prosite/。4.PDB 蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven 国家实验室建。PDB 收集的数据来源于 X 光晶体衍射和核磁共振(NMR)的数据,经过整和确认后存档而成。目前 PDB 数
27、据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB 的主服务器和世界各地的镜像服务器提供数据库的检和下载服务,以及关于 PDB 数据文件格式和其它文档的说明,PDB数据还可以从发的光盘获得。使用 Rasmol等软件可以在计算机上按 PDB 文件显示生物大分子的三维结构。RCSB 的 PDB 数据库网址是:http:/www.rcsb.org/pdb/。5.SCOP 蛋白质结构分类(SCOP)数据库详细描述已知的蛋白质结构之间的关系。分类基于干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全、全、/、
28、和多结构域等几个大类。SCOP 还提供一个非冗余的 ASTRAIL 序库,这个库通常被用来评估各种序比对算法。此外,SCOP 还提供一个 PDB-ISL 中介序库,通过与这个库中序的两两比对,可以找到与未知结构序远缘的已知结构序。SCOP的网址是:http:/scop.mrc-lmb.cam.ac.uk/scop/。6.COG 蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的 21 个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG 库对于预测单个蛋白质的功能 10和整个新基因组中蛋白质的功能很有用。用 COGNITOR 程序,可以把某个蛋白质与所有 COGs 中的蛋白质
29、进比对,并把它归入适当的 COG 簇。COG 库提供对 COG 分类数据的检和查询,基于 Web 的 COGNITOR 服务,系统进化模式的查询服务等。COG 库的网址是:http:/www.ncbi.nlm.nih.gov/COG。下载 COG库和 COGNITOR 程序在:ftp:/ncbi.nlm.nih.gov/pub/COG。2.3 功能数据库功能数据库 1.KEGG 京基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在 GENES 数据库,包括完整和部分测序的基因组序;高级的功能信息存储在 PATHWAY 数据库,包括图解的细胞生
30、化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通等信息;KEGG 的另一个数据库是 LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG 提供 Java 的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序比较、图形比较和通计算的工具,可以免费获取。KEGG 的网址是:http:/www.genome.ad.jp/kegg/。2.DIP 相互作用的蛋白质数据库(DIP)收集由实验验证的蛋白质蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询
31、DIP数据库。DIP的网址是:http:/dip.doe-mbi.ucla.edu/。3.ASDB 可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT 蛋白质序库,通过选取有可变剪接注释的序,搜相关可变剪接的序,经过序比对、筛选和分类构建而成。ASDB(核酸)部分来自 Genbank中提及和注释的可变剪接的完整基因构成。数据库提供方的搜服务。ASDB 的网址是:http:/cbcg.nersc.gov/asdb。114.TRRD 转录调控区数据库(TRRD)是在断积的真核生物基因调控区结构功能特性信息基础上构建的。每一个 TRRD 的条目包含
32、特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD 包括五个相关的数据表:TRRDGENES(包含所有 TRRD 库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD 中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD 主页提供对这几个数据表的检服务。TRRD 的网址是:http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。5.TRANSFAC T
33、RANSFAC 数据库是关于转录因子、它们在基因组上的结合位点和与 DNA 结合的 profiles 的数据库。由 SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD 和 REFERENCE 等数据表构成。此外,还有几个与 TRANSFAC 密相关的扩展库:PATHODB 库收集可能导致病态的突变的转录因子和结合位点;S/MART DB 收集与染色体结构变化相关的蛋白因子和位点的信 息;TRANSPATH 库用于描述与转录因子调控相关的信号传递的网络;CYTOMER 库表现人类转录因子在各个器官、细胞类型、生系统和发育时期的表达状况。TRANSFAC 及其相关
34、数据库可以免费下载,也可以通过 Web 进检和查询。TRANSFAC 的网址是:http:/transfac.gbf.de/TRANSFAC/。2.4 其它数据库资源其它数据库资源 1.DBCat DBCat 是生物信息数据库的目录数据库,它收集 500 多个生物信息学数据库的信息,并根据它们的应用领域进分类。包括 DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检查询。DBCat的网址是:http:/www.infobiogen.fr/services/dbcat/。下载 DBCat在:ftp:/ftp.infobiogen.fr/pub/d
35、b/dbcat。122.PubMed PubMed 是 NCBI 维护的文献引用数据库,提供对 MEDLINE、Pre-MEDLINE 等文献数据库的引用查询和对大网络科学类电子期刊的链接。用 Entrez 系统可以对 PubMed进方的查询检。PubMed 的网址是:http:/www.ncbi.nlm.nih.gov/。除以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及目前生物学研究的各个层面和领域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧洲分子生物学网络组织 EMBNet 中国节点京大学分子生物信息镜像系统,上海博容基因公司与上海
36、嘉瑞软件公司合作开发的国产汉化基因数据库及分析管系统,同时国家级的生物信息学中心也在筹建之中。我们期待国内能有多高质和使用的数据库资源,推动我国生物信息学和整个生命科学的发展。清华大学生物信息学研究所网址:http:/ 京大学生物信息镜像系统网址:http:/ 第三章第三章 序比对和数据库搜序比对和数据库搜 比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用和最经典的研究手段。最常见的比对是蛋白质序之间或核酸序之间的两两比对,通过比较两个序之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进比
37、较,寻找这些有进化关系的序之间共同的保守区域、位点和 profile,从而探导致它们产生共同功能的序模式。此外,还可以把蛋白质序与核酸序相比来探核酸序可能的表达框架;把蛋白质序与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。比对还是数据库搜算法的基础,将查询序与整个数据库的所有序进比对,从数据库中获得与其最相似序的已有的数据,能最快速的获得有关查询序的大有价值的参考信息,对于进一步分析其结构和功能会有很大的帮助。近来随着生物信息学数据大积和生物学知识的整,通过比对方法可以有效地分析和预测一些新发现基因的功能。3.1 序两两比对序两两比对 序比对的论基础是进化学说,如果两个序之间具
38、有足够的相似性,就推测二者可能有共同的进化祖先,经过序内残基的替换、残基或序片段的缺失、以及 13序重组等遗传变异过程分别演化而来。序相似和序同源是同的概,序之间的相似程是可以化的参数,而序是否同源需要有进化事实的验证。在残基残基比对中,可以明显看到序中某些氨基酸残基比其它位置上的残基保守,这些信息揭示这些保守位点上的残基对蛋白质的结构和功能是至关重要的,如它们可能是酶的活性位点残基,形成二键的半胱氨酸残基,与配体结合部位的残基,与属离子结合的残基,形成特定结构 motif 的残基等等。但并是所有保守的残基一定是结构功能重要的,可能它们只是由于历史的原因被保下来,而是由于进化压而保下来。因此,
39、如果两个序有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要多实验和信息的支持。通过大实验和序比对的分析,一般认为蛋白质的结构和功能比序具有大的保守性,因此粗的说,如果序之间的相似性超过 30%,它们就很可能是同源的。早期的序比对是全局的序比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会加合。通常用打分矩阵描述序两两比对,两条序分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序比对问题变成在矩阵寻找最佳比对径,目前最有效的方法是 Needleman-Wunsch 动态规划算法,在
40、此基础上又改产生 Smith-Waterman 算法和 SIM 算法。在 FASTA 程序包中可以找到用动态规划算法进序比对的工具 LALIGN,它能给出多个相互交叉的最佳比对结果。在进序两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的同影响效果,缬氨酸对异氨酸的取代与谷氨酸对异氨酸的取代应该给予同的打分。因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有 PAM 和 BLOS
41、UM等,它 们 来 源 于 同 的 构 建 方 法 和 同 的 参 数 选 择,包 括 PAM250、BLOSUM62、BLOSUM90、BLOSUM30 等。对于同的对象可以采用同的取代矩阵以获得多信息,如对同源性较高的序可以采用 BLOSUM90 矩阵,而对同源性较低的序可采用 BLOSUM30 矩阵。空位罚分是为补偿插入和缺失对序相似性的影响,由于没有么合适的论模型能很好地描述空位问题,因此空位罚分缺乏论依据而多的带有主观特色。一般的处方法是用两个罚分值,一个对插入的第一个空位罚分,如 1015;另一个对空位的延伸罚分,如 12。对于具体的比对问题,采用同的罚分方法会取得同的效果。对于比
42、对计算产生的分值,到底多大才能说明两个序是同源的,对此有统计学方法加以说明,主要的思想是把具有相同长的随机序进比对,把分值与最初的 14比对分值相比,看看比对结果是否具有显著性。相关的参数 E 代表随机比对分值低于实际比对分值的概。对于严格的比对,必须 E 值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除由于偶然的因素产生高比对得分的可能。Genbank、SWISS-PROT 等序数据库提供的序搜服务是以序两两比对为基础的。同之处在于为提高搜的速和效,通常的序搜算法进一定程的优化,如最常见的 FASTA 工具和 BLAST 工具。FASTA 是第一个被广泛应用的序比对和搜工具
43、包,包含干个独的程序。FASTA 为提供序搜的速,会先建序片段的“字典”,查询序先会在字典搜可能的匹配序,字典中的序长由 ktup 参数控制,缺的 ktup=2。FASTA 的结果报告中会给出每个搜到的序与查询序的最佳比对结果,以及这个比对的统计学显著性评估 E 值。FASTA 工具包可以在大多提供下载服务的生物信息学站点上找到。BLAST是现在应用最广泛的序相似性搜工具,相比 FASTA 有多改进,速快,并建在严格的统计学基础之上。NCBI 提供基于 Web 的 BLAST 服务,用户可以把序填入网页上的表单,选择相应的参数后提交到数据服务器上进搜,从电子邮件中获得序搜的结果。BLAST 包
44、含五个程序和干个相应的数据库,分别针对同的查询序和要搜的数据库类型。其中翻译的核酸库指搜比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序。表 1.BLAST 程序:程序 数据库 查 询 简 述 blastp blastn blastx tblastn tblastx 蛋白质 核酸 蛋白质 核苷酸(翻译)核酸(翻译)蛋白质 核苷酸 核酸(翻译)蛋白质 核酸(翻译)可能找到具有远源进化关系的匹配序 适合寻找分值较高的匹配,适合远源关系 适合新 DNA 序和 EST序的分析 适合寻找数据库中尚未标注的编码区 适合分析 EST序 表 2.BLAST 的蛋白质数据库:数据库 简 述 15nr
45、 month swissprot pdb yeast E.coli Kabat alu 汇集 SWISS-PROT,PIR,PRF 以及从 GenBank 序编码区中得到的 蛋白质和 PDB 中拥有原子坐标的蛋白质,并去除冗余的序 nr 中过去 30 天内的最新序 SWISS-PROT数据库 PDB 结构数据库中的蛋白质序 酵母基因组中编码的全部蛋白质 大肠杆菌基因组中编码的全部蛋白质 Kabat 的免疫学相关蛋白质序 由 REPBASE 中的 Alu 重复序翻译而来,用来遮蔽查询序中的 重复片段 表 3.BLAST 的核酸数据库:数据库 简 述 nr month dbest dbsts ht
46、gs yeast E.coli 非冗余的 GenBankEMBLDDBJPDB序,除 EST、STS、GSS和 0,1,2 阶段的 HTGS序 nr 中过去 30 天的最新序 非冗余的 GenbankEMBLDDBJPDB的 EST 部分 非冗余的 GenbankEMBLDDBJPDB的 STS 部分 0,1,2 阶段的高产基因组序(3 阶段完成的 HTG 序在 nr 库)16pdb kabat vector mito alu gss 酵母的全基因组序 大肠杆菌的全基因组序 由三维结构库来的核酸序 Kabat 的免疫学相关序库 Genbank 的载体子集 线体核酸序 REPBASE 中 Alu
47、 重复序翻译而来,用来遮蔽查询序中的重复片段 基因组勘测序(Genome Survey Sequence)BLAST 对序格式的要求是常见的 FASTA 格式。FASTA 格式第一是描述,第一个字符必须是“”字符;随后的是序本身,一般每序要超过 80 个字符,回车符会影响程序对序连续性的看法。序由标准的 IUB/IUPAC 氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表明长的空位;在氨基酸序允许出现“U”和“*”号;任何数字应该被去掉或换成字母(如,明核酸用“N”,明氨基酸用“X”)。此外,对于核酸序,除 A、C、G、T、U分别代表各种核酸之外,R 代表 G 或 A(嘌呤);
48、Y 代表 T 或 C(嘧啶);K 代表 G 或T(带酮基);M 代表 A 或 C(带氨基);S 代表 G 或 C(强);W 代表 A 或 T(弱);B 代表 G、T 或 C;D 代表 G、A 或 T;H 代表 A、C 或 T;V 代表 G、C 或 A;N代表A、G、C、T 中任意一种。对于氨基酸序,除 20 种常见氨基酸的标准单字符标识之外,B 代表 Asp 或 Asn;U 代表硒代半胱氨酸;Z 代表 Glu 或 Gln;X 代表任意氨基酸;“*”代表翻译结束标志。BLAST 的当前版本是 2.0,它的新发展是位点特异性反复 BLAST(PSI-BLAST)。PSI-BLAST 的特色是每次用
49、 profile 搜数据库后再用搜的结果重新构建profile,然后用新的 profile 再次搜数据库,如此反复直至没有新的结果产生为止。PSI-BLAST 先用带空位的 BLAST 搜数据库,将获得的序通过多序比对来构建第一个 profile。PSI-BLAST 自然地展 BLAST 方法,能寻找蛋白质序中的隐含模式,有研究表明这种方法可以有效的找到很多序差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如 threading 相媲美。PSI-BLAST服务可以在 NCBI 的 BLAST主页上找到,还可以从 NCBI的 FTP 服务器上下载 PSI-BLAST的独程序。NCB
50、I 的 BLUST网址是:http:/www.ncbi.nlm.nih.gov/BLAST/。17下载 BLUST 的网址是:ftp:/ncbi.nlm.nih.gov/blast/。下载 FASTA 的网址是:ftp:/ftp.virginia.edu/pub/fasta/。3.2 多序比对多序比对 顾名思义,多序比对就是把两条以上可能有系统进化关系的序进比对的方法。目前对多序比对的研究还在断前进中,现有的大多数算法基于渐进的比对的思想,在序两两比对的基础上逐步优化多序比对的结果。进多序比对后可以对比对结果进进一步处,如构建序模式的 profile,将序聚类构建分子进化树等等。目前使用最广泛