基因组学、蛋白质组学和生物信息学.ppt-淘文阁

资源描述

《基因组学、蛋白质组学和生物信息学.ppt》由会员分享，可在线阅读，更多相关《基因组学、蛋白质组学和生物信息学.ppt（67页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十二章基因组学、蛋白质组学和生物信息学一、基因组学二、蛋白质组学三、生物信息学1基因组学研究并解析生物体整个基因组的所有基因组学研究并解析生物体整个基因组的所有遗传信息。遗传信息。基因组（基因组（genome）是细胞或生物体的一套完）是细胞或生物体的一套完整的单倍体遗传物质，是所有不同染色体上全整的单倍体遗传物质，是所有不同染色体上全部基因和基因间的部基因和基因间的DNA的总和。分为的总和。分为核基因核基因组、核外基因组组、核外基因组基因组学研究方法：基因组学研究方法：SAGE、DNA chips等等2人人类类基基因因组计划组计划31.1940年代第一颗原子弹爆炸；2.1960年

2、代人类首次登上月球；3.1990年代提出并基本完成的人类基因组计划（Human Genome Project，HGP）DNA 双螺旋结构的发现者之一、美国国家卫生研究院（NIH）人类基因组研究所第一任所长J.D.Watson 1990年在Science上撰文指出，与人类登月计划相比，HGP的资金投入少，但它对人类生活的影响却可能更深远。1990年，美国发起，耗资30亿美元，历时15年，1999年，中国参与3号染色体上一小片段，占1。20世世纪纪人人类类科技科技发发展史上的三大展史上的三大创举创举4 6人类基因组计划的目标：（1）确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置，研

3、究基因的产物及其功能。（2）了解转录和剪接调控元件的结构与位置，从整个基因组结构的宏观水平上理解基因转录与转录后调节。（3）从整体上了解染色体结构，包括各种重复序列以及非转录“框架序列”的大小和组织，了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。（4）研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看，似乎相距甚远，但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置，因此，有必要从三维空间的角度来研究真核基因的表达调控规律。7（5）发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性，正常的重组提供了变异与进化

4、的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育，因此，了解与人类DNA正常复制和重组有关的序列及其变化，将对研究人类基因组的遗传与进化提供重要的结构上的依据。（6）研究DNA突变、重排和染色体断裂等，了解疾病的分子机制，包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程，为这些疾病的诊断、预防和治疗提供理论依据。（7）确定人类基因组中转座子、逆转座子和病毒残余序列，研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响，可能指导人类有效地利用病毒载体进行基因治疗。（8）研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊

5、断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外，这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。8 人类基因组研究内容包括遗传图（Genetic Map）绘制、物理图（Physical Map）构建、人类基因组的人类基因组的序列图序列图测序、转录图（Expression Profiling）绘制和基因鉴定等方面的工作。通过多年来的发展，基因组学（genomics）作为一门专门学科，已应运而生。它涵盖以下几个方面：结构基因组学，着重遗传图、物理图、测序等研究；功能基因组学，在基因组水平上阐明DNA序列的功能；比较基因组学

6、，包括对不同进化阶段生物基因组的比较研究，也包括不同人种、族群和群体基因组的比较研究。此外，工业基因组学、环境基因组学、药物基因组学、疾病基因组学等分支学科也在不断发展。9 基因组的序列主要可被分为三类：（一）通过比较确知其生理功能的；（二）在数据库中有相匹配的蛋白质序列，但并不知道其功能的；（三）在现有数据库中找不到任何相匹配的蛋白质序列的新基因。由于生物在进化上是相互关联的，对一种生物的研究可以为其它生物提供有价值的信息。比较基因组学的威力就在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性，寻找研究复杂生理和病理过程所

7、需的实验模型提供了理论依据，而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。因此，为充分理解人类基因组，必须对一系列近缘和远缘的模式生物进行基因组程度上的比较分析工作。10功能基因组学研究功能基因组学研究研究方法：1、定点破坏结构基因（gene knock-out）2、基因组内定位表达目的基因（gene knock-in）的方法来研究新基因的3、获得全长cDNA的技术（RACE）4、功能克隆法：分离纯化蛋白，测序后设计探针从文库中筛选基因5、定位克隆法：先利用连锁分析定位基因，再根据物理图谱找出相关的BAC克隆，进一步查看此克隆序列，计算机分析，定位合适的候选基因6、酵母双杂交1

8、112遗传图也称连锁图，是指基因或DNA标志在染色体上的相对位置与遗传距离，后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩（cM）来表示。遗传图的绘制是人类基因组研究的第一步，即以染色体上某一点为遗传标记，以与之相伴遗传的特征为对象，经连锁分析，将编码该特征的基因定位于染色体特定位置。cM值越大，两者之间距离越远。通过遗传图分析，我们可以大致了解各个基因或DNA片段之间的相对距离与方向，了解哪个基因更靠近着丝粒，哪个更靠近端粒等。遗传距离是通过遗传连锁分析获得的，研究中所使用的DNA标志越多，越密集，所得到的遗传连锁图的分辨率就越高。经典的遗传标记是可被电泳或免疫技术检出的蛋白质标

9、记，如红细胞ABO血型位点标记，白细胞HLA位点标记等。例如，在ABO血型基因中，位于9号染色体长臂3区4带（9q34）的基因IA，决定抗原A的存在，表现A型血性状。由于ABO血型的广泛存在，所以可用它作遗传标记。当在某一家庭中，观察到了指甲髌骨综合征与A型血相伴遗传时，科学家就认为，这种病的致病基因NP与IA基因相连锁，也位于9q34区段。进一步的观察发现，这个家庭的后代中，有1/10为A型血而无指甲髌骨综合征，这表明基因IA和NP发生了交换，交换率（重组率）为1/10。这时就可说，基因IA和NP相距较近，连锁图上的距离为10厘摩（重组率1即为1厘摩）。遗传图的绘制遗传图的绘制13 如果只用

10、已知定位的少数几个基因作遗传标记，由于遗传标记的数目太少，很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。n第一代DNA遗传标记是RFLP（Restriction Fragment Length Polymorphism，限制性片段长度多态性）。DNA序列上的微小变化，甚至1个核苷酸的变化，也能引起限制性内切酶切点的丢失或产生，导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组，特别是进化中选择压力不是很大的非编码序列之中，RFLP的出现频率远远超过了经典的蛋白质多态性。而且，只要选择得当，生物体内出现共显性RFLP及RAPD分子标记的频率较高。14n第二代DNA遗

11、传标记利用了存在于人类基因组中的大量重复序列，包括重复单位长度在5-20个核苷酸左右的小卫星DNA（minisatellite DNA），重复单位长度在2-6个核苷酸之间的微卫星DNA（microsatellite DNA），后者又称为简短串联重复（STR、SSR）。STR有两个最突出的优点，即作为遗传标记的“多态性”与“高频率”。STR的存在，为遗传图的绘制提供了大量可用的遗传标记。采用聚合酶链反应（PCR）技术，以STR两侧的基因作定点标记的完整连锁图，已于1996年绘成，相邻标记间的平均距离仅0.7厘摩。n第三代DNA遗传标记，可能也是最好的遗传标记，是分散于基因组中的单个碱基的差异。这

12、种差异包括单个碱基的缺失和插入，但更常见的是单个核苷酸的替换，即单核苷酸的多态性（SNP，single nucleotide polymorphism）。15 “遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点，相当于把整个人类基因组划分为5000多个小区，并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点（该位点至少包括“正常”及“致病”两个等位基因）与上述遗传标记进行分析比较时，如果在家系中证实该基因与某个标记不连锁（重组率为50%），表明该基因不在这一标记附近；如果发现该基因与某个标记有一定程度的“连锁”（重组率小

13、于50%但大于0），表明它可能位于这个标记附近；如果该基因与某标记间不发生重组（重组率等于0），我们就推测该标记与所研究的疾病基因可能非常接近。16 遗传图所表现的，是通过连锁分析确定的各基因间的相对位置相对位置；物理图则表现染色体上每个DNA片段的实际顺序实际顺序。物理图是指以已知核苷酸序列的DNA片段（序列标签位点，sequence-tagged site，STS）为“路标”，以碱基对（bp，kb，Mb）作为基本测量单位（图距）的基因组图。现在的测序技术还不能对整个DNA分子进行序列测定，因此须先将它切成一个个大小不同的片段，然后将这些片段连起来，构成连续的序列。物理图的主要内容是建立相互

14、重叠连接的“相连DNA片段群（contigs)物理图物理图（Physical Map）17 这些大片段在进行DNA分子克隆时，也不能通过细菌质粒或噬菌体的运载而在大肠杆菌中进行克隆，因为它们太大，而必须用一种特殊的载体-酵母人工染色体（YAC，容量8002000kb），将片段导入酵母，在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标（STS）来识别的。STS是基因组中一段200500bp的单拷贝序列，在染色体上有一定的位置，所以用STS作位标可将不同YAC克隆排列成邻接克隆群（contig）。其他载体还有BAC（细菌人工染色体，容量100300kb）、P1（噬菌体人工染色体）、粘粒（c

15、osmid，容量45kb）、MAC等。现在，人类基因组24条染色体的YAC、BAC、P1邻接克隆群均已建立，精度约100碱基对的物理图也基本绘成，并已开始进行大规模测序。1819人类基因组的序列图人类基因组的序列图（Human Genome SequenceHuman Genome Sequence）基因组测序策略基因组测序策略1、鸟枪法：、鸟枪法：将基因组随机打断，构建一系列随机亚克隆，然后每个将基因组随机打断，构建一系列随机亚克隆，然后每个克隆测序，最后根据序列的重叠区域组装成完整的基因组序列。克隆测序，最后根据序列的重叠区域组装成完整的基因组序列。优点：快、简单、成本低优点：快、简单、成

16、本低缺点：由于大量存在的重复序列，致使组装困难缺点：由于大量存在的重复序列，致使组装困难2、定位克隆法：、定位克隆法：首先构建物理图谱，再测序、组装首先构建物理图谱，再测序、组装优点：组装简单优点：组装简单缺点：物理图谱制作费时缺点：物理图谱制作费时 20生物的性状，包括疾病，都由蛋白质决定。所有蛋白质都是由mRNA（信使核糖核酸）编码的，而mRNA又由DNA转录而来。人类基因组中仅15的DNA是编码序列（基因）；成人各种组织中又只有约1的基因表达为蛋白质。所以，建立转录图，或从mRNA逆转录而来的cDNA图，是分离、定位和克隆基因的关键。这里，表达序列位标（EST）具有重要意义。EST

17、是长约100300碱基对的cDNA片段，是表达基因的一部分。EST由于序列较短，很难定位，只有筛到较长的基因片段（超过1000碱基对），才能用荧光原位杂交（FISH）法在染色体上定位。EST可用工业化的程序生产，只要分离到某一发育阶段某一组织的mRNA，就可用逆转录法，从mRNA合成相应的cDNA片段，即EST。用它作探针，就可从基因组文库中筛到全长的基因序列。截止到1998年2月，已发现约92万条EST，转录图的制作有了良好的开端，但这已属后基因组计划的工作。转录图转录图（Expression Profiling）21蛋白质组学及其研究进展22蛋白质组学的含义蛋白质组蛋白质组(Proteo

18、me)(Proteome)一词最早由澳大利亚学者一词最早由澳大利亚学者等于等于19941994年提出年提出,指的是由一个基因组指的是由一个基因组geneomegeneome或一个细胞、组织表达的所有蛋白质或一个细胞、组织表达的所有蛋白质功能蛋白质组学的提出及概念功能蛋白质组学的提出及概念功能蛋白质组学是指研究在特定时间、特定环境和功能蛋白质组学是指研究在特定时间、特定环境和实验条件下细胞内表达的全部蛋白质。实验条件下细胞内表达的全部蛋白质。23 蛋白质组学研究的内容蛋白质组学研究的内容蛋白质表达模式蛋白质表达模式(或蛋白质组组成或蛋白质组组成)的研究的研究蛋白质组组成的分析鉴定是蛋白质组

19、学中的与基因组学蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学相对应的主要内容。它要求对蛋白质组进行表征相对应的主要内容。它要求对蛋白质组进行表征,即实现所即实现所有蛋白质的分离、鉴定及其图谱化。有蛋白质的分离、鉴定及其图谱化。双向凝胶电泳双向凝胶电泳(2-(2-D)和质谱和质谱(Mass spectrometry)技术是技术是当前分离鉴定蛋白质的两大支柱技术当前分离鉴定蛋白质的两大支柱技术蛋白质组功能模式(目前主要集中在蛋白质相互作用网络关系)的研究24 蛋白质组学研究的手段蛋白质组学研究的手段蛋白质组研究的核心蛋白质组研究的核心用于分离的双向电泳用于分离的双向电泳(2-DE)蛋白质组研

20、究的百科全书蛋白质组研究的百科全书数据库数据库(database)蛋白质组技术的支柱蛋白质组技术的支柱质谱鉴定技术质谱鉴定技术(Identication)蛋白质组技术的规模蛋白质组技术的规模高流通量筛选高流通量筛选(HTS)25蛋白质组研究的基本技术路线蛋白质组研究的基本技术路线蛋白质样品的制备蛋白质样品的制备双向电泳双向电泳图像分析图像分析转印至膜上的蛋白转印至膜上的蛋白凝胶中的蛋白凝胶中的蛋白溶液中的蛋白溶液中的蛋白混合肽混合肽蛋白质质量蛋白质质量N端测序端测序肽序列质谱数据肽序列质谱数据肽指纹图肽指纹图数据搜索数据搜索新的或已知蛋白新的或已知蛋白蛋白转录后修饰的鉴定蛋白转录后修饰的鉴定2

21、6原核及简单真核生物的蛋白质组研究原核及简单真核生物的蛋白质组研究流感嗜血杆菌的蛋白质组研究流感嗜血杆菌的蛋白质组研究大肠杆菌的蛋白质组研究大肠杆菌的蛋白质组研究致病微生物的蛋白质组研究致病微生物的蛋白质组研究酿酒酵母的蛋白质组研究酿酒酵母的蛋白质组研究多细胞真核生物的蛋白质组研究多细胞真核生物的蛋白质组研究线虫的蛋白质组研究线虫的蛋白质组研究果蝇的蛋白质组研究果蝇的蛋白质组研究人类的蛋白质组研究人类的蛋白质组研究植物的蛋白质组研究植物的蛋白质组研究27生物信息学Bioinformatics 一、生物信息学的概述二、生物信息学研究内容三、生物信息学数据库四、生物信息学

22、数据库工具与分析软件参考书：黄韧薛成等生物信息学网络资源与利用中山大学出版社赵国屏等生物信息学科学出版社28291、概述生物信息学（Bioinformatics）是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达到揭示这些数据所蕴含的生物学意义的目的。两个推动力：HGP、生物医药工业30生物信息学的发展历程生物信息学自诞生以来，经历了三个阶段：生物信息学自诞生以来，经历了三个阶段：基因组前期的生物信息学：主要是序列分析、数据库基因组前期的生物信息学：主要是序列分析、数据库的查询、计算机操作和的查询、计算机操作和PC

23、PC的应用；的应用；基因组年代的生物信息学：主要是基因的寻找、数据基因组年代的生物信息学：主要是基因的寻找、数据与数据之间的比较、网络相互界面（与数据之间的比较、网络相互界面（InterfaceInterface）；）；后基因组年代的生物信息学：主要是数据的挖掘、表后基因组年代的生物信息学：主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分分析。其研究的内容不仅包括基因的查寻和同源性分析；而且进一步到基因和基因组的功能分析，即所谓析；而且进一步到基因和基因组的功能分析，即所谓的功能基因组

24、学研究。的功能基因组学研究。31国外发展现状欧美各国及日本相继成立了生物信息中心，如美国的国欧美各国及日本相继成立了生物信息中心，如美国的国家生物技术信息中心（家生物技术信息中心（National Center for National Center for Biotechnology InformaticsBiotechnology Informatics，NCBINCBI）、欧洲生物信息）、欧洲生物信息学研究所学研究所(European Bioinformatic Institute(European Bioinformatic Institute，EBI)EBI)、日本信息生物学中心（日

25、本信息生物学中心（Center for Information Center for Information BiologyBiology，CIBCIB）等。）等。NCBINCBI、EBIEBI和和CIBCIB相互合作，共同维相互合作，共同维护着护着GenBankGenBank、EMBLEMBL、DDBJDDBJ三大基因序列数据库。它们三大基因序列数据库。它们每天通过计算机网络互相交换数据，使得三个数据库能每天通过计算机网络互相交换数据，使得三个数据库能同时获得最新数据。此外，他们每年召开两个年会讨论同时获得最新数据。此外，他们每年召开两个年会讨论合作事宜。合作事宜。32国内的一些科研单位清

26、华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、天津大学物理系和中科院理论物理所在相关算法方面、中科院生天津大学物理系和中科院理论物理所在相关算法方面、中科院生物物理所在基因组大规模测序数据的组装和标识方面、北京大学物物理所在基因组大规模测序数据的组装和标识方面、北京大学化学学院物理化学研究所在蛋白质分子设计方面、华大基因组研化学学院物理化学研究所在蛋白质分子设计方面、华大基因组研究中心（中科院遗传所人类基因组研究中心）在大规模测序数据究中心（中科院遗传所人类基因组研究中心）在大规模测序数据处理自动化流程体系及数据库系统建立方面

27、均已展开相关研究。处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京大学已建立了北京大学已建立了EMBLEMBL中国镜像数据库，将该数据库移植到中国中国镜像数据库，将该数据库移植到中国本地，并提供部分的检索服务本地，并提供部分的检索服务httphttp：/；httphttp：/）；复旦大学）；复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模；中科院上海生化所、生物物理所等单位在结构生物学和具规模；中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。基因预测研究方面也有相当的基础。

28、3334二、研究内容生物信息的收集、存储和管理生物信息的收集、存储和管理基因组序列信息的提取和分析基因组序列信息的提取和分析序列的注释和比对：两个序列的比对：序列的注释和比对：两个序列的比对：BLASTBLAST和和FASTAFASTA；多序列比对：；多序列比对：ClustWClustW 序列的拼接序列的拼接基因区域的预测：外元、启动子、拼接位点基因区域的预测：外元、启动子、拼接位点基因的电子克隆；拼接基因的电子克隆；拼接ESTEST序列序列非编码区分析和非编码区分析和DNADNA语言的研究语言的研究分子进化和比较基因组学分子进化和比较基因组学功能基因组的相关信息分析功能基因组的相关

29、信息分析生物大分子结构模拟和药物设计生物大分子结构模拟和药物设计生物信息分析的技术和方法生物信息分析的技术和方法35一级序列数据库：来自序列测定来自序列测定核酸：GenbankGenbank、EMBLEMBL、DDBJDDBJ 蛋白质：SWWISSWWISPROTPROT、PIRPIR生物大分子三维空间结构数据库：XX晶体衍射和晶体衍射和核磁共振核磁共振、PDBPDB、MMDBMMDB基因组数据库：来自基因组作图来自基因组作图二级数据库：对一级数据库分析、整理、归纳、注对一级数据库分析、整理、归纳、注释、构建具有特殊生物学意义和专门用途的数据库释、构建具有特殊生物学意义和专门用途的数据库三

30、、生物信息学数据库36二级数据库核酸：免疫遗传学数据库IMGTIMGT、转录因子数据库、转录因子数据库TransFacTransFac、真核启动子数据库、真核启动子数据库EPDEPD、单核苷酸多态、单核苷酸多态性数据库性数据库dbSNPdbSNP、克隆载体数据库、克隆载体数据库VectorVector、密码子、密码子使用数据库使用数据库CUTGCUTG、人鼠特有基因集、人鼠特有基因集UniGeneUniGene蛋白质：蛋白质功能位点数据库蛋白质功能位点数据库PrositeProsite、蛋白质功能位点序、蛋白质功能位点序列片段数据库列片段数据库PrintsPrints、同源蛋白家族数据库、同源

31、蛋白家族数据库PfamPfam和同源蛋白和同源蛋白结构域数据库结构域数据库BlocksBlocks、免疫球蛋白数据库、免疫球蛋白数据库KabatKabat、酶类数据、酶类数据库库ENZYMEENZYME、蛋白激酶数据库、蛋白激酶数据库PKinasePKinase、相互作用蛋白质数、相互作用蛋白质数据库据库DIPDIP、可别剪接数据库、可别剪接数据库ASDBASDB等等37核酸一级序列数据库 Genbank:Genbank:美国国家健康研究院美国国家健康研究院(National Institurte of Health(National Institurte of Health，简称，简称NIH

32、)NIH)也于也于8080年代初委托洛斯阿拉莫斯年代初委托洛斯阿拉莫斯(Los Alamos)(Los Alamos)国家实验室建立国家实验室建立GenBankGenBank，后移交给，后移交给国家生物技术信息中心国家生物技术信息中心NCBINCBI，隶属于，隶属于NIHNIH下设的国家医学图书馆下设的国家医学图书馆(National(National Liabraty of MedicineLiabraty of Medicine，简称，简称NLM)NLM)。（http:/http:/）。）。EMBL:EMBL:由欧洲分子生物学实验室由欧洲分子生物学实验室(European Molecula

33、r Biology Laboratory)(European Molecular Biology Laboratory)于于19821982年创建的，其名称也由此而来，目前由欧洲生物信息学研究所负责管理年创建的，其名称也由此而来，目前由欧洲生物信息学研究所负责管理(EBI)(EBI)(/)/)。DDBJ:DDBJ:是是DNA Data Base of JapanDNA Data Base of Japan的简称，创建于的简称，创建于19861986年，由日本国家遗传学研究年，由日本国家遗传学研究所负责管理所负责管理（http:/)http:/)。19881988年，年，EMBLEMBL、Gen

34、Bank GenBank 与与DDBJDDBJ共同成立了国际核酸序列联合共同成立了国际核酸序列联合数据库中心，建立了合作关系。根据协议，这三个数据中心各数据库中心，建立了合作关系。根据协议，这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据，并自搜集世界各国有关实验室和测序机构所发布的序列数据，并通过计算机网络每天都将新发现或更新过的数据进行交换，以通过计算机网络每天都将新发现或更新过的数据进行交换，以保证这三个数据库序列信息的完整性。保证这三个数据库序列信息的完整性。3839EMBLEMBL和和和和GenBankGenBank核酸序列数据库中各子库名称核酸序列数据库中各子库名

35、称核酸序列数据库中各子库名称核酸序列数据库中各子库名称EMBL GenBank EMBL GenBank 英文含义英文含义英文含义英文含义中文含义中文含义中文含义中文含义HUM PRI Primate HUM PRI Primate 人类、灵长类人类、灵长类MAM MAM Other mammalian MAM MAM Other mammalian 其它哺乳动物其它哺乳动物ROD ROD Rodent ROD ROD Rodent 啮齿类动物啮齿类动物VRT VRT Other vertebrate VRT VRT Other vertebrate 其它脊椎动物其它脊椎动物INV INV

36、Invertebrate INV INV Invertebrate 无脊椎动物无脊椎动物PLN PLN Plant,fungi,algi PLN PLN Plant,fungi,algi 植物、真菌、藻类植物、真菌、藻类 FUN PLN Fungal FUN PLN Fungal 真菌、藻类真菌、藻类PRO BCT Prokaryotes,bacterial PRO BCT Prokaryotes,bacterial 细菌、原核生物细菌、原核生物VRL VRL Viral VRL VRL Viral 病毒病毒PHG PHG Bacteriophage PHG PHG Bacteriophage

37、噬菌体噬菌体ORG ORG Organelles Organelles 细胞器细胞器SYN SYN Synthetic SYN SYN Synthetic 合成产物合成产物UNC UNA Unclassified/Unannotated UNC UNA Unclassified/Unannotated 未分类未分类/未注释未注释EST EST Expressed Sequence Tags EST EST Expressed Sequence Tags 表达序列标记表达序列标记PAT PAT Patent PAT PAT Patent 专利序列专利序列STS STS Sequence Tag

38、ged Sites STS STS Sequence Tagged Sites 序列标记位点序列标记位点GSS GSS Genome Survey Sequences GSS GSS Genome Survey Sequences 基因组测序序列基因组测序序列HTG HTG High Throughput Genomic Sequences HTG HTG High Throughput Genomic Sequences 高通量基因组序高通量基因组序列列*EMBL*EMBL将真菌单独分类，而将真菌单独分类，而GenBankGenBank将真菌和藻类归在植物中。将真菌和藻类归在植物中。4041

39、4243蛋白质序列数据库蛋白质数据库种类和特点蛋白质数据库种类和特点名称名称维护维护单位单位注释注释冗余度冗余度数据量数据量更新更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRl-3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPepNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢44PIRPIR：19841984年，年，“蛋白质信息资源蛋白质信息资源”(Protein Information”(Protein Information ResourceResource，简称，简

40、称PIR)PIR)计划正式启动，蛋白质序列数据库计划正式启动，蛋白质序列数据库PIRPIR也因此而诞生。与核酸序列数据库的国际合作相呼应，也因此而诞生。与核酸序列数据库的国际合作相呼应，19881988年，美国的年，美国的NBRFNBRF、日本的国际蛋白质信息数据库、日本的国际蛋白质信息数据库(Japanese International Protein Information(Japanese International Protein Information DatabaseDatabase，简称，简称JIPID)JIPID)和德国的慕尼黑蛋白质序列信息中和德国的慕尼黑蛋白质序列信息中心心

41、(Munich Information Center for Protein(Munich Information Center for Protein SequencesSequences，简称，简称MIPS)MIPS)合作成立了国际蛋白质信息中心合作成立了国际蛋白质信息中心(PIR-International)(PIR-International)，共同收集和维护蛋白质序列数据库，共同收集和维护蛋白质序列数据库PIRPIR。PIRPIR数据库按照数据的性质和注释层次分四个不同部分，数据库按照数据的性质和注释层次分四个不同部分，分别为分别为PIR1PIR1、PIR2PIR2、PIR3PIR3

42、和和PIR4PIR4。PIR1PIR1中的序列已经验中的序列已经验证，注释最为详尽；证，注释最为详尽；PIR2PIR2中包含尚未确定的冗余序列；中包含尚未确定的冗余序列；PIR3PIR3中的序列尚未加以检验，也未加注释中的序列尚未加以检验，也未加注释;而而PIR4PIR4中则包括了其它中则包括了其它各种渠道获得的序列，既未验证，也无注释。各种渠道获得的序列，既未验证，也无注释。45SWISS-PROT+TrEMBL：该数据库由瑞士日内瓦大学于1986年创建，目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics，简称SIB)和欧洲生物信息学研究所 EBI

43、共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,，简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外，也是国际上蛋白质组和蛋白质分子模型研究的中心，为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年，意为“Translation of EMBL”。该数据库采用SwissProt数据库格式，包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分，SP-TrEMBL

44、和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列，包括免疫球蛋白、T细胞受体、少于个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似，GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成，这两个数据库中的序列错误率较大，均有较大的冗余度。http:/464748NRL3D：该数据库的序列是从三维结构数据库PDB中提取出来。除了序列信息外，NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的注释信息，对研究蛋

45、白质结构功能关系和同源蛋白分子模型构建特别有用。49OWL:OWL:是一个非冗余的蛋白质序列数据库，现存于是一个非冗余的蛋白质序列数据库，现存于LeedsLeeds大学，是由大学，是由LeedsLeeds大学和大学和WarringtonWarrington的的DaresburyDaresbury实验室合作开发的实验室合作开发的(Bleasby et al.,(Bleasby et al.,1994)1994)。OWLOWL数据库是由四个主要的一级序列数据数据库是由四个主要的一级序列数据库复合成的：包括库复合成的：包括SWISS-PROTSWISS-PROT，PIR1-4PIR1-4，GenBa

46、nkGenBank（CDS CDS 翻译）和翻译）和NRL-3DNRL-3D。在合成。在合成OWLOWL数据库的过程中，考虑到每个数据库所包含序列信息数据库的过程中，考虑到每个数据库所包含序列信息的情况，赋予它们不同的优先级，的情况，赋予它们不同的优先级，SWISS-PROTSWISS-PROT数数据库具有最高的优先权。在对信息的处理上，删除了据库具有最高的优先权。在对信息的处理上，删除了与某一序列相同序列的信息，也剔除了与某一序列相与某一序列相同序列的信息，也剔除了与某一序列相差单个氨基酸的序列的信息，因此，所得到的差单个氨基酸的序列的信息，因此，所得到的OWLOWL数据库是一个紧凑的、高效

47、的序列数据库。尽管如此，数据库是一个紧凑的、高效的序列数据库。尽管如此，OWLOWL数据库仍然有许多与数据库仍然有许多与NRDBNRDB相同的问题，即在相同的问题，即在该数据库中仍然有一些错误的序列和对该数据库中仍然有一些错误的序列和对GenBankGenBank中中不正确序列的重翻译。由于不正确序列的重翻译。由于OWLOWL数据库的更新周期数据库的更新周期是是6-86-8周，因此与其它数据库相比，周，因此与其它数据库相比，OWLOWL不是最新的不是最新的数据库。数据库。50MIPSX:MIPSX:是一个由是一个由MartinsriedMartinsried的的Max-PlanckMax-Pl

48、anck研研究所创建的合成数据库究所创建的合成数据库(Mewes et al.,1998)(Mewes et al.,1998)。MIPSXMIPSX包含如下数据库的信息：包含如下数据库的信息：PIR1-4PIR1-4、MIPSMIPS的的一级数据库一级数据库MIPSOwnMIPSOwn、MIPS/PIRMIPS/PIR一级数据库一级数据库PIRMODPIRMOD、MIPSMIPS一级翻译数据库一级翻译数据库MIPSTrnMIPSTrn、MIPSMIPS酵母数据库酵母数据库MIPSHMIPSH、NRL-NRL-3D3D、SWISS-PROTSWISS-PROT、EMTransEMBLEMTra

49、nsEMBL的自动的自动翻译数据库、翻译数据库、GBTransGBTrans翻译的翻译的GenBankGenBank数据数据库、库、Kabat Kabat 和和 PseqIP PseqIP。MIPSXMIPSX数据库按照表数据库按照表3.23.2中所列的上述数据库的顺序赋予优先级，并将这些数中所列的上述数据库的顺序赋予优先级，并将这些数据库中和数据库间的重复序列删除，只保留该序列的据库中和数据库间的重复序列删除，只保留该序列的一个相关信息。另外，也将那些信息完全包含于其它一个相关信息。另外，也将那些信息完全包含于其它序列中的序列删除。序列中的序列删除。51NRDBNRDBOWLOWLMIPSX

50、MIPSXSP+TrEMBLSP+TrEMBLPDBPDBSWISS-SWISS-PROTPROTPIRPIRGenPeptGenPeptSWISS-SWISS-PROTPROTPIRPIRGenBankGenBankNRL-3DNRL-3DPIR1-4PIR1-4MIPSOwnMIPSOwnMIPSTrnMIPSTrnMIPSHMIPSHPIRMODPIRMODNRL-3DNRL-3DSWISS-SWISS-PROTPROTEMTransEMTransGBTransGBTransKabatKabatPseqIPPseqIPSWISS-PROTSWISS-PROTTrEMBLTrEMBL52N

展开阅读全文