第二章生物分子数据库PPT讲稿.ppt

上传人:石*** 文档编号:78728158 上传时间:2023-03-19 格式:PPT 页数:54 大小:5.83MB
返回 下载 相关 举报
第二章生物分子数据库PPT讲稿.ppt_第1页
第1页 / 共54页
第二章生物分子数据库PPT讲稿.ppt_第2页
第2页 / 共54页
点击查看更多>>
资源描述

《第二章生物分子数据库PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第二章生物分子数据库PPT讲稿.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章生物分子数据库第1页,共54页,编辑于2022年,星期三第一节 引言生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 第2页,共54页,编辑于2022年,星期三 数据库记录数据库记录(entry,item)通常包括两部分通常包括两部分 原始数据原始数据(序列组成等序列组成等)对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释 一个数据库通常链接了多个相关数据库一个数据库通常链接了多个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基

2、因OsDR8 DQ176424Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库其他数据库其他数据库Cross-Reference第3页,共54页,编辑于2022年,星期三第4页,共54页,编辑于2022年,星期三v生物分子数据库分类 一级数据库(有冗余)v数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 v二级数据库(专业数据库)v对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 第5页,共54页,编辑于2022年,星期三第6页,共54页,编辑于2022年,星期三v常

3、用的生物分子数据库 v三大核酸序列数据库:Genbank、EMBL、DDBJ v特殊类型的核酸序列数据库:非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、miRNA、tRNAdbv蛋白质序列数据库:PIR、SWIS-PROT、MIPSv核酸和蛋白质三维结构数据库:核苷酸三维结构数据库(NDB)、普纳大学核酸结构数据库(BNASDB)、蛋白质结构数据库(PDB,MMDB)v基因组相关数据库:人类基因组数据库(HGD)、基因组序列数据库(GSDB)、基因组在线数据库(GOLD)v基因表达数据库:基因表达库(GEO)、斯坦福微阵列数据库(SMD)、ArrayExpress第7页,

4、共54页,编辑于2022年,星期三第二节第二节 核酸序列数据库核酸序列数据库国际上权威的核酸序列数据库国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/第8页,共54页,编辑于2022年,星期三信息资源共享,以天为基础进行数据库之间的序列数据交换,三个数据库中的数据基本一致,仅在数据格式上有所差别属

5、于国际合作项目,这三个几乎一致的数据库称为国际核酸序列数据库(INSD)这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段第9页,共54页,编辑于2022年,星期三GenBank由由美美国国国国家家医医学学图图书书馆馆的的国国家家生生物物技技术术信信息息中中心心(NCBI)构构建建、维维护护和和管管理理,NCBI位位于于美美国国马马里里兰兰国国家家健健康康研研究究所所(NIH)。GenBank数数据据库库的的序序列列数数据据来来源源于于序序列列发发现现者者提提交交的的序序列列、批批量量提提交交的的表表达达序序列列标标签签(expressed

6、 sequence tag,EST)基基因因组组测测序序序序列列(genome survey sequence,GSS)和和其其他他测测序序中中心心提提供供的的高高通通量量数数据,还包括美国专利商标局提供的已发表专利的序列数据。据,还包括美国专利商标局提供的已发表专利的序列数据。一、NCBI简介/GenBank数据库 第10页,共54页,编辑于2022年,星期三GenBank(http:/www.ncbi.nlm.nih.gov/genbank/)数据库包含数据库包含30万余种不同物种生物的核酸序列,这些万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目数据主

7、要来源于全世界不同实验室和大规模测序计划项目 大约大约12来源于来源于Homo sapiens排列前排列前6的物种的物种:Homo sapiens、Mus musculus、Rattus norvegicus、Bos taurus、Zea mays、Danio rerio(zebrafish)第11页,共54页,编辑于2022年,星期三第12页,共54页,编辑于2022年,星期三第13页,共54页,编辑于2022年,星期三GenBank核酸序列格式第14页,共54页,编辑于2022年,星期三Locus name(位点名位点名,座位名,同座位名,同Accession)每条序列有三种专有标识符(每

8、条序列有三种专有标识符(identifier)和一个版本号)和一个版本号GenInfo identifier(GI)/Nucleotide ID(NID)Accession number(登陆号,流水号,编号,注册号登陆号,流水号,编号,注册号)10位字符位字符属名第一字母种名第一字母属名第一字母种名第一字母6位字符的注册号位字符的注册号2个字母个字母6个阿拉伯数字个阿拉伯数字(present form)Version(与登录号相同,后面有数字(与登录号相同,后面有数字1,2,3)Note:序列发生变化时,GI号改变,登录号不改变,但是版本号会发生改变第15页,共54页,编辑于2022年,星期

9、三第16页,共54页,编辑于2022年,星期三GenBank核酸序列检索第17页,共54页,编辑于2022年,星期三NCBI检索首页检索窗口的数据库选项下拉菜单 第18页,共54页,编辑于2022年,星期三 Entrez集成检索系统第19页,共54页,编辑于2022年,星期三检索栏(for)输入“IL-2 human”第20页,共54页,编辑于2022年,星期三Entrez Gene检索结果摘要格式显示页面 第21页,共54页,编辑于2022年,星期三Entrez Gene全文报告页面(前部分)第22页,共54页,编辑于2022年,星期三Entrez Gene全文报告页面(后部分)第23页,共

10、54页,编辑于2022年,星期三GenBank核酸序列提交第24页,共54页,编辑于2022年,星期三第25页,共54页,编辑于2022年,星期三第26页,共54页,编辑于2022年,星期三第27页,共54页,编辑于2022年,星期三欧洲生物信息学研究所(欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室(),是欧洲分子生物学实验室(EMBL)的一部分,)的一部分,EMBL-EBIEMBL-EBI的许多数据库是生物学家们熟知的,的许多数据库是生物学家们熟知的,包括:包括:EMBL-Bank(DNA和和RNA序列)、序列)、Ensemble(基因组)、(基因组)、ArrayExpress(基

11、于微阵列的基因表达数据)、(基于微阵列的基因表达数据)、UniProt(蛋白质序(蛋白质序列)、列)、InterPro(蛋白家族、域和基序)、(蛋白家族、域和基序)、Reactome(传导通路)(传导通路)和和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。部件,还了解这些部件是如何组合构成系统的。二、EBI简介/EBML数据库 第28页,共54页,编辑于2022年,星期三第29页,共54页,编辑于2022年,星期三SRS集成检索系统第30页,共54页,编辑于2022年,星期三SRS

12、快速文本检索窗口 第31页,共54页,编辑于2022年,星期三SRS检索结果页面显示的检索结果 第32页,共54页,编辑于2022年,星期三SRS蛋白质记录详细内容页面 第33页,共54页,编辑于2022年,星期三三、DDBJ数据库 日本日本DNA数据库数据库DDBJ(DNA Data Bank of Japan),于,于1984年建立,与年建立,与NCBI的的GenBank,EBI的的EMBL数据库共同组成国际数据库共同组成国际DNA数据库。他数据库。他们开发了们开发了SQmateh工具,用来搜索基因或蛋白质中短的碱基或氨工具,用来搜索基因或蛋白质中短的碱基或氨基酸序列区域,并建立了简便且易

13、操作的基酸序列区域,并建立了简便且易操作的SOAP(simple object aeeess protoco1)服务器。服务器。DDBJ主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。列数据,但也收集数据和发放编号给任何其他国家的研究者。第34页,共54页,编辑于2022年,星期三第35页,共54页,编辑于2022年,星期三第三节第三节 蛋白质数据库蛋白质数据库随着分子生物学的发展,人们获得了越来越多关于蛋白质随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机序列、结构和功能的信

14、息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质库)、信号传导及蛋白质-蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。第36页,共54页,编辑于2022年,星期三常用的蛋白质序列数据库:PIRMIPSSwiss-Prot(trEMBL)Present:UniProt数据库仓库 第37页,共54页,编

15、辑于2022年,星期三蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART 等 第38页,共54页,编辑于2022年,星期三蛋白质三维结构相关数据库:PDBBioMagResBankSWISS-MODEL RepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等 第39页,共54页,编辑于2022年,星期三蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretix links 信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSIT

16、ESPADCSNDB等第40页,共54页,编辑于2022年,星期三Frequently-used protein sequence database UniProt:由由 EBI(European Bioinformatics Institute)管理管理的数据库的数据库由两部分组成由两部分组成有详细注释的序列,数据来源于实验有详细注释的序列,数据来源于实验与与40个数据库相互参照(个数据库相互参照(cross-reference)Swiss-Prot/trEBMB第41页,共54页,编辑于2022年,星期三UniProt包含3个部分:(1)UniProt Knowledgebase(UniP

17、rot)蛋白质序列、功能、分类、交叉引用等信息存取中心蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度;(3)UniProt Archive(UniParc)资源库,记录所有蛋白质序列的历史。第42页,共54页,编辑于2022年,星期三第43页,共54页,编辑于2022年,星期三第四节第四节 常用的数据库常用的数据库第44页,共54页,编辑于2022年,星期三1、基因组数据库(基因组数据库(GDBGDB)人类基因组计划所得到的图谱数据人类基因组计划所

18、得到的图谱数据 目前GDB包含对下述三种对象的描述:(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。第45页,共54页,编辑于2022年,星期三其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGDMGD(http:/www.informatics.jax.org/http:/www.informat

19、ics.jax.org/)酵母基因组数据库酵母基因组数据库 SGDSGD(http:/genome-http:/genome-www.stanford.edu/Saccharomyces/www.stanford.edu/Saccharomyces/)第46页,共54页,编辑于2022年,星期三Ensembl(Ensembl(http:/www.ensembl.org/http:/www.ensembl.org/)人类基因组数据库人类基因组数据库EnsemblEnsemblEnsemblEnsembl包括所有公开的人类基因组包括所有公开的人类基因组DNADNA序列,通过注释形成的序列,通过注释

20、形成的关于序列的特征。关于序列的特征。现在包括其他基因组,如大鼠、小鼠、现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。线虫、果蝇等。例如:基因例如:基因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征:其他的特征:单核苷酸多态性(单核苷酸多态性(SNPSNP)、重复序列等)、重复序列等第47页,共54页,编辑于2022年,星期三Ensembl 数据库结构图 第48页,共54页,编辑于2022年,星期三2 2、表达序列标签数据库、表达序列标签数据库dbESTdbEST(http:/www.ncbi.nlm.nih.gov/dbEST)是GenBank

21、的一个部分,为GenBank的二级数据库EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法,主要是从大量不同组织和器官得到的短mRNA片段,反转录成稳定的cRNA5端或3端的cDNA 序列单轮测序获得EST,300400 bp GenBank 中大约56的序列(65,255,769条序列,2010年)是 EST,这些序列来源于 1370个物种 第49页,共54页,编辑于2022年,星期三3 3、蛋白质三维结构数据库、蛋白质三维结构数据库第50页,共54页,编辑于2022年,星期三显示分子结构(显示分子结构(RasMol RasMol,ChemView

22、 ChemView)第51页,共54页,编辑于2022年,星期三Science 309:1522(2005)转录转录RNA折叠形成折叠形成pri-miRNApre-miRNAmiRNARISC携带携带有活性的有活性的miRNAmiRNA genemicroRNA(miRNA)的形成的形成4 4、miRNAmiRNA数据库数据库第52页,共54页,编辑于2022年,星期三 http:/www.mirbase.org收集了收集了10883条条 hairpin precursor miRNA 序列(序列(2009.9)表达表达10581条条mature miRNA来源于来源于115个物种个物种可以通过可以通过miRNA名、关键词、染色体名、关键词、染色体位置等检索数据库位置等检索数据库分析一条分析一条DNA序列中是否可能包含序列中是否可能包含miRNA第53页,共54页,编辑于2022年,星期三The end 第54页,共54页,编辑于2022年,星期三

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁