生物信息学之数据库及在线分析工具.ppt

上传人:wuy****n92 文档编号:69342821 上传时间:2023-01-02 格式:PPT 页数:63 大小:1.50MB
返回 下载 相关 举报
生物信息学之数据库及在线分析工具.ppt_第1页
第1页 / 共63页
生物信息学之数据库及在线分析工具.ppt_第2页
第2页 / 共63页
点击查看更多>>
资源描述

《生物信息学之数据库及在线分析工具.ppt》由会员分享,可在线阅读,更多相关《生物信息学之数据库及在线分析工具.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、生物信息学数据库及在线分析工具SeeQZIFF一、数据库(Database)用于收集、整理、储存、加工、发布和用于收集、整理、储存、加工、发布和检索数据的系统。检索数据的系统。u生物类的数据库种类很多(生物类的数据库种类很多(序列序列、结结构构、生物分子互作生物分子互作、其他其他)u投稿文章首先要将核苷酸序列或蛋白质序列投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中提交到相应的数据库中u 数据库记录通常包括两部分数据库记录通常包括两部分v 原始数据原始数据v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释u 一个数据库通常链接了多个相关数据库一个数据库通常链接了多

2、个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基因OsDR8 Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库(一)数据库工具(一)数据库工具u 建立纯文本数据库建立纯文本数据库v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u 数据库工具数据库工具v SQL(结构化查询语言)是世界上流行的和(结构化查询语言)是世界上流行的和标准化的数据库语言标准化的数据库语言v能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像v下载网址下载网址 AccessSQLOracleu AceDB 数据库工具数据库工

3、具vAceDB:A C.elegans DataBase(线虫数据库)(线虫数据库)v被广泛应用的管理和提供基因组被广泛应用的管理和提供基因组数据的工具数据的工具v数据形式丰富数据形式丰富 遗传图谱遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011新陈代谢途径新陈代谢途径物理图谱物理图谱1 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact ga

4、tacagaaa gttgggaacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac(二)各种生物数据库(二)各种生物数据库1、核苷酸数据库、核苷酸数据库u DNA、mRNA、tRN

5、A、rRNA序列序列u RNA序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据u 大量氨基酸序列大量氨基酸序列v主要是非实验来源数据主要是非实验来源数据v coding sequence(CDS)EXONINTRONCDS(coding sequence)ORF(open reading frame)u 数据库种类很多数据库种类很多u 三大核苷酸数据库三大核苷酸数据库vGenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ United States Patent and Trademark Office(USPTO)Europ

6、ean Patent Office(EPO)Japan Patent Office(JPO)v收集了专利的核苷酸序列收集了专利的核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换信息资源共享:以天为基础进行数据库之间的序列数据交换(1)GenBank u美国美国NCBI的数据库,有部分蛋白质序列的数据库,有部分蛋白质序列u数据每天更新,每年发行六版数据每天更新,每年发行六版release uRelease 172()v106,073,709 entriesv105,277,306,080 basesu来源于来源于260,000多个物种多个物种u大约大约12的序列来源于人的序列来源于

7、人(Homo sapiens)Growth of GenBankvLocus name(位点名)(位点名)vAccession number(注册号或登陆号)(注册号或登陆号)vGI(GenInfo identifier)NID(Nucleotide ID)u每个序列有一个每个序列有一个flatfileu 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier)u LOCUS lineSample recordThe divisions of GenBank分支缩写分支缩写分支全称分支全称 PRI灵长类序列灵长类序列(primate sequences)ROD啮齿

8、类序列啮齿类序列(rodent sequences)MAM其它哺乳类序列其它哺乳类序列(other mammalian sequences)VRT其它脊椎动物序列其它脊椎动物序列(other vertebrate sequences)INV无脊椎动物序列无脊椎动物序列(invertebrate sequences)PLN植物、真菌和海藻类序列植物、真菌和海藻类序列(plant,fungal,and algal sequences)BCT细菌序列细菌序列(bacterial sequences)VRL病毒序列病毒序列(viral sequences)PHG噬菌体序列噬菌体序列(bacteriop

9、hage sequences)SYN合成序列合成序列(synthetic sequences)The divisions of GenBank分支缩写分支缩写分支全称分支全称UNA未注释的序列未注释的序列(unannotated sequences)EST表达序列标签表达序列标签(expressed sequence tags)PAT已专利的序列已专利的序列(patent sequences)STS序列标签位点序列标签位点(sequence tagged sites)GSS基因组勘察序列基因组勘察序列(genome survey sequences)HTG高产出基因组序列高产出基因组序列(hi

10、gh throughput genomic sequences)HTC高产出高产出cDNA序列序列(high throughput cDNA sequences)ENV环境样品序列环境样品序列(Environmental sampling sequences)(2)dbEST(Database of Expressed Sequence Tags)u GenBank的二级数据库的二级数据库u 5 端或端或3 端的端的cDNA 序列(序列(EST)u 200-500 bp“Single-pass read”sequence u GenBank 中中60以上的序列是以上的序列是 EST(3)Uni

11、Gene 数据库数据库 uNCBI 的另一个核苷酸的另一个核苷酸数据库数据库u来源于同一基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群v人、大鼠、小鼠、人、大鼠、小鼠、斑马鱼、斑马鱼、牛牛、蛙等、蛙等v拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等v共计共计100多个物种多个物种uUniGene主页输入关键词主页输入关键词检索检索(4)dbSTS(Database of Sequence Tagged Sites)uGenBank的二级数据库的二级数据库 UniSTSu 短序列短序列(200-500 bp),仅在基因组中出现一次),仅在基因组中出现一

12、次u 已定位于染色体上已定位于染色体上 如何找到一个如何找到一个STSu 检索:检索:GenBank主页主页选择选择UniSTS后输入关键词后输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容点击点击“mv”查看染色体定位查看染色体定位contig(5)dbGSS(Database of Genome Survey Sequences)u GenBank的二级数据库的二级数据库u 基因组短序列基因组短序列u cosmid/BAC/YAC 外源插入片段的末端序列外源插入片段的末端序列u Alu PCR 序列序列cosmid/BAC/YACG1810.420.84RM2240.21

13、R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011(6)HTG(High-Throughput Genomic Sequences)u GenBank 的二级数据库的二级数据库u 尚未完成测序的重叠群(尚未完成测序的重叠群(2 kb)的序列的序列u 新序列的增加速度很快新序列的增加速度很快cosmid/BAC/YACPhase0Phase1Phase2Phase3逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming

14、鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.水稻基因组全基因组大小:430Mb;每个Reads读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。中国水稻基因组计划的经费预算中国水稻基因组计划的经费预算(7)基因组数据库)基因组数据库 uNCBI 的另一个的另一个数据库数据库u测序完成和正在测序物种

15、基因组序列、遗传图、测序完成和正在测序物种基因组序列、遗传图、物理图等物理图等u序列收集在序列收集在GenBanku已经完成测序的基因组(截止已经完成测序的基因组(截止2009年年2月)月)Genome ProjectStatistics(8)dbSNP(Database of Single Nucleotide Polymorphisms)单核苷酸多态性数据库 u NCBI的数据库,创建于的数据库,创建于1998.9u 约每约每300 bp 有一个有一个SNPu 数据种类数据种类SNPInsertion/deletion(Indel)Deletion/insertion/substituti

16、on(DIS)u 发现致病基因、发现致病基因、进化分析进化分析u dbSNP主页输入关键词主页输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容代码代码碱基碱基MA或或CRA或或GWA或或TSC或或GYC或或TKG或或TVA、C或或GHA、C或或TDA、G或或TBC、G或或TNG、A、T或或C标准碱基多意代码标准碱基多意代码(9)EMBL(European Molecular Biology Laboratory)Nucleotide Sequence Databasev EBI(European Bioinformatics Institute)管理管理v 主要是欧洲国家产生

17、的主要是欧洲国家产生的 DNA 和和 RNA 序列序列v 序列数据序列数据文档文档格式与格式与 GenBank 不同不同数据库主页输入关键词数据库主页输入关键词检索到的检索到的条目条目每一条目每一条目详细内容详细内容(10)DDBJ(DNA Data Bank of Japan)u 主要是日本产生的主要是日本产生的 DNA 和和 RNA 序列序列数据库主页输入关键词数据库主页输入关键词检索到的检索到的条目条目每一条目每一条目详细内容详细内容u 发表文章要提供发表文章要提供 Accession number(11)EPD(Eukaryotic Promoter Database)u由由Weizm

18、ann Institute of Science in Rehovot(Israel)开创开创u4809条真核生物启动子序列(条真核生物启动子序列(2009.2)u人类基因组中的启动子大约人类基因组中的启动子大约19万个万个u同一个基因具有多个启动子同一个基因具有多个启动子2、蛋白质数据库、蛋白质数据库(1)SWISS-PROTu由由 EBI 和瑞士创办和瑞士创办u有详细注释有详细注释的序列的序列,数据来源于实验,数据来源于实验u与与44个个数据库数据库相互参照(相互参照(cross-reference)数据库主页点击数据库主页点击SRS在在查询网页查询网页输入关键词输入关键词检索到的检索到的

19、条目条目(2)TrEMBL(Translation of EMBL)uEBI 的数据库的数据库u提交到提交到 EMBL 核苷酸核苷酸数据库中所有数据库中所有CDS 的氨的氨基酸序列基酸序列u SWISS-PROT 和和 TrEMBL数据库合并数据库合并 UniProt(Universal Protein Resource)v 检索方法与检索检索方法与检索SWISS-PROT相同相同v 查询结果查询结果和和数据格式数据格式(3)PIR(Protein Information Resource)u 由由National Biomedical Research Foundation 创办创办u蛋白质

20、蛋白质家族分类家族分类u 蛋白质整合信息蛋白质整合信息(4)PRF(Protein Research Foundation)u由日本的由日本的 Protein Research Foundation 创办创办u已发表在杂志上的蛋白质序列已发表在杂志上的蛋白质序列u修饰位点、修饰位点、SS键等键等u两月更新一次两月更新一次(6)Prositeu 蛋白质家族蛋白质家族u 结构域结构域3、结构数据库、结构数据库(1)PDB(Protein Data Bank)u 由由 Brookhaven National Laboratories 创办创办v 蛋白质蛋白质v 核酸核酸v 其它其它u 57,103

21、个结构图(个结构图(2009.2)u 可通过可通过 BLAST 系统检索系统检索u X 射线衍射图射线衍射图、核磁共振(核磁共振(NMR)光谱图光谱图和电镜和电镜图图(文字文字和和三维三维结构图)结构图)(2)SWISS-3D IMAGE 蛋白质的平面和立体图蛋白质的平面和立体图u 来源于实验结果来源于实验结果u 理论模型理论模型4、酶和代谢数据库、酶和代谢数据库(1)KEGG(Kyoto Encyclopedia of Genes and Genomes)u 各种代谢、遗传等路径图各种代谢、遗传等路径图u 可检索参于可检索参于各种各种路径的基因路径的基因KEGG主页点击主页点击“PATHWA

22、Y”“PATHWAY”网页点击任何代谢路径,如糖酵解网页点击任何代谢路径,如糖酵解/糖糖原异生途径(原异生途径(Glycolysis/Gluconeogenesis)u 检索检索Genetic Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,网页点击任何遗传信息路径,如如 Protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息u 检索检索Environmental Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY

23、”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK signaling pathway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息u 检索检索Cellular ProcessesKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Cellular Processes 路径,如路径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径

24、的蛋白质信息或参加这一路径的蛋白质信息(2)PKR(Protein Kinase Resource)多种检索内容多种检索内容u 已知蛋白激酶的序列比较已知蛋白激酶的序列比较u 蛋白激酶分类蛋白激酶分类u 蛋白激酶的三维结构蛋白激酶的三维结构u 其它参考资料其它参考资料5、物种分类数据库、物种分类数据库u 物种分类物种分类界(界(Kingdom)门(门(Phylum)纲(纲(Class)目(目(Order)科(科(Family)属(属(Genus)种(种(Species)每一分类等级下可加设亚级(每一分类等级下可加设亚级(Sub-),如亚门、亚),如亚门、亚纲、亚科等。纲、亚科等。每一分类等级上

25、可加设总级(每一分类等级上可加设总级(Super-),如总纲、总),如总纲、总目、总科等。目、总科等。动物界(动物界(Animal)脊索动物门(脊索动物门(Chordata)脊椎动物亚门(脊椎动物亚门(Vertebrata)哺乳纲(哺乳纲(Mammalia)啮齿目(啮齿目(Rodentia)鼠科(鼠科(Muridae)小家鼠属(小家鼠属(Mus)小家鼠种(小家鼠种(musculus)举例:举例:Mouse:Mus musculusHuman:Homo sapiensArabidopsis:Arabidopsis thaliana Taxonomy u拟南芥拟南芥系谱(系谱(lineage)u各

26、个物种的系谱树各个物种的系谱树在在NCBI Entrez Taxonomy Homepage网页网页点击点击“tree”在在“tree”网页点击任一物种名,如网页点击任一物种名,如“Eukaryota”真核生物的真核生物的系谱系谱(lineage)6、文献数据库、文献数据库u 各种杂志、书刊上发表的文章各种杂志、书刊上发表的文章u 大多数有摘要大多数有摘要(1)PubMed u 美国国家医学图书馆的数据库美国国家医学图书馆的数据库u 医学医学u 分子生物学分子生物学u 基础生物学基础生物学u 5300多种刊物,来源于多种刊物,来源于70多个国家多个国家u 刊物年限:刊物年限:1948年至今年至

27、今(2)OMIM(Online Mendelian Inheritance in Man)u NCBI 的数据库的数据库u 人类基因人类基因u 遗传疾病遗传疾病u 每天更新数据每天更新数据 条目条目(3)Agricola u 美国农部农业图书馆的数据库美国农部农业图书馆的数据库u 农业类刊物农业类刊物7、向数据库提交和修改核苷酸和蛋白质序列、向数据库提交和修改核苷酸和蛋白质序列提交:提交:Submission修改:修改:Update数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用GrowthofSequenceand3DStructureDatabasesSigne

28、d by 256 researchers(1)向向 GenBank提交或修改核苷酸序列提交或修改核苷酸序列u 用用 BankIt 功能功能提交提交序列序列v 网上直接提交,简单方便网上直接提交,简单方便v 提交后立刻得到临时编号提交后立刻得到临时编号v 一周内得到一周内得到 Accession numberu用用Update 功能功能修改修改 GenBank 中的序列和相关信息中的序列和相关信息v 修改一次,修改一次,version 的编号就进一位的编号就进一位u 用用 Sequin 方法提交序列方法提交序列v 可下载的电子表格可下载的电子表格v 自动确定自动确定 CDS、ORF 和查找重复序

29、列和查找重复序列(2)向)向 SWISS-PROT 提交或修改蛋白质序列提交或修改蛋白质序列u 网上直接操作网上直接操作u 只接收用蛋白质直接测序的序列只接收用蛋白质直接测序的序列u 由核苷酸序列翻译得到的蛋白质序列由核苷酸序列翻译得到的蛋白质序列 将进入将进入TrEMBL(三)上机操作(三)上机操作1.熟悉各种数据库熟悉各种数据库2.重点了解重点了解 GenBank 和和 SWISS-PROT 的各种功能和适用范围的各种功能和适用范围Xa26 nucleic acid sequence(DQ426646,6000 bp):ATGGCCATGGGTCCACACGCAGTGAGATGAATGCT

30、AGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAAXa26 amino acid sequence(ABD84047,1103 aa):MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPFCRWVGVSCSSHRRRRQRVTALELPNVPLQGELSSAdam ZemlaFour geneti

31、c signatures of the SARS virus shown in yellow,blue,light green,and dark green are mapped onto a 3-D protein model of the SARS RNA polymerase.Surface features of the substrate-binding pockets of TGEV Mpro(A)and SARS 3CL proteinase(B).The surface color was loaded by the electrostatic properties.One s

32、mall molecule,its chemical structure is shown in(C),produced by the virtual screening on the MDDR database,represented as CPK model,was docked into the binding pockets.XIONG BinMicroarray2-DSDS-PAGEtwentymostsequencedorganismsinRelease172.0twentymostsequencedorganismsinRelease172.0TwentymostsequencedorganismsinRelease172.0(2009.6)建立特定染色体的基因组文库建立特定染色体的基因组文库随机选择克隆进行短片段单次测序随机选择克隆进行短片段单次测序比对确认不含重复序列比对确认不含重复序列在序列上寻找引物在序列上寻找引物合成引物对基因组合成引物对基因组DNA进行进行PCR产物为单一片段即是产物为单一片段即是STS标记,确标记,确认其在染色体上的位置认其在染色体上的位置如如何何找找到到一一个个STS

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁