生物信息学之数据库及在线分析工具复习过程.ppt

上传人:豆**** 文档编号:61857043 上传时间:2022-11-21 格式:PPT 页数:63 大小:1.68MB
返回 下载 相关 举报
生物信息学之数据库及在线分析工具复习过程.ppt_第1页
第1页 / 共63页
生物信息学之数据库及在线分析工具复习过程.ppt_第2页
第2页 / 共63页
点击查看更多>>
资源描述

《生物信息学之数据库及在线分析工具复习过程.ppt》由会员分享,可在线阅读,更多相关《生物信息学之数据库及在线分析工具复习过程.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、生物信息学之数据库及在线分析工具u 数据库记录通常包括两部分数据库记录通常包括两部分v 原始数据原始数据v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释u 一个数据库通常链接了多个相关数据库一个数据库通常链接了多个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基因OsDR8 DQ176424Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库(一)数据库工具(一)数据库工具u 建立纯文本数据库建立纯文本数据库v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u 数据库工具数据库工具v SQL(

2、结构化查询语言)是世界上流行的和(结构化查询语言)是世界上流行的和标准化的数据库语言标准化的数据库语言v能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像v下载网址下载网址 http:/ AceDB 数据库工具数据库工具vAceDB:A C.elegans DataBase(线虫数据库)(线虫数据库)v被广泛应用的管理和提供基因组被广泛应用的管理和提供基因组数据的工具数据的工具v数据形式丰富数据形式丰富 遗传图谱遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011新

3、陈代谢途径新陈代谢途径物理图谱物理图谱1 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttgggaacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241

4、gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac(二)各种生物数据库(二)各种生物数据库1、核苷酸数据库、核苷酸数据库u DNA、mRNA、tRNA、rRNA序列序列u RNA序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据u 大量氨基酸序列大量氨基酸序列v主要是非实验来源数据主要是非实验来源数据v coding sequence(CDS)EXONINTRONCDS(coding sequence)ORF(open reading frame)u 数据库

5、种类很多数据库种类很多u 三大核苷酸数据库三大核苷酸数据库vGenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ United States Patent and Trademark Office(USPTO)European Patent Office(EPO)Japan Patent Office(JPO)v收集了专利的核苷酸序列收集了专利的核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换信息资源共享:以天为基础进行数据库之间的序列数据交换(1)GenBank http:/www.ncbi.nlm.nih.gov/u美国美国NCBI的数据库,有部分蛋白质序列的数据库,

6、有部分蛋白质序列u数据每天更新,每年发行六版数据每天更新,每年发行六版release ftp:/ftp.ncbi.nih.gov/genbank/gbrel.txtuRelease 172(2009.6.15)v106,073,709 entriesv105,277,306,080 basesu来源于来源于260,000多个物种多个物种u大约大约12的序列来源于人的序列来源于人(Homo sapiens)Growth of GenBankvLocus name(位点名)(位点名)vAccession number(注册号或登陆号)(注册号或登陆号)vGI(GenInfo identifier)

7、NID(Nucleotide ID)u每个序列有一个每个序列有一个flatfileu 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier)u LOCUS lineSample recordhttp:/www.ncbi.nlm.nih.gov/Sitemap/samplerecord.htmlThe divisions of GenBank分支缩写分支缩写分支全称分支全称 PRI灵长类序列灵长类序列(primate sequences)ROD啮齿类序列啮齿类序列(rodent sequences)MAM其它哺乳类序列其它哺乳类序列(other mammalian

8、 sequences)VRT其它脊椎动物序列其它脊椎动物序列(other vertebrate sequences)INV无脊椎动物序列无脊椎动物序列(invertebrate sequences)PLN植物、真菌和海藻类序列植物、真菌和海藻类序列(plant,fungal,and algal sequences)BCT细菌序列细菌序列(bacterial sequences)VRL病毒序列病毒序列(viral sequences)PHG噬菌体序列噬菌体序列(bacteriophage sequences)SYN合成序列合成序列(synthetic sequences)The division

9、s of GenBank分支缩写分支缩写分支全称分支全称UNA未注释的序列未注释的序列(unannotated sequences)EST表达序列标签表达序列标签(expressed sequence tags)PAT已专利的序列已专利的序列(patent sequences)STS序列标签位点序列标签位点(sequence tagged sites)GSS基因组勘察序列基因组勘察序列(genome survey sequences)HTG高产出基因组序列高产出基因组序列(high throughput genomic sequences)HTC高产出高产出cDNA序列序列(high thro

10、ughput cDNA sequences)ENV环境样品序列环境样品序列(Environmental sampling sequences)(2)dbEST(Database of Expressed Sequence Tags)http:/www.ncbi.nlm.nih.gov/dbEST/index.htmlu GenBank的二级数据库的二级数据库u 5 端或端或3 端的端的cDNA 序列(序列(EST)u 200-500 bp“Single-pass read”sequence u GenBank 中中60以上的序列是以上的序列是 EST(3)UniGene 数据库数据库 http

11、:/www.ncbi.nlm.nih.gov/UniGene/uNCBI 的另一个核苷酸的另一个核苷酸数据库数据库u来源于同一基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群v人、大鼠、小鼠、人、大鼠、小鼠、斑马鱼、斑马鱼、牛牛、蛙等、蛙等v拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等v共计共计100多个物种多个物种uUniGene主页输入关键词主页输入关键词检索检索(4)dbSTS(Database of Sequence Tagged Sites)http:/www.ncbi.nlm.nih.gov/dbSTS/index.htmluGenBan

12、k的二级数据库的二级数据库 UniSTSu 短序列短序列(200-500 bp),仅在基因组中出现一次),仅在基因组中出现一次u 已定位于染色体上已定位于染色体上 如何找到一个如何找到一个STSu 检索:检索:GenBank主页主页选择选择UniSTS后输入关键词后输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容点击点击“mv”查看染色体定位查看染色体定位contig(5)dbGSS(Database of Genome Survey Sequences)http:/www.ncbi.nlm.nih.gov/dbGSS/index.htmlu GenBank的二级数据库的二级

13、数据库u 基因组短序列基因组短序列u cosmid/BAC/YAC 外源插入片段的末端序列外源插入片段的末端序列u Alu PCR 序列序列cosmid/BAC/YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.0011(6)HTG(High-Throughput Genomic Sequences)http:/www.ncbi.nlm.nih.gov/HTGS/u GenBank 的二级数据库的二级数据库u 尚未完成测序的重叠群(尚未完成测序的重叠群(2 kb)的序列的序列u 新序

14、列的增加速度很快新序列的增加速度很快cosmid/BAC/YACPhase0Phase1Phase2Phase3逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.水稻基因组全基因组大小:430Mb;每个Reads读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水

15、稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。中国水稻基因组计划的经费预算中国水稻基因组计划的经费预算(7)基因组数据库)基因组数据库 http:/www.ncbi.nlm.nih.gov/sites/entrez?db=genomeuNCBI 的另一个的另一个数据库数据库u测序完成和正在测序物种基因组序列、遗传图、测序完成和正在测序物种基因组序列、遗传图、物理图等物理图等u序列收集在序列收集在GenBanku已经完成测序的基因组(截止已经完成测序的基因组(截止2009年年2月)月)Genome ProjectStati

16、stics(8)dbSNP(Database of Single Nucleotide Polymorphisms)单核苷酸多态性数据库 http:/www.ncbi.nlm.nih.gov/sites/entrez?db=snpu NCBI的数据库,创建于的数据库,创建于1998.9u 约每约每300 bp 有一个有一个SNPu 数据种类数据种类SNPInsertion/deletion(Indel)Deletion/insertion/substitution(DIS)u 发现致病基因、发现致病基因、进化分析进化分析u dbSNP主页输入关键词主页输入关键词检索到的条目检索到的条目每一条目

17、详细内容每一条目详细内容代码代码碱基碱基MA或或CRA或或GWA或或TSC或或GYC或或TKG或或TVA、C或或GHA、C或或TDA、G或或TBC、G或或TNG、A、T或或C标准碱基多意代码标准碱基多意代码(9)EMBL(European Molecular Biology Laboratory)Nucleotide Sequence Databasev EBI(European Bioinformatics Institute)管理管理v 主要是欧洲国家产生的主要是欧洲国家产生的 DNA 和和 RNA 序列序列v 序列数据序列数据文档文档格式与格式与 GenBank 不同不同数据库主页数据库

18、主页http:/www.ebi.ac.uk/embl输入关键词输入关键词检索到的检索到的条目条目每一条目每一条目详细内容详细内容(10)DDBJ(DNA Data Bank of Japan)u 主要是日本产生的主要是日本产生的 DNA 和和 RNA 序列序列数据库主页数据库主页http:/www.ddbj.nig.ac.jp/Welcome-e.html输入关键词输入关键词检索到的检索到的条目条目每一条目每一条目详细内容详细内容u 发表文章要提供发表文章要提供 Accession number(11)EPD(Eukaryotic Promoter Database)http:/www.epd

19、.isb-sib.ch/u由由Weizmann Institute of Science in Rehovot(Israel)开创开创u4809条真核生物启动子序列(条真核生物启动子序列(2009.2)u人类基因组中的启动子大约人类基因组中的启动子大约19万个万个u同一个基因具有多个启动子同一个基因具有多个启动子2、蛋白质数据库、蛋白质数据库(1)SWISS-PROTu由由 EBI 和瑞士创办和瑞士创办u有详细注释有详细注释的序列的序列,数据来源于实验,数据来源于实验u与与44个个数据库数据库相互参照(相互参照(cross-reference)数据库主页数据库主页http:/www.ebi.a

20、c.uk/swissprot/点击点击SRS在在查询网页查询网页输入关键词输入关键词检索到的检索到的条目条目(2)TrEMBL(Translation of EMBL)uEBI 的数据库的数据库u提交到提交到 EMBL 核苷酸核苷酸数据库中所有数据库中所有CDS 的氨的氨基酸序列基酸序列u SWISS-PROT 和和 TrEMBL数据库合并数据库合并 UniProt(Universal Protein Resource)http:/www.uniprot.orgv 检索方法与检索检索方法与检索SWISS-PROT相同相同v 查询结果查询结果和和数据格式数据格式(3)PIR(Protein In

21、formation Resource)http:/pir.georgetown.eduu 由由National Biomedical Research Foundation 创办创办u蛋白质蛋白质家族分类家族分类u 蛋白质整合信息蛋白质整合信息(4)PRF(Protein Research Foundation)http:/www.prf.or.jp/en/os.htmlu由日本的由日本的 Protein Research Foundation 创办创办u已发表在杂志上的蛋白质序列已发表在杂志上的蛋白质序列u修饰位点、修饰位点、SS键等键等u两月更新一次两月更新一次(6)Prosite htt

22、p:/www.expasy.org/prositeu 蛋白质家族蛋白质家族u 结构域结构域3、结构数据库、结构数据库(1)PDB(Protein Data Bank)http:/www.rcsb.orgu 由由 Brookhaven National Laboratories 创办创办v 蛋白质蛋白质v 核酸核酸v 其它其它u 57,103 个结构图(个结构图(2009.2)u 可通过可通过 BLAST 系统检索系统检索u X 射线衍射图射线衍射图、核磁共振(核磁共振(NMR)光谱图光谱图和电镜和电镜图图(文字文字和和三维三维结构图)结构图)(2)SWISS-3D IMAGE http:/ww

23、w.expasy.ch/sw3d/蛋白质的平面和立体图蛋白质的平面和立体图u 来源于实验结果来源于实验结果u 理论模型理论模型4、酶和代谢数据库、酶和代谢数据库(1)KEGG(Kyoto Encyclopedia of Genes and Genomes)u 各种代谢、遗传等路径图各种代谢、遗传等路径图u 可检索参于可检索参于各种各种路径的基因路径的基因KEGG主页主页http:/www.genome.ad.jp/kegg/点击点击“PATHWAY”“PATHWAY”网页点击任何代谢路径,如糖酵解网页点击任何代谢路径,如糖酵解/糖糖原异生途径(原异生途径(Glycolysis/Gluconeo

24、genesis)u 检索检索Genetic Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,网页点击任何遗传信息路径,如如 Protein export 路径路径可以查看参加这一路径蛋白质的可以查看参加这一路径蛋白质的信息信息u 检索检索Environmental Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK signaling p

25、athway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息u 检索检索Cellular ProcessesKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Cellular Processes 路径,如路径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息(2)PKR(Protein Kinase Resource)http:/pkr.genomics.purdue

26、.edu/pkr/Welcome.do多种检索内容多种检索内容u 已知蛋白激酶的序列比较已知蛋白激酶的序列比较u 蛋白激酶分类蛋白激酶分类u 蛋白激酶的三维结构蛋白激酶的三维结构u 其它参考资料其它参考资料5、物种分类数据库、物种分类数据库u 物种分类物种分类界(界(Kingdom)门(门(Phylum)纲(纲(Class)目(目(Order)科(科(Family)属(属(Genus)种(种(Species)每一分类等级下可加设亚级(每一分类等级下可加设亚级(Sub-),如亚门、亚),如亚门、亚纲、亚科等。纲、亚科等。每一分类等级上可加设总级(每一分类等级上可加设总级(Super-),如总纲、

27、总),如总纲、总目、总科等。目、总科等。动物界(动物界(Animal)脊索动物门(脊索动物门(Chordata)脊椎动物亚门(脊椎动物亚门(Vertebrata)哺乳纲(哺乳纲(Mammalia)啮齿目(啮齿目(Rodentia)鼠科(鼠科(Muridae)小家鼠属(小家鼠属(Mus)小家鼠种(小家鼠种(musculus)举例:举例:Mouse:Mus musculusHuman:Homo sapiensArabidopsis:Arabidopsis thaliana Taxonomy http:/www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.htmlu

28、拟南芥拟南芥系谱(系谱(lineage)u各个物种的系谱树各个物种的系谱树在在NCBI Entrez Taxonomy Homepage网页网页点击点击“tree”在在“tree”网页点击任一物种名,如网页点击任一物种名,如“Eukaryota”真核生物的真核生物的系谱系谱(lineage)6、文献数据库、文献数据库u 各种杂志、书刊上发表的文章各种杂志、书刊上发表的文章u 大多数有摘要大多数有摘要(1)PubMed http:/www.ncbi.nlm.nih.gov/PubMed/u 美国国家医学图书馆的数据库美国国家医学图书馆的数据库u 医学医学u 分子生物学分子生物学u 基础生物学基础

29、生物学u 5300多种刊物,来源于多种刊物,来源于70多个国家多个国家u 刊物年限:刊物年限:1948年至今年至今(2)OMIM(Online Mendelian Inheritance in Man)u NCBI 的数据库的数据库u 人类基因人类基因u 遗传疾病遗传疾病u 每天更新数据每天更新数据 条目条目http:/www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM(3)Agricola http:/agricola.nal.usda.gov/u 美国农部农业图书馆的数据库美国农部农业图书馆的数据库u 农业类刊物农业类刊物7、向数据库提交和修改核苷酸和蛋白质

30、序列、向数据库提交和修改核苷酸和蛋白质序列提交:提交:Submission修改:修改:Update数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用GrowthofSequenceand3DStructureDatabasesSigned by 256 researchers(1)向向 GenBank提交或修改核苷酸序列提交或修改核苷酸序列u 用用 BankIt 功能功能提交提交序列序列v 网上直接提交,简单方便网上直接提交,简单方便v 提交后立刻得到临时编号提交后立刻得到临时编号v 一周内得到一周内得到 Accession numberu用用Update 功能功能修

31、改修改 GenBank 中的序列和相关信息中的序列和相关信息v 修改一次,修改一次,version 的编号就进一位的编号就进一位u 用用 Sequin 方法提交序列方法提交序列v 可下载的电子表格可下载的电子表格v 自动确定自动确定 CDS、ORF 和查找重复序列和查找重复序列(2)向)向 SWISS-PROT 提交或修改蛋白质序列提交或修改蛋白质序列u 网上直接操作网上直接操作u 只接收用蛋白质直接测序的序列只接收用蛋白质直接测序的序列u 由核苷酸序列翻译得到的蛋白质序列由核苷酸序列翻译得到的蛋白质序列 将进入将进入TrEMBL(三)上机操作(三)上机操作1.熟悉各种数据库熟悉各种数据库2.

32、重点了解重点了解 GenBank 和和 SWISS-PROT 的各种功能和适用范围的各种功能和适用范围Xa26 nucleic acid sequence(DQ426646,6000 bp):ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAAXa26 amino acid sequence(ABD84047,110

33、3 aa):MALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPFCRWVGVSCSSHRRRRQRVTALELPNVPLQGELSSAdam ZemlaFour genetic signatures of the SARS virus shown in yellow,blue,light green,and dark green are mapped onto a 3-D protein model of the SARS RNA polymerase.Surface features of the sub

34、strate-binding pockets of TGEV Mpro(A)and SARS 3CL proteinase(B).The surface color was loaded by the electrostatic properties.One small molecule,its chemical structure is shown in(C),produced by the virtual screening on the MDDR database,represented as CPK model,was docked into the binding pockets.X

35、IONG BinMicroarray2-DSDS-PAGEtwentymostsequencedorganismsinRelease172.0twentymostsequencedorganismsinRelease172.0TwentymostsequencedorganismsinRelease172.0(2009.6)建立特定染色体的基因组文库建立特定染色体的基因组文库随机选择克隆进行短片段单次测序随机选择克隆进行短片段单次测序比对确认不含重复序列比对确认不含重复序列在序列上寻找引物在序列上寻找引物合成引物对基因组合成引物对基因组DNA进行进行PCR产物为单一片段即是产物为单一片段即是STS标记,确标记,确认其在染色体上的位置认其在染色体上的位置如如何何找找到到一一个个STS此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁