《(5.2.1)--4.2GenBank数据库和PubMed数据库中序列数据信息检索.pdf》由会员分享,可在线阅读,更多相关《(5.2.1)--4.2GenBank数据库和PubMed数据库中序列数据信息检索.pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、GenBank 数据库和 PubMed 数据库中序列数据信息检索比较摘要:通过对 GenBank 数据库和 PubMed数据库的数据来源、检索界面和检索结果等的对比分析,发现 2个检索库检索的序列数据信息存在差别,GenBank 数据库检索结果和检准率均高于 PubMed 数据库。关键词:GenBank;PubMed;Entrez;生物信息学;医学文献检索中图分类号:G252.7;R-05文献标志码:A文章编号:1671-3982(2009)03-0044-03Comparison of sequential data retrieval results from GenBank and Pu
2、bMedLI Yi(Library of Chongqing Medical University,Chongqing 400016,China)Abstract:A comparative analysisof the data source,retrieval interface and results showed that there was a dif-ference in the sequential data retrieval results from GenBank and PubMed,namely both the recall ratio and ac-curacy r
3、ation were higher in Genbank than in PubMed.Key Words:Genbank;PubMed;Entrez;bioinfomatics;medical literature retrieval收稿日期:2009-01-16作者简介:李轶(1976-),女,重庆市人,本科,馆员,发表论文 3篇。GenBank 数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库,包含了目前所有已知的核苷酸序列和蛋白质序列以及与它们相关的文献著作和生物学注释。PubMed 数据库也是由NCBI 维护的数据库,提供对 MEDLINE、Pre-MEDLIN
4、E 等文献数据库的引用查询和大量网络科学类电子期刊的链接 1。GenBank 数据库和 PubMed 数据库位于同一检索平台上,其检索查询系统都是 Entrez,用户在检索序列数据信息时可以通过 GenBank 数据库的检索结果直接链接 PubMed 数据库,也可以通过 PubMed 数据库的检索结果直接链接 GenBank 数据库。本文通过这 2 种途径检索对上述 2 个数据库的数据来源、检索界面和检索结果等进行比较分析,旨在指导用户正确查询生物信息学文献。1数据来源分析GenBank 数据库的数据来源有 3 种。第一种是直接来源于测序工作者提交的序列。第二种是与其他数据机构协作交换的数据。
5、GenBank 数据库和欧洲分子生物学实验室(EMBL)的数据库以及日本的DNA 数据库(DDBJ)共同构成了国际核苷酸序列数据库协作组织。这 3 个数据库分别收集所在区域有关实验室和测序机构所提交的核苷酸序列信息,每天交换各自数据库新建立的序列记录,并共享收集到的数据,以保证数据库序列信息的完整性 2。第3 种是美国专利局提供的专利数据。GenBank 数据库中,除专利数据外,其他 2 种数据来源都是由测序工作者直接提交的序列数据。测序工作者一旦测得了序列数据就可以提交给 Gen-Bank 数据库,经审核后在数据库中公布。而 PubMed数据库的数据来源于已发表的文献。目前世界上的权威期刊在
6、作者发表论文时都要求提供 GenBank 数据库的序列接受号(GenBank 数据库、EMBL 数据库以及DDBJ 数据库的序列接受号和序列特征表都是相同的),因此 GenBank 数据库的数据更新要早于PubMed数据库。对于序列数据信息的检索,Gen-Bank 数据库的检全率均高于 PubMed 数据库。2 检索界面分析2.1限制检索界面(Limits)在 PubMed 数据库的限制检索界面,用户可以对作者、期刊名称、是否有全文、是否有免费全文、是否有文摘、原文出版时间、数据库更新时间、研究对象为人类或动物、研究对象性别、原文语种、专题子库(包括期刊类型和专题)、文献类型、研究对象年龄范围
7、及字段等进行限定检索。其中字段限定检索的字段索引、中文注释及其对应的检索限定词见表 1。在GenBank 数据库的限制检索界面,用户可通过对一系列复选框的选择排除某些类型的序列,如排除序列标签位点(STSs)、第 3 者注释序列(TPA)、草图及专利数据等。表 1PubMed数据库字段限制检索的字段索引、中文注释及其对应的检索限定词3-4字段索引中文注释检索限词All Fields包含所有术语 ALLAffiliation第一作者的所属机构ADAuthor作者AUCorporate Author集体作者EC RN NumberEnzyme Commission 或 ChemicalAbstra
8、ct Service(CAS)指定的序列产物的酶学或化合物编号 RNEntrezDate录入PubMed 数据库的日期 EDATFilter专题子集 FILTERFirst Author第一作者FullAuthor Name作者姓名全称Full Investigator Name研究者姓名全称Grant Number基金号Investigator研究者Issue期刊出版号 IPJournal期刊名称 TALanguage原文语种 LALast Author后面的作者Location IDID编号MeSH Date标引MeSH 主题词的日期 MHDAMeSHMajor Topic主要MeSH 主
9、题词 MAJR MeSH Subheading副主题词 SHPMeSH Terms全部MeSH 主题词 MHPagination页数 PGPharmacological Action药理Publication Date出版日期 DPPublication Type文献类型 PTSecondary Source ID用于限定检索与PubMed 系统中的文献条目相关的分子序列资源数据库和该数据库的存取号 SISubstance Name物质名称 NMText Word免费全文 TWTitle题名 TITitle Abstract提名 文摘Transliterated Title翻译的题名Volum
10、e文献发表的期刊期、卷号 VI TPA 数据库的序列来源于GenBank 数据库的原始序列数据,其序列的注释信息是由非序列提交者即“第 3 者”通过实验和 或自动计算方法推论得到,但其数据都有直接或间接的实验室证据支持 5。同时,用户还可以对字段、分子类型、基因位点、序列片段的显示、数据来源、数据修订日期等进行限定检索 6。其中字段限制检索的字段索引、中文注释及其对应的检索限定词见表 2。通过限制检索界面的分析,发现在PubMed 数据库的限制检索界面用户只能对发表的文献进行限定,而无法对序列数据本身进行限定,而在 GenBank数据库的限制检索界面用户可以对序列数据本身进行限定。因此对于序列
11、数据信息的检索,GenBank数据库的检准率应高于 PubMed 数据库。表 2GenBank数据库字段限制检索的字段索引、中文注释及其对应的检索限定词 3字段索引中文注释检索限定词Accession序列接受号 ACCNAll Fields包含所有术语 ALLAuthor作者 AUTHEC RN NumberEnzyme Commission 或 ChemicalAbstract Service(CAS)指定的序列产物的酶学或化合物编号 ECNOFeature Key特性关键词FKEYFilter专题子集 FILTGene Name基因名称 GENEGenome Project基因组(测序)计
12、划Issue期刊出版号 ISSKeyword关键词 KY WDJournalName期刊名称 JOUR Modification Date序列修订日期 MDATOrganism生物体名称 ORGNPage Number文献发表在期刊上的首页页码PAGEPrimary Accession首次指定的序列接受号 PACCPrimary Organism来源生物Properties特性 PROPProtein Name蛋白质名称 PROTPublication Date序列发布日期 PDATSeqID String序列 ID S QIDSequence Length序列长度 SLENSubstance
13、 Name物质名称 SUBSText Word免费全文 WORDTitle序列记录的定义、解说行 TITLVolume文献发表的期刊期、卷号 VOL2.2 预检索 索引检索界面(Preview Index)在GenBank 数据库和 PubMed 数据库的预检索或索引检索界面的下方为索引检索输入框,其框内前部都有一个“All Fields”下拉菜单。单击该菜单后,发现其包含字段分别与相应的 2个数据库的限制检索界面的字段限制检索的下拉菜单所包含的字段完全相同,即分别与表 1和表 2提供的检索字段相同。如果用户任意选择一个字段后单击索引检索输入框后方的索引检索按钮“Index”,在索引检索输入框
14、下方还会出现一个下拉菜单。该菜单内显示与被选字段有关的所有索引,用户可以通过该索引对检索内容进行更精确的限制,进一步提高检索的检准率 5。从表 1 和表 2 发现,GenBank 数据库和 PubMed数据库提供的限制检索字段是有区别的,这 2 个数据库在预检索或索引检索界面提供的字段索引也不完全相同。PubMed 数据库为用户提供的字段索引多与文献内容有关,如著者索引、期刊索引、语种索引、MeSH 词表索引等。GenBank 数据库为用户提供的索引多与序列数据本身有关,如序列特性关键词索引、基因名称索引、生物体名称索引等。表 3 列出了序列特性关键词索引及其中文注释。45中华医学图书情报杂志
15、2009 年 5月第 18 卷第 3期 Chin J Med Libr Inf Sci,May 2009,Vol 18,No.3表 3GenBank数据库序列特性关键词索引及其中文注释 7 特性关键词中文注释特性关键词中文注释misc feature生物学特性无法用特性表关键词描述的序列sig peptide编码信号肽的序列misc difference序列特性无法用特性表关键词描述的序列transit peptide转运蛋白编码序列conflict同一序列在不同的研究中在位点或区域上有差异mat peptide编码成熟肽的序列unsure序列不能确定的区域intron内含子old seque
16、nce该序列对以前的版本做过修订polya siteRNA 转录本的多聚腺苷酸化位点variation包含稳定突变的序列rrna核糖体 RNAmodified base修饰过的核苷酸trna转运 RNAgene已识别为基因或已命名的序列区域scrna小细胞质 RNAmisc-signal无法用信号特性关键词描述的信号序列snrna小核 RNApromoter转录起始区snorna加工和修饰 rRNA 的小核 RNAcaat signal真核启动子上游的 CAAT 盒,与 RNA 结合相关immunoglobulin-relaedtata signal真核启动子的TATA 盒c region免疫
17、相关蛋白上的不变区35 signal原核启动子中的-35 框d segment免疫球蛋白重链的可变区,T 细胞受体 链10 signal原核启动子的Pribow 盒j segment免疫球蛋白重链、轻链以及 T 细胞、的结合链gc signal真核启动子的GC 盒n region插入重排免疫球蛋白片段间的核苷酸rbs核糖体结合位点s region免疫球蛋白重链的开关区polya signalRNA 转录本的剪切识别位点v region编码免疫球蛋白的可变区N 末端的序列enhancer增强子v segment编码免疫球蛋白的可变区的序列attenuator与转录终止有关的序列repeat re
18、gion基因组中所包含的重复序列terminator转录终止序列repeat unit单个的重复元件rep origin双链DNA 复制起始区Ltr长末端重复序列misc rna无法用 RNA 关键词描述的转录物或 RNA 产物satellite卫星重复序列prim transcript初始转录本Misc binding无法描述的核酸序列结合位点precursor rna前体 RNAprimer bind复制、转录的引物结合位点mrna信使 RNAprotein bind蛋白质结合区5 clip前体转录本中被剪切掉的 5 端序列Sts测序标签位点3 clip前体转录本中被剪切掉的 3 端序列M
19、isc recomb无法用重组特性关键词描述的重组事件5 utr5 非翻译区Idna通过重组所消除的 DNA3 utr3 非翻译区Misc structure无法用结构关键词描述的核酸序列高级结构或构型exon外显子Stem loop发夹结构cds蛋白质编码序列d loop线粒体中 DNA 中的取代环从表 3 可以看出,用户可通过对序列特性关键词索引的选择,精确地检索序列的某些特性。对于序列数据信息的检索,GenBank 数据库的检准率应高于PubMed 数据库。3结论通过对 GenBank 数据库和 PubMed 数据库的数据来源、检索界面和检索结果等的分析,发现对于序列数据信息的检索,通过
20、这 2 种途径检索得到的检索结果存在一定的差别,GenBank 数据库检索的检全率和检准率均高于 PubMed 数据库。因此在检索序列数据信息时,建议先从GenBank 数据库入手,再链接PubMed 数据库查看信息,而不是从 PubMed 数据库入手,链接GenBank 数据库查看信息。参考文献:1 万跃华,何立民.网上生物信息学数据库资源 J.情报学报,2002,21(4):497-512.2 姜鑫.生物信息学数据库及其利用方法 J.现代情报,2005,25(6):185-187.3 http:www.ncbi.nlm.nih.gov DB OL.(2009-01-13)4 李友仁,刘松岩,黄 敏.PubMed 检索概述 J.医学信息:医学与计算机应用,2002,15(7):443-446.5 李轶.GenBank 数据库检索及其应用 Entrez 检索功能 J.中华医学图书情报杂志,2008,17(5):49-51.6 叶协杰,娄长春.Entrez 检索系统功能和使用技巧 J.沈阳医学,2003,23(1):42-47.7 蒋彦,王小行,曹毅,等.基础生物信息学及应用 M.北京:清华大学出版社,2003.46中华医学图书情报杂志2009 年 5月第 18卷第 3 期Chin J Med Libr Inf Sci,May 2009,Vol 18,No.3