《genbank数据库检索及其应用.ppt》由会员分享,可在线阅读,更多相关《genbank数据库检索及其应用.ppt(118页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、GenBank数据库检索及其应用数据库检索及其应用Entrez检索功能检索功能重庆医科大学图书馆重庆医科大学图书馆李李 轶轶简介简介 GenBank数据库是由美国国立生物技术信息数据库是由美国国立生物技术信息中心(中心(NCBI)维护的一级核酸序列数据库。)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。、美国专利局提供的专利数据。NCBI网站网址:网站网址:http:/GenBank和和P
2、ubMed(序列数据序列数据)检索的比较检索的比较:1 1、GenBank的检索结果是序列及其注释信息;的检索结果是序列及其注释信息;PubMed的检索结果是与序列数据相关的文献信息。的检索结果是与序列数据相关的文献信息。2、GenBank数据更新早于数据更新早于PubMed,GenBank数据库的数据库的检全率高于检全率高于PubMed。3、GenBank可对序列数据进行限制检索,而可对序列数据进行限制检索,而PubMed只能对文献、杂志、作者等进行限制检索,因而只能对文献、杂志、作者等进行限制检索,因而GenBank数据库的检准率也高于数据库的检准率也高于PubMed。检索界面检索界面简介
3、简介基本检索输入框基本检索界面:基本检索界面:执行检索按钮基本检索输入框基本检索界面:基本检索界面:rasGENE点击进入跨库检索跨库检索界面:跨库检索界面:rasGENE执行检索按钮跨库检索界面:跨库检索界面:点击进入GenBank数据库GenBank数据库界面:数据库界面:GenBank数据库界面:数据库界面:点击进入核苷酸序列数据库检索界面GenBank数据库界面:数据库界面:特征栏提供辅助检索功能核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:简介简介检索界面检索界面基本检索功能基本检索功能(一)名称、作者姓名、截词检索、布尔逻辑
4、运算(一)名称、作者姓名、截词检索、布尔逻辑运算(二)特殊标志符检索(二)特殊标志符检索(五)范围检索(五)范围检索(三)序列长度检索(三)序列长度检索(四)分子重量检索(四)分子重量检索简介简介检索界面检索界面基本检索功能基本检索功能(一)名称、作者姓名、截词检索、布尔逻辑运算(一)名称、作者姓名、截词检索、布尔逻辑运算检索限定词:检索限定词:1、基因名称的检索限定词:、基因名称的检索限定词:GENE2、生物体名称的检索限定词:、生物体名称的检索限定词:ORGN3、作者姓名的检索限定词:、作者姓名的检索限定词:AUTH简介简介检索界面检索界面基本检索功能基本检索功能(一)名称、作者姓名、截词
5、检索、布尔逻辑运算(一)名称、作者姓名、截词检索、布尔逻辑运算(二)特殊标志符检索(二)特殊标志符检索特殊标志符的格式特殊标志符的格式(核酸序列)(核酸序列):l2、GenBank/EMBL/DDBJ序列接受号:序列接受号:l (1)1个字母个字母+5个阿拉伯数字个阿拉伯数字l e.g.:U12345l (2)2个字母个字母+6个阿拉伯数字个阿拉伯数字l e.g.:AY123456,Af123456l1、序列辨认号(、序列辨认号(GI):):一串阿拉伯数字一串阿拉伯数字l e.g.:6995995(1 1)mRNA mRNA 记录(记录(NM_*NM_*):e.g.:NM_000492e.g.
6、:NM_000492(2 2)基因组)基因组DNADNA重叠群(重叠群(NT_*NT_*):e.g.:NT_000347e.g.:NT_000347(3 3)完整的基因组或染色体()完整的基因组或染色体(NC_*NC_*):e.g.:NC_000907e.g.:NC_000907(4 4)基因组的局部区域()基因组的局部区域(NG_*NG_*):e.g.:NG_000019e.g.:NG_000019(5 5)从人类基因组序列注释、加工得到的序列模型记录()从人类基因组序列注释、加工得到的序列模型记录(XMXM,XPXP,or XR_*or XR_*):):e.g.:XM_000483e.g.
7、:XM_000483特殊标志符的格式特殊标志符的格式(核酸序列):(核酸序列):3 3、RefSeqRefSeq(Reference SequenceReference Sequence)序列接受号序列接受号:特殊标志符的格式特殊标志符的格式(核酸序列):(核酸序列):4、PDB序列接受号:个阿拉伯数字个字母序列接受号:个阿拉伯数字个字母 e.g.:TUP序列接受号的检索限定词为序列接受号的检索限定词为 ACCNorACCESSIONAF123456ACCN简介简介检索界面检索界面基本检索功能基本检索功能(一)名称、作者姓名、截词检索、布尔逻辑运算(一)名称、作者姓名、截词检索、布尔逻辑运算(
8、二)特殊标志符检索(二)特殊标志符检索(三)序列长度检索(三)序列长度检索1510SLEN序列长度的检索限定词:序列长度的检索限定词:SLEN简介简介检索界面检索界面基本检索功能基本检索功能(一)名称、作者姓名、截词检索、布尔逻辑运算(一)名称、作者姓名、截词检索、布尔逻辑运算(二)特殊标志符检索(二)特殊标志符检索(三)序列长度检索(三)序列长度检索(四)分子重量检索(四)分子重量检索2009MOLWT分子重量的检索限定词:分子重量的检索限定词:MOLWT简介简介检索界面检索界面基本检索功能基本检索功能(一)名称、作者姓名、截词检索、布尔逻辑运算(一)名称、作者姓名、截词检索、布尔逻辑运算(
9、二)特殊标志符检索(二)特殊标志符检索(五)范围检索(五)范围检索(三)序列长度检索(三)序列长度检索(四)分子重量检索(四)分子重量检索范围检索:范围检索:中间用冒号连接中间用冒号连接中间用冒号连接中间用冒号连接l1、序列接受号范围检索:、序列接受号范围检索:l AF114696:AF114714ACCNl2、序列长度范围检索:、序列长度范围检索:l 3000:4000SLENl3、分子重量范围检索:、分子重量范围检索:l 2002:2009MOLWTl4、日期范围检索:、日期范围检索:l 2005/01:2006/09/26MDATorPDAT简介简介检索界面检索界面基本检索功能基本检索功
10、能特征栏辅助检索特征栏辅助检索限制检索(限制检索(Limits)预检索预检索/索引检索(索引检索(Preview/Index)检索史管理(检索史管理(History)剪贴板管理(剪贴板管理(Clipboard)详细匹配过程(详细匹配过程(Details)限制检索限制检索预检索预检索/索引检索索引检索检索史管理检索史管理剪贴板管理剪贴板管理详细匹配过程详细匹配过程简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索(限制检索(Limits)限制检索界面:限制检索界面:限制检索界面:限制检索界面:核苷酸序列数据库分为三个子数据库:核苷酸序列数据库分为三个子数据库:l
11、EST:表达序列标记数表达序列标记数据库据库lGSS:基因组测序序列基因组测序序列数据库数据库lCoreNucleotide:包含所包含所有未被以上两个子数据有未被以上两个子数据库收录的核苷酸序列库收录的核苷酸序列核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:限制检索界面:限制检索界面:限制检索界面:限制检索界面:检索结果显示界面:检索结果显示界面:限制检索范围限制检索(限制检索(Limits):):限制检索范围ras排除某种类型的序列限制分子类型限制分子类型 限制基因位点 限制基因位点限制序列片段的显示限制序列片段的显示限制数据来源限
12、制数据来源限制数据修订日期限制数据修订日期简介简介检索入口检索入口基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索(限制检索(Limits)预检索预检索/索引检索(索引检索(Preview/Index)预检索预检索/索引检索界面:索引检索界面:hepatitis b索引检索输入框索引检索按钮索引检索按钮序列特性关键词索引rasGENE序列特性关键词索引简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索(限制检索(Limits)预检索预检索/索引检索(索引检索(Preview/Index)检索史管理(检索史管理(History)剪贴板管理(剪贴板管理
13、(Clipboard)详细匹配过程(详细匹配过程(Details)penicillin-bindingmycobacterium tuberculosis#8 AND#4penicillin-binding AND mycobacterium tuberculosisORGN简介简介检索入口检索入口基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索检索结果的显示检索结果的显示检索结果显示界面:检索结果显示界面:选择检索结果的显示格式选择检索结果的显示格式选择检索结果的显示格式摘要格式:摘要格式:联接Genbank 格式:格式:Genbank 格式:格式:Genbank 格式:格式:Genba
14、nk 格式:格式:Genbank 格式:格式:Genbank 格式:格式:Genbank 格式:格式:Genbank 格式:格式:GenBankGenBank记录中特性表中的主要关键词记录中特性表中的主要关键词记录中特性表中的主要关键词记录中特性表中的主要关键词:关键词关键词解解 释释关键词关键词解解 释释misc_feature生物学特性无法用特性表生物学特性无法用特性表关键词描述的序列关键词描述的序列promoter转录起始区转录起始区misc_difference序列特性无法用特性表关序列特性无法用特性表关键词描述的序列键词描述的序列CAAT_signal真核启动子上游的真核启动子上游的
15、CAAT盒盒,与与RNA结合相关结合相关conflict同一序列在不同的研究中同一序列在不同的研究中在位点或区域上有差异在位点或区域上有差异TATA_signal真核启动子的真核启动子的TATA盒盒unsure序列不能确定的区域序列不能确定的区域-35_signal原核启动子中的原核启动子中的-35框框old_sequence该序列对以前的版本做过该序列对以前的版本做过修订修订-10_signal原核启动子的原核启动子的Pribow盒盒variation包含稳定突变的序列包含稳定突变的序列GC_signal真核启动子的真核启动子的GC盒盒modified_base修饰过的核苷酸修饰过的核苷酸R
16、BS核糖体结合位点核糖体结合位点gene已识别为基因或已命名的已识别为基因或已命名的序列区域序列区域polyA_signalRNA转录本的剪切识别转录本的剪切识别位点位点misc_signal无法用信号特性关键词描无法用信号特性关键词描述的信号序列述的信号序列enhancer增强子增强子关键词关键词解解 释释关键词关键词解解 释释attenuator与转录终止有关的序列与转录终止有关的序列CDS蛋白质编码序列蛋白质编码序列terminator转录终止序列转录终止序列sig_peptide编码信号肽的序列编码信号肽的序列rep_origin双链双链DNA复制起始区复制起始区transit_pep
17、tide转运蛋白编码序列转运蛋白编码序列misc_RNA无法用无法用RNA关键词描述关键词描述的转录物或的转录物或RNA产物产物mat_peptide编码成熟肽的序列编码成熟肽的序列prim_transcript初始转录本初始转录本intron内含子内含子precursor_RNA前体前体RNApolyA_siteRNA转录本的多聚腺苷转录本的多聚腺苷酸化位点酸化位点mRNA信使信使RNArRNA核糖体核糖体RNA5clip前体转录本中被剪切掉前体转录本中被剪切掉的的5端序列端序列tRNA转运转运RNA3 clip前体转录本中被剪切掉前体转录本中被剪切掉的的3端序列端序列scRNA小细胞质小细
18、胞质RNA5UTR5非翻译区非翻译区snRNA小核小核RNA3UTRexon3非翻译区非翻译区外显子外显子snoRNA加工和修饰加工和修饰rRNA的小的小核核RNA关键词关键词解解 释释关键词关键词解解 释释immunoglobulin_relatedrepeat_unit单个的重复元件单个的重复元件C_region免疫相关蛋白上的不变区免疫相关蛋白上的不变区LTR长末端重复序列长末端重复序列D_segment免疫球蛋白重链的可变区,免疫球蛋白重链的可变区,T细胞受体细胞受体链链Satellite卫星重复序列卫星重复序列J_ segment免疫球蛋白重链、轻链以及免疫球蛋白重链、轻链以及T细胞
19、细胞、的结合链的结合链misc_binding无法描述的核酸序列结无法描述的核酸序列结合位点合位点N_ region插入重排免疫球蛋白片段间插入重排免疫球蛋白片段间的核苷酸的核苷酸primer_bind复制、转录的引物结合复制、转录的引物结合位点位点S_ region免疫球蛋白重链的开关区免疫球蛋白重链的开关区protein_bind蛋白质结合区蛋白质结合区V_ region编码免疫球蛋白的可变区编码免疫球蛋白的可变区N末端的序列末端的序列STS测序标签位点测序标签位点V_ segment编码免疫球蛋白的可变区的编码免疫球蛋白的可变区的序列序列misc_recomb无法用重组特性关键词无法用重
20、组特性关键词描述的重组事件描述的重组事件repeat_region基因组中所包含的重复序列基因组中所包含的重复序列iDNA通过重组所消除的通过重组所消除的DNA关键词关键词解解 释释关键词关键词解解 释释misc_structure无法用结构关键词描述的核无法用结构关键词描述的核酸序列高级结构或构型酸序列高级结构或构型stem_loop发夹结构发夹结构D_loop线粒体中线粒体中DNA中的取代环中的取代环GenBank记录中特性表中的限定词记录中特性表中的限定词:限定词限定词含含 义义限定词限定词含含 义义/allele=给定基因的等位基因给定基因的等位基因/codon_start=相对于序列
21、第一个碱基,相对于序列第一个碱基,编码序列密码子的偏移量编码序列密码子的偏移量/bound_moiety=嵌合范围嵌合范围/country=DNA样本的来源国样本的来源国/cell_type=获得序列的细胞类型获得序列的细胞类型/db_xref=其他数据库信息的交叉索其他数据库信息的交叉索引号引号/citation=已被引用的参考文献数已被引用的参考文献数/direction=DNA复制方向复制方向/clone_lib=获得序列的克隆文库获得序列的克隆文库/environmental_sample=序列直接从环境材料中获序列直接从环境材料中获得而没有指明来源物种得而没有指明来源物种限定词限定词
22、含含 义义限定词限定词含含 义义/exception=指明指明DNA序列未按通常的序列未按通常的生物学规律翻译,如生物学规律翻译,如RNA编辑编辑/PCR_conditi-ons=描述描述PCR的反应条件的反应条件/frequency=在种群中发生变异的频率在种群中发生变异的频率/pop_variant=获得序列的群体变异种获得序列的群体变异种名称名称/germline如果序列是如果序列是DNA并来源于并来源于免疫球蛋白家族,则表示免疫球蛋白家族,则表示该序列来源于未重排该序列来源于未重排DNA/product=序列编码产物的名称序列编码产物的名称/insertion_seq=序列来源于某种插
23、入元件序列来源于某种插入元件/anticodon=tRNA反义密码子的位反义密码子的位置及它所编码的氨基酸置及它所编码的氨基酸/isolate=序列来源的生物个体序列来源的生物个体/cell_line=获得序列的细胞系获得序列的细胞系/lab_host=为扩增序列来源物种所用为扩增序列来源物种所用的实验室宿主的实验室宿主/chromosome=获得序列的染色体获得序列的染色体/macronuclear指明指明DNA来源于染色体分来源于染色体分化的大核期化的大核期/clone=获得序列的克隆子获得序列的克隆子/note=评论及附加信息评论及附加信息/codon=指出与参考密码子不同指出与参考密码
24、子不同的密码子的密码子/organelle=获得序列的细胞器获得序列的细胞器/EC_number=序列产物的酶学编号序列产物的酶学编号限定词限定词含含 义义限定词限定词含含 义义/cons_splice=区分内含子剪切位点和区分内含子剪切位点和“5-GT.AG-3”剪切位点剪切位点/map=相关特性在基因图谱上的相关特性在基因图谱上的位置位置/cultivar=所获序列植物的栽培变种所获序列植物的栽培变种/mod_base=被修饰碱基的简写被修饰碱基的简写/dev_stage=序列来源于某种生物的特序列来源于某种生物的特定发育阶段定发育阶段/number=从从53注明遗传元件的顺注明遗传元件的
25、顺序序/evidence=序列特性来源于实验还是序列特性来源于实验还是推理推理/organism=提供测序用遗传物质的物提供测序用遗传物质的物种的科学名称种的科学名称/focus指出在记录中的来源特性指出在记录中的来源特性在其他物种中还有不同的在其他物种中还有不同的来源特性来源特性/phenotype=序列特性所导致的表型序列特性所导致的表型/function=序列所代表的功能序列所代表的功能/plasmid=获得序列的质粒名称获得序列的质粒名称/haplotype=序列来源于某种物种的单序列来源于某种物种的单倍体倍体/protein_id=蛋白质的检索号蛋白质的检索号/isolation_s
26、ou-rce=描述序列来源物种的生理、描述序列来源物种的生理、环境和地理信息环境和地理信息/proviral整合在基因组中的前病毒整合在基因组中的前病毒/label=序列特性的俗名序列特性的俗名/rearranged如果序列是如果序列是DNA并来源于并来源于免疫球蛋白家族,则表示免疫球蛋白家族,则表示该序列来源于重排该序列来源于重排DNA限定词限定词含含 义义限定词限定词含含 义义/rpt_family=重复序列重复序列/transposon=转座子转座子/rpt_unit=指明重复区域的重复元件构指明重复区域的重复元件构成成/variety=获得序列的生物变种获得序列的生物变种/seroty
27、pe=同一物种的不同血清学特征同一物种的不同血清学特征/pseudo假基因假基因/sex=获得序列的物种性别获得序列的物种性别/replace=表明特性间的间隔序表明特性间的间隔序列已被替换列已被替换/specimen_vou-cher=指明来源物种保存于什么地指明来源物种保存于什么地方方/rpt_type=重复序列的组织方式重复序列的组织方式/strain=获得序列的菌珠获得序列的菌珠/sequenced_m-ol=获得序列的分子类型获得序列的分子类型/sub_species=获得序列的来源物种的亚种获得序列的来源物种的亚种/serovar=同一原核生物的血清同一原核生物的血清学特征学特征/
28、tissue_lib=获得序列组织库获得序列组织库/specific_host=获得序列的天然宿主获得序列的天然宿主/transgenic指明物种的来源特性是否是指明物种的来源特性是否是转基因受体转基因受体/standard-name=特性的通用名称特性的通用名称/transl_except=标明序列中未按指定密码子标明序列中未按指定密码子表翻译的氨基酸的位置表翻译的氨基酸的位置/sub_clone=获得序列的亚克隆获得序列的亚克隆限定词限定词含含 义义限定词限定词含含 义义/sub_strain=获得序列的来源微生物亚种获得序列的来源微生物亚种/tissue_type=获得序列组织类型获得序列组织类型/translation=按通用或指定的密码子表翻按通用或指定的密码子表翻译的氨基酸序列译的氨基酸序列/transl_table=描述在翻译中与通用密码表描述在翻译中与通用密码表不同的密码表不同的密码表/usedin=表明该特性在其他检索中也表明该特性在其他检索中也被使用被使用/virion病毒颗粒病毒颗粒FASTA格式:格式:图解显示:图解显示:图解显示:图解显示:多态性碱基序列修订记录:序列修订记录:序列修订记录:序列修订记录:序列修订记录:序列修订记录:序列修订记录:序列修订记录:谢谢 谢!谢!