《NCBI数据库检索.ppt》由会员分享,可在线阅读,更多相关《NCBI数据库检索.ppt(113页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、NCBI简介uhttp:/www.ncbi.nlm.nih.govuNCBI就是美国国家生物技术信息中心(就是美国国家生物技术信息中心(National Center of Biotechnology Information)uNLM是美国国家医学图书馆(是美国国家医学图书馆(National Library of Medicine)uNIH是美国是美国国立卫生研究院国立卫生研究院 (National Institutes of Health) NCBI中通过中通过Entrez可互查的数据库可互查的数据库NCBI数据库Nucleotide:DNA序列数据库序列数据库Protein:蛋白质序列数
2、据库蛋白质序列数据库Genome:基因组序列数据库基因组序列数据库Structure:分子结构模型数据库分子结构模型数据库Popset:种群、种系发生或突变序列数据库种群、种系发生或突变序列数据库Taxonomy:微生物类别数据库微生物类别数据库OMIM:人类孟德尔遗传学在线数据库。人类孟德尔遗传学在线数据库。一. Nucleotide(GenBank) 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。二 . Genome 即基因组数据库,提供了多种基因组、完全
3、染色体、临近序列图谱以及一体化基因物理图谱。三. Structures 即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。MMDB的数据从PDB(Protein Data Bank)获得。 四. Taxonomy 即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。五. PopSet 包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。PopSet既包含核酸序列数据又包含蛋白质序列数据。 六. OMIM 孟德尔遗传学(OMIM)数据库是人类人类基因和基因疾病基因和基因疾病的目录数据库。该数据库包括原文信息、图片和参考信
4、息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。一、一、PubMedPubMed数据库数据库简介简介 PubMed是美国国家医学图书馆是美国国家医学图书馆(NLM)下属的国家下属的国家生物技术信息中心生物技术信息中心(NCBI)开发的、基于开发的、基于WWW的医的医学数据库查询系统。学数据库查询系统。PubMed的的网址:网址:http:/www.ncbi.nlm.nih.gov/pubmedhttp:/www.ncbi.nlm.nih.gov/entrez/query.fcgiPubMedu数据类型:期刊论文、综述、以及与其他数据资源链接。u特点:u1.免费提供
5、题录和文摘2.可与提供原文的网址链接 (部分免费获取) 3. 操作简便、快捷期刊来源地理分布期刊来源地理分布北美北美 (31%)欧洲和中东欧洲和中东 (52%)非洲非洲 (1%)中南美洲中南美洲 (2%)ASIAN, Australia (14%)MEDLINE 2919 独有BIOSIS 30712043 sharedBIOSIS 与 MEDLINE的覆盖范围MEDLINE:联机医学联机医学文献分析和检索系统文献分析和检索系统BIOSIS (Biosciences Information Service,美国生物科学信息服务社美国生物科学信息服务社)4,400 Employees11,500
6、 Employees2,800 Employees9,900 Employees Intl Legal &RegulatoryNorth AmericanLegal Scientific Financial Tax &Accounting Healthcare 2,600 Employees3,100 Employees2005 营业收入营业收入 87亿美元亿美元为全球为全球2千万用户提供服务千万用户提供服务市值市值260亿美元,福布斯全球亿美元,福布斯全球500强之一强之一二、通过二、通过PubMed可检索可检索到如下的信息到如下的信息 MEDLINE PreMedline 出版商提供的书目
7、信息出版商提供的书目信息 MEDLINE MEDLINE:是美国国立医学图书馆是美国国立医学图书馆MEDLARS系统中最大的生物医学数系统中最大的生物医学数据库,收录据库,收录1966年以来年以来70多个国家近多个国家近4300种生物医学期刊的书目信息和著种生物医学期刊的书目信息和著者文摘,每周更新。每条记录均带有者文摘,每周更新。每条记录均带有PubMed-Indexed for MEDLINEPubMed-Indexed for MEDLINE标志。标志。PreMedlinePreMedline:收集未正式给予收集未正式给予MeSHMeSH词、出版类型等深度标引信息的一个词、出版类型等深度
8、标引信息的一个临临时库时库。NLMNLM每天把最新记录加入到每天把最新记录加入到PreMedlinePreMedline库中,每条记录均带有库中,每条记录均带有PubMed-in ProcessPubMed-in Process标志。工作人员标志。工作人员在在一周内一周内将这些记录标引,然后转入将这些记录标引,然后转入MEDLINEMEDLINE,同时从,同时从PreMedlinePreMedline中中删去删去。PreMedlinePre-MedlineMedlineNew DataCollectProcessPubMed出版商提供的书目信息出版商提供的书目信息:出版商出版商提供的是整本期刊
9、的信息,若有提供的是整本期刊的信息,若有部分没有被部分没有被MEDLINEMEDLINE收录,收录,PubMedPubMed仍保存,在记录中做仍保存,在记录中做PubMed-as PubMed-as supplied by publishersupplied by publisher的标记的标记。图1以下是几条以下是几条PubMed的记录,标记不同,其出自的分库也不同的记录,标记不同,其出自的分库也不同三、三、PubMed文献检索文献检索PubMed页面的结构页面的结构 PubMed Central页面的结构页面的结构 三、三、PubMed页面的结构页面的结构 侧栏提供其他检索如期刊数据库检索
10、、规范词数据库检索、特定文献检索执行检索基本检索输入框三、三、PubMed页面的结构页面的结构 侧栏提供其他检索如期刊数据库检索、规范词数据库检索、特定文献检索执行检索基本检索输入框Related Resources :MeSH Database- -主题词主题词数据库数据库Journal Database- -杂志数据库杂志数据库 Clinical Trials-对公众提供临床科研的当前信息对公众提供临床科研的当前信息PubMed Tools:Citation Matcher-引文匹配器引文匹配器 在表格输入刊物的在表格输入刊物的引文信息来定位特定文章。引文信息来定位特定文章。Clinica
11、l Queries-与临床相关的与临床相关的疗法疗法,诊断诊断,病因病因,预后咨询。预后咨询。1、词语检索及自动词语匹配、词语检索及自动词语匹配四、四、PubMed的基本检索功能的基本检索功能四、四、PubMed的基本检索功能(二)的基本检索功能(二)2、作者姓名检索、作者姓名检索 在检索框内按照姓在检索框内按照姓+名缩写名缩写(不用标点不用标点)的的格式键入作者姓名,如格式键入作者姓名,如Liu C,系统会自动,系统会自动在作者字段内进行检索。在作者字段内进行检索。 如果想进行更精确的检索,可以用双引如果想进行更精确的检索,可以用双引号将作者名引起来,再加号将作者名引起来,再加au,如,如“
12、Liu C”au 四、四、PubMed的基本检索功能(三)的基本检索功能(三)3、杂志名检索、杂志名检索在检索框中键入杂志全名在检索框中键入杂志全名molecular biology of the cell也可以直接键入也可以直接键入Medline的期刊标准缩写形式,如的期刊标准缩写形式,如:mol boil cell,键入刊物的键入刊物的ISSN(国际标准出版物代码)进行检国际标准出版物代码)进行检索,如索,如1059-1524。Cell transplantation ta四、四、PubMed的基本检索功能(四)的基本检索功能(四)4、截词检索、截词检索可利用系统的截词功能获取更多的相关文
13、献可利用系统的截词功能获取更多的相关文献,截词符,截词符“*”可代表多个字符,将可代表多个字符,将*加在检加在检索词后可以表示对所有以该词开头的词进行索词后可以表示对所有以该词开头的词进行检索;如:检索;如:bacter*,可以检出,可以检出bacter, bacteria, bacterium, bacteriophage等词。等词。四、四、PubMed的基本检索功能(五)的基本检索功能(五)5、短语检索、短语检索PubMed首先将键入的检索词(词组)视为合理的短语在首先将键入的检索词(词组)视为合理的短语在短语索引中进行查找。如:短语索引中进行查找。如: single cell ,PubM
14、ed将其视为将其视为词组进行查找。当词组进行查找。当PubMed没有找到该词组时,系统将自没有找到该词组时,系统将自动把两个词分开进行检索;动把两个词分开进行检索;如果不希望系统将两词分开,则需要用如果不希望系统将两词分开,则需要用“”“”把检索词括起把检索词括起来,即强迫来,即强迫PubMed进行词组检索。如进行词组检索。如“single cell”。当用双引号括起词语时,当用双引号括起词语时,PubMed将不执行自动词语匹配将不执行自动词语匹配功能。功能。 五、显示检索结果五、显示检索结果(Display):text1Summary作者姓名、文章题目、出处、记录状态、作者姓名、文章题目、出
15、处、记录状态、语种、出版物类型、语种、出版物类型、PMID。Abstract出处、记录状态、文章题目、作者姓名、出处、记录状态、文章题目、作者姓名、作者单位、文摘、出版物类型、缩写、注释、作者单位、文摘、出版物类型、缩写、注释、PMID等。等。六、检索结果的保存六、检索结果的保存 1六、检索结果的保存六、检索结果的保存 2文章数目链接链接(Links) 链接外部资源链接外部资源LinkOutLinkOut 是链接到本站点外部信息的出口。可以与出版商是链接到本站点外部信息的出口。可以与出版商、信息集成者、图书馆、生物学数据库、序列中心等链接、信息集成者、图书馆、生物学数据库、序列中心等链接来获取
16、更多的相关信息。来获取更多的相关信息。链接带星号的链接带星号的LinkOut 是表明提供者需要订阅、会员资格是表明提供者需要订阅、会员资格或需要交费进入。或需要交费进入。 链接相关图书链接相关图书Books为帮助用户解决对检索结果中不熟悉的要领提供背景资料为帮助用户解决对检索结果中不熟悉的要领提供背景资料七、检索结果的链接七、检索结果的链接(Links)文摘中的期刊图标链接Linkout链接三大基因数据库三大基因数据库uGenbankGenbank库包含了所有已知的核酸序列和蛋白质序列。它是由美国国立生物技术信息中心(NCBI)建立和维护的。NCBI的网址是:http:/www.ncbi.nl
17、m.nih.gov。uEMBL核酸序列数据库核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成。数据库网址是:http:/www.ebi.ac.uk/embl/。uDDBJ数据库数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。DDBJ的网址是:http:/www.ddbj.nig.ac.jp/。GenBankPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据库之间的关系在线获取序列( entrez)方法11.进入entrez2.选择数据库3.查询
18、关键词4.开始查询显示格式每页显示数目符合条件的记录数mRNA数量不同物种记录数在线获取序列方法 2显示格式符合条件的记录数mRNA数量不同物种记录数在线获取序列 方法3Accession number序列长度序列长度数据类型数据类型Definition: 标题标题GI number物种名称物种名称基因名称基因名称编码蛋白名称编码蛋白名称GenBank数据格式该序列发表在哪篇论文中基因序列提交基因序列提交Genbank 方法方法 1 在线提交在线提交基因序列提交基因序列提交Genbank 方法方法 2 Sequin软件提交软件提交 共克隆、测序了北京油鸡风味特性基因43个,五指山小型猪3个,虎
19、源犬瘟热病毒基因4个,提交GenBank 50个。序列序列文件名文件名提交编号提交编号收录号收录号1 1file BJIFNA0701.sqnfile BJIFNA0701.sqnDBJASL0701DBJASL0701EU334503EU3345032 2file BJcCRABP.sqnfile BJcCRABP.sqnBJcCRABP-I0701BJcCRABP-I0701EU334504EU3345043 3file BJIL-18.sqnfile BJIL-18.sqnBJIL-180701BJIL-180701EU334505EU3345054 4file BJPurh0701.s
20、qn:file BJPurh0701.sqn:BJPurH0701BJPurH0701EU334506EU3345065 5file BJmusclin0701.sqnfile BJmusclin0701.sqnBJmusclin0701BJmusclin0701EU334507EU3345076 6file BJTBP0701.sqnfile BJTBP0701.sqnBJTBP0701 BJTBP0701 EU334508EU3345087 7file BJIL-15.sqnfile BJIL-15.sqnBJIL-150701BJIL-150701EU334509EU3345098 8f
21、ile BJADSL0701.sqn:file BJADSL0701.sqn:BJADSL0701BJADSL0701EU049886EU0498869 9file BJAS0701.sqn:file BJAS0701.sqn:BJAS0701 BJAS0701 EU049887EU0498871010file BJGPAT0701.sqnfile BJGPAT0701.sqnBJGPAT0701 BJGPAT0701 EU049888EU049888举例:序列数据的查询u某天,Prof. Gene发现人的Hela细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(表型,phenoty
22、pe),通过实验的方法,发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCT
23、GTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC正常细胞正常细胞凋亡细胞凋亡细胞问 题:u1. 这是哪个基因?u2. 编码的蛋白质序列是怎样的?u3. 有没有保守的功能结构域(domain)?u4. 它的功能是怎样的?u5. 有没有三级结构信息?NCBI: BLASThttp:/www.ncbi.
24、nlm.nih.gov/nucleotide blastMegablast: 找基因序列输入序列输入序列提交序列NM_001168.2:SurvivinGeo: 基因表达信息基因表达信息Gene info:基因信息:基因信息SurvivinGene info: 17号染色体功能注释:Gene Ontology结论1u1. 该基因为人的Survivin基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2;u2. 初步的功能分析:细胞周期,caspase酶的抑制因子,等等。NM_001168.2:SurvivinHuman Survivin!获取蛋
25、白质的序列信息Survivin:142aa结 论2u人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2获取FASTA序列FASTA格式的序列PHI-BLAST: find domain填入蛋白质的FASTA序列BIR domain结 论3uSurvivin具有保守的功能结构域BIRu如何进行Survivin功能分析。如:亚细胞定位,活性中心位点,3D结构。http:/www.expasy.org/UniProt: 蛋白质数据库在人中做BLAST搜索Survivin:O15392Survivin的蛋白质信息功能注释结论4:功能分析u1. 在瘤形成过程中可能起一定作
26、用;u2. 阻碍G2/M期的细胞编程性凋亡;u3. Chromosomal passenger complex (CPC)的成员之一。uu细胞亚定位:胞质,核。PDB:三级结构数据库Survivin的三级结构信息Raswin: 三级结构显示Raswin: 三级结构显示总总 结结1. 该基因为人的Survivin基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2;u2. 人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2u3. Survivin具有保守的功能结构域BIRu4. Survivin的细胞亚定位:胞质,核,其功能有: (1) 在瘤形成过程中可能起一定作用; (2) 阻碍G2/M期的细胞编程性凋亡; (3) Chromosomal passenger complex (CPC)的成员之一。等等。u6. Survivin的三级结构已知,在PDB中的标识符为1E31。谢谢各位认真听讲!谢谢各位认真听讲!