《教你使用NCBI_PDB数据库.ppt》由会员分享,可在线阅读,更多相关《教你使用NCBI_PDB数据库.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow生物信息学生物信息学 第三讲:序列的采集、存储第三讲:序列的采集、存储和查询和查询 Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow
2、本章内容提要本章内容提要r1.DNA测序测序r2.序列数据的存储序列数据的存储r3.序列数据的文件格式序列数据的文件格式r4.序列数据的查询序列数据的查询Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow1.DNA测序测序r1.DNA一次测序的长度为一次测序的长度为500bp。r2.基因组的测序方案:将大的染色体打断成基因组的测序方案:将大的染色体打断成100kbp的片断,的片断,插入到插入到BAC(Bacterial Artificial Chromosome)中。再随机
3、打中。再随机打断,克隆,然后再组装成长的序列断,克隆,然后再组装成长的序列(contig)。r3.EST(Expressed sequence tag)测序:细胞中测序:细胞中mRNA反转录反转录成成cDNA,方向不定,测序。,方向不定,测序。r4.UniGene:为每一个基因创造一个唯一的条目,收集这个基为每一个基因创造一个唯一的条目,收集这个基因所有的因所有的ESTs.r5.GSS(基因组测序序列基因组测序序列):类似于:类似于ESTs,来源基因组。,来源基因组。r6.HTG(高通量基因组序列高通量基因组序列):高通量、尚未完工的:高通量、尚未完工的DNA序列。序列。Bioinformat
4、ics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow基因组测序:两种方案基因组测序:两种方案r1.DNA片段在染色体上的位置、方向已知。片段在染色体上的位置、方向已知。首先染色体被打断成首先染色体被打断成150kbp左右的片段,左右的片段,然后克隆到然后克隆到BACs中,再进一步打碎,克隆,中,再进一步打碎,克隆,测序,组装。测序,组装。r2.“鸟鸟枪枪法法”,shotgun,随随机机将将DNA片片段段打打碎碎,克克隆隆,测测序序,组组装装。DNA片片段段在在染染色色体上的位置和方向未知。体上的位
5、置和方向未知。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow2.序列数据的存储序列数据的存储r1.核酸三大数据库:核酸三大数据库:GenBank,EBI,DDBJ.r2.Ensembl数据库:基因组注释。数据库:基因组注释。r3.ESTs数据库;数据库;r4.UniGene数据库数据库r5.Refse
6、q数据库;数据库;r6.NCBI的的Gene信息数据库信息数据库;r7.蛋白质序列:蛋白质序列:Swissprot/TrEMBL/UniProt数据库。数据库。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow三大数据库之间的联系三大数据库之间的联系Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowGenBank中测序最多的中测序最多的20个物种个物种r
7、161.0版,版,2007.08Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowdbEST:表达序列标签数据库表达序列标签数据库2007.08,总序列,总序列45,660,524条,最多的条,最多的20个物种如下个物种如下Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowUniGeneUniGene:An Organized View of the:A
8、n Organized View of the TranscriptomTranscriptomBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowRefseq数据库数据库r1.提供高质量的,无冗余的,完整的序列提供高质量的,无冗余的,完整的序列信息;信息;r2.包括基因组的包括基因组的DNA,转录成的转录成的RNA以及蛋以及蛋白质序列信息。白质序列信息。r3.序列文件的标识符:序列文件的标识符:DNA/RNA序列,序列,NM_XXXXXX;蛋白质序列:蛋白质序列:NP_XX
9、XXXXBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowNCBI Gener1.http:/www.ncbi.nlm.nih.gov/sites/entrez?db=gener2.序列从序列从Refseq数据库中得到数据库中得到;r3.详尽的注释信息,包括基因在基因组的定位,详尽的注释信息,包括基因在基
10、因组的定位,基因名称、蛋白质名称,基因结构,等等。基因名称、蛋白质名称,基因结构,等等。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowUniProtr1.专家审核的蛋白质序列数据与知识库;专家审核的蛋白质序列数据与知识库;r2.UniProt Knowledgebase:Release 12.1,2007.08r3.包括:包括:|Swiss-Prot Release 54.1 of 21-Aug-2007:277883 entries;|TrEMBL Release 3
11、7.1 of 21-Aug-2007:4754787 entriesBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowSwiss-Prot Release 54.1Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowTrEMBL Release 37.1Bioinformatics,2009-2010,Semester 1,SoochowBioinform
12、atics,2009-2010,Semester 1,Soochow3.序列数据的文件格式序列数据的文件格式r1.DNA/RNA/氨基酸代码的标识氨基酸代码的标识r2.GenBank数据格式数据格式r3.UniProtr4.FASTABioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowGenBank数据格式数据格式Definition:标题标题序列长度序列长度数据类型数据类型Accession number版本号版本号GI numberBioinformatics,2009-
13、2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowGenBank的数据类型的数据类型Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowUniProt数据格式数据格式Accession numberBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowFASTA格式格式Bioin
14、formatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow4.序列数据的查询序列数据的查询r某天,某天,Prof.Gene发现人的发现人的Hela细胞中,有丝分裂期细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡间有异常情况:细胞不再分裂,而是开始凋亡(表型,表型,phenotype),通过实验的方法,通过实验的方法(例如,酵母双杂交例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下个基因,测序结果如下(
15、genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAA
16、CTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGCBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow问题:问题:r1.这是哪个基因?这是哪个基因?r2.编码的蛋白质序列是怎样的?编码的蛋白质序列是怎样的?r3.有没有保守的功能结构域有没有保守的功能结构域(domain
17、)?r4.它的功能是怎样的?它的功能是怎样的?r5.它在真核生物中保守吗?它在真核生物中保守吗?r6.有没有三级结构信息?有没有三级结构信息?Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowNCBI:BLASThttp:/www.ncbi.nlm.nih.gov/Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochownucleotide blastBioi
18、nformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowMegablast:找基因序列找基因序列输入序列输入序列Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow提交序列提交序列Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowNM_001168.
19、2:SurvivinUniGeneGeo:基因表达信息基因表达信息Gene info:基因信息:基因信息Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowSurvivinBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowGene info:17号染色体号染色体Bioinformatics,2009-2010,Semester 1,SoochowBioin
20、formatics,2009-2010,Semester 1,Soochow功能注释:功能注释:Gene OntologyBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow结论结论1r1.该基因为人的该基因为人的Survivin基因,染色体定位:基因,染色体定位:17号染色体,号染色体,73721872-73733311;基因标;基因标识符:识符:NM_001168.2;r2.初步的功能分析:细胞周期,初步的功能分析:细胞周期,caspase酶酶的抑制因子,等等。的抑制因子
21、,等等。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowNM_001168.2:SurvivinBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowHuman Survivin!Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow获取蛋
22、白质的序列信息获取蛋白质的序列信息Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowSurvivin:142aaBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow结论结论2r人的人的Survivin蛋白质包含蛋白质包含142个氨基酸,序个氨基酸,序列标识符为:列标识符为:NP_001159.2Bioinformatics,2009-2010,Semest
23、er 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow获取获取FASTA序列序列Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowFASTA格式的序列格式的序列Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowPHI-BLAST:find domainBioinformatics,2009-2010
24、,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow填入蛋白质的填入蛋白质的FASTA序列序列Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowBIR domainBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow结论结论3rSurvivin具有保守的功能结构域具有保守的功能结构域B
25、IRBioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowUniProt:蛋白质数据库蛋白质数据库Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow在人中做在人中做BLAST搜索搜索Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowSur
26、vivin:O15392Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowSurvivin的蛋白质信息的蛋白质信息Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow功能注释功能注释Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow结论
27、结论4:功能分析:功能分析r1.在瘤形成过程中可能起一定作用;在瘤形成过程中可能起一定作用;r2.阻碍阻碍G2/M期的细胞编程性凋亡;期的细胞编程性凋亡;r3.Chromosomal passenger complex(CPC)的成员之一。的成员之一。rr细胞亚定位:胞质,核。细胞亚定位:胞质,核。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow人的人的人的人的SurvivinSurvivin在酵母中有同源物吗?在酵母中有同源物吗?在酵母中有同源物吗?在酵母中有同源物吗?
28、Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow提交序列提交序列Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow在酵母中进行序列比对在酵母中进行序列比对Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow酵母酵母BIR1:P4713
29、4Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow酵母酵母BIR1的信息的信息Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Soochow结论结论5:r人的人的Survivin在酵母中的同源物可能是在酵母中的同源物可能是BIR1。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010
30、,Semester 1,SoochowPDB:三级结构数据库:三级结构数据库Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowSurvivin的三级结构信息的三级结构信息Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,SoochowRaswin:三级结构显示三级结构显示Bioinformatics,2009-2010,Semester 1,SoochowBioinf
31、ormatics,2009-2010,Semester 1,Soochow总结总结r现在,现在,Prof.Gene知道了:知道了:r1.该基因为人的该基因为人的Survivin基因,染色体定位:基因,染色体定位:17号染色体,号染色体,73721872-73733311;基因标识符:;基因标识符:NM_001168.2;r2.人的人的Survivin蛋白质包含蛋白质包含142个氨基酸,序列标识符为:个氨基酸,序列标识符为:NP_001159.2r3.Survivin具有保守的功能结构域具有保守的功能结构域BIRr4.Survivin的细胞亚定位:胞质,核,其功能有:的细胞亚定位:胞质,核,其功
32、能有:|(1)在瘤形成过程中可能起一定作用;在瘤形成过程中可能起一定作用;|(2)阻碍阻碍G2/M期的细胞编程性凋亡;期的细胞编程性凋亡;|(3)Chromosomal passenger complex(CPC)的成员之一。等等。的成员之一。等等。r5.人的人的Survivin在酵母中的同源物可能是在酵母中的同源物可能是BIR1。r6.Survivin的三级结构已知,在的三级结构已知,在PDB中的标识符为中的标识符为1E31。Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semester 1,Sooch
33、ow作业作业r某天,某天,Prof.Gene在小鼠在小鼠(Mus musculus)中中又发现了一个与有丝分裂相关的基因又发现了一个与有丝分裂相关的基因,通过通过DNA测序,得到部分序列:测序,得到部分序列:GATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTG
34、AATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCT Bioinformatics,2009-2010,Semester 1,SoochowBioinformatics,2009-2010,Semeste
35、r 1,Soochow问题:问题:r1.这个基因在小鼠中是哪个基因?基因的标识符是这个基因在小鼠中是哪个基因?基因的标识符是什么?这个基因的在基因组上的定位是怎样的?什么?这个基因的在基因组上的定位是怎样的?r2.这个基因在人中的同源物是哪一个?标识符是什这个基因在人中的同源物是哪一个?标识符是什么?么?r3.在人中,这个基因标码的蛋白质是什么?具有什在人中,这个基因标码的蛋白质是什么?具有什么样的功能?细胞亚定位在何处?这个基因是一个么样的功能?细胞亚定位在何处?这个基因是一个酶吗,什么酶?具有什么样的功能结构域?酶吗,什么酶?具有什么样的功能结构域?r4.这个基因在酵母中保守吗?如果保守,哪个基因这个基因在酵母中保守吗?如果保守,哪个基因是人中的同源物?是人中的同源物?r5.这个基因在人中的同源物,编码的蛋白质有这个基因在人中的同源物,编码的蛋白质有3级结级结构的信息吗?如果有,给出在构的信息吗?如果有,给出在PDB中的标识符。中的标识符。