《KEGG数据库简介ppt课件.pptx》由会员分享,可在线阅读,更多相关《KEGG数据库简介ppt课件.pptx(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益 简介 为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益产生的背景 如何借助计算机全面地展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出比较复杂的细胞中的通路或者生物的复杂行为。出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学数据库KEGG。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制
2、的事业单位工作人员聘用制度,保障用人单位和职工的合法权益特点KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。与其他数据库相比,KEGG的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。为了规范事业单位聘用关系,建立
3、和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益用途各个数据库中包含了大量的有用信息。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库LIGAND,包含关于化学物质、酶分子、酶反应等信息。通过与世界上其它一些大型生物信息学数据库的连接,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它
4、序列比较、图形比较和通路计算的工具,可以免费获取。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益影响及发展KEGG建立了KEGG直系同源系统(theKEGGOrthology(KO)system),这个系统通过把分子网络的相关信息连接到基因组中,从而发展和促进了跨物种注释流程。结果表明,KEGG被当做一个参考知识库,被广泛的用于基因组测序和其他高通量实验技术得到的大规模数据集的整合和解释中。除了保持对基础研究的支持,随着KEGG分子网络的一些小变化,KEGG正在朝着更加偏向于实际应用的方向发展,这些应用主要集中在整合人类疾病
5、、药物和其他与健康相关的物质。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG数据库KEGG是一个综合数据库,它们大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的数据库。可以通过不同的颜色编码来区分。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益分分类数据数据库目目录颜色色系统信息KEGGPATHWAYKEGG通路图KEGGBRITEBRITE功能层次KEGGMODULEKEGG功能单元的模块KEGGDISEASE人类疾病KE
6、GGDRUG药物KEGGENVIRON天然药物和与健康相关的物质基因组信息KEGGORTHOLOGYKEGG直系同源(KO)组KEGGGENOMEKEGG中带有完整基因组的物种KEGGGENES在完整基因组中的基因目录KEGGSSDB与基因有关的序列相似性数据库化学信息KEGGCOMPOUND代谢物及其他小分子化合物KEGGGLYCAN多糖KEGGREACTION生化反应KEGGRPAIR化学反应中的反应物对KEGGRCLASSRPAIR定义的反应级别KEGGENZYME酶命名法为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益
7、三类数据库的关系为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG对象标识符DatabaseObjectPrefixExampleKEGGPATHWAYPathwaymapmap,ko,ec,rn,(org)hsa04930KEGGBRITEFunctionalhierarchybr,jp,ko,(org)ko01003KEGGMODULEKEGGmoduleM,(org)_MM00010KEGGDISEASEHumandiseaseHH00004KEGGDRUGDrugDD01441KEGGENVIRONCrudedr
8、ug,etc.EE00048KEGGORTHOLOGYKOgroupKK04527KEGGGENOMEKEGGorganismTT01001(hsa)KEGGGENESGene/proteinhttp:/www.kegg.jp/dbget-bin/www_bget?hsa:3643KEGGCOMPOUNDSmallmoleculeCC00031KEGGGLYCANGlycanGG00109KEGGREACTIONReactionRR00259KEGGRPAIRReactantpairRPRP04458KEGGRCLASSReactionclassRCRC00046KEGGENZYMEEnzym
9、ehttp:/www.kegg.jp/dbget-bin/www_bget?ec:2.7.10.1数据库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个数据库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成。(org)representsthree-,four-,orfive-letterorganismcode为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益当前数据库中的记录KEGGDatabaseasof2013/
10、6/5KEGGPATHWAYPathwaymaps,reference(total)0(246,368)KEGGBRITEFunctionalhierarchies,reference(total)140(78,848)KEGGMODULEKEGGmodules,reference(total)566(185,274)KEGGDISEASEHumandiseases1,301KEGGDRUGDrugs9,910KEGGENVIRONCrudedrugsandhealth-relatedsubstances845KEGGORTHOLOGY KEGGOrthology(KO)groups16,74
11、8KEGGGENOMEKEGGOrganisms2,697KEGGGENESGenesinhigh-qualitygenomes(190eukaryotes,2336bacteria,153archaea)10,821,739KEGGSSDBBesthitrelationswithinGENESBi-directionalbesthitrelationswithinGENES130,947,959,9572,996,848,546KEGGDGENESGenesindraftgenomes(18eukaryotes)432,488KEGGEGENESGenesasESTcontigs(99euk
12、aryotes)3,792,883KEGGMGENESGenesinmetagenomes(716samples)90,754,418KEGGCOMPOUND Metabolitesandothersmallmolecules17,012KEGGGLYCANGlycans10,985KEGGREACTIONBiochemicalreactions9,320KEGGRPAIRReactantpairchemicaltransformations14,092KEGGRCLASSReactionclass2,807KEGGENZYMEEnzymenomenclature5,973为了规范事业单位聘用
13、关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG PATHWAY DatabaseKEGG PATHWAY数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络:1.新陈代谢2.遗传信息加工3.环境信息加工4.细胞过程5.生物体系统6.人类疾病7.药物开发为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益PATHWAY的五种类型仅仅第一种参考通路(referencepathway)图是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一
14、个框(或线)都对应一个或多个K编号、EC编号及R编号。map-Referencepathway对于代谢相关的通路,在referencepathway中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应ko-Referencepathway(KO)ko通路中的点只表示基因ec-Referencepathway(EC)ec通路中的点只表示相关的酶rn-Referencepathway(Reaction)Reaction通路中的点只表示改点参与的某个反应、反应物对及反应类型org-Organism-specificpathwaymap对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符
15、,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益 map00010ko00010ec00010rn00010hsa00010为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG BRITE DatabaseKEGG BRITE是一个层级分类的数据库,包含生物系统各个方面的知识。相对于KEGGPATHWAY仅限于分子间相互作用和反应,KEGGBRITE包含了许多不同的关系类
16、型。例如,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益tp53在BRITE中的查询结果为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG MODULE DatabaseKEGG MODULE是一个人工定义的功能单元的集合。被用于已测序基因组的注释和生物学上的解释。各个模块使用M开头的编号及与其对应的一系列K开头的编号来表示。四种主要的KEGG模块1.通路模块:代表在KEGG代谢通路图中的复杂功能
17、单元,例如M00002(糖酵解,与三碳化合物相关的核心模块)2.结构复合物:通常形成分子机械,例如M00072(寡糖转移酶)3.功能集:基本单元的其他形式,例如M00360(氨酰基-tRNA合酶,原核生物)4.特征模块:作为某种表型的标记,例如M00363(肠出血性大肠杆菌致病性特征,志贺毒素)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG ORTHOLOGY(KO)DatabaseKEGG参考通路图,
18、BRITE功能层次以及KEGG模块都是以一种广泛的方式来表示,都可以用于所有物种。而KEGG直系同源系统(KOSystem)是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模块中的点。(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。一旦基因被分配了KO标识或K编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模块就可以自动产生了。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益直系同源与旁系
19、同源l直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:(1).在进化上起源于一个始祖基因并垂直传递的同源基因;(2).分布于两种或两种以上物种的基因组;(3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4).结构相似;(5).组织特异性与亚细胞分布相似。l旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高
20、度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益ImagedepictsconceptsofOrthologyandparalogy.fromProtein Kinase C Orthologs为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益Neurotrophin(神经营养因子神经营养因子)signaling pa
21、thway(ko04722)从这个图上可以看到基因之间的相互作用。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益ko编号表示一个通路,这个通路是不分物种的,相当于所有物种的这一通路的并集。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益Ortholog table(ko04722)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益K编号表示一个基因,是ko通路中的基本单位,某一K编号代表的不是
22、某一具体物种的基因,而是所有物种的某一同源基因的统称。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG GENOME Database该数据库中收集了2679中物种(190eukaryotes,2336bacteria,153archaea)的基因组信息,这些物种都已经具有完整的基因组序列,并根据大量的EST数据集进行了增补。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG GENES DatabaseKEGGGENES是所有已知全基因组序列的
23、基因目录的集合。这些全基因组信息主要参考可得到的公共数据库,尤其是NCBIRefSeq数据库。这些基因从属于SSDB(SequenceSimilarityDatabase)并通过KOALA工具进行计算和KO编号的分配(基因注释)。KEGGDGENES中包括一些真核生物的基因组草图,KEGGEGENES是一个包含大部分植物的EST数据集的补充基因目录,以上数据都随着GENES被当做一个参考数据集的使用被KAAS自动分配上KO编号。MGENES表示通过自动注释的宏基因组。VGENES表示病毒基因目录,还没有全部整合到KEGG系统中。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业
24、单位工作人员聘用制度,保障用人单位和职工的合法权益KEGG SSDB DatabaseKEGGSSDB(序列相似性数据库)包括全基因组中的所有蛋白编码基因的氨基酸序列相似性的信息,这些信息是从KEGG中的GENES数据库计算得到的。所有可能的成对基因组比较由SSEARCH程序来执行,并且Smith-Waterman相似性分数大于或等于100的基因对会被选入SSDB数据库,数据库中还包括最佳匹配(besthits)以及双向最佳匹配(best-besthits)序列的信息。SSDB是一个如此巨大的加权的有向图,这使得该数据库可以被用于查询直系同源和旁系同源基因,还可以在额外考虑染色体上位置正确性的情况下查询保守的基因簇。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益Thankyou!