《生物信息学-基因组分析.ppt》由会员分享,可在线阅读,更多相关《生物信息学-基因组分析.ppt(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物信息学生物信息学生物信息学生物信息学第七章第七章 基因组分析基因组分析人类基因组计划人类基因组计划基因组、转录组和蛋白质组基因组、转录组和蛋白质组基因组基因组 转录组转录组蛋白质组蛋白质组化学生物学化学生物学本章内容提要本章内容提要r1.基因组的结构与内容基因组的结构与内容r2.基因组注释基因组注释r3.比较基因组学比较基因组学r4.基因基因/蛋白质的功能预测蛋白质的功能预测1.基因组的结构与内容基因组的结构与内容r(1)基因的结构基因的结构r(2)mRNA:可变剪切:可变剪切r(3)蛋白质:翻译后修饰蛋白质:翻译后修饰r(4)相互作用网络:基因、蛋白质、小分子之间相互作用网络:基因、蛋白
2、质、小分子之间的相互作用的相互作用r(5)非编码区非编码区|a.功能元件功能元件:转录因子结合位点;启动子转录因子结合位点;启动子|b.Non-coding RNA:MicroRNA|c.转座子转座子|d.重复片段重复片段|e.伪基因伪基因(Pseudogene)(1)基因的结构基因的结构基因组大小基因组大小&基因数基因数基因数量基因数量-生物复杂性?生物复杂性?r1.基因数量的变化,无法解释生物学功能、调控机基因数量的变化,无法解释生物学功能、调控机理以及物种多样性和复杂性的巨大变化理以及物种多样性和复杂性的巨大变化r2.当前解释:蛋白质组的多样性和复杂性当前解释:蛋白质组的多样性和复杂性-
3、物种的物种的多样性和复杂性;多样性和复杂性;10,000,000种蛋白质分子种蛋白质分子r3.两种观点:两种观点:|a.转录后层面,转录后层面,mRNA剪切,产生拼接异构体剪切,产生拼接异构体|b.蛋白质层面,蛋白质序列上一个或多个位点上发生的蛋白质层面,蛋白质序列上一个或多个位点上发生的翻译后修饰翻译后修饰Genotype to Phenotypeisoform 1isoform 2isoform 3mRNA Splicing转录后层面:转录后层面:mRNA SplicingPhosphorylationSumoylationPalmitoylationAcetylationUbiquiti
4、nation蛋白质层面:翻译后修饰蛋白质层面:翻译后修饰(4)相互作用网络相互作用网络蛋白质蛋白质-蛋白蛋白质相互作用质相互作用网络网络细胞信号通路细胞信号通路G1/S检验点:检验点:有调控方向有调控方向(5)非编码区非编码区ra.功能元件功能元件:转录因子结合位点;启动子转录因子结合位点;启动子rb.Non-coding RNA:MicroRNArc.转座子转座子rd.重复片段重复片段re.伪基因伪基因(Pseudogene)Functional elements:PromotorTranscription Factor Binding SiteCRM:cis-regulatory modu
5、lesGal4p and KruppelGal4pKruppel其他功能元件其他功能元件rExon splicing enhancer(ESE)and silencer(ESS)rIntron splicing enhancer(ISE)and silencer(ISS)Non-coding RNAr1.不翻译成蛋白质,具有重要的调控功能不翻译成蛋白质,具有重要的调控功能r2.分类:分类:|a.transfer RNA(tRNA)|b.ribosomal RNA(rRNA)|c.snoRNAs,|d.microRNAs,|e.siRNAs|f.piRNAs:与与piwi相互作用的相互作用的RN
6、A|g.long ncRNAs:Xist|tRNA&rRNAsnoRNAsrsnoRNAs:Small nucleolar RNAs;介导介导其他其他RNA分子的化学修饰,例如甲基化分子的化学修饰,例如甲基化microRNA/miRNAr1.长度长度21-23bpr2.调控基因的表达调控基因的表达r3.pre-miRNA:70bpTransposonr转座子:在基因组中能够移动位置的转座子:在基因组中能够移动位置的DNA序序列列2.基因组注释基因组注释r(1)基因组序列的拼装基因组序列的拼装r(2)基因预测基因预测r(3)可变剪切的预测可变剪切的预测r(4)非编码的功能元件的预测非编码的功能元
7、件的预测(1)基因组测序:鸟枪法基因组测序:鸟枪法基因组的拼装基因组的拼装重复序列带来干扰重复序列带来干扰(2)基因预测基因预测r直接的,序列高度匹配直接的,序列高度匹配|同一或近缘物种中,与同一或近缘物种中,与EST,cDNA,蛋白质蛋白质等序列完美或近似完美的匹配等序列完美或近似完美的匹配r间接的,基于统计学的间接的,基于统计学的a.序列比对序列比对(Homology)b.从头预测从头预测(ab initio)c.以上两种方法的结合以上两种方法的结合真核生物的基因结构真核生物的基因结构5335 1-100 Mbp 5335 1-1000 kbp exons(cds&utr)/introns
8、(102-103 bp)(102-105 bp)Polyadenylation sitepromoter(103 bp)enhancers(101-102 bp)other regulatory sequences (101-102 bp)基因的其他特征基因的其他特征r1.ORF(Open Reading Frame):从从AUG开始,至开始,至stop codon终止终止r2.Codon Usage:CAI rHMM model for Gene Prediction(Genie)Kulp,D.,PhD Thesis,UCSC 2003(3)可变剪切的预测可变剪切的预测r将将EST,cDNA
9、序列比对到基因组上序列比对到基因组上部分有向图算法部分有向图算法3.比较基因组学比较基因组学r(1)有功能的通常保守有功能的通常保守r(2)例:例:SUMO底物的预测:底物的预测:|a.SUMO化位点存在化位点存在-K-X-E模体模体|b.核定位信号核定位信号(NLS)|c.人和小鼠中,人和小鼠中,SUMO化位点应当保守化位点应当保守|d.功能分析:功能分析:Gene Ontologyr(3)分析结果:分析结果:|a.2,683个人个人-小鼠保守的小鼠保守的SUMO化底物化底物|b.SUMO化的功能:参与转录调控、信号转导等化的功能:参与转录调控、信号转导等Gene Ontology:基因本体
10、论:基因本体论r1.描述基因描述基因/蛋白质的功能蛋白质的功能r2.三类术语三类术语(Term):|a.Cellular component:在哪里?在哪里?|b.Biological process:干什么?干什么?|c.Molecular function:我是谁?:我是谁?Gene Ontology:基因本体论:基因本体论功能显著性分析:超几何分布功能显著性分析:超几何分布转录因子转录因子rIn human proteome:rDNA binding(GO:0003677):2,255 rTranscription factor activity(GO:0003700):1,102 rr
11、egulation of transcription,DNA-dependent(GO:0006355):2,174rIn SUMO Substrates:rDNA binding(GO:0003677):530 rTranscription factor activity(GO:0003700):304 rregulation of transcription,DNA-dependent(GO:0006355):510r因此,可以估计因此,可以估计1/4 1/3的转录因子受到的转录因子受到SUMO化的调控化的调控4.基因基因/蛋白质的功能预测蛋白质的功能预测r(1)一级序列的比较:相似的序列
12、具有相似一级序列的比较:相似的序列具有相似的功能的功能r(2)保守的功能结构域:保守的功能保守的功能结构域:保守的功能r(3)三级结构的比较:相似的结构具有相似三级结构的比较:相似的结构具有相似的功能的功能r(4)蛋白质相互作用的预测蛋白质相互作用的预测(1)一级序列的比较一级序列的比较r1.同源物的鉴定:不同物种中的直系、旁系同源物的鉴定:不同物种中的直系、旁系同源物的预测同源物的预测r2.主要工具:主要工具:BLAST(2)保守的功能结构域保守的功能结构域r1.保守的功能结构域:保守的功能保守的功能结构域:保守的功能r2.常用工具:常用工具:工具工具网址网址InterproPfamSMAR
13、TPROSITEProDomCDD例:例:Nek2(3)三级结构的比较三级结构的比较r1.Ubiquitin:泛素,主要负责蛋白质的降解泛素,主要负责蛋白质的降解r2.SUMO:小的类泛素蛋白质,基因转录:小的类泛素蛋白质,基因转录&信号通路信号通路r3.催化反应通路的分子机制相似催化反应通路的分子机制相似r4.序列相似性:不显著!序列相似性:不显著!Ubiquitin vs.SUMO序列相似性:序列相似性:20%结构相似性结构相似性SUMOUbiquitin(4)蛋白质相互作用的预测蛋白质相互作用的预测r1.基因组信息基因组信息(Genomic information)|A.Gene fus
14、ion and fission|B.Conservation of gene order/bidirectional pairs|C.Phylogenetic profiler2.关联的序列特征关联的序列特征(Correlated sequence signatures)r3.mRNA co-expressionr4.Literature miningGene fusion/fission:Rosetta StoneABABQuery proteinLinked proteinRosetta proteinMarcotte EM et al.,Science 1999,285:751-753;
15、Enright AJ et al.,Nature,1999,402:86-90Genome AGenome BConservation of gene order/bidirectional pairsGene order pairsBidirectional transcribed gene pairsDandekar T et al.,TIBS,1998,23:324-328;Overbeek R et al.,PNAS,1999,96:2896-2901;Korbel JO et al.,NBT,2004,22:911-917Phylogenetic profilesPellegrini
16、 M et al.,PNAS,1999,96:4285-4288;Huynen MA et al.,PNAS,1998,95:5849-5856Correlated sequence signatures A.B.This model is computationally faster and more convenientPID modelPIDC modelPID模型:最大似然性法模型:最大似然性法P(Imn=1):训练训练Conserved co-expressionNot PPI,but functional linkageStuart JM et al.,Science,2003,302:249-255;von Mering C et al.,NAR,2005,33:D433-D437STRING:方法的整合方法的整合