《生物信息学第六章基因组学.ppt》由会员分享,可在线阅读,更多相关《生物信息学第六章基因组学.ppt(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现在学习的是第1页,共76页原核生物基因组 基因结构 GC含量 基因密度真核生物基因组 开放阅读框 GC含量基因表达转座重复元件真核基因密度现在学习的是第2页,共76页类比:文本和基因组如果将生物体比做一套百科全书的话,那么一条染色体就相当于百科全书中的一卷,基因就相当于书中的语句,而核苷酸则仅仅相当于字母。要从基因组序列中破译出信息,就相当于要将大量排列在一起的字母分割成单词和句子,可惜的是基因组序列中并没有明显的“标点符号”,因此破译非常困难。真核生物中问题更复杂因为真核生物的基因组被大量仅包含很少或根本不包含重要信息的“垃圾DNA”打乱。现在学习的是第3页,共76页基因测序 DNA测序方
2、法自20世纪80年代中期以来都没有本质上的突破。测序中很少产生长度大于1000个核苷酸的连续片段。因此,可以想象要确定一个典型的原核生物基因组的全部序列是一件怎样繁琐的任务。比如大肠杆菌的基因组由单一的环状染色体组成,长460万个碱基,为了得到全基因组序列,至少需要进行4600次测序反应。然而事实上需要更多次反应。现在学习的是第4页,共76页组装重叠群原理由于现在还不能直接测定整个分子的序列,所以我们只能通过序列拼接来完成序列的测序任务。先前测定的特异性片段(STS序列标签位点、EST表达序列标签等)有助于排列序列信息。通过多次反应来检查重要的重叠区域。这些序列片段覆盖待测序列,并且序列片段之
3、间也存在着相互覆盖或者重叠。现在学习的是第5页,共76页尽管实验和计算方面有很多困难,20世纪90年代中期以来,我们还是完成了60多种原核生物的基因组测序任务。包括支原体、大肠杆菌、幽门螺杆菌、枯草杆菌等。The Institute of Genetic Research(TIGR)已经把细菌基因测序变成了类似工业化的操作。每年能完整的测定多种细菌的全基因组序列。信息在TIGR的网站上不断更新。http:/www.tigr.org现在学习的是第6页,共76页原核生物对刺激的响应能力对于生存至关重要。对原核生物而言,对刺激的响应总是涉及到基因表达水平的变化。原核生物基因组的许多信息仅仅是为了维持
4、细胞的基本功能。例如:(1)复制DNA(至少需要32种基因)(2)产生新蛋白质(需要100-150个基因)(3)获得、储存能量(至少需要30个基因)现在学习的是第7页,共76页 我们需要区分出哪些基因表达而哪些基因不表达;需要识别转录为RNA的DNA区域的起始和终止部位;需要区分RNA中被核糖体翻译成蛋白质的区域的起始和终止部位;操纵子现在学习的是第8页,共76页许多基因的蛋白质产物需要与其他基因的蛋白质产物结合在一起才能发挥作用。原核生物中普遍存在一个现象,即多个功能相关的基因表达实际上共享一个启动子,这些功能相关的基因排列成的结构称为操纵子操纵子。操纵子操纵子是转录的功能单位。很多功能上相
5、关的基因前后相连成串,由一个共同的控制区进行转录的控制,包括结构基因以及调节基因的整个DNA序列。主要见于原核生物的转录调控,如乳糖操纵子、阿拉伯糖操纵子、组氨酸操纵子、色氨酸操纵子等。只有原核生物存在操纵子结构,真核生物不含操纵子。现在学习的是第9页,共76页原核生物RNARNA聚合酶聚合酶 由几种不同的蛋白质组装成(1)蛋白质:特异识别启动子核苷酸序列。(2)(beta-prime)蛋白质:实现与DNA模板的结合;(3)蛋白质:实现核苷酸之间的连接;(4)蛋白质:将亚单元结合在一起;、和蛋白在进化过程中非常保守,不同细菌的种类中具有很高的相似性。保守性要差一些,不同的因子形成了不同的 RN
6、A聚合酶。这是决定细胞开放和关闭基因表达的直接原因现在学习的是第10页,共76页大肠杆菌中的7个因子因子因子基因家族基因家族-35位序列位序列-10位序列位序列70正常条件下TTGACATATAAT32热休克CTTGAAACCCATNTA54氮压力CTGGCACTTGCA28鞭毛合成CTAAAGCCGATAA38稳定期基因CGTCAAn.a.20铁-双柠檬酸转运蛋白n.a.n.a.24胞外蛋白n.a.n.a.N 表示任意核苷酸现在学习的是第11页,共76页识别启动子的能力大小直接关系着启动转录过程的难易。一致序列一致序列:由特定因子识别的-35位和-10位序列;本质上是含有相同因子的RNA聚合
7、酶转录的基因的相应位置上最常出现的核苷酸片段。上页表格中所示的序列便是大肠杆菌启动子区-35和-10位序列的一致性核苷酸序列。基因的-35位和-10位序列与一致序列越匹配,RNA聚合酶就越有可能与启动子结合并开始转录。现在学习的是第12页,共76页单独的单独的调控蛋白调控蛋白也可以帮助细菌基因在特定环境中的表达。而且其幅度和精度比不同的因子与一系列不同的启动子结合产生的影响还要大乳糖操纵子的启动子可以被RNA聚合酶识别,但只能在富含乳糖和缺乏葡萄糖的环境中有效表达。在乳糖操纵子调控中起主要作用的两个因子分别是:负调控因子负调控因子:乳糖抑制蛋白(pLacI)正调控因子正调控因子:cAMP受体蛋
8、白(CRP)现在学习的是第13页,共76页当细胞中的乳糖含量较低时,乳糖抑制蛋白(pLac)与一个特殊的核苷酸序列结合(图中蓝色区域),这个序列被称作乳糖操纵子的操纵子序列。结合后充当了阻碍物,阻止了RNA聚合酶转录下游的编码序列。-80 -70 -60 -50 -41 AACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCC-40 -30 -20 -10 -1 AGGCTTTACACTTTATGCTTCCGGCTCGTAT 1 10 20 30 40 AATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTAT 41 50 60 70 80 GAC
9、CATGATTACGGATTCACTGGCCGTCGTTTTACAACGTRNA聚合酶结合位点聚合酶结合位点-半乳糖苷酶基因及其下游基因半乳糖苷酶基因及其下游基因pLac结合位点结合位点cAMP受体蛋白结合位点受体蛋白结合位点现在学习的是第14页,共76页pLacI蛋白也可以与乳糖特异性结合。当乳糖与pLacI结合后,它对操纵子的负调控作用将大大下降,从而使得操纵子的基因表达成为可能。在葡萄糖中,乳糖操纵子的调节主要通过 cAMP 受体蛋白(CRP)的正调控作用正调控作用来实现。实际上,乳糖操纵子的启动子区域-35位和-10位序列与RNA聚合酶的一致序列相差较大,因此即使 pLacI不与操纵子
10、序列结合,乳糖操纵子也不会在很高水平表达。CRP的结合能够弥补这个缺陷,但需要在葡萄糖含量很低时才能结合。现在学习的是第15页,共76页核糖体将基因的RNA拷贝中的三联密码子翻译成蛋白质的特定氨基酸。由四种核苷酸组成一个三联体共有64种不同的组合,其中有3个(UAA、UAG、UGA)行使句号的功能而终止翻译过程。开放阅读框开放阅读框:不包含终止密码子且有30个或更多的三联密码子的序列称为开放阅读框开放阅读框(open reading frame,ORF)。终止密码子:UAA,UAG,UGA。起始密码子:AUG,UUG,GUG。在大肠杆菌中,AUG(83%),UUG,GUG(共17%).现在学习
11、的是第16页,共76页就像遗传密码的3个密码子保留作为终止密码子一样,有一个三联密码子(AUG)常常作为起始密码子。特别的是,密码子AUG既用于编码甲硫氨酸,也用于标记开始翻译RNA分子的精确位置如果在一个ORF起始位点的上游区到前一个ORF的结尾之间没有发现可能的启动子序列,那么通常可以推测这两个基因是一个操纵子的一部分,它们的表达受到更远的上游的启动子的控制。现在学习的是第17页,共76页核糖体加载位点核糖体加载位点 原核基因的另一个与翻译有关的特点是,在每个开放阅读框的5端存在着一组序列,核糖体聚集在这些序列的周围。核糖体加载位点核糖体加载位点(又称为Shine-Delgarno序列)一
12、般位于转录起始位点的下游和第一个起始密码子的上游区域,几乎都是由5-AGGAGU-3组成。Shine-Delgarno序列上发生的点突变能阻止mRNA被翻译。现在学习的是第18页,共76页20世纪6070年代,确定蛋白质的氨基酸序列比确定编码基因的核苷酸序列要简单的多。随着20世纪80年代改进的DNA程序法的出现和许多基因组测序计划的成功完成,现在绝大部分的蛋白质序列都是从预测到的基因序列中推导出来的。假想翻译假想翻译:根据遗传密码将基因序列转换成蛋白质氨基酸序列称为假想翻译假想翻译。这个过程很容易利用计算机实现。从氨基酸序列来预测蛋白质结构,很少能得到特定基因功能的信息。一个更可靠的方法是,
13、将一个蛋白质的序列与其他来源的蛋白质序列进行比较,从而预测蛋白质的功能。现在学习的是第19页,共76页固有终止子固有终止子:绝大部分的原核生物操纵子含有标志转录终止的特异性信号,称作固有终止子。固有终止子有两个主要的结构特征:包括反向重叠的核苷酸序列 即序列5-CGGATG|CATCCG-3,其中包含了以“|”为中心的反向重复序列紧跟着反向重复序列有连续六个左右尿嘧啶(U)。现在学习的是第20页,共76页RNA分子一般是一条单链,但由于反向重复序列中的分子内碱基配对作用,RNA分子可能形成稳定的二级结构发夹结构。这个结构的稳定性与重复序列的长度以及GC数目直接相关。就固有终止子而言,每个反向重
14、复序列的典型长度为7-20个核苷酸,并且富含GC。现在学习的是第21页,共76页实验已经证明:在RNA分子转录过程中形成的发夹结构会导致RNA聚合酶暂停工作,平均时间为1min左右。而RNA聚合酶组装100个核苷酸仅需约1s左右的时间,因此,这个暂停对于RNA聚合酶来说终止作用非常明显。如果RNA聚合酶在新的RNA上刚合成完一串尿嘧啶(U)后就暂停工作,则RNA尿嘧啶(U)和DNA模板腺嘌呤(A)之间的弱碱基配对就会使两个多聚核苷酸分离,从而有效地终止转录RNA聚合酶正常的进程一般允许它翻译DNA模板上的一系列腺嘌呤(A),但是当与合成过程中RNA二级结构引起的暂停偶联在一起时,尿嘧啶(U)/
15、腺嘌呤(A)碱基配对的不稳定性就能非常准确而有效的终止转录过程。现在学习的是第22页,共76页碱基互补配对原则:G-C,A-T。GC含量与AT含量之和为100%。核苷酸G、C相对于A、T的丰度很早就被看作是区分细菌基因组的特征之一,因为不同的原核生物中,GC含量从25%到75%不等。因此,测量基因组的GC含量就被证明是一种识别细菌种类的特别有效的方法。现在学习的是第23页,共76页细菌的GC含量与其在漫长的进化过程中DNA聚合酶的突变偏性以及DNA修复机制无关。因此,在整个细菌基因组中碱基对GC与AT的相对比值通常是一致的。随着越来越多的原核生物基因组测序的完成,对其GC含量的分析表明大部分细
16、菌是通过从其他生物体大规模获得基因而进化的,这个过程称为基因水平转移基因水平转移。由于不同种类细菌的基因组GC含量不同,近期获得的一些基因与那些在基因组中长期存在的基因之间的GC含量差别很大。GC含量的差异会导致不同的密码子使用偏性,甚至是近期获得的基因和本身长期存在的基因之间的氨基酸使用的频率也有差别。简而言之,许多细菌基因组表现为具有不同GC含量的区域的组合物,这些区域反映了细菌的进化史,它们的生态和病原学的特征已经改变了现在学习的是第24页,共76页基因组密度基因组密度:整个染色体中与基因编码直接相关的核苷酸序列数的比例称为基因组密度。原核基因组中的基因密度非常高。完全测序的细菌和古细菌
17、染色体数据表明,其中 85%-88%的核苷酸序列与基因的编码直接相关。例如:E.Coli 中总共有4288个基因,平均编码程度为950bp,而基因之间的平均间隔长度只有118bp。现在学习的是第25页,共76页目前推测,细菌染色体编码效率的最大化,可能是使细胞分裂过程中DNA复制速率最低程度受限制的结果。近期很多人通过研究GC含量来分析细菌基因组的进化历史,并根据研究结果提出了另一种解释。他们认为染色体中大片区域的缺失和大片段的获得一样普遍发生。而留在细菌基因组中的序列是对那些重要基因绝对必要的编码区域。现在学习的是第26页,共76页不管什么样的原理,事实上通过考虑下列为数不多的几条特征来发现
18、原核基因组的基因是比较容易实现的:如何发现原核基因组中的基因?(1)长开放阅读框(60或更多个密码子)(2)与简单的启动子序列相匹配。(3)可识别的转录终止信号。(4)与其他生物体的已知蛋白编码区核苷酸序列的比较。随机选择的一段原核生物基因组核苷酸将会以很高的概率包含有一个重要基因的编码序列或启动子。原核生物基因组中很少有空间浪费。现在学习的是第27页,共76页真核生物基因组比原核生物基因组要复杂的多,原因有三:(1)内部膜系统允许在细胞内维持各种变化较大的化学环境。(2)与原核生物不同,几乎所有真核生物都是多细胞生物,每种细胞通常有其特有的基因表达方式。(3)对于真核生物基因组大小的限制很少
19、,因此能允许非必需的“垃圾DNA”的大量存在。现在学习的是第28页,共76页获得真核生物基因组的完整核苷酸序列比原核生物要困难得多。原核细胞只具有以环形染色体为代表的单拷贝,而真核细胞的细胞核中至少包含多条线性染色体,而且通常包含每条染色体的双拷贝。例如:人类的大部分细胞中具有22条不同染色体的双拷贝和两条性染色体,其中最短的为55,000,000bp,最长的有250,000,000bp,全基因组长约3,200,000,000bp。现在学习的是第29页,共76页原核基因组测序中遇到的问题在真核基因组测序中同样存在,而且由于真核基因组规模更大,即使是最简单的真核生物基因组,问题也极为复杂。在标准
20、的基因组测序过程中产生的大量重叠群中寻找重叠区域,解决这些计算问题仅仅靠利用克隆间的序列相似性是不够的。另一个非常有用的方法是确定物理图谱物理图谱和遗传图谱遗传图谱之间的对应关系。现在学习的是第30页,共76页真核生物基因组测序工程生物体生物体基因组大小基因组大小/Mb/Mb基因数目基因数目网站网站啤酒酵母13.56241http:/genome-wide.stanford.edu/Saccharomyces秀丽隐杆线虫10018424http:/www.sanger.ac.uk/Projects/C_elegans/拟南芥13025000http:/www.tair.org果蝇1801360
21、1http:/flybase.bio.indiana.edu斑马鱼1700Nahttp:/zfish.uoregon.edu/人类300045000http:/www.ncbi.nlm.nih.gov/genome/guide/现在学习的是第31页,共76页真核生物的基因识别任务异常艰巨。由于大量内含子的存在,真核生物中没有发现没有发现原核生物所具有的显著长度的开放阅读框标志。真核基因的启动子启动子和他们的原核基因对应物一样,具有一定保守序列的特征,可用于基因识别基因识别,但是这些序列更加分散,并且分布在离基因起始密码子较远的地方。现在学习的是第32页,共76页识别真核生物的基因具有很大的挑战
22、性。目前解决这个问题的方法是尝试利用神经网络和动态规划技术。现有的算法预测率不到50%,因此只能进行初步预测,但并不可靠。利用这些算法可以通过扫描序列来寻找多种特征。任何单独的特征都可能随机出现,但是多个特征的联合出现,就可能使我们有理由相信该区域对应于一个基因。现在学习的是第33页,共76页转录的起始转录的起始在真核基因表达调节中发挥着非常重要的作用。真核基因的表达涉及多种RNA聚合酶。每种真核生物真核生物RNARNA聚合酶聚合酶都能识别一套不同的启动子并转录不同类型的基因。真核生物的RNA聚合酶分三类。(1)RNARNA聚合酶聚合酶存在于核仁中,转录 rRNA。(2)RNARNA聚合酶聚合
23、酶存在于核质中,转录大多数基因,需要“TATA”框。(3)RNARNA聚合酶聚合酶 存在于核质中,转录很少几种基因如tRNA基因和5SrRNA基因。有些重复顺序如Alu顺序可能也由这种酶转录。现在学习的是第34页,共76页与原核生物中多个基因共享一个启动子的操纵子结构不一样,每个真核生物的基因都有自己的启动子。绝大部分RNA聚合酶型启动子都包含一组称作基本启动子基本启动子的序列,这是组装RNA聚合酶起始复合物和开始转录的位置。由大部分RNA聚合酶转录的基因的启动子中还包括了多个额外的上游启动子元件,它们与RNA聚合酶以外的蛋白质特异性结合。当缺乏与上游元件关联的某个或全部蛋白质时,起始复合物仍
24、然能够组装到核心启动子上,但转录的效率很低。现在学习的是第35页,共76页真核生物和原核生物转录启动的一个根本区别根本区别是RNA聚合酶不直接识别基本启动子序列。基本转录因子基本转录因子:由一个TATA 结合蛋白(TBP)和至少12个TBP相关因子(TAF)形成的复合物,它以特定的排列次序结合启动子序列,然后帮助RNA聚合酶的催化单元结合启动子序列。真核生物不同细胞类型的基本转录因子基本转录因子存在一些细微差异,这些转录因子的差异性对最终某些基因的组织特异性表达有着重要的作用。现在学习的是第36页,共76页“TATA”框框定义:真核生物启动子中可以与RNA聚合酶紧密结合的序列。存在于转录起始点
25、前的约25个核苷酸处(-25位)。决定转录起始点的准确位置。其共有序列为:5-TATAWAW-3,这里W代表A或T以相同的频率出现在该位置。现在学习的是第37页,共76页现在学习的是第38页,共76页真核生物和原核生物转录启动的一个根本区别是RNA聚合酶不直接识别基本启动子序列。在原核细胞中,RNA聚合酶对其启动子有强亲和力,因此主要靠蛋白质的负调控来控制基因的不恰当表达。而在真核细胞中,RNA聚合酶II和III都不能高效的组装在启动子周围,所以不管启动子与一致序列多么的匹配,基因的转录起始基础速率都很低。因此真核细胞更多的把调控重点放在正调控作用的活化蛋白上。现在学习的是第39页,共76页真
26、核细胞的正调控子正调控子分为两类:(1)结构型结构型活化蛋白活化蛋白:本质上是结构性的,它们作用于很多不同的基因,并且不对任何外部信号敏感。如:CAAT转录因子、CP蛋白家族等。(2)调控型调控型活化蛋白活化蛋白:这些蛋白具有调控功能,只作用于有限的基因并响应外部的信号。如热休克因子、发育调控子等。现在学习的是第40页,共76页大部分转录因子都是序列特异性DNA结合蛋白:有的蛋白如CAAT转录因子和CP蛋白家族,识别相对靠近转录起始位点的一致序列。例如在大多数真核基因中在同方向位于-80为左右区域内发现的CAAT盒 另外一些蛋白如Spl称为增强子,因为它们能在相对于起始位点的较大范围内和任何方
27、向上(通常为-500+500)发挥同样的作用。当存在多个结合位点时,增强子具有累积效应。某些真核增强子能在转录起始位点上游几万个核苷酸处起作用,并使DNA弯曲成特定形状,使结合在弯曲区域内识别位点上的其他转录因子相互作用,从而使结合因子可在成为增强小体的结构内协同作用。然而一些转录因子只在某种特殊的环境下才存在,帮助调节真核细胞响应刺激,例如暴露在热环境中,或者控制基因使其只在特殊的组织或特定的发育阶段才表达现在学习的是第41页,共76页在原核细胞中,RNA聚合酶刚开始产生编码区域的RNA拷贝时,核糖体进行的翻译过程就已经开始了。但是在真核细胞中,由于核膜的分隔,这两个过程是分开的。真核细胞需
28、要把转录产物转运出细胞核。为便于通过核膜,需要对初产物 hnRNA(异质RNA)进行加工,包括加帽、剪接和多聚腺苷酸化转化三个步骤,最终加工成适合核糖体翻译的mRNA。现在学习的是第42页,共76页加帽加帽:指所有发生在 hnRNA 5 末端的化学改变(包括甲基化作用)。形成帽子结构可增加mRNA的稳定性,保护mRNA免遭核酸外切酶的攻击。剪接剪接:指涉及到的从 hnRNA 中大批精确切除大片段的过程。多聚腺苷酸化多聚腺苷酸化:指用一段大约由250个腺嘌呤(A)组成的序列替换hnRNA 3端的过程,这段序列在基因的核苷酸序列中不被翻译。现在学习的是第43页,共76页外显子外显子:基因组DNA中
29、出现在成熟RNA分子上的序列。外显子被内含子隔开,转录后经过加工被连接在一起,生成成熟的RNA分子。内含子内含子:真核生物细胞DNA中的间插序列。这些序列被转录在前体RNA中,经过剪接被去除,最终不存在于成熟RNA分子中。目前已经发现至少8种明显不同的内含子,但其中只有一种遵循 GU-AG 规则的内含子与真核细胞蛋白编码基因有关系。现在学习的是第44页,共76页所有内含子序列5端起始的两个核苷酸总是5-GU-3,而3端的最后两个核苷酸始终是5-AG-3。现在学习的是第45页,共76页基因组中内含子的分布没有严格可循的规则,但是简单的真核基因组中内含子一般出现的比较少,而许多脊椎动物的基因中内含
30、子是一个非常普通的特征,人类 95%的基因中含有内含子。除剪接所需要的序列之外,内含子的长度和核苷酸序列几乎不受选择性限制。内含子在给定基因中的位置具有进化保守性,在同源基因的序列比对中内含子经常出现在相同的位置。现在学习的是第46页,共76页一般情况下,剪接只发生在同一个内含子的 5 端和 3 端位点之间。大部分真核基因被加工成一种类型的剪切后的mRNA。即所有的细胞以相同的方式识别内含子和外显子。但是也有20%的人类基因,在不同的细胞类型和不同的环境下,由于可变剪接可变剪接会在剪切后产生2 种或多种 mRNA。极端的例子是一个人类基因已经被证明相同的原始转录物可以产生 64 种不同的mRN
31、A。可变剪接可变剪接:同一前体mRNA分子,可以在不同的剪接位点发生剪接反应,生成不同的mRNA分子,最终产生不同的蛋白质分子的一种 RNA剪切方式。现在学习的是第47页,共76页现在学习的是第48页,共76页真核生物基因组的GC含量差别不像原核生物间那么明显。GC含量在真核基因的识别中依然十分重要,原因有二:(1)真核生物的开放阅读框更难识别,可通过GC含量辅助识别开发阅读框;(2)在真核基因组中GC含量的显著变化是基因与上游启动子序列、密码子选择、基因长度及基因密度之间相关性的基础。现在学习的是第49页,共76页CpGCpG:CG两联核苷酸,表示成 CpG 用以表明连接两个核苷酸的磷酸二酯
32、键。在人类基因组序列中,CpG 出现的频率仅为其随机出现的频率的 20%,其他核苷酸对没有这样的异常频率出现。CpGCpG岛岛:基因组中长度为3003000 bp的富含 CpG 二核苷酸的一些区域,主要存在于基因的5区域。在这个区域中,CpG 的密度可以达到随机预测的水平。约有60以上基因的启动子含有CpG岛。对人类基因组全长序列的分析结果表明,大约有45000这样的岛,并且有一半左右与已知的管家基因(在所有组织和发育阶段都高水平表达的基因)有关联的。其余的CpG岛有许多是和组织特异性基因的启动子相关联的。现在学习的是第50页,共76页CpG岛有一种重要的修饰甲基化。当DNA甲基化酶存在于5-
33、CG-3两联核苷酸上时,能够把甲基加到胞嘧啶(C)的含氮碱基上,使胞嘧啶发生甲基化修饰。后者通过氧化脱氨可以生成胸腺嘧啶(T)。现在学习的是第51页,共76页由于 CpG 甲基化后容易发生突变生成 TpG,因此甲基化作用似乎是导致 CpG 在整个基因组中含量极少的主要原因。启动子区中 CpG 岛的未甲基化状态是基因转录所必需的,而CpG序列中的C 的甲基化可导致基因转录被抑制。DNA甲基化水平高的区域中组蛋白(真核细胞中重要的DNA组装蛋白)乙酰化水平低,不利于基因表达。反之,低水平的DNA甲基化及高水平的组蛋白乙酰化与基因高水平表达有很强的相关性。现在学习的是第52页,共76页组蛋白是真核细
34、胞中的一种通常带正电的保守性较高的蛋白质,它们与带负电的 DNA 分子具有高度的亲和力。在真核细胞的细胞核中,DNA 和紧密关联的组蛋白大约以等质量混合形成染色质。DNA 缠绕在组蛋白上,组蛋白进一步组织,最后将和基因组 DNA 压缩成约为原先长度的万分之一。在转录活性区域中,乙酰基的加入使得正电荷减少,组蛋白和DNA亲和力下降,从而导致染色质压缩程度减轻,便于转录。这种打开的染色质区域称为常染色质常染色质。与之对应,转录失活并紧密压缩的区域称为异染色质异染色质。现在学习的是第53页,共76页脊椎动物和植物的基因组表现出一组称为等值区的组织形式,它是联系基因和染色体的中介。等值区定义为“具有一
35、致碱基成分的长区域”,它有两个特征:等值区基因组序列的长度超过1Mbp对碱基虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对平衡(即,在等值区全长序列上移动1000bp滑动窗口中GC含量与整个序列的GC含量差别相差不超过1%)对频率有关。现在学习的是第54页,共76页人类染色体的实验说明:人类基因组含有 5 种不同类型的等值区H1、H2、H3、L1、L2。其中 L1 和 L2 两个区域 G 和 C 相对贫乏(平均 GC 含量分别为 39%和 42%),H1、H2、H3三个区域G和C则相对丰富(平均含量分别为46%、49%和54%)。现在学习的是第55页,共76页人类和其他真核
36、生物的 H 等值区 中含有丰富的基因,这与甲基化模式和染色体结构是相关的。GC丰富的等值区倾向于低水平的甲基化 CpG,并组成具有转录活性的常染色质。此外,等值区的划分还与调控基因表达的方法、内含子和基因的长度、短和长重复序列的相对丰度以及不同基因翻译成蛋白质时所使用的氨基酸相对频率有关。现在学习的是第56页,共76页人类和其他真核生物的 H 等值区 中含有丰富的基因,这与甲基化模式和染色体结构是相关的。GC丰富的等值区倾向于低水平的甲基化 CpG,并组成具有转录活性的常染色质。此外,等值区的划分还与调控基因表达的方法、内含子和基因的长度、短和长重复序列的相对丰度以及不同基因翻译成蛋白质时所使
37、用的氨基酸相对频率有关。现在学习的是第57页,共76页各种生物体似乎更偏爱使用同义三联密码子(即编码相同氨基酸的密码子)中的一个或几个。例如在整个酵母基因组中,所有精氨酸的 48%由密码子AGA 确定,而其余5种编码精氨酸的同义密码子(CGT、CGC、CGA、CGG 和 AGG)则以较低的大致相等的频率被使用(每种约10%左右)。现在学习的是第58页,共76页从生物学基础来看,密码子的使用偏性可能与两个原因有关:(1)避免使用类似终止密码子的密码子;(2)这些偏好能够有效的翻译密码子,因为这些密码子对应于生物体中非常丰富的 tRNA。不同生物的密码子使用偏性的差异可以非常大。现在学习的是第59
38、页,共76页由于真核基因识别的结果具有不确定性,任何基因预测结果都需要通过生物实验进行验证,即证实活细胞确实可以把该区域转录成一个 RNA 分子。除了确认作用,转录组转录组也是第一时间发现基因的一个有效的工具。对真核基因识别算法真核基因识别算法有用的DNA序列特性:(1)已知的启动子元件(即TATA和CAAT盒)(2)CpG岛 (3)与内含子相关的剪切信号 (4)具有特定密码子使用偏性的开放阅读框 (5)与其他生物体的基因的相似性现在学习的是第60页,共76页即使一个生物体只有部分RNA转录物的核苷酸序列是已知的,人们也可以通过第2章所描述的一系列简单的数据搜索和两两对比工具,充分利用这些有限
39、的信息来帮助识别基因然而重要的是不能忽略这样一个事实,即生物体响应外界环境而改变基因表达模式的能力是维持生命的重要因素。这一点充分说明了人们为什么要努力研究确定基因组哪些部分真正被转录的方法现在学习的是第61页,共76页cDNAcDNA:又称为互补互补DNADNA,指具有与某RNA链呈互补的碱基序列的单单链链DNADNA,或者此DNA链与具有与之互补的碱基序列的DNA链所形成的DNADNA双链双链。ESTsESTs:表达序列标签表达序列标签,代表基因表达信息的 cDNA 序列片段。从 cDNA 文库所得到的许多表达序列标签表达序列标签集合组成表达序列标签序列标签数据库数据库,代表在一定的发育时
40、期或特定的环境条件下,特定的组织细胞基因表达的序列。可用于验证基因在特定组织中的表达,推导全长 cDNA 序列,或作为标签标志基因组中的特殊位点以确定基因的位置等。现在学习的是第62页,共76页 由真核细胞中分离的RNA得到cDNA的过程可以简单的表示为下图现在学习的是第63页,共76页由于细胞的 mRNA 来自与蛋白质编码基因,cDNA 不仅有助于研究细胞在一定的时间表达的基因群,还有助于研究mRNA 的相对丰度。从本质上说,大量来自细胞的 RNA 可以跟由同种生物体制备的 cDNA 复制杂交,根据得到的 R0t1/2 值(R0 指 RNA的起始浓度),可以将RNA根据不同的丰度分成几类。通
41、常,细胞中大约 50%的 mRNA 是某个特殊组织所独有的。例如卵白蛋白基因只在输卵管中表达。现在学习的是第64页,共76页确定细胞中每个cDNA的核苷酸序列不实际,一个灵敏而可行的代替方法是基因表达的串行分析串行分析(SAGESAGE)。原理:(1)一个910碱基的短核苷酸序列标签包含有足够的信息,能够唯一确认一种转录物。例如,一个9碱基顺序能够分辨 262144 个不同的转录物,而人类基因组估计仅能编码 80000 种转录物,所以理论上每一个 9 碱基标签能够代表一种转录物的特征序列。(2)如果能将9碱基的标签集中于一个克隆中进行测序,并将得到的短序列核苷酸顺序以连续的数据形式输入计算机中
42、进行处理,就能对数以千计的mRNA转录物进行分析。现在学习的是第65页,共76页方法:(1)从细胞获取 cDNA;(2)cDNA 被分裂成长10-14个核苷酸的小片段(用限制性酶);(3)随机连接成更长的DNA分子。(4)考虑所选用的限制性酶的识别序列,与生物体中已知转录物的序列进行比较。(5)用计算机来识别大量克隆中原始的小片段。(6)观察到的特定转录物标签的次数计算转录物在原始cDNA中的相对丰度。现在学习的是第66页,共76页定义:一种将核酸序列纵横排列成序地点样在惰性载体(玻片、硅片、尼龙膜等)上以便核酸分子杂交分析的系统。微阵列分为 cDNA微阵列 和 寡聚核苷酸微阵列。微阵列上“印
43、”有大量已知部分序列的DNA探针,微阵列技术微阵列技术就是利用分子杂交原理,使同时被比较的标本(用同位素或荧光素标记)与微阵列杂交,通过检测杂交信号强度及数据处理,把他们转化成不同标本中特异基因的丰度,从而全面比较不同标本的基因表达水平的差异。微阵列技术是一种探索基因组功能的有力手段。现在学习的是第67页,共76页转座因子转座因子是存在于染色体DNA上可自主复制和位移的基本单位。最简单的转座因子不含有任何宿主基因而常被称为插入序列插入序列(IS),它们是细菌染色体或质粒DNA的正常组成部分。复合型的转座因子称为转座子转座子(Tn),这种转座因子带有同转座无关的一些基因,如抗药性基因等。它的两端
44、就是IS,构成了“左臂”和“右臂”。两端的重复序列可以作为Tn 的一部分随同 Tn 转座,也可以单独作为 IS 而转座。现在学习的是第68页,共76页尽管原核基因组中的信息内容异常精简,但即便如此,那些可有可无的DNA转座子仍然作为一个重要组件以多拷贝的形式存在于细菌基因组结构中。例如:一个简单的大肠杆菌基因组就包含了多达 20个不同的插入序列。原核细胞中的DNA转座子一般随机分布在整个基因组中,它们的出现和出现的位置都有很大不同,因此可以作为可靠的区分同一物种不同株的标志。在真核生物中存在着丰富的非编码区和明显可有可无的DNA,因此其中也存在着大量的转座子。现在学习的是第69页,共76页现在
45、学习的是第70页,共76页转座子转座子在原核或真核基因组中以多拷贝的形式存在,因此被称为“重复DNA”或重复序列元件。根据重复形式的不同,重复元件可以分为两类:(1)串行重复(头尾相连的重复,如 5-CACACA-3)(2)分散在整个基因中的重复片段现在学习的是第71页,共76页串行重复DNA本身也可以分成两类:(1)卫星卫星DNADNA:真核细胞染色体具有的高度重复核苷酸序列的DNA。总量可占全部DNA的10%以上,主要存在于染色体的着丝粒区域,通常不被转录。因其碱基组成中 GC 含量少,具有不同的浮力密度,在氯化铯密度梯度离心后呈现与大多数DNA有差别的“卫星”带而得名。(2)小卫星小卫星
46、/微卫星微卫星:小卫星组成长2万bp 的序列簇,包含许多长度不超过25bp的序列的串联拷贝;微卫星主要用来描述有更短的重复序列(一般不超过4个核苷酸)组成的序列簇,一个序列簇的长度通常不超过 150bp。现在学习的是第72页,共76页真核基因组真核基因组还有许多重复序列随机地分布在整个基因组中,这种类型的重复序列,是经过一个合成RNA中间物的称为逆转录转座的过程而传播的。其基本机制涉及3个步骤:(1)像转录一个正常的基因一样,RNA转录酶转录出转座子的一个RNA拷贝;(2)逆转录酶 将RNA拷贝 转换成DNA分子;(3)逆转录酶 将转座子的DNA拷贝插入到基因组的其他位置。现在学习的是第73页
47、,共76页逆转录酶不是真核基因组中的正常基因产物,它最早来源于可感染或整合的逆转录病毒。哺乳动物基因组中非常普遍的逆转录转座子是LINE(长散布元件)和SINE(短散布元件)。其中LINE很可能就是整合的逆转录病毒基因组。SINE 经常被认为是“垃圾DNA”,因为它们通常与功能序列没有关系。许多基因组算法都是从“屏蔽”已知重复序列如 SINE 和 LINE 开始的。现在学习的是第74页,共76页人类基因组(人类基因组(3000Mb3000Mb)序列)序列中:编码序列:不超过 90Mb(3%)内含子启动子和伪基因:大约810Mb(27%)剩余2100Mb(70%)可分为两种不同类型:(1)唯一序列(1680Mb 56%)(2)重复序列 (420Mb 14%)。现在学习的是第75页,共76页在大多数复杂的真核细胞中,很少有进化压力限制基因组的规模,因此基因之间离得非常远。如:人类基因间的平均距离为65000bp,其长度是简单原核生物全基因组的10%。许多基因编码具有多重功能的蛋白质。也有许多基因是以细微变化的多份冗余拷贝的形式存在的,如在人类基因组中,执行同一个功能的基因可能平均多达三四个。复杂性低的真核生物比复杂性高的真核生物染色体上基因的密度要高。现在学习的是第76页,共76页