《分子生物学 基因组与基因组学.docx》由会员分享,可在线阅读,更多相关《分子生物学 基因组与基因组学.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 基因组与基因组学学习目标掌握:1原核生物基因组和真核生物基因组的特点。 2基因组学的研究内容。熟悉:1病毒基因组的特点。 2人类基因组的结构特点,人类基因组计划的研究内容。 3基因组学的分类及研究内容。了解:1基因组学在现代医药学上的应用。基因组(genome),又称染色体组,是物种遗传信息的“总词典”、控制发育的“总程序”、生物进化历史的“总档案”。一般的定义是单倍体细胞中的全套染色体为一个基因组,或是单倍体细胞中的全部基因为一个基因组。基因组DNA测序的结果研究发现,基因编码序列只占整个基因组序列的很小一部分。因此,基因组应定义为单倍体细胞中全部的核苷酸序列(包括编码序列和非编码序
2、列)。RNA病毒不含有DNA,其遗传信息的携带者为RNA,因此,基因组也可指RNA病毒颗粒中的全部RNA分子。第一节 基因组一、病毒基因组的特点病毒是最简单的生物,完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA。病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。病毒基因组主要有以下特点:1病毒基因组较小 病毒基因组与细菌或真核细胞基因组相比,病毒基因组很小。但是不同的病毒之间其基因组相差甚大,如乙肝病毒DNA只有3kb大小,所含信息量也较小,只能编码4种蛋白质,而痘病毒的基因组有300kb之大,可以编码几百种蛋白质,不但为病毒复制所涉及的酶类编码,甚
3、至为核苷酸代谢的酶类编码,因此,痘病毒对宿主的依赖性较乙肝病毒小得多。2病毒基因组为DNA或RNA 病毒基因组可以由DNA组成 也可以由RNA组成。每种病毒颗粒中只含有一种核酸,或为DNA或为RNA,两者一般不共存于同一病毒颗粒中。组成病毒基因组的DNA和RNA可以是单链的,也可以是双链的,可以是闭环分子,也可以是线性分子。如乳头瘤病毒是一种闭环的双链DNA病毒,而腺病毒的基因组则是线性的双链DNA,脊髓灰质炎病毒是一种单链的RNA病毒,而呼肠孤病毒的基因组是双链的RNA分子。一般说来,大多数DNA病毒的基因组是双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。3RNA病毒基因组为一
4、条或多条RNA 多数RNA病毒的基因组只有一条核糖核酸链,但也有些病毒的基因组RNA含有多条核酸链。如禽流感病毒的基因组RNA分子是节段性的,由8条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息(图2-1);而呼肠孤病毒的基因组由双链的节段性的RNA分子构成,共有10个双链RNA片段,同样每段RNA分子都编码一种蛋白质。目前,还没有发现有节段性的DNA分子构成的病毒基因组。图2-1 8节段的禽流感病毒(H5N1)单链RNA4病毒基因组含有基因重叠 基因重叠是指同一段DNA片段含有2种以上编码蛋白质的核苷酸序列。这种现象在其它的生物细胞中仅见于线粒体和质粒DNA,所以也可以认为是病毒基
5、因组的结构特点。这种结构使较小的基因组能够携带较多的遗传信息。基因重叠是1977年Sanger在研究X174时发现的。X174是一种单链DNA病毒,宿主为大肠杆菌,因此,又称为噬菌体。它感染大肠杆菌后共合成11个蛋白质分子,相当于6078个核苷酸所编码的2381个氨基酸的蛋白质信息量。而该病毒DNA本身只有5386个核苷酸,最多能编码1795个氨基酸。可见,X174基因组存在基因重叠现象。X174基因组见图2-2。图2-2噬菌体X174基因组DNA基因重叠有以下3种情况: 完全重叠,一个基因完全被包含在另一个基因里面; 部分重叠,两个基因只有部分核苷酸序列共用;两个基因只有一个核苷酸的重叠,见
6、图2-3。这些重叠基因尽管它们的DNA大部分相同,但是由于将mRNA翻译成蛋白质时的读码框不一样,产生的蛋白质分子往往并不相同。有些重叠基因读码框重叠,只是起始部位不同,重叠序列编码出完全不同的蛋白质氨基酸序列;有些重叠基因读码框重叠,起始部位也相同,但是读码框大小不同,编码出两种不同的蛋白质,出现一种蛋白质包含有另外一种蛋白质的氨基酸序列。图2-3 基因重叠5病毒基因组几乎全部为编码序列 病毒基因组的大部分是用来编码蛋白质的,只有非常小的一部分不被翻译,这与真核细胞DNA的冗余现象不同。如在X174中不翻译的部份只占217/5375,G4 DNA中占282/5577,都不到5%。不翻译的DN
7、A顺序通常是基因表达的控制序列。如X174的H基因和A基因之间的序列(39063973),共67个碱基,包括RNA聚合酶结合位点,转录的终止信号及核糖体结合位点等基因表达的控制区。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0Kb,其中不翻译的部份约为1.0kb,该区同样也是其他基因表达的调控区。6病毒基因组常为多顺反子转录 病毒基因组DNA序列中功能相关的编码蛋白质的基因或编码rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。该转录单元被转录成含多个蛋白质编码序列的mRNA,称为多顺反子mRNA(polycistronic mRNA),然后再加工成多种蛋白
8、质的mRNA模板。如X174基因组中的D-E-J-F-G-H基因转录生成同一mRNA分子,然后再翻译成功能相关的各种蛋白质,其中 J、F、G及H都是编码外壳蛋白的,D蛋白与病毒的装配有关,E蛋白负责细菌的裂解。7病毒基因组多为单倍体 除逆转录病毒外,其他病毒基因组都是单倍体。逆转录病毒基因组有两个拷贝,如人类免疫缺陷病毒(HIV),其基因组为二倍体的单链RNA。8真核细胞病毒基因组含有内含子 噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的,含有内含子。除了正链RNA病毒之外,真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。更为有趣的是,有
9、些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是外显子。如SV40和多瘤病毒(polyomavirus)的早期基因就是这样。SV40的早期基因即大T和小t抗原的基因都是从5146开始反时针方向进行,大T抗原基因到2676位终止,而小t抗原到4624位即终止,但是,从4900到4555之间一段346bp的片段是大T抗原基因的内含子,而该内含子中从4900-4624之间的DNA序列则是小t抗原的编码基因。同样,在多瘤病毒中,大T抗原基因中的内含子则是小t抗原的编码基因。二、原核生物基因组的特点原核生物基因组的结构基因数量和功能的类型远大于病毒基因组,但与真核生物基因组
10、相比,其基因组较小。大多数原核生物基因组小于5Mb(兆碱基对),所能容纳的基因数量有限。原核生物基因组主要有以下特点:1原核生物基因组较小 原核生物基因组通常只有一个环形或线形的DNA分子。基因组DNA虽与蛋白结合,但并不形成染色体结构。基因组中只含有一个复制起始点。2原核生物基因组有操纵子结构 原核生物的结构基因与调控序列以操纵子的形式组织在一起。操纵子结构是原核生物基因组的一个突出的结构特点,操纵子是指几个功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一mRNA分子,可指导多种蛋白质的合成(图2-7)。由操纵子转录的RNA为多顺反子(polycistron)。在E.coli中
11、已发现有260个多基因具有操纵子结构。操纵子的结构与功能见第六章。3原核生物基因组重复序列较少 大多数原核生物基因组没有高拷贝数的全基因组范围的重复序列。然而,可能在基因组的某处含有一些重复序列,且大多为转座子序列。4原核生物基因组结构基因多为单拷贝基因 原核生物基因组中的结构基因多为单拷贝,但编码rRNA的基因往往是多拷贝的,这有利于核糖体的快速组装,便于急需蛋白质的快速合成。5原核生物基因组多为编码基因 原核生物基因组的大部分序列是用来编码蛋白质的,所占比例远远大于真核生物基因组而小于病毒基因组。编码区在基因组中所占的比例约为50%,非编码区主要是一些调控序列。原核生物基因组基本是连续的,
12、结构基因中无内含子,因此转录后不需要剪接,翻译与转录偶联进行。6原核生物基因组无基因重叠 原核生物结构基因一般无重叠现象,这与病毒基因组是不同的。基因重叠现象可见于原核生物的质粒DNA中。7原核生物基因组存在可移动的DNA序列 与真核生物基因组类似,原核生物基因组中存在可移动的DNA序列,如转座子和质粒等。三、真核生物基因组的特点真核生物基因组包含两部分,染色体基因组和染色体外基因组(线粒体或叶绿体基因组)。真核生物的染色体基因组的基本结构尽管相似,但不同生物的基因组大小有很大差异。最小的真核生物基因组长度不到10Mb,最大的超过了100000Mb。真核生物基因组主要有以下特点:1真核生物基因
13、组较大真核生物的基因组由多条线形的染色体构成,每条染色体有一个线形的DNA分子,每个DNA分子有多个复制起点。真核生物中,配子(精子和卵子)基因组为单倍体,体细胞基因组为双倍体。2真核生物基因为单顺反子真核生物的基因与原核生物不同,不以操纵子结构形式存在,其结构基因的转录产物为单顺反子(monocistron),即一个基因转录成一条mRNA,翻译成一条蛋白质多肽链。3真核生物基因存在大量的重复序列真核生物基因组结构庞大,出现大量重复序列,可占基因组的35%左右,功能相关基因构成各种基因家族。根据重复程度不同,可分为高度重复序列、中度重复序列、轻度重复序列。高度重复序列是指重复次数大于105,如
14、卫星DNA (satellite DNA)等。中度重复序列是指重复次数在102105之间,如rRNA基因和tRNA基因等。中度重复序列一般具有种特异性,因此在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。轻度重复序列是指重复次数在10102之间。真核生物基因组中50-80%的基因为单拷贝基因,在基因组中出现一次或几次。4真核生物结构基因为断裂基因真核生物结构基因为断裂基因,即含有不编码的内含子和编码的外显子序列,二者间隔排列。5真核基因组含有端粒真核基因组DNA末端都有一特殊结构称为端粒,该结构是由一段短而简单的串联重复序列和蛋白质形成的复合体,仅在真核细胞染色体末端存在。
15、6真核基因组存在可移动的DNA序列真核基因组存在一些可移动的遗传因子,如在人类基因组中发现的逆转座子、在果蝇中发现的DNA转座子等。知识拓展线粒体基因组线粒体是真核细胞的一种细胞器,有它自己的基因组,编码细胞器的一些蛋白质与RNA。线粒体基因突变率高,母系遗传,具有很高的研究价值。除了少数低等真核生物的线粒体基因组是线状DNA分子外(如纤毛原生动物Tetrahymena pyriformis和Paramecium aurelia以及绿藻Clamydoomonas reinhardtii) 等,一般都是一个环状DNA分子。由于一个细胞里有许多个线粒体,而且一个线粒体里也有几份基因组拷贝,所以一个
16、细胞里也就有许多个线粒体基因组。不同物种的线粒体基因组的大小相差悬殊。线粒体基因组能够单独进行复制、转录及合成蛋白质,但这并不意味着线粒体基因组的遗传完全不受核基因的控制。线粒体自身结构和生命活动都需要核基因的参与并受其控制,说明真核细胞内尽管存在两个遗传系统,一个在细胞核内,一个在细胞质内,各自合成一些蛋白质和基因产物,造成了细胞核和细胞质对遗传的相互作用;但是,核基因在生物体的遗传控制中仍起主宰作用。线粒体DNA (mtDNA)可用于分子系统发生研究 (molecular phylogenetic studies)。四、人类基因组计划人类基因组包括位于细胞核内的染色体基因组(占人类遗传信息
17、总数的99.9995%)和位于线粒体内的线粒体基因组。人类基因组计划(human genome project, HGP)的目的是测出人类基因组DNA的30亿个碱基对的序列,发现所有的人类基因,找出它们在染色体上的位置,破译人类全部遗传信息,为整体上解释人类发生、发育、衰老、死亡和疾病的奥秘提供最基本的数据。1986 年诺贝尔奖获得者R.Dulbecco提出人类基因组计划测出人类全套基因组的DNA核苷酸序列。该计划于1990年正式启动。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约2.5万个基因的密码全部解
18、开,同时绘制出人类基因的图谱。HGP序列图的绘制完成揭示了,人类基因组中存在着基因密度较高的“热点”区域和大片不携带人类基因的 “荒漠”区域。如基因密度在第17、19和22号染色体上最高,在X、Y、第4号和第18号染色体上密度较低;大约1/3以上基因包含重复序列;所有人都具有99.99%的相同基因,任何两个个体之间大约每1000个核苷酸序列中会有一个不同,这称为单核苷酸多态性(SNP),每个人都有自己的一套SNP,它对“个性”起着决定性作用。目前,已进入后基因组(postgenomics)时代。在基因组全序列测定的基础上,对基因组的结构、表达、修复、功能等进行研究,包括功能基因组、结构基因组和
19、蛋白质组等研究。1993年启动的人类基因组多样性计划(human genome diversity project,HGDP),就属于后基因组的研究范畴。它通过比较DNA多态性来科学地区分不同人种,以及了解人类的进化和起源;通过对比分析不同人群间、不同群体和个体在基因组的多态性序列,可以找出与疾病易感性或抗性有关的基因,了解不同群(个)体对药物的不同反应;通过对影响药物代谢或效应通路有关基因编码序列的测序,揭示群(个)体间不同的遗传学基础。在基因组多样性研究基础上,识别每一人群和每一个体所具有的疾病基因或风险基因,帮助了解遗传病、癌症发生和衰老的生物学机制,可为预防医学提供基础,并在亲子鉴定和
20、法医学分析上提供了标准的信息库。临床应用STR扩增与亲子鉴定卫星DNA标记(microsatelliteDNA)是近十多年发展起来的一种新型的分子遗传标记。它具有数量大、分布广且均匀、多态信息含量高、检测快速方便等特点,目前被广泛应用于动、植物基因定位、连锁分析、血缘关系鉴定、遗传多样性评估、系统发生树构建、标记辅助选择等方面。STR(short tandem repeat),短串联重复序列是广泛存在于人染色体DNA中的一类多态性遗传标记系统。复合扩增多个STR基因座,累计鉴别能力可达到DNA指纹水平。STR序列广泛分布于各个染色体上,个体(或等位基因)之间的差异一般只表现为重复数目(因而造成
21、该DNA片段长度)的差异。这些差异能简单地用PCR技术检测出来。同时,还发现这些长度差异的片段又是严格遵循孟德尔遗传规律遗传的,因而可以用来区分不同个体,并追溯个体的父母来源。这种分析技术一次实验的个体识别力可以达到1017。目前全世界各个国家和地区几乎都在使用STR分型技术进行亲子鉴定和DNA的个体识别工作。 第二节 基因组学基因组学(genomics)是对生物体所有基因进行基因作图、核苷酸序列分析、基因定位和功能分析以及基因之间的相互作用研究的科学。简单地说,基因组学就是研究基因组结构与功能的科学。它是以分子生物学、电子计算机和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因
22、组背景下和整体水平上探索生命活动的内在规律及内外环境对机体影响机制的科学。它从全基因组的整体水平而不是单个基因水平,来研究生命这一具有自组织和自装配特性的复杂系统,认识生命活动的规律,从而将更加接近生物的本质和全貌。基因组学作为一门新兴学科,根据其研究的对象、研究的重点以及研究的目的不同,又分成多种分支学科。根据研究重点的不同,基因组学可以分为结构基因组学和功能基因组学;根据研究的对象不同,还可将基因组学分为比较基因组学、疾病基因组学、药物基因组学等。一、结构基因组学结构基因组学(structural genomics )是以全基因组测序为目标,确定基因组的组织结构、基因组成及基因定位的基因组
23、学的一个分支。它代表基因组分析的早期阶段,以建立具有高分辨率的生物体基因组的遗传图谱(genetic map)、物理图谱(physical map)、序列图谱(sequence map)及转录图谱(transcription map)为主要内容。(一)遗传图谱遗传图谱,即遗传连锁图谱(genetic linkage map),把通过遗传重组所确定的基因和/或遗传标记绘制在染色体上的相对位置所得到的图谱。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,一般用厘摩(centimorgan,cM)来表示。随着计算机技术的发展,目前已有多个构建遗传图谱的软件,研究者用的较多的软件主要有M
24、apMaker及 JoinMap 3.0。绘制遗传连锁图早期使用的遗传标志为限制性片段长度多态性(restriction fragment length polymorphism,RFLP)、随机引物扩增多态性DNA(RAPD)、扩增片段长度多态性(AFLP),为第一代遗传标记;80年代后出现的有短串联重复序列(short tandem repeats,STR),又称微卫星,为第二代遗传标记; 90年代发展的单个核苷酸的多态性(single nucleotide polymorphisms,SNP)分析,为第三代遗传标记。遗传图谱可以用于对多种疾病进行遗传分析与基因定位。(二)物理图谱物理图谱
25、是以遗传图谱为基础,以已知序列标签位点(STS)作为标记,以DNA实际长度为“图距”绘制,采用分子生物学技术直接将遗传标记或基因定位在基因组实际位置的基因组图谱。物理图谱描绘了DNA上可以识别的标记位置和相互之间的距离,已知的序列标签包括限制性内切酶的酶切位点,基因等。一般物理图谱的构建是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序来确定遗传标志之间物理距离(bp或kb或Mb)。物理图谱是进行DNA测序和基因组结构研究的基础。(三)序列图谱序列图谱是在遗传图谱和物理图谱的基础上,对基因组DNA进行大规模测序绘制的基因组序列图谱,是最详细、最准确的物理图谱。序列分析采用一个
26、区域的DNA序列重叠群使测序工作不断延伸,使用其中的序列标记位点STS作为两个片段间的重叠区域,使分别被测序的短序列进行正确的拼接,最后获得DNA全序列图谱。序列图谱是人类基因组计划的最终目标之一。(四)转录图谱转录图谱,又称cDNA图谱或表达序列图谱,是一种以表达序列标签(expressedsequencetag,EST)为“位标”绘制的分子遗传图谱。通过从cDNA文库中随机挑取的克隆进行测序所获得的部分cDNA的5或3端序列称为表达序列标签,一般长300500bp左右。一般说,mRNA的3端非翻译区(3-UTR)是代表每个基因的比较特异的序列,将对应于3-UTR的EST序列进行RH定位,即
27、可构成转录图谱。二、功能基因组学功能基因组学(functuional genomics)是根据结构基因组学的研究结构所提供的基因结构相关信息,采用分子生物学、生物化学、细胞生物学和生物信息学的理论和技术,全面、系统地对基因组中所有基因功能进行注释的学科。功能基因组学的研究内容包括基因功能的发现、基因表达分析及基因突变的检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育学功能,如参与形态建成等。采用的手段包括经典的减法杂交、差示筛选、cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新
28、的技术应运而生,包括基因表达的系统分析(SAGE)、cDNA微阵列(cDNA microarray)、DNA芯片(DNA chip)等。功能基因组学的研究又细分为蛋白质组、转录组、代谢组、癌基因组、疾病基因组、药物基因组、环境基因组和行为基因组等组学的研究。三、比较基因组学比较基因组学(comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。主要是利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系及基因组的内在结构。 (赵 颖)
29、习 题一、选择题A型选择题11990年,美国启动的HGP被称为:A高通量测序计划 B基因治疗计划 C人类基因组计划D转基因计划 E人类基因组多样性计划2基因按分布分为核基因和核外基因,其中核外基因又被称为:A线粒体基因 B叶绿体基因 C核糖体基因D胞质基因 E以上都不是3存在于细菌染色体外的,具有自主复制能力的环状双链DNA分子是:A染色体 BF因子 C引物 DF因子 E质粒4两个顺序列相同的拷贝无碱基间隔相连在DNA链上,呈反向排列叫做:A正向重复序列 B串联重复序列 C回文结构D反向重复序列 E卫星DNA5结构基因组学的研究对象是:A生物的全基因组 B线粒体基因组 C叶绿体基因组D染色体基
30、因组 E细胞和基因组6通过计算连锁的遗传标记之间的重组频率,确定他们的遗传学距离作为“图距”的基因组图是:A物理图 B转录图 C遗传图 D序列图 E以上都不是7通过测定遗传标记的排列序列与位置绘制而成的以DNA的实际长度为图距的基因图谱是:A物理图 B转录图 C遗传图 D序列图 E以上都不是8人类基因组在分子水平上最高层次、最详尽的物理图是A物理图 B转录图 C遗传图 D序列图 E以上都不是9HGP中以表达序列标签(EST)为“位标”绘制的分子遗传图谱是A物理图 B转录图 C遗传图 D序列图 E以上都不是10真核生物基因组比原核生物基因组:A小 B大 C相等 D不确定 E大的多X型选择题11基因重叠的类型有:A基因内基因 B部分重叠基因 C一个碱基重叠 D跳跃基因 E转座基因12原核生物基因组包括:A核基因组 B线粒体基因组 C类核基因 D质粒 E叶绿体基因组13真核生物基因组包括:A染色体基因组 B类核基因 C线粒体基因组 D叶绿体基因组 E质粒14结构基因组学研究的主要内容是:A基因作图 B序列分析 C基因鉴定 D基因测序 E基因功能研究15根据研究对象的不同将基因组学分为:A疾病基因组学 B比较基因组学 C药物基因组学D环境基因组学 E结构基因组学二、思考题1列表说明原核生物基因组和真核生物基因组的异同点。2分析基因组学研究的生物学意义。