《第3章基因、基因组及基因组学.pdf》由会员分享,可在线阅读,更多相关《第3章基因、基因组及基因组学.pdf(96页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第三三章章 基基因因、基基因因组组及及基基因因组组学学 主要内容 第一节第一节 基因的概念基因的概念 第二节第二节 基因组基因组 第三节第三节 基因组学基因组学 一、基因认识的三个阶段一、基因认识的三个阶段 二、基因的特征二、基因的特征 三、基因的分类三、基因的分类 四、基因的结构四、基因的结构 五、基因的大小五、基因的大小 六、基因的数目六、基因的数目 第一节第一节 基因的概念基因的概念 1、基因的染色体遗传学阶段、基因的染色体遗传学阶段 2、基因的分子生物学阶段、基因的分子生物学阶段 3、基因的反向生物学阶段、基因的反向生物学阶段 一、基因认识的三个阶段一、基因认识的三个阶段 Mende
2、l:生物的每一种性状都是由:生物的每一种性状都是由遗传因子遗传因子控制的,控制的, 这些因子可以从亲代到子代,代代相传。这些因子可以从亲代到子代,代代相传。 Morgan提出基因学说:种质必须由独立的要素组成,提出基因学说:种质必须由独立的要素组成, 我们把这些要素称为遗传因子,或者简单地称为基因。我们把这些要素称为遗传因子,或者简单地称为基因。 Morgan及其助手发现了连锁遗传规律,并且第一次及其助手发现了连锁遗传规律,并且第一次 将代表某一性状的基因,同某一特定的染色体联系起来。将代表某一性状的基因,同某一特定的染色体联系起来。 1、基因的染色体遗传学阶段、基因的染色体遗传学阶段 190
3、91909年,丹麦遗传学家年,丹麦遗传学家 W. Johannsen 首先使用首先使用 “ “基因基因”一词。一词。 基因是位于染色体上的、控制遗基因是位于染色体上的、控制遗 传性状的、可遗传的独立要素传性状的、可遗传的独立要素。 1941年年 Beeadle 和和 Tatum 提出了提出了 “一个基因一个酶的假说一个基因一个酶的假说 (one gene : one enzyme hypothesis)” ” 认为:认为:基因是一个基因是一个DNA片段片段,负责编码一个蛋白,负责编码一个蛋白 酶(蛋白质)。当一种蛋白质是由异源亚基构成时,酶(蛋白质)。当一种蛋白质是由异源亚基构成时, 该假说应
4、修正为该假说应修正为“一个基因一条多肽链一个基因一条多肽链”。 Avery等人证明基因的化学本质是等人证明基因的化学本质是DNA。 Waston等人阐明等人阐明DNA的双螺旋结构。的双螺旋结构。 2、基因的分子生物学阶段、基因的分子生物学阶段 基因是能够表达和产生基因产物(蛋白质基因是能够表达和产生基因产物(蛋白质 或或RNA)的核苷酸序列。)的核苷酸序列。包括编码序列、调包括编码序列、调 控序列、内含子和编码区两端的非编码序列。控序列、内含子和编码区两端的非编码序列。 19551955年,年,S. Benzer 提出了顺反子(提出了顺反子(cistroncistron)的概念。)的概念。 u
5、最近几年的研究发现基因的调控区并不一定与编码区相邻,甚最近几年的研究发现基因的调控区并不一定与编码区相邻,甚 至不一定在同一个至不一定在同一个DNA分子或同一个染色体上。分子或同一个染色体上。Spilianakis 等人发现位于等人发现位于10号染色体上的号染色体上的-干扰素基因的启动子区,与干扰素基因的启动子区,与11 号染色体上的号染色体上的TH2细胞因子的调控区,在细胞核内相互邻近而细胞因子的调控区,在细胞核内相互邻近而 可能受到共同调节。可能受到共同调节。 u认为基因有明确的边界这一概念也正在受到挑战,有证据显示认为基因有明确的边界这一概念也正在受到挑战,有证据显示 两个编码不同的蛋白
6、质产物的邻近基因,可以共同产生融合蛋两个编码不同的蛋白质产物的邻近基因,可以共同产生融合蛋 白。虽然还不知道这类融合蛋白是否有功能,但是这种现象确白。虽然还不知道这类融合蛋白是否有功能,但是这种现象确 实并不罕见。有些蛋白质甚至可以由来自相距甚远的区域或不实并不罕见。有些蛋白质甚至可以由来自相距甚远的区域或不 同染色体的外显子组成。这些新证据可能导致全新的基因概念:同染色体的外显子组成。这些新证据可能导致全新的基因概念: 编码一套相关的功能产物的基因组序列单元编码一套相关的功能产物的基因组序列单元。新的定义根据功。新的定义根据功 能产物(蛋白质或能产物(蛋白质或RNA)而不是特定的)而不是特定
7、的DNA位点来分类基因,位点来分类基因, 所有的所有的DNA元件都归类为基因相关区域。元件都归类为基因相关区域。 基因的概念也在接受新的挑战基因的概念也在接受新的挑战 1. Spilianakis CG, Lalioti MD, Town T, Lee GR, Flavell RA (June 2005). Interchromosomal associations between alternatively expressed loci. Nature 435 (7042): 63745. 2. Parra G, Reymond A, Dabbouseh N, et al. (January
8、 2006). Tandem chimerism as a means to increase protein complexity in the human genome. Genome Res. 16 (1): 3744. 现在,可以用各种方法分离天然基因,现在,可以用各种方法分离天然基因, 也可以通过化学方法合成或设计、改造基因。也可以通过化学方法合成或设计、改造基因。 3、基因的反向生物学阶段、基因的反向生物学阶段 传统生物学:从表型到基因。传统生物学:从表型到基因。 反向生物学:从基因到表型。反向生物学:从基因到表型。 二、基因的特征二、基因的特征 1、跳跃基因、跳跃基因 2、断裂基
9、因、断裂基因 3、假基因、假基因 4、重叠基因、重叠基因 5、基因家族、基因家族 6、重复序列、重复序列 jumping gene; or movable gene(移动基因)移动基因): : u 是一些可以在染色体基因组上从一个位置转移到另是一些可以在染色体基因组上从一个位置转移到另 一个位置,甚至在不同染色体之间跃迁的一个位置,甚至在不同染色体之间跃迁的DNA成分。成分。 u 像这样像这样DNA序列在基因组中的位置发生转移的现象序列在基因组中的位置发生转移的现象 称为转座(称为转座(transposition)。)。 u 这样的这样的DNA序列称为转座子(序列称为转座子(transposo
10、n)或者)或者 转座元件(转座元件(transposable element)。)。 1、跳跃基因、跳跃基因 跳跃基因是由美国女科学家跳跃基因是由美国女科学家B. McClintock于上个世纪于上个世纪 的的4040年代后期在玉米中首先发现的。当时称为激活年代后期在玉米中首先发现的。当时称为激活- -解离解离 元件(元件(activator-dissociation element,Ac/Ds元件)元件) McClintock的发现是革命性的,因为这一发现提示:的发现是革命性的,因为这一发现提示: 生物体的基因组不是一成不变的整体,而是可以改变和生物体的基因组不是一成不变的整体,而是可以改变
11、和 重组的。重组的。这一观点在当时很难被接受,直到这一观点在当时很难被接受,直到60年代晚期,年代晚期, James Shapiro等人在细菌中也发现了转座现象,等人在细菌中也发现了转座现象, McClintock的工作才逐渐得到肯定,并终于在的工作才逐渐得到肯定,并终于在81岁高龄岁高龄 获得获得1983年的诺贝尔生理或医学奖。年的诺贝尔生理或医学奖。 转座现象普遍存在于原核和真核生物中,但转座现象普遍存在于原核和真核生物中,但 低等生物中较少而高等生物中较多低等生物中较少而高等生物中较多。对不同生物体。对不同生物体 基因组序列的分析表明,人、小鼠和水稻的基因组基因组序列的分析表明,人、小鼠
12、和水稻的基因组 序列中约有序列中约有40%来自转座,而这一比例在低等生物来自转座,而这一比例在低等生物 中一般小于中一般小于5%。 spliting gene: u真核基因的核苷酸序列中间有与氨基酸编码无关真核基因的核苷酸序列中间有与氨基酸编码无关 的的DNA间隔区,使一个基因分隔成不连续的若干间隔区,使一个基因分隔成不连续的若干 区段。这种编码序列不连续的间断基因称为断裂区段。这种编码序列不连续的间断基因称为断裂 基因基因/ /不连续基因。不连续基因。 2、断裂基因、断裂基因 1977年,年,Sharp等在腺病毒中发现了断裂基因:等在腺病毒中发现了断裂基因: R-loop实验实验 卵清蛋白基
13、因示意图。鸡卵清蛋卵清蛋白基因示意图。鸡卵清蛋 白基因包含白基因包含7个内含子个内含子(A-G) 、 8个外显子(个外显子(L, 1-7),图上标),图上标 出了每个外显子的碱基对数。出了每个外显子的碱基对数。 卵清蛋白基因的单链卵清蛋白基因的单链DNA (粗线表示)与其(粗线表示)与其mRNA (细线表示)(细线表示) 杂交后的电镜杂交后的电镜 结果示意图。结果示意图。Loop A-G代代 表表7个不同的内含子,片段个不同的内含子,片段L 和片段和片段1-7代表代表8个外显子。个外显子。 Pierre Chambon等证明鸡的卵清蛋白基因也是断裂基因等证明鸡的卵清蛋白基因也是断裂基因 u到到
14、19771977年末已经非常清楚地认识到断裂基因是高等年末已经非常清楚地认识到断裂基因是高等 真核生物中普遍存在的现象。真核生物中普遍存在的现象。 u不仅真核生物中编码蛋白质的核基因多数是断裂基不仅真核生物中编码蛋白质的核基因多数是断裂基 因,编码因,编码rRNArRNA或或tRNAtRNA的核基因也可能是断裂基因。的核基因也可能是断裂基因。 u植物和低等真核生物的细胞器基因组如酵母中的线植物和低等真核生物的细胞器基因组如酵母中的线 粒体基因、植物中的叶绿体基因也可能是断裂基因。粒体基因、植物中的叶绿体基因也可能是断裂基因。 u甚至在某些古细菌和大肠杆菌噬菌体中也发现了断甚至在某些古细菌和大肠
15、杆菌噬菌体中也发现了断 裂基因。裂基因。 u但是真细菌基因组中一般不含断裂基因。但是真细菌基因组中一般不含断裂基因。 少数真核生物基因没有内含子(组蛋白、干扰素)。少数真核生物基因没有内含子(组蛋白、干扰素)。 并非所有内含子都并非所有内含子都“不显不显”,有些可以编码蛋白质。,有些可以编码蛋白质。 如编码拼接因子、转座酶等如编码拼接因子、转座酶等 并非所有外显子都并非所有外显子都“显显”,有些不编码氨基酸。,有些不编码氨基酸。 如人尿激酶基因的第一个外显子的如人尿激酶基因的第一个外显子的8888个核苷酸个核苷酸 少数原核生物(少数原核生物(T4T4噬菌体)中也存在断裂基因。噬菌体)中也存在断
16、裂基因。 绝大多数真核生物的基因是断裂基因。绝大多数真核生物的基因是断裂基因。 一般来讲,一般来讲, 低等的真核生物内含子数目少、序列短;低等的真核生物内含子数目少、序列短; 高等的真核生物内含子数目多、序列长。高等的真核生物内含子数目多、序列长。 有关内含子的起源和内含子存在的生物学意义有关内含子的起源和内含子存在的生物学意义 目前还不完全清楚。目前还不完全清楚。 u有些内含子可以编码蛋白质,这些蛋白质的功有些内含子可以编码蛋白质,这些蛋白质的功 能一般与内含子序列的转移相关。能一般与内含子序列的转移相关。 u真核生物细胞器和细菌中所含的内含子分为真核生物细胞器和细菌中所含的内含子分为I I
17、型型 和和II型,不同于真核生物细胞核基因中的内含子,型,不同于真核生物细胞核基因中的内含子, 这两类内含子都可以进行自我拼接。这两类内含子都可以进行自我拼接。 u有些有些I I型内含子可以编码核酸内切酶,催化自身型内含子可以编码核酸内切酶,催化自身 DNA的转移,即具有转座酶的功能。的转移,即具有转座酶的功能。 u有些有些II型内含子可以编码逆转录酶,催化自身型内含子可以编码逆转录酶,催化自身 DNA通过通过RNA介导的机制进行转移。介导的机制进行转移。 内含子序列在基因组中占有一定的比例,而且随内含子序列在基因组中占有一定的比例,而且随 着生物体的进化内含子序列的数目和长度也在增加,着生物
18、体的进化内含子序列的数目和长度也在增加, 尤其是在高等真核生物基因组中,其长度远超外显子尤其是在高等真核生物基因组中,其长度远超外显子 序列,提示序列,提示内含子的存在具有一定的生物学意义内含子的存在具有一定的生物学意义,对,对 此科学家们提出了各种假说,如通过选择性拼接产生此科学家们提出了各种假说,如通过选择性拼接产生 新的编码信息、促进重组、提供调控元件和新的编码信息、促进重组、提供调控元件和mRNA核核 质转运信号、区分有功能的质转运信号、区分有功能的mRNA转录产物和随机转转录产物和随机转 录产物等,有关内含子的起源及其生物学意义的研究录产物等,有关内含子的起源及其生物学意义的研究 是
19、生物信息学和进化生物学领域一个很有意思的课题。是生物信息学和进化生物学领域一个很有意思的课题。 pseudogene; u 核苷酸序列与其相应的正常功能基因基本相同、但核苷酸序列与其相应的正常功能基因基本相同、但 却不能合成出功能蛋白质的失活基因,通常用却不能合成出功能蛋白质的失活基因,通常用表示表示 u 现已在大多数真核生物中发现了假基因的存在。现已在大多数真核生物中发现了假基因的存在。 u 据估计,人类基因组中含有约据估计,人类基因组中含有约 2 2万个假基因。万个假基因。 u 假基因的主要特征在于其与已知基因的同源性假基因的主要特征在于其与已知基因的同源性 (homology)和非功能性
20、。)和非功能性。 u 假基因的鉴定一般比较困难,通常通过序列比对来假基因的鉴定一般比较困难,通常通过序列比对来 确定是否满足两个条件(确定是否满足两个条件(40%100%)。)。 3、假基因、假基因 假基因有三种主要类型:假基因有三种主要类型: 1. 加工的(加工的(processed)/逆转座的(逆转座的(retrotransposed)假基因)假基因。 一部分加工成熟的一部分加工成熟的mRNA转录产物自发地逆转录为转录产物自发地逆转录为DNA并插并插 入到染色体入到染色体DNA中。这种假基因通常含有中。这种假基因通常含有poly A尾巴、内含尾巴、内含 子已经被拼接去除,同时,缺少正常基因
21、所具有的启动子序子已经被拼接去除,同时,缺少正常基因所具有的启动子序 列。列。 2. 非加工的(非加工的(non-processed)/复制的(复制的(duplicated)假基因)假基因。 复制的假基因通常具有基因的所有特征,包括完整的外显子复制的假基因通常具有基因的所有特征,包括完整的外显子- 内含子结构、以及启动子序列。内含子结构、以及启动子序列。 3. 缺陷的(缺陷的(disabled)/单一的(单一的(unitary)假基因)假基因。各种突变各种突变 导致基因不能被成功地转录或翻译,如果这样的突变在种群导致基因不能被成功地转录或翻译,如果这样的突变在种群 中被固定下来,这个基因就成为
22、没有功能的或者失活的基因。中被固定下来,这个基因就成为没有功能的或者失活的基因。 这类假基因的产生机制与非加工的假基因的失活机制相似,这类假基因的产生机制与非加工的假基因的失活机制相似, 差别在于这类假基因在失活之前未被复制。差别在于这类假基因在失活之前未被复制。 u假基因可能使分子遗传学的研究更复杂,比如假基因可能使分子遗传学的研究更复杂,比如 在通过在通过PCR扩增基因时,可能扩增了序列相似扩增基因时,可能扩增了序列相似 的假基因。的假基因。 u由于假基因的鉴定主要依赖于利用复杂的算法由于假基因的鉴定主要依赖于利用复杂的算法 (algorithms)对基因组序列进行计算机分析,)对基因组序
23、列进行计算机分析, 因而可能会有误判。因而可能会有误判。 overlapping genes u不同基因的核苷酸序列有时是可以共用的,即不同基因的核苷酸序列有时是可以共用的,即 这些基因的核苷酸序列是彼此重叠的,这样的这些基因的核苷酸序列是彼此重叠的,这样的 基因称为重叠基因或嵌套基因(基因称为重叠基因或嵌套基因(nested genes)。)。 4、重叠基因、重叠基因 使有限的使有限的DNA序列包含了更多的遗传信息,序列包含了更多的遗传信息, 是生物对它的遗传物质经济而合理的利用。是生物对它的遗传物质经济而合理的利用。 u大肠杆菌噬菌体大肠杆菌噬菌体X174: 最早完成全基因组测序的噬菌体,
24、最早完成全基因组测序的噬菌体, 1977年,年,Sanger,5375/5387个碱基;个碱基; u初步分析了已知的初步分析了已知的9种基因(种基因(A-B-C-D-E-J-F-G-H);); u基因组序列的利用率极高,非编码基因组序列的利用率极高,非编码DNA仅占基因组序列的仅占基因组序列的 4%,而且不同基因的核苷酸序列之间存在共用现象;,而且不同基因的核苷酸序列之间存在共用现象; u有些基因之间的核苷酸序列部分重叠:如基因有些基因之间的核苷酸序列部分重叠:如基因A和基因和基因C之间之间 有四个碱基的重叠:包含基因有四个碱基的重叠:包含基因A终止密码子终止密码子TGA在内的最后在内的最后
25、四个碱基四个碱基ATGA中包含了基因中包含了基因C的起始密码子;基因的起始密码子;基因D和基因和基因 J的编码区有一个碱基的重叠:基因的编码区有一个碱基的重叠:基因D的最后一个碱基是基因的最后一个碱基是基因 J的第一个碱基。的第一个碱基。 u有些基因则完全包含在另一个基因的核苷酸序列中,如基因有些基因则完全包含在另一个基因的核苷酸序列中,如基因 B的编码区完全包含在基因的编码区完全包含在基因A中,基因中,基因E的编码区包含在基因的编码区包含在基因 D中。中。 引自 Nature 265:687- 695, 1977. Nucleotide sequence of bacteriophage f
26、X174. 1978年年Shaw等人在与等人在与X174相近的另一种噬菌体:噬菌体相近的另一种噬菌体:噬菌体G4 基因组中发现了另一种基因重叠现象:基因基因组中发现了另一种基因重叠现象:基因K的一部分序列的一部分序列 与基因与基因A、基因基因C重叠;一部分序列与基因重叠;一部分序列与基因A、基因、基因B重叠;重叠; 即同时发生在三个基因中的三重基因重叠现象。即同时发生在三个基因中的三重基因重叠现象。 引自 Nature 272:510-515, 1978. Gene K, a new overlapping gene in bacteriophage G4. u1986年年Henikpff、S
27、pencer在果蝇的基因组中也发在果蝇的基因组中也发 现现了基因重叠现象。了基因重叠现象。 u不仅存在于细菌、病毒等原核生物基因中,也存在不仅存在于细菌、病毒等原核生物基因中,也存在 于高等真核生物基因组中;于高等真核生物基因组中; u不仅存在于两个基因之间的二重重叠,也有存在于不仅存在于两个基因之间的二重重叠,也有存在于 三个基因之间的三重重叠;不仅存在于编码序列中,三个基因之间的三重重叠;不仅存在于编码序列中, 也存在于调控序列中。也存在于调控序列中。 u基因重叠可能不仅是为了更经济有效的利用基因重叠可能不仅是为了更经济有效的利用DNA遗遗 传信息,也可能参与基因的调控。传信息,也可能参与
28、基因的调控。 1. HENIKOFF.S, M. A. KEENE, K. FECHTEL and J. W. FRISTROM, Gene within a gene: nested Drosophila genes encode unrelated proteins on opposite DNA strands. Cell 1986, 44: 33-42. 2. Spencer CA, Gietz RD, Hodgetts RB. Overlapping transcription units in the dopa decarboxylase region of Drosophila.
29、 Nature 1986, 322: 279-81. gene family: 发育阶段发育阶段类类a a链链类类b b链链珠蛋白种类珠蛋白种类 8周前胚胎周前胚胎a a, ,x x e e, ,g gx x2e e2, ,x x2g g2,a a2e e2 胎儿胎儿a ag ga a2g g2 成人成人a ab b,d d,g g a a2b b2(97%) a a2d d2(2%) a a2g g2(1%) 5、基因家族、基因家族 根据基因家族成员的分布形式不同,分为:根据基因家族成员的分布形式不同,分为: 基因簇基因簇 散布的基因家族散布的基因家族 基因簇基因簇( (gene clust
30、er) ): 基因家族的各成员紧密成簇排列成大段的串基因家族的各成员紧密成簇排列成大段的串 联重复单位,定位于染色体的特殊区域。它们是联重复单位,定位于染色体的特殊区域。它们是 同一个祖先基因扩增的产物。同一个祖先基因扩增的产物。 如人类类如人类类链基因簇和类链基因簇和类链基因簇:链基因簇: 散布的基因家族:散布的基因家族: 基因家族成员在基因家族成员在DNA上无明显的物理联上无明显的物理联 系,甚至分散在多条染色体上。如肌动蛋白系,甚至分散在多条染色体上。如肌动蛋白 基因家族和微管蛋白基因家族。基因家族和微管蛋白基因家族。 根据基因家族成员之间序列的相似程度,分为:根据基因家族成员之间序列的
31、相似程度,分为: 序列高度同源的经典基因家族序列高度同源的经典基因家族 含有高度保守序列的基因家族含有高度保守序列的基因家族 含有短的保守序列的基因家族含有短的保守序列的基因家族 序列没有同源性的超基因家族序列没有同源性的超基因家族 重复基因:重复基因: 染色体上存在多个拷贝的基因,主要存在染色体上存在多个拷贝的基因,主要存在 于真核生物基因组中,这些基因往往是与生命于真核生物基因组中,这些基因往往是与生命 活动最基本、最重要的功能相关的基因,如组活动最基本、最重要的功能相关的基因,如组 蛋白基因、蛋白基因、rRNA基因、基因、tRNA基因等。基因等。 6、重复基因、重复基因 组蛋白基因是已知
32、的重复基因中唯一具有蛋白质组蛋白基因是已知的重复基因中唯一具有蛋白质 编码机能的基因。编码机能的基因。 不同生物基因组中组蛋白不同生物基因组中组蛋白基因的拷贝数不同。基因的拷贝数不同。 组蛋白基因在不同生物基因组中的排列方式不一样。组蛋白基因在不同生物基因组中的排列方式不一样。 所有组蛋白基因都不含内含子,而且保守性很高。所有组蛋白基因都不含内含子,而且保守性很高。 重复基因属于重复序列;重复基因属于重复序列; 在低等真核生物中,重在低等真核生物中,重复序列的比例一般低于复序列的比例一般低于20%。 在高等真核生物中,这一比例可以达到在高等真核生物中,这一比例可以达到50%-80%。 分为:分
33、为: 中度重复序列:中度重复序列:由相对较短的序列组成,重复次数在由相对较短的序列组成,重复次数在 101000次,一般是非编码序列,主要在基因调控中次,一般是非编码序列,主要在基因调控中 起作用。起作用。 高度重复序列:高度重复序列:由非常短的序列(小于由非常短的序列(小于100 bp)组成组成 ,重复次数在上千到上百万次,有些是编码基因,如,重复次数在上千到上百万次,有些是编码基因,如 rRNA基因和某些基因和某些tRNA基因;多数则是没有转录活性基因;多数则是没有转录活性 的非编码序列。的非编码序列。 重复序列也可以按照在染色体上的排列方式分为:重复序列也可以按照在染色体上的排列方式分为
34、: 串联重复序列:串联重复序列:成簇存在于染色体的特定区域。成簇存在于染色体的特定区域。 散布的重复序列:散布的重复序列:分散存在于染色体的各个位点分散存在于染色体的各个位点 串联重复序列:串联重复序列: 卫星卫星DNA(satellite DNA): 浮力密度与主体浮力密度与主体DNA不同,在浮力密度梯度离心时,不同,在浮力密度梯度离心时, 可以形成与主体可以形成与主体DNA不同的卫星带;不同的卫星带; 隐蔽卫星隐蔽卫星DNA(cryptic satellite DNA): 浮力密度与主体浮力密度与主体DNA的相差的相差 不大,不能通过浮力密度梯不大,不能通过浮力密度梯 度离心区分,但可以通
35、过其度离心区分,但可以通过其 他方法如限制性作图鉴定。他方法如限制性作图鉴定。 卫星卫星DNA按照其按照其重复单重复单位位的核苷酸数,分为的核苷酸数,分为三三类类: 卫星卫星DNA 小卫星小卫星DNA 微卫星微卫星DNA u微卫星微卫星DNA具有多态性和保守性,可用作分子遗传具有多态性和保守性,可用作分子遗传 标记,广泛用于基因定位、连锁分析、亲子鉴定等。标记,广泛用于基因定位、连锁分析、亲子鉴定等。 u目前普遍认为微卫星目前普遍认为微卫星DNA来源于来源于DNA复制过程中的复制过程中的 滑动错配,导致一个或几个重复单位的缺失或插入。滑动错配,导致一个或几个重复单位的缺失或插入。 u微卫星微卫
36、星DNADNA在基因组中的功能尚不清楚,可能参与染在基因组中的功能尚不清楚,可能参与染 色体结构改变、基因调控及细胞分化等过程。色体结构改变、基因调控及细胞分化等过程。 散布的重复序列:散布的重复序列: 短散布元件短散布元件 (Short interpersed element, SINE): 重复序列长度在重复序列长度在500bp以下以下 长散布元件长散布元件 (Long interpersed element, LINE):): 重复序列长度在重复序列长度在1000bp以上以上 根据基因的功能不同,可以分为两大类:根据基因的功能不同,可以分为两大类: 结构基因结构基因和和调控基因。调控基因
37、。 * * 结构基因结构基因:能够表达出功能产物的基因,包括能够表达出功能产物的基因,包括 编码蛋白质的基因和编码编码蛋白质的基因和编码RNA的基因的基因 * * 调控基因调控基因:参与调控结构基因表达的参与调控结构基因表达的DNA或或 RNA序列单元。序列单元。 三、基因的分类三、基因的分类 四、基因的结构四、基因的结构 真核基因真核基因 原核基因原核基因 真核基因真核基因原核基因原核基因 单顺反子单顺反子多顺反子多顺反子 不连续不连续连续连续 启动子区不同启动子区不同 polyA无无 无无RBS 基本结构相似:基本结构相似:55非转录区、非转录区、33非转录区非转录区 55非翻译区、非翻译
38、区、33非翻译区非翻译区 区别: 五、基因的大小五、基因的大小 蛋白质的平均分子量蛋白质的平均分子量: 40,000D 氨基酸的平均分子量氨基酸的平均分子量: 100D 每个蛋白质分子中的平均氨基酸数每个蛋白质分子中的平均氨基酸数: 400 aa 基因的平均大小基因的平均大小: 1200bp u 真核生物基因的大小取决于所含内含子的数目和长真核生物基因的大小取决于所含内含子的数目和长 度。度。 u 真核生物有些基因的长度比其真核生物有些基因的长度比其mRNAmRNA的长度长得多。的长度长得多。 u 真核生物不同基因的大小差异很大。真核生物不同基因的大小差异很大。 不同生物的平均基因大小不同生物
39、的平均基因大小 种类种类平均外显子数目平均外显子数目平均基因长度平均基因长度(kb)平均平均mRNA长度长度(kb) 酵母酵母11.61.6 真菌真菌31.51.5 藻虫藻虫44.03.0 果蝇果蝇411.32.7 鸡鸡913.92.4 哺乳动物哺乳动物716.62.2 六、基因的数目六、基因的数目 the number of genes in a given DNA = bp/1200 根据基因组大小计算;根据基因组大小计算; 通过基因分离鉴定;通过基因分离鉴定; 通过测序鉴定通过测序鉴定ORF; 计算表达基因数目;计算表达基因数目; 通过突变分析;通过突变分析; 人类基因组中的基因数人类基
40、因组中的基因数 根据人类基因组的大小计算根据人类基因组的大小计算: : 3.5x109/1200=23x106 根据不同根据不同mRNA的数量计算的数量计算: 1x104x10=1x105 根据人类基因组工作草图计算根据人类基因组工作草图计算: 2.54x104 不同生物的基因数目不同生物的基因数目 种类种类基因组大小基因组大小( (bp) )基因数目基因数目 人人3.31093000040000 果蝇果蝇1.41088750 酵母酵母1.31076100 大肠杆菌大肠杆菌4.21064288 支原体支原体1.0106750 一般而言,生物体基因组大小和所含的基因一般而言,生物体基因组大小和所
41、含的基因 数随着生物体结构功能复杂性的增加而增加。数随着生物体结构功能复杂性的增加而增加。 31,000 genes26,000 genes50,000 genes 但是也有例外. N值矛盾:值矛盾: 生物体的生物体的复杂性复杂性与与基因数基因数之间并不总是正相关。之间并不总是正相关。 基因数目的多少并不一定决定生物的复杂性和进基因数目的多少并不一定决定生物的复杂性和进 化程度的高低,决定生物复杂性的根本原因在于,化程度的高低,决定生物复杂性的根本原因在于, 基因是如何表达和管理的。基因是如何表达和管理的。 46250 Ophioglossum reticulatum Homo sapiens
42、Lysandra atlantica 1260 K值矛盾:值矛盾: 生物体的生物体的复杂性复杂性与与染色体数染色体数之间并不总是正相关。之间并不总是正相关。 第二节第二节 基因组基因组 一、一、基因组的概念基因组的概念 二、二、噬菌体基因组噬菌体基因组 三、细菌基因组三、细菌基因组 四、酵母基因组四、酵母基因组 五、植物基因组五、植物基因组 六、人类基因组六、人类基因组 七、小七、小鼠基因组鼠基因组 八、细胞器基因组八、细胞器基因组 九、基因组与九、基因组与C值矛盾值矛盾 u 基因组(基因组(genome)一词最早由德国汉堡大学的)一词最早由德国汉堡大学的 植物学教授植物学教授Hans Win
43、kler于于1920年提出,由年提出,由基因基因 (gene)和)和染色体染色体(chromosome)组合而成。)组合而成。 u 最初基因组被定义为一个单倍体细胞中的全套最初基因组被定义为一个单倍体细胞中的全套 染色体,现代分子生物学和遗传学则将基因组定义染色体,现代分子生物学和遗传学则将基因组定义 为为一个生物体中的所有遗传信息一个生物体中的所有遗传信息,由,由DNA或者或者 RNA编码,包括编码,包括所有的基因和非编码序列所有的基因和非编码序列。 一、基因组的概念 实际应用中,基因组这个概念既可以特指储实际应用中,基因组这个概念既可以特指储 存在存在细胞核细胞核中的整套中的整套DNA(即
44、核基因组),也可(即核基因组),也可 以指储存在以指储存在细胞器细胞器中的整套中的整套DNA(即线粒体基因(即线粒体基因 组或叶绿体基因组),还可以包括一些组或叶绿体基因组),还可以包括一些非染色体非染色体 的遗传元件的遗传元件,如病毒、质粒和转座元件等。,如病毒、质粒和转座元件等。 u19761976年,比利时根特大学的年,比利时根特大学的Walter Fiers首先完成了首先完成了 一个一个RNA病毒:病毒:噬菌体噬菌体MS2的基因组全序列测定;的基因组全序列测定; u19771977年,年,Fred Sanger完成了第一个完成了第一个DNA基因组、基因组、 53755375个碱基的个碱
45、基的噬菌体噬菌体X174的基因组全序列测定;的基因组全序列测定; u19831983年完成了一个更大的基因组的全序列测定:年完成了一个更大的基因组的全序列测定: 4851348513个碱基的个碱基的噬菌体噬菌体基因组测定。基因组测定。 二、噬菌体基因组 单链单链DNA病毒;无尾部结构的正病毒;无尾部结构的正2020面体,含面体,含 53875387个碱基。个碱基。 编码编码11个基因,分别从基因个基因,分别从基因A A、B B、D D开始转录开始转录 成成3个个mRNA。 非编码区非编码区DNA占基因组的占基因组的4%。 有重叠基因和基因内基因。有重叠基因和基因内基因。 功能相似的基因聚集成簇
46、。功能相似的基因聚集成簇。 噬菌体噬菌体174的基因组的基因组 噬菌体的基因组噬菌体的基因组 第一个被完整测序的双链第一个被完整测序的双链DNA噬菌体,包含噬菌体,包含48514851 个碱基对;个碱基对; 在不同的生长状态下,在不同的生长状态下, 噬菌体噬菌体DNA可以以环状分子可以以环状分子 和线形分子两种形式存在;和线形分子两种形式存在; 感染宿主细胞后,可以感染宿主细胞后,可以 通过溶原方式或裂解通过溶原方式或裂解 方式进行繁殖;方式进行繁殖; 编码编码6161个基因,个基因, 聚集成簇。聚集成簇。 三、细菌基因组三、细菌基因组 包括两类包括两类DNA分子:分子: 染色体染色体携带细胞
47、生存和繁殖所需的全部遗传信息;携带细胞生存和繁殖所需的全部遗传信息; 质粒质粒染色体以外独立存在的染色体以外独立存在的DNA分子;分子; u原核生物一般只有一个染色体,但在不同生长条原核生物一般只有一个染色体,但在不同生长条 件下,染色体可以有多个拷贝。件下,染色体可以有多个拷贝。 u质粒所携带的遗传信息并非细胞生存必需,质粒质粒所携带的遗传信息并非细胞生存必需,质粒 的存在与否对宿主细胞生存没有决定性的作用。的存在与否对宿主细胞生存没有决定性的作用。 没有明显的核结构,而形成没有明显的核结构,而形成2-42-4个个DNADNA相对集中的区相对集中的区 域,即域,即类核类核; 19971997
48、年完成第一个完整的大肠杆菌年完成第一个完整的大肠杆菌DNADNA序列(序列(E.coliE.coli K12K12菌株);菌株); 染色体染色体DNADNA是一个由是一个由4.6X104.6X106 6bpbp组成的双链环状分子组成的双链环状分子, , 包含包含42884288个编码蛋白质的基因(整合成个编码蛋白质的基因(整合成25842584个操纵个操纵 子)、子)、7 7个个rRNArRNA操纵子、操纵子、8686个个tRNAtRNA基因;基因; 多种多种DNA结合蛋白使染色体压缩成一个脚手架结合蛋白使染色体压缩成一个脚手架 (scaffold)(scaffold)结构结构, , 分成大约分成大约100100个个小区小区(domain)(domain)。 大肠杆菌(大肠杆菌(E.coli)的染色体)的染色体 u蛋白质基因通常以单拷贝形式存在,而蛋白质基因通常以单拷贝形式存在,而RNA基因通基因通 常是多拷贝的。常是多拷贝的。 u功能相关的基因通常串联排列,以操纵子为单位进功能相关的基因通常串联排列,以操纵子为单位进 行表达调控。行表达调控。 u不同的操纵子可以受同一个调节基因产物的调控,不同的操纵子可以受同一个调节基因产物的调控, 构成调控元。构成调控元。 u基因组中的基因密度非常高,基因间的平均间隔仅基因组中的基因密度非常高,基因间的平均间