《第三章 基因与基因组的结构.ppt》由会员分享,可在线阅读,更多相关《第三章 基因与基因组的结构.ppt(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Chapter3 基因与基因组的结构基因与基因组的结构 一一.基因的概念基因的概念基因基因是原核、真核生物以及病毒是原核、真核生物以及病毒的的DNA和和RNA分子中具有遗传效应分子中具有遗传效应的核苷酸序列,是遗传的基本单位。的核苷酸序列,是遗传的基本单位。结构基因结构基因调控基因调控基因基因基因基因可以通过复制、转录和决定翻译基因可以通过复制、转录和决定翻译的蛋白质的生物合成,以及不同水平的的蛋白质的生物合成,以及不同水平的调控机制,来实现对遗传性状发育的控调控机制,来实现对遗传性状发育的控制。制。基因还可以发生突变和重组,导致产基因还可以发生突变和重组,导致产生有利、中性、有害或致死的变异
2、。生有利、中性、有害或致死的变异。基因概念的演变基因概念的演变能产生一个特定蛋白质的能产生一个特定蛋白质的DNADNA序列序列转录单位转录单位顺反子顺反子转录单位转录单位包括转录的启动子及其包括转录的启动子及其上游的其它调控区域、基因本身和转上游的其它调控区域、基因本身和转录的终止序列等。录的终止序列等。顺反子顺反子指能编码一条多肽链的核苷指能编码一条多肽链的核苷酸序列,一个顺反子就是一段核苷酸序酸序列,一个顺反子就是一段核苷酸序列(列(BenzerBenzer,19551955)。)。1955年,Benzer在研究感染大肠杆菌的T4噬菌体时发现,控制寄主细胞致死效应(快速溶菌)的功能,是由噬
3、菌体的r区编码的,r区分为两个亚区:rA和rB,它们各产生一种特殊的物质,只有这两种物质同时存在时,才能使寄主的细胞溶菌裂解。用rA或rB的突变株分别单独感染大肠杆菌时都不能正常生长,而用两种突变型混合感染时才溶菌裂解,由此认为:rA和rB是互补的突变型,它们是两个不同的功能单位。Benzer称之为rA顺反子和rB顺反子。一般而言,一个顺反子就是一个基因,一般而言,一个顺反子就是一个基因,大约大约15001500个核苷酸。个核苷酸。它是由一群突变单位和重组单位组成的它是由一群突变单位和重组单位组成的线形结构(因为任何一个基因都是突变体线形结构(因为任何一个基因都是突变体或重组体)。或重组体)。
4、基因是基因是DNADNA分子上的功能单位,在染分子上的功能单位,在染色体或色体或DNADNA分子上,基因成串排列,它既分子上,基因成串排列,它既是遗传的功能单位,同时也是交换单位是遗传的功能单位,同时也是交换单位和突变单位。和突变单位。但并非所有的但并非所有的DNADNA序列都是基因,只序列都是基因,只有某些特定的多核苷酸区段才是基因的有某些特定的多核苷酸区段才是基因的编码区。编码区。二.基因的命名 1用三个小写英文斜体字母表示基因的名称:lac(涉及乳糖代谢相关的酶基因)、leu(涉及亮氨酸代谢相关的酶基因)2用三个小写英文斜体字母后面加上一个斜体大写字母表示其不同的基因座,全部用正体时表示
5、蛋白产物和表型:大肠杆菌lac操纵子的基因座有lacZ,lacY,lacA;其表达的产物蛋白质分别是lacZ,lacY,lacA。(注:对于大肠杆菌和其它细菌,用三个小写英文斜体字母表示一个操纵子,lac操纵子即乳糖操纵子)3.对于质粒和其他染色体外成分,如果是自然产生的质粒,用三个正体字母表示,第一个字母大写,例如:ColE;但如果是重组质粒,则在两个大写字母之前加一个p,大写字母表示构建该质粒的研究者或单位。例如pMT555(MT代表Manchester Technology)。4.对于酵母,一般用三个大写斜体字母表示基因的功能,后面的数字表示不同的基因座。例如,啤酒酵母基因GAL4,CD
6、C28;其表达的蛋白则是GAL4,CDC28。5.脊椎动物一般用描述基因功能的14个小写字母和数字表示其基因功能。例如,基因sey,myc,蛋白Sey,Myc。6.人类基因的命名方法与脊椎动物类似,但需大写。例如基因MYC、ENO1,蛋白质则为MYC、ENO1。三三.基因组基因组 基因组基因组是指细胞或生物体中,一套完是指细胞或生物体中,一套完整单体的遗传物质的总和。整单体的遗传物质的总和。原核生物基因组原核生物基因组 原核生物基因组一般指的是其染色体基因组,即原核生物环状或线状双链DNA分子所含有的全部基因,有的原核生物还含有染色体外的质粒基因组。真核生物基因组真核生物基因组 真核生物的基因
7、组指真核生物的核基因组(包括染色体基因组和核内的染色体外基因)、细胞质的线粒体和叶绿体基因组等。真核生物染色体基因组 线粒体基因组 叶绿体基因组 真真核核生生物物的的染染色色体体基基因因组组为为真真核核生生物物单单倍倍体体染染色色体体所所含含有有的的一一整整套套基基因因。由由于于进进化化程程度度的的不不同同,不不同同种种类类的的真真核核生生物物基基因因组组的的大大小小及及复复杂杂程程度度相相差差很很大大。存存在在于于细细胞胞核核中中的的染染色色体体DNADNA为为线线状状双双链链,分子量较高。分子量较高。真核生物染色体基因组真核生物染色体基因组 线粒体基因组线粒体基因组 (mtDNAmtDNA
8、)线粒体基因组存在于细胞质中,所有的mtDNA都是双链环状分子。线粒体基因组至少包含以下基因或基因簇:rRNA基因、tRNA基因、ATPase基因、细胞色素COXase基因。线粒体是个半自主性的细胞器。其自身基因组只能编码部分所需产物,许多重要物质的产生需由核基因组与线粒体基因组共同互作。叶绿体基因组叶绿体基因组 叶绿体也属于半自主性的细胞器,同mtDNA类似,叶绿体DNA也以双链环状分子的形式存在于细胞质中。四四.真核生物的断裂基因真核生物的断裂基因 断裂基因(断裂基因(split genesplit gene)指基因的编码指基因的编码序列在序列在DNA分子上的不连续排列,被不编分子上的不连
9、续排列,被不编码的系列所隔开。码的系列所隔开。其中,基因中编码的序列称为其中,基因中编码的序列称为外显子外显子(exon),即即DNA分子中对应于信使分子中对应于信使RNA序列的区域;不编码的间隔序列称为序列的区域;不编码的间隔序列称为内含子内含子(intron),即对应于信使即对应于信使RNA被转录后的被转录后的剪接加工中去除的区域。剪接加工中去除的区域。DNA DNA和和mRNAmRNA之间形成特殊的之间形成特殊的RNA-RNA-DNADNA异源双链分子结构异源双链分子结构 断裂基因断裂基因 Split Genes 在真核生物基因的表达过程中,DNA经过转录产生了精确对应于DNA序列的RN
10、A拷贝,但这个RNA只是一个前体分子,不能用于直接表达蛋白质。必须从mRNA原始转录产物中去除内含子序列,以产生一个只由外显子构成的mRNA,这个过程叫做RNA的剪接。断裂基因的性质断裂基因的性质:外显子在基因中的排列顺序与它在成熟mRNA产物中的排列顺序相同;每种断裂基因在所有的组织中都具有相同的内含子成分;核基因的内含子一般没有编码功能;在内含子上发生的突变不影响蛋白质的结构,所以其突变往往对生物体没有影响。五五.基因及基因组的大小基因及基因组的大小与与C值矛盾值矛盾 基因的大小取决于它所包含基因的大小取决于它所包含的内含子的长度和数量。的内含子的长度和数量。由于断裂基因的存在,使人们认识
11、到一个基因比它实际编码蛋白质的序列要大得多。与整个基因相比,真正编码蛋白质的序列很短,所以基因的大小取决于它所包含的内含子的长度和数量。不同生物的平均基因大小不同生物的平均基因大小 种类种类种类种类 平均外显子数目平均外显子数目平均外显子数目平均外显子数目/个个个个 平均基因长度平均基因长度平均基因长度平均基因长度/kb kb 平均平均平均平均mRNAmRNA长度长度长度长度/kb kb 酵母酵母酵母酵母 1 1.6 1.6 1 1.6 1.6 真菌真菌真菌真菌 3 1.5 1.5 3 1.5 1.5 藻虫藻虫藻虫藻虫 4 4.0 3.0 4 4.0 3.0 果蝇果蝇果蝇果蝇 4 11.3 2
12、.7 4 11.3 2.7 鸡鸡鸡鸡 9 13.9 2.4 9 13.9 2.4 哺乳动物哺乳动物哺乳动物哺乳动物 7 16.6 2.2 7 16.6 2.2 不同生物的基因数目种类种类种类种类基因组大小基因组大小基因组大小基因组大小/bpbp基因数目基因数目基因数目基因数目支原体支原体支原体支原体噬菌体噬菌体噬菌体噬菌体T4T4大肠杆菌大肠杆菌大肠杆菌大肠杆菌酵母酵母酵母酵母果蝇果蝇果蝇果蝇人人人人1.0101.0106 61.6101.6105 54.2104.2106 61.3101.3107 71.4101.4108 83.3103.3109 975075020020023502350
13、610061008750875065000650008000080000C值矛盾值矛盾 生物体的一个特征是一个单倍体基生物体的一个特征是一个单倍体基因组的全部因组的全部DNA含量总是相对恒定的,含量总是相对恒定的,称为称为该物种的该物种的C值值。真核生物基因组的真核生物基因组的C值,即指生物单值,即指生物单倍体基因组中的倍体基因组中的DNA含量,以含量,以pg表示表示(1pg10-12g)。)。不同生物种类的C值范围分布 C值矛盾值矛盾是指真核生物中是指真核生物中DNA含量的含量的反常现象。反常现象。C值矛盾的值矛盾的主要表现为:主要表现为:C值不随生物的进化程度和复杂性而增加;亲缘关系密切的
14、生物C值相差甚大;高等真核生物具有比用于遗传高得多的C值,如人的染色体组DNA含量在理论上含300万个基因,但有实际用途的基因只有510万。六六.重叠基因重叠基因 Overlapping Genes重叠基因重叠基因最早发现最早发现在原核生物中,噬菌在原核生物中,噬菌体体XX174174单链环形单链环形DNADNA的序列组织上有这样的序列组织上有这样的特点:的特点:E E基因完全包基因完全包括在括在D D基因之内,基因之内,B B基基因位于因位于A A基因之内,基因之内,K K基因则跨越在基因则跨越在A A基因和基因和C C基因之间。基因之间。在基因表达时,重叠基因的表达会有在基因表达时,重叠基
15、因的表达会有两种情况:两种情况:1 1)重叠基因表达时使用的是不同的阅读框,虽然)重叠基因表达时使用的是不同的阅读框,虽然DNADNA序列相同,但表达的蛋白质不同;序列相同,但表达的蛋白质不同;2 2)当一个基因包含在另一个基因之中时,两个基因)当一个基因包含在另一个基因之中时,两个基因使用相同的阅读框。小基因可独立地表达一种蛋白使用相同的阅读框。小基因可独立地表达一种蛋白质,相当于大基因表达的蛋白质的一部分,最终结质,相当于大基因表达的蛋白质的一部分,最终结果类似于一个完整的蛋白质发生了部分的断裂。果类似于一个完整的蛋白质发生了部分的断裂。重叠基因及基因内基因的现象重叠基因及基因内基因的现象
16、反映了原核生物利用有限的遗传资反映了原核生物利用有限的遗传资源表达更多生物功能的能力。源表达更多生物功能的能力。在真核生物中,基因组中很少有重在真核生物中,基因组中很少有重叠基因。叠基因。只是在某些基因中,存在选择性的外显只是在某些基因中,存在选择性的外显子连接途径,一个特定的外显子可以选择性子连接途径,一个特定的外显子可以选择性地与不同的外显子连接形成信使地与不同的外显子连接形成信使RNARNA,在一种在一种途径表达时作为外显子,而在另一种途径表途径表达时作为外显子,而在另一种途径表达时作为内含子。达时作为内含子。大鼠肌钙蛋白大鼠肌钙蛋白T基因就是利用这种方基因就是利用这种方式产生了式产生了
17、、两种产物。两种产物。七七.真核生物真核生物DNA序列组织序列组织 根据根据DNA复性动力复性动力学的研究,真核生物学的研究,真核生物的的DNA序列可以分为序列可以分为4种类型:种类型:单拷贝序列单拷贝序列 轻度重复序列轻度重复序列 中度重复序列中度重复序列 高度重复序列高度重复序列 1 1单拷贝序列(非重复序列)单拷贝序列(非重复序列)在一个基因组中只有一个拷贝,在复性动力学中对应于慢复性组分。真核生物的大多数基因都是单拷贝的。2轻度重复序列 在一个基因组中有210个拷贝,在复性动力学中也对应于慢复性组分。包括酵母tRNA基因、人和小鼠的珠蛋白基因等。3中度重复序列 在一个基因组中有十至上百
18、个拷贝,在复性动力学中对应于中间复性组分。中度重复序列平均长度约300bp,一般是不编码的序列,但它们在基因表达调控制中起重要作用。例如人类基因组中的Alu序列。4高度重复序列 在一个基因组中有几百到几百万个拷贝,在复性动力学中对应于快复性组分。例如rRNA和某些tRNA基因以及重复程度更高的卫星DNA等。不同生物中非重复基因占基因组的比例差别很大。原核生物含有完全不重复的DNA,低等真核生物的大部分DNA是非重复的,高等真核生物中非重复基因所占基因组的比例更低。从不同种类的原核生物的Cot曲线可以看出,各种原核生物的Cot曲线形状都很相似,跨度一般只有两个数量级,只是Cot1/2值不同。表明
19、各种原核生物的DNA都是单一序列,只是其序列复杂性不同。真核生物DNA复性曲线与原核生物有很大不同,跨越78个数量级。可以看出复性反应分三个组分进行,每个组分代表基因组中不同复杂性的序列类型。大多数的结构大多数的结构基因都位于非重复基因都位于非重复的的DNADNA序列上,基序列上,基因组中的非重复序因组中的非重复序列决定基因组的复列决定基因组的复杂性。杂性。利用利用mRNA作探针进行的作探针进行的RNA-DNA杂交,杂交,可以鉴定基因组中的结构基因。可以鉴定基因组中的结构基因。八、基因家族八、基因家族 基因家族基因家族是指真核生物基因组中是指真核生物基因组中来源相同,结构相似,功能相关的来源相
20、同,结构相似,功能相关的一组基因。一组基因。1.基因家族和基因簇基因家族和基因簇基因家族的成员在染色体上分布形式:基因家族的成员在染色体上分布形式:基因簇基因簇 (基因簇基因簇是指基因家族中的各是指基因家族中的各成员紧密成簇排列成大段的串联重复成员紧密成簇排列成大段的串联重复单位,定位于染色体的特殊区域单位,定位于染色体的特殊区域)广泛分布在整个染色体上,甚至在不广泛分布在整个染色体上,甚至在不同的染色体上。同的染色体上。人类血红蛋白的人类血红蛋白的、基因簇基因簇基因家族的分类:基因家族的分类:p家族中各成员的全序列或至少编码家族中各成员的全序列或至少编码序列具有高度的序列同源性,比如序列具有
21、高度的序列同源性,比如rRNA基因家族和组蛋白基因家族;基因家族和组蛋白基因家族;p家族中各成员在编码产物上有大段家族中各成员在编码产物上有大段高度保守的氨基酸序列;高度保守的氨基酸序列;p超基因家族超基因家族,各基因序列间没有同,各基因序列间没有同源性,但其表达产物的功能却相似,源性,但其表达产物的功能却相似,它们在整体上有相同的结构特征,它们在整体上有相同的结构特征,如免疫球蛋白家族。如免疫球蛋白家族。2.基因外的基因外的DNA重复序列重复序列 染色体上存在大量无转录活染色体上存在大量无转录活性的重复性的重复DNA序列,主要有两序列,主要有两种形式:种形式:串联重复的串联重复的DNADNA
22、,如卫星,如卫星DNADNA,成,成簇存在于染色体的特定区域;簇存在于染色体的特定区域;分散重复的分散重复的DNADNA,分散在染色体的,分散在染色体的各个位点。各个位点。卫星卫星DNA 有些高度重复的有些高度重复的DNA序列序列的碱基组成和浮力密度与主体的碱基组成和浮力密度与主体DNA不同,在不同,在CsCl密度梯度离密度梯度离心时,可形成相对独立于主心时,可形成相对独立于主DNA带的卫星带。带的卫星带。Alu序列序列 人类的人类的Alu序列家族和小鼠序列家族和小鼠B序列家序列家族是十分典型的分散基因家族。族是十分典型的分散基因家族。Alu序列也称为序列也称为短的分散因子短的分散因子(sho
23、rt interspersed elements,SINEs),长约,长约300bp,30万个成员分散分布在单倍体基万个成员分散分布在单倍体基因组中,在其因组中,在其170bp处有一个限制性酶处有一个限制性酶AluI的酶切位点,故称这个重复序列为的酶切位点,故称这个重复序列为Alu基因家族。基因家族。Alu I 30bp Alu序列Alu I:一种核酸内切限制酶,:一种核酸内切限制酶,源自源自Arthrobacter luteus AluAlu家族的广泛存在意味着它具有某家族的广泛存在意味着它具有某种功能,只是目前尚未能搞清楚。种功能,只是目前尚未能搞清楚。部分部分AluAlu序列中有序列中有
24、14bp14bp区域和乳头瘤区域和乳头瘤病毒、乙型肝炎病毒的复制起始区有同病毒、乙型肝炎病毒的复制起始区有同源性,因此推测源性,因此推测AluAlu家族可能和真核基因家族可能和真核基因组的复制区相连接。组的复制区相连接。但与此相矛盾的是但与此相矛盾的是AluAlu序列的成员数序列的成员数要比推测的复制区多要比推测的复制区多1010倍。倍。九、人类基因组计划九、人类基因组计划(Human genome project,HGP)20世纪三大科学工程世纪三大科学工程曼哈顿原子弹计划曼哈顿原子弹计划人类登月计划人类登月计划人类基因组计划人类基因组计划人类基因组计划的进展人类基因组计划的进展 1986
25、1986年,美国生物学家、诺贝尔年,美国生物学家、诺贝尔奖获得者奖获得者RenatoRenato Dulbecco Dulbecco 在在ScienceScience上发表短文首次提出人类基因组计划上发表短文首次提出人类基因组计划的设想,并建议组织国家级和国际级的设想,并建议组织国家级和国际级的项目来进行这方面的研究。的项目来进行这方面的研究。1988 1988年年1010月美国能源部(月美国能源部(DOEDOE)和)和美国国立卫生研究院(美国国立卫生研究院(NIHNIH)达成协议,)达成协议,共同管理和实施这一计划(共同管理和实施这一计划(1515年,年,3030亿美元)。亿美元)。1990
26、 1990年年1010月美国国会批准正式启动月美国国会批准正式启动HGPHGP研究,随后法国、英国、意大利、德研究,随后法国、英国、意大利、德国、日本等也相继宣布开始各自的国、日本等也相继宣布开始各自的HGPHGP研研究。中国于究。中国于19871987年在年在“863863计划计划”中开始中开始设立人类基因组研究课题。设立人类基因组研究课题。2000 2000年年6 6月月2626日,由公众资助的人类日,由公众资助的人类基因计划和私人基因公司宣布他们已经基因计划和私人基因公司宣布他们已经完成了破译了全部的人类基因。完成了破译了全部的人类基因。2003 2003年,基因组的全部测序工作完年,基
27、因组的全部测序工作完成,成,HGPHGP工程提前完成。工程提前完成。人类基因组计划的目标人类基因组计划的目标 确定人类基因组所携带的全部确定人类基因组所携带的全部遗传信息,并确定、阐明和记录组遗传信息,并确定、阐明和记录组成的人类基因组的全部成的人类基因组的全部DNADNA序列。序列。有人将有人将HGPHGP比作一张比作一张2020世纪的生命世纪的生命(生物学)周期表,因为它一改经典分子(生物学)周期表,因为它一改经典分子生物学零敲碎打地研究个别基因的习惯,生物学零敲碎打地研究个别基因的习惯,而力求在细胞水平上解决基因组的问题,而力求在细胞水平上解决基因组的问题,同时研究同时研究1010万个基
28、因及其产物,以建立对万个基因及其产物,以建立对生命现象的整体认识。生命现象的整体认识。人类基因组研究的应用人类基因组研究的应用p 医学领域医学领域p 基础理论研究基础理论研究p 生物学研究领域生物学研究领域对特殊疾病基因的确定对特殊疾病基因的确定 各种人类基因组图谱会使寻找与各种人类基因组图谱会使寻找与特定遗传疾病有关的基因的工作变特定遗传疾病有关的基因的工作变得容易。得容易。有利于优生和产前诊断有利于优生和产前诊断 应用遗传座位专一性的分子探针,应用遗传座位专一性的分子探针,可检测出疾病基因的携带者,将使可检测出疾病基因的携带者,将使父母了解其子女出现遗传缺陷的危父母了解其子女出现遗传缺陷的
29、危险程度。险程度。医学领域医学领域 加强对癌症的认识和治疗加强对癌症的认识和治疗 癌症是由于细胞生长失控造成的,而癌症是由于细胞生长失控造成的,而细胞分裂的失控是因为特定基因的异常细胞分裂的失控是因为特定基因的异常造成的。遗传的缺陷通常会使人体对特造成的。遗传的缺陷通常会使人体对特定的癌症具有高的易感性。寻找与癌症定的癌症具有高的易感性。寻找与癌症相关的基因的研究是当前医学研究的热相关的基因的研究是当前医学研究的热点之一。人类基因组计划将会大大地促点之一。人类基因组计划将会大大地促进这方面的研究。进这方面的研究。有利于医学生物学的研究有利于医学生物学的研究人类基因组研究的主要内容人类基因组研究
30、的主要内容l建立遗传图谱建立遗传图谱 遗传图谱,又称遗传图谱,又称连锁图,是指基因或连锁图,是指基因或DNADNA标志在染标志在染色体上的相对位置与遗传距离。色体上的相对位置与遗传距离。l建立物理图谱建立物理图谱 物理图谱是指物理图谱是指DNADNA序列上两点的实际距离。序列上两点的实际距离。lDNA序列测定序列测定l基因的确定和分析基因的确定和分析人类基因组研究引发的人类基因组研究引发的社会和伦理问题社会和伦理问题如何解释遗传信息的医学意义如何解释遗传信息的医学意义 人类基因组作图和测序工作将提供大量人类基因组作图和测序工作将提供大量有关人类疾病的遗传学基础的新知识。不谨有关人类疾病的遗传学
31、基础的新知识。不谨慎地解释有关基因与疾病相关的信息,将对慎地解释有关基因与疾病相关的信息,将对携带这些基因但不会生病的人带来灾难。携带这些基因但不会生病的人带来灾难。例如,例如,HLAB27 HLAB27 阳性者可能患有关节强硬阳性者可能患有关节强硬性脊椎炎性脊椎炎,但是可能性仅为但是可能性仅为0.1%0.1%。如果误解或。如果误解或过分强调这类相关性,就会增加很多人的焦过分强调这类相关性,就会增加很多人的焦虑,并影响他们对将来的计划。虑,并影响他们对将来的计划。遗传学隐私权问题遗传学隐私权问题 科学家和医学家会接到对某些性状和病科学家和医学家会接到对某些性状和病况进行诊断的请求,这可能要涉及到从父母况进行诊断的请求,这可能要涉及到从父母作出生育与否的决定到招聘职工的人事政策作出生育与否的决定到招聘职工的人事政策等。科学家们在考虑这些请求时,面临的困等。科学家们在考虑这些请求时,面临的困难又与检查结果的隐私权有关,是否应为某难又与检查结果的隐私权有关,是否应为某人或某机构的利益去对一个人进行检查?明人或某机构的利益去对一个人进行检查?明显的例子是工厂或保险公司对可能提出对雇显的例子是工厂或保险公司对可能提出对雇用的人或投保人进行遗传检验申请。用的人或投保人进行遗传检验申请。