《第十三章-计算表观遗传学课件.ppt》由会员分享,可在线阅读,更多相关《第十三章-计算表观遗传学课件.ppt(117页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十三章第十三章 计算表观遗传学计算表观遗传学 Computational Epigenetics第一节 引言 一、一、表观遗传学与计算表观遗传学表观遗传学与计算表观遗传学二、二、计算表观遗传学的研究内容计算表观遗传学的研究内容三、三、计算表观遗传学的方法和工具计算表观遗传学的方法和工具四、四、计算表观遗传学的进展计算表观遗传学的进展第二节第二节 基因组的基因组的DNADNA甲基化甲基化 一、一、CpGCpG岛的岛的DNADNA甲基化调控基因的表达甲基化调控基因的表达n n(一)(一)(一)(一)DNADNA甲基化与甲基化与甲基化与甲基化与CpGCpG岛岛岛岛 n n(二)(二)(二)(二)甲
2、基化对转录的调控甲基化对转录的调控甲基化对转录的调控甲基化对转录的调控n n(三)(三)(三)(三)DNADNA甲基化的意义甲基化的意义甲基化的意义甲基化的意义(一)(一)DNADNA甲基化与甲基化与CpGCpG岛岛n nDNADNA甲基化是一种发生在甲基化是一种发生在甲基化是一种发生在甲基化是一种发生在DNADNA序列上的化学修饰,序列上的化学修饰,序列上的化学修饰,序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。DNADNA甲甲甲甲基化是重要的表观遗传代码。基化是重要的
3、表观遗传代码。基化是重要的表观遗传代码。基化是重要的表观遗传代码。DNADNA甲基化甲基化n n在哺乳动物中,大约在哺乳动物中,大约在哺乳动物中,大约在哺乳动物中,大约60%60%90%90%的的的的CpGCpG二核苷酸是甲基化二核苷酸是甲基化二核苷酸是甲基化二核苷酸是甲基化的。的。的。的。CpGCpG中的中的中的中的p p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。苷的磷酸基团。苷的磷酸基团。苷的磷酸基团。n n在哺乳动物细胞中,在哺乳动物细胞中,在哺乳动物细胞中,在哺乳动物细胞
4、中,DNADNA甲基化主要发生在甲基化主要发生在甲基化主要发生在甲基化主要发生在CpGCpG二核苷酸二核苷酸二核苷酸二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-5-甲基甲基甲基甲基-胞嘧啶,如图所示。胞嘧啶,如图所示。胞嘧啶,如图所示。胞嘧啶,如图所示。CpGCpG岛与岛与DNADNA甲基化的关系甲基化的关系 n nCpGCpG二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向
5、于聚集成簇,这样的区域称作 CpGCpG岛(岛(岛(岛(CpGCpG islands islands)。)。)。)。n nCpGCpG岛的特点是岛的特点是岛的特点是岛的特点是GCGC的含量及的含量及的含量及的含量及CpGCpG的含量非常高。的含量非常高。的含量非常高。的含量非常高。n nCpGCpG岛主要分布在基因的岛主要分布在基因的岛主要分布在基因的岛主要分布在基因的5 5 非编码区、启动子和第一外显非编码区、启动子和第一外显非编码区、启动子和第一外显非编码区、启动子和第一外显子区域,大约子区域,大约子区域,大约子区域,大约60%60%的基因的启动子含有的基因的启动子含有的基因的启动子含有的
6、基因的启动子含有CpGCpG岛。这些区域岛。这些区域岛。这些区域岛。这些区域的的的的CpGCpG二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化CpGCpG带来高的突变带来高的突变带来高的突变带来高的突变率。率。率。率。(二)(二)甲基化对转录的调控甲基化对转录的调控DNADNADNADNA甲基化影响转录的机制甲基化影响转录的机制甲基化影响转录的机制
7、甲基化影响转录的机制n n1.DNA1.DNA甲基化阻碍转录因子的结合甲基化阻碍转录因子的结合n n2 2DNADNA甲基化识别染色质标记甲基化识别染色质标记 n n3.DNA3.DNA甲基化募集其他蛋白引起染色质沉默甲基化募集其他蛋白引起染色质沉默n n4.DNA4.DNA甲基化影响核小体定位甲基化影响核小体定位(三)(三)DNADNA甲基化的意义甲基化的意义n nCpGCpG二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默n nCpGCpG二核苷酸的甲基化与染色体的选择性沉默二核苷酸的甲基化与染色体的选择性沉默二核苷酸
8、的甲基化与染色体的选择性沉默二核苷酸的甲基化与染色体的选择性沉默n nDNADNA甲基化与基因的组织特异表达甲基化与基因的组织特异表达甲基化与基因的组织特异表达甲基化与基因的组织特异表达二、通过实验和计算方法识别二、通过实验和计算方法识别CpGCpG岛岛 (一)CpG岛的定义及预测 (二)实验方法寻找CpG岛 (三)CpG岛的定位有助于发现新基因(一)CpG岛的定义及预测n nGardiner-GardenGardiner-Garden和和和和FrommerFrommern n长度最短长度最短长度最短长度最短200bp200bpn nGCGC含量至少含量至少含量至少含量至少50%50%n nC
9、pGCpG O/E O/E最小最小最小最小0.60.6n n许多启动子缺乏严格许多启动子缺乏严格许多启动子缺乏严格许多启动子缺乏严格 定义的定义的定义的定义的CpGCpG岛,但是岛,但是岛,但是岛,但是 有组织特异的甲基化有组织特异的甲基化有组织特异的甲基化有组织特异的甲基化 模式,和转录活性有模式,和转录活性有模式,和转录活性有模式,和转录活性有 密切联系。密切联系。密切联系。密切联系。1.1.最初的最初的CpGCpG岛定义岛定义2.2.改进的改进的CpGCpG岛定义岛定义n nTakaiTakai和和和和JonesJonesn n增加最短长度、增加最短长度、增加最短长度、增加最短长度、Cp
10、GCpG O/E O/E值值值值n nGCGC含量分别到含量分别到含量分别到含量分别到500 bp,0.65%500 bp,0.65%和和和和 55%55%对预测精度的影响。对预测精度的影响。对预测精度的影响。对预测精度的影响。n n通过使阈值更加严格,通过使阈值更加严格,通过使阈值更加严格,通过使阈值更加严格,AluAlu 重复元件得到最大程度的排重复元件得到最大程度的排重复元件得到最大程度的排重复元件得到最大程度的排 除,但此时却排除了原来数除,但此时却排除了原来数除,但此时却排除了原来数除,但此时却排除了原来数 量量量量10%10%的的的的CpGCpG岛,这表明一岛,这表明一岛,这表明一
11、岛,这表明一 些真正的些真正的些真正的些真正的CpGCpG岛可能也被排岛可能也被排岛可能也被排岛可能也被排 除。除。除。除。常见的常见的CpGCpG岛预测算法岛预测算法预测预测预测预测方法方法方法方法长长长长度度度度(bpbpbpbp)GCGCGCGC含量含量含量含量(%)CpGCpGCpGCpG O/E O/E O/E O/E重复元件重复元件重复元件重复元件屏蔽屏蔽屏蔽屏蔽备备备备注注注注ENSEMBLENSEMBLENSEMBLENSEMBL40040040040050%50%50%50%0.60.60.60.6否否否否严严严严格的参数限制格的参数限制格的参数限制格的参数限制NCBINCB
12、INCBINCBI宽宽宽宽松松松松20020020020050%50%50%50%0.60.60.60.6否否否否总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目307193307193307193307193NCBINCBINCBINCBI严严严严格格格格50050050050050%50%50%50%0.60.60.60.6否否否否总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目24163241632416324163UCSCUCSCUCSCUCSC20020020020050%50%50%50%0.60.60.60.6是是是是总总总总CpGCpGCpGCpG岛岛岛岛数目数
13、目数目数目28226282262822628226EMBOSSEMBOSSEMBOSSEMBOSS指定指定指定指定指定指定指定指定指定指定指定指定否否否否参数可参数可参数可参数可调调调调CpGProDCpGProDCpGProDCpGProD50050050050050%50%50%50%0.60.60.60.6是是是是总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目76793767937679376793CpGclusterCpGclusterCpGclusterCpGcluster无限制无限制无限制无限制无限制无限制无限制无限制无限制无限制无限制无限制否否否否总总总总CpGCpGC
14、pGCpG岛岛岛岛数目数目数目数目197727197727197727197727CpG_MICpG_MICpG_MICpG_MI50505050无限制无限制无限制无限制无限制无限制无限制无限制否否否否总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目40926409264092640926差异取决于以下因素:差异取决于以下因素:(1)任意阈值的应用;)任意阈值的应用;(2)没有考虑到)没有考虑到CpG岛的异质性;岛的异质性;(3)基于)基于DNA序列的预测方法忽略了序列的预测方法忽略了DNA甲基化状态。甲基化状态。3.排除重复元件对CpG岛预测算法的干扰n n重复元件重复元件重复元件重
15、复元件(例如例如例如例如“年轻年轻年轻年轻”的的的的AluAlu元件元件元件元件)的碱基组成和的碱基组成和的碱基组成和的碱基组成和CpGCpG岛十分类似,显著地增加了鉴别岛十分类似,显著地增加了鉴别岛十分类似,显著地增加了鉴别岛十分类似,显著地增加了鉴别CpGCpG岛的假阳性率。岛的假阳性率。岛的假阳性率。岛的假阳性率。n n大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过RepbaseRepbase数据库中已知的数据库中已知的数据库中已知的数据库中已知的重复类型得以剔除。重复类型得以剔除。重复类型得以剔除。重复类型得以剔除。n n在在在
16、在TakaiTakai和和和和JonesJones的基础上应用重复元件筛选后剔除的基础上应用重复元件筛选后剔除的基础上应用重复元件筛选后剔除的基础上应用重复元件筛选后剔除18901890个非个非个非个非CpGCpG岛,从而得到更加保守的岛,从而得到更加保守的岛,从而得到更加保守的岛,从而得到更加保守的CpGCpG岛数目的估计岛数目的估计岛数目的估计岛数目的估计即即即即2700027000个。个。个。个。4.基于窗口滑动法的CpG岛预测算法n n首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选CpGCpGCpGCpG岛集合或
17、全基因岛集合或全基因岛集合或全基因岛集合或全基因组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。n n接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足CpGCpGCpGCpG岛定义中的长岛定义中的长岛定义中的长岛定义中的长度、度、度、度、GCGCGCGC含量和含量和含量和含量和CpGCpGCpGCpG O/E O/E O/E O/E值中的一个或几个阈值。值中的一个或几个阈值。值中的一个或几个阈值。值中的一个或几个阈值。n n一旦发现窗中
18、的序列片段满足了一旦发现窗中的序列片段满足了一旦发现窗中的序列片段满足了一旦发现窗中的序列片段满足了CpGCpGCpGCpG岛的定义,该片段岛的定义,该片段岛的定义,该片段岛的定义,该片段就被选为候选就被选为候选就被选为候选就被选为候选CpGCpGCpGCpG岛,同时扫描窗右移岛,同时扫描窗右移岛,同时扫描窗右移岛,同时扫描窗右移1bp1bp1bp1bp。n n如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足CpGCpGCpGCpG岛的定义,扫描窗右岛的定义,扫描窗右岛的定义,扫描窗右岛的定义,扫描窗右移一个窗口的长度。如果扫描得
19、到的移一个窗口的长度。如果扫描得到的移一个窗口的长度。如果扫描得到的移一个窗口的长度。如果扫描得到的CpGCpGCpGCpG岛区域有重叠,岛区域有重叠,岛区域有重叠,岛区域有重叠,则将重叠部分合并。则将重叠部分合并。则将重叠部分合并。则将重叠部分合并。n n这种依赖于长度、这种依赖于长度、这种依赖于长度、这种依赖于长度、GCGCGCGC含量和含量和含量和含量和CpGCpGCpGCpG O/E O/E O/E O/E值的一个或全部阈值值的一个或全部阈值值的一个或全部阈值值的一个或全部阈值的的的的CpGCpGCpGCpG岛识别算法有显而易见的缺陷岛识别算法有显而易见的缺陷岛识别算法有显而易见的缺陷
20、岛识别算法有显而易见的缺陷:(:(:(:(1 1 1 1)由于这三个阈)由于这三个阈)由于这三个阈)由于这三个阈值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(2 2 2 2)预测的)预测的)预测的)预测的CpGCpGCpGCpG岛的长岛的长岛的长岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任意性;(意性;(意性;(意性;(3 3 3 3)CpGCpGCpG
21、CpG岛的起始点一般不是岛的起始点一般不是岛的起始点一般不是岛的起始点一般不是CpGCpGCpGCpG二核苷酸;(二核苷酸;(二核苷酸;(二核苷酸;(4 4 4 4)预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(5 5 5 5)方法经常需要)方法经常需要)方法经常需要)方法经常需要针对特定物种进行调整。(针对特定物种进行调整。(针对特定物种进行调整。(针对特定物种进行调整。(6 6 6 6)运行时间长。)运行时间长。)运行时间长。)运行时间长。窗口法Analyze a window.Does it mee
22、t CpG island criteria?If not,slide to the right one nucleotideAnd analyze again.And again.Until it meets the criteria Then jump ahead and check the window adjacent to the island on the 3 side.Repeat as needed,until the new window does not meet the CpG island criteriaThen slide the window back toward
23、 the island.Keep sliding until the window meets CpG island criteria.If it doesnt meet the criteria,try trimming a base pair off each end and analyzing again.削减削减Once it meets CpG island criteria,move on to the next adjacent window and analyze that.5.基于相邻CpG二核苷酸距离的CpG岛预测算法n nCpGclusterCpGcluster是一种独特
24、的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何CpGCpG岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高很多。很多。很多。很多。n n工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻CpGCpG二核苷酸之间二核苷酸之间二核苷酸之间二核苷酸之间的距离。的距离。的距离。的距离。n n该算法利用几何分布估计出该距离
25、的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而计算出计算出计算出计算出CpGCpG二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(40bp40bp)。)。)。)。n n最终,该算法得到最终,该算法得到最终,该算法得到最终,该算法得到197727197727个个个个CpGCpG岛。这个算法得到的岛。这个算法得到的岛。这个算法得到的岛。这个算法得到的CpGCpG岛的特点是短而多,但其中包含大量的重复元件。岛的特点是短而多
26、,但其中包含大量的重复元件。岛的特点是短而多,但其中包含大量的重复元件。岛的特点是短而多,但其中包含大量的重复元件。n n(1)(1)假设有如下一条序列:假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGTTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC CCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC n n(2)(2)CpGclusterCpGcluster首先找到所有的首先找到所有的CpGCpG双核苷酸的位置双核苷酸的位置(粗体):(粗体):TTGTTGCGCG
27、GGTCCTAGAAGTGGTCCTAGAAGTCGCGCCTCCCCCTCCCCGCGCCTTGCCCTTGCCGCGGCGCCGCGCCCTTGCAGCCCCCCTTGCAGCCCCGCGAGCAGCCGCGAGCAGC AGCAGC n n(3)(3)然后得到然后得到CpGCpG双核苷酸的位置的列表:双核苷酸的位置的列表:4;18;26;34;38;52;57 4;18;26;34;38;52;57 n n(4)(4)通过公式通过公式 计算相邻二核苷酸之间的算术距离:计算相邻二核苷酸之间的算术距离:1313,7 7,7 7,3 3,1313,4 4;(5)(5)考虑到假设:考虑到假设:C
28、pGCpG是伯努利实验的结果,这里设成功为是伯努利实验的结果,这里设成功为CpGCpG,失败为,失败为non-non-CpGCpG。伯努利实验的概率。伯努利实验的概率p p可以通过大量的序列算出。令序列的长度为可以通过大量的序列算出。令序列的长度为L L,NN为为CpGCpG的数目,则的数目,则 。(伯努利实验,例如投掷硬币。(伯努利实验,例如投掷硬币NN次,最后一次,最后一次正面朝上的概率,满足几何分布次正面朝上的概率,满足几何分布 )。所以临近的)。所以临近的CpGCpG双核苷双核苷酸的距离满足几何分布,距离酸的距离满足几何分布,距离d d等于失败的次数。等于失败的次数。(6)(6)绘制长
29、度(绘制长度(d d)分布和几何)分布和几何分布的直方分布图(下页图)。从中,我们可以发现观测值分布和理论分布差分布的直方分布图(下页图)。从中,我们可以发现观测值分布和理论分布差别很大。短距离出现的概率较大。中位数值恰好可以作为别很大。短距离出现的概率较大。中位数值恰好可以作为CpGCpG二核苷酸富集的二核苷酸富集的阈值。阈值。(7)(7)为了计算之前步骤找到的为了计算之前步骤找到的CpGCpG簇是簇是CpGCpG岛的概率,需要给出统计学岛的概率,需要给出统计学p p值,值,该该p p值可由负二项分布给出(伯努利实验,例如投掷硬币值可由负二项分布给出(伯努利实验,例如投掷硬币NN次,次,r
30、r次正面朝上的概次正面朝上的概率,满足负二项分布率,满足负二项分布 )。通过描述)。通过描述CpGclusterCpGcluster的算法原理,我们的算法原理,我们知道:存在比随机出现知道:存在比随机出现CpGCpG二核苷酸之间距离距离更短的二核苷酸之间距离距离更短的CpGCpG簇,通过合并重簇,通过合并重合的簇,最终得到的簇就被认为是合的簇,最终得到的簇就被认为是CpGCpG岛。岛。人类基因组人类基因组1号染色体的邻接号染色体的邻接CpG二核苷酸之间距离的概率密度函数二核苷酸之间距离的概率密度函数观察值的分布以空心圆圈表示,而理论分布即几何分布则用实线表示。中位数值恰好和理论值吻合。距离小于
31、中位数值的两个CpG二核苷酸则被纳入CpG岛的一部分。X轴为距离d,Y轴为概率p。Median为中位数,Mean为均值,带圈实线代表观测值的连线,实线代表几何分布的概率密度曲线。(来自于CpGcluster:a distance-based algorithm for CpG-island detection)算法算法表格展示的是表格展示的是LRRMT1LRRMT1的的上游序列的预测结果上游序列的预测结果6.6.结合功能基因组数据的结合功能基因组数据的CpGCpG定位方法定位方法n n大多数的预测算法和序列选择技术鉴别的大多数的预测算法和序列选择技术鉴别的CpGCpG岛数目在岛数目在24000
32、24000到到2700027000之间。尽管这些方法之间的差别不大,但是之间。尽管这些方法之间的差别不大,但是许多鉴别出来的许多鉴别出来的CpGCpG岛在不同的预测结果中并不一致。这岛在不同的预测结果中并不一致。这种不一致的现象可以通过结合包括种不一致的现象可以通过结合包括DNADNA甲基化状态和染色甲基化状态和染色质修饰在内的不同类型的信息到预测方法中来而得以解决。质修饰在内的不同类型的信息到预测方法中来而得以解决。在在CpGCpG岛预测算法中融合表观遗传信息和基因组属性可能岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。例如,有利于探测方法去除一些看
33、起来有些任意的阈值。例如,BockBock等人使用了等人使用了DNADNA结构,组蛋白修饰,结构,组蛋白修饰,DNADNA甲基化,甲基化,转录因子结合谱,重复元件,进化保守,转录因子结合谱,重复元件,进化保守,DNADNA序列模式等序列模式等信息定位人类基因组信息定位人类基因组CpGCpG岛,是目前较好的岛,是目前较好的CpGCpG岛定位方岛定位方法。但该方法很难扩展到非人类的物种中,因为注释数据法。但该方法很难扩展到非人类的物种中,因为注释数据在其他物种并不全面,甚至十分缺乏。在其他物种并不全面,甚至十分缺乏。(二二)实验方法寻找实验方法寻找CpG岛岛n n为了克服算法带来的问题为了克服算法
34、带来的问题为了克服算法带来的问题为了克服算法带来的问题,IllingworthIllingworth等人最近开发了一项等人最近开发了一项等人最近开发了一项等人最近开发了一项CXXCCXXC亲亲亲亲和纯化技术(和纯化技术(和纯化技术(和纯化技术(CAPCAP,CXXC affinity purificationCXXC affinity purification)以富集非甲基化的)以富集非甲基化的)以富集非甲基化的)以富集非甲基化的CpGCpG富集的富集的富集的富集的DNADNA片段(片段(片段(片段(CpGCpG岛)。岛)。岛)。岛)。n n该技术使用了半胱氨酸富集的对非甲基化的该技术使用了半
35、胱氨酸富集的对非甲基化的该技术使用了半胱氨酸富集的对非甲基化的该技术使用了半胱氨酸富集的对非甲基化的CpGCpG位点有高亲和性的位点有高亲和性的位点有高亲和性的位点有高亲和性的CXXC3CXXC3结构域。结构域。结构域。结构域。CXXCCXXC结构域对只包含甲基化的结构域对只包含甲基化的结构域对只包含甲基化的结构域对只包含甲基化的CpGCpG位点或缺乏位点或缺乏位点或缺乏位点或缺乏CpGCpG位点的位点的位点的位点的DNADNA片段几乎没有亲和性。片段几乎没有亲和性。片段几乎没有亲和性。片段几乎没有亲和性。n n从小鼠从小鼠从小鼠从小鼠Mbd1Mbd1中得到的重组的中得到的重组的中得到的重组的
36、中得到的重组的CXXCCXXC结构域对非甲基化的结构域对非甲基化的结构域对非甲基化的结构域对非甲基化的CpGCpG位点有高位点有高位点有高位点有高的结合特异性,并被用于从全基因组的结合特异性,并被用于从全基因组的结合特异性,并被用于从全基因组的结合特异性,并被用于从全基因组DNADNA中提取中提取中提取中提取CpGCpG岛。他们从人类岛。他们从人类岛。他们从人类岛。他们从人类血液中提取了超过血液中提取了超过血液中提取了超过血液中提取了超过1700017000个个个个CpGCpG岛。岛。岛。岛。实验方法确定的基因组范围实验方法确定的基因组范围CpG岛图谱岛图谱(三三)CpG岛的定位有助于发现新基
37、因岛的定位有助于发现新基因n nCpGCpGCpGCpG岛是重要的调控元件,是基因起始的标志,可用于新岛是重要的调控元件,是基因起始的标志,可用于新岛是重要的调控元件,是基因起始的标志,可用于新岛是重要的调控元件,是基因起始的标志,可用于新基因的发现。同时,基因的发现。同时,基因的发现。同时,基因的发现。同时,CpGCpGCpGCpG岛通常是不被甲基化的,作为管岛通常是不被甲基化的,作为管岛通常是不被甲基化的,作为管岛通常是不被甲基化的,作为管家基因的重要标志之一。家基因的重要标志之一。家基因的重要标志之一。家基因的重要标志之一。n n三、实验检测技术测定三、实验检测技术测定DNA甲基化状态甲
38、基化状态n n(一)(一)DNADNA甲基化的检测方法甲基化的检测方法n n(二)基因组范围的(二)基因组范围的DNADNA甲基化检测方法甲基化检测方法n n(三)基于高通量测序的(三)基于高通量测序的DNADNA甲基化检测方法甲基化检测方法n n(四)高通量检测技术的选择策略(四)高通量检测技术的选择策略(一)(一)DNA甲基化的检测方法甲基化的检测方法n n目前常用的目前常用的DNADNA甲基化检测方法是将待检序列中甲基甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因方法还用到了基因微阵列微阵列(m
39、icroarraymicroarray)。)。1.1.限制性内切酶法限制性内切酶法2.2.重亚硫酸钠法重亚硫酸钠法3.3.亲和纯化亲和纯化1.1.1.1.限制性内切酶法限制性内切酶法限制性内切酶法限制性内切酶法2.2.2.2.重亚硫酸钠法重亚硫酸钠法重亚硫酸钠法重亚硫酸钠法重亚硫酸钠(sodium bisulfite)法3.3.3.3.亲和纯化亲和纯化亲和纯化亲和纯化(二)基因组范围的(二)基因组范围的DNA甲基化检测方法甲基化检测方法n n高通量测序是最新发展起来的但却是最有前途的高通量测序是最新发展起来的但却是最有前途的全基因组全基因组DNADNA甲基化分析方法。高通量测序技术甲基化分析方
40、法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均的出现,使得产生大量序列信息的时间和成本均要低于桑格法。要低于桑格法。n n目前,两种高通量的测序平台最为流行:一种是目前,两种高通量的测序平台最为流行:一种是454454生命科学公司开发的焦磷酸测序方法,另外一生命科学公司开发的焦磷酸测序方法,另外一种是种是IlluminaIllumina前身的前身的SolexaSolexa开发的基于荧光核苷酸开发的基于荧光核苷酸的系统。的系统。(三)高通量检测技术的选择策略(三)高通量检测技术的选择策略技技术术应应用用优势优势局限局限IlluminaIllumina磁珠磁珠阵阵列列甲基化多甲基化多
41、态态性性发现发现和分析和分析定量,多达定量,多达9696个个样样品的同品的同时时快速分析快速分析需要需要设计设计引物文引物文库库,同同时时只能分析只能分析15361536个位个位点点AffymetrixAffymetrix芯片芯片全基因全基因组组甲基甲基化化测测定定探探针针密度大,支持物种多,密度大,支持物种多,可定制,价格合理可定制,价格合理短寡核苷酸噪声大,短寡核苷酸噪声大,单单通道通道杂杂交,定制芯交,定制芯片昂片昂贵贵NimbleGenNimbleGen微微阵阵列列全基因全基因组组甲基甲基化化测测定定长长寡核苷酸探寡核苷酸探针产针产生更生更纯净纯净的数据,双通道的数据,双通道杂杂交,定
42、制交,定制芯片不昂芯片不昂贵贵,价格合理,价格合理较较AffymetrixAffymetrix芯片的探芯片的探针针密度小密度小AgilentAgilent微微阵阵列列大大规规模甲基化模甲基化测测定定长长寡核苷酸探寡核苷酸探针产针产生更生更纯净纯净的数据,双通道的数据,双通道杂杂交交较较AffymetrixAffymetrix和和NimbleGenNimbleGen芯片的探芯片的探针针密度小得多密度小得多SolexaSolexa测测序序全基因全基因组组甲基甲基化化测测定,分析定,分析印印记记位点位点定量化,无需定量化,无需杂杂交,并行的交,并行的基因型信息基因型信息下一代技下一代技术术,需要,需
43、要购购买买昂昂贵贵的的仪仪器或服器或服务务DNA甲基化大规模分析可用平台一览表四、计算方法预测DNA甲基化(一)从(一)从DNADNA序列预测胞嘧啶甲基化序列预测胞嘧啶甲基化1 1CpGCpG位点甲基化预测位点甲基化预测位点甲基化预测位点甲基化预测 n n预测的原理如下:预测的原理如下:n n基于基于n n个样本个样本 x xi i,y yi i,i i=1,=1,n n (其中(其中x xi i为为d d维特征构成的向维特征构成的向量,量,y yi i取自取自-1,1-1,1而代表类别,而代表类别,-1-1作为甲基化标记,作为甲基化标记,1 1作为作为非甲基化标记)作为训练数据,非甲基化标记
44、)作为训练数据,SVMSVM利用下面的判别函数利用下面的判别函数进行训练和检验:进行训练和检验:。n n其中其中 和和b b为待估参数,使得判别函数更好地拟合训练数为待估参数,使得判别函数更好地拟合训练数据。当进一步增加窗宽时,据。当进一步增加窗宽时,SVMSVM的性能并没有显著地提高。的性能并没有显著地提高。n n由于单个由于单个CpGCpG位点的甲基化状态一般不是一成不变的,因位点的甲基化状态一般不是一成不变的,因此此MethylatorMethylator几乎没有实用价值,不能满足组织特异分析的几乎没有实用价值,不能满足组织特异分析的要求。实际上,目前尚缺乏有效的要求。实际上,目前尚缺乏
45、有效的CpGCpG位点的预测工具。位点的预测工具。2 2基于序列的基于序列的CpGCpG岛甲基化判别岛甲基化判别 MethCGI先进行了一些预处理,来去除由于实验误差产生的错误数据。主要就是甲基化和非甲基化区域的边界精确定位问题,由于DNA的缺失或者后期测序的问题,数据中甲基化和非甲基化片段的边界比较模糊,所以在初始边界附近定位限制性内切酶的识别位点。灰色直线代表DNA序列,黑色竖条代表CpG位点,双斜线的位置表示实验数据中的初始边界位点,而箭头指向的位置就是最靠近初始边界的酶切位点。在线预测工具在线预测工具在线预测工具在线预测工具MethCGIMethCGIMethCGIMethCGIn n
46、MethCGIMethCGI的输出界面如图所示,第一列是序列名称,第二的输出界面如图所示,第一列是序列名称,第二列是列是CGIFCGIF的起始位置,第三列则是的起始位置,第三列则是CGIFCGIF的终止位置,第四的终止位置,第四列是预测的甲基化状态,第五列是一个表示甲基化倾向性列是预测的甲基化状态,第五列是一个表示甲基化倾向性的值的值methylation_scoremethylation_score),即),即100100个分类器结果的平均值个分类器结果的平均值(预测结果:容易甲基化用(预测结果:容易甲基化用-1-1表示,不易甲基化用表示,不易甲基化用+1+1表示)表示)。需要指出的是,。需
47、要指出的是,MethCGIMethCGI预测结果实际上是对应一个个预测结果实际上是对应一个个CpGCpG岛片段给出的。岛片段给出的。3.使用基因组特征有助于识别使用基因组特征有助于识别CpG甲基化甲基化 n n为了鉴别序列相关的为了鉴别序列相关的DNADNA属性和属性和CpGCpG岛甲基化之间的关系,岛甲基化之间的关系,BockBock等人汇集了等人汇集了11841184个和序列直接或间接相关的个和序列直接或间接相关的DNADNA属性,属性,对人淋巴细胞的第对人淋巴细胞的第2121号染色体的甲基化状态已知的号染色体的甲基化状态已知的132132个个CpGCpG岛构建判别模型。岛构建判别模型。(
48、二)借助其他表观遗传修饰谱(二)借助其他表观遗传修饰谱预测预测CpGCpG岛甲基化岛甲基化n n结合其他表观遗传学信息可以提高结合其他表观遗传学信息可以提高CpGCpG岛预测精度。岛预测精度。n n最近的一项研究使用最近的一项研究使用SVMSVM并整合全基因组范围的并整合全基因组范围的ChIP-SeqChIP-Seq数据进行数据进行CpGCpG岛甲基化预测。岛甲基化预测。n n此外,结合序列特征,重复元件及转录因子结合位点等信此外,结合序列特征,重复元件及转录因子结合位点等信息进一步增强了息进一步增强了SVMSVM的分类性能。还发现添加了组蛋白甲的分类性能。还发现添加了组蛋白甲基化修饰之后,该
49、预测模型得到了更高分类正确率,同时基化修饰之后,该预测模型得到了更高分类正确率,同时还发现了四种显著影响还发现了四种显著影响CpGCpG岛甲基化的组蛋白修饰岛甲基化的组蛋白修饰 (H3K4me1(H3K4me1、H3K4me2H3K4me2、H3K4me3H3K4me3以及以及H3K9me1)H3K9me1)。算法间比较(一)基因组整体低甲基化(一)基因组整体低甲基化n n重复元件所在基因组区域在正常基因组中是甲基化的,这会保证重复元件所在基因组区域在正常基因组中是甲基化的,这会保证基因组的稳定性,防止转座和基因断裂的发生。基因组的稳定性,防止转座和基因断裂的发生。n n在癌症基因组中会发生全
50、局性的基因组去甲基化,这一现象被成在癌症基因组中会发生全局性的基因组去甲基化,这一现象被成为次甲基化(为次甲基化(hypomethylationhypomethylation)。次甲基化可以进一步导致癌症)。次甲基化可以进一步导致癌症基因组的遗传性变异,这通常是肿瘤发生的特征。基因组的遗传性变异,这通常是肿瘤发生的特征。n n在在CpGCpG岛超甲基化的同时,癌症基因组经历了全局性的次甲基化。岛超甲基化的同时,癌症基因组经历了全局性的次甲基化。相比正常基因组,大约相比正常基因组,大约20%20%60%60%的的5-5-甲基甲基-胞嘧啶的甲基基团脱胞嘧啶的甲基基团脱落。落。n n癌症发展过程中经