基因组结构变异检测的基本方法与前沿技术,医学遗传学论文.docx

上传人:安*** 文档编号:71017920 上传时间:2023-01-31 格式:DOCX 页数:36 大小:38.56KB
返回 下载 相关 举报
基因组结构变异检测的基本方法与前沿技术,医学遗传学论文.docx_第1页
第1页 / 共36页
基因组结构变异检测的基本方法与前沿技术,医学遗传学论文.docx_第2页
第2页 / 共36页
点击查看更多>>
资源描述

《基因组结构变异检测的基本方法与前沿技术,医学遗传学论文.docx》由会员分享,可在线阅读,更多相关《基因组结构变异检测的基本方法与前沿技术,医学遗传学论文.docx(36页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基因组结构变异检测的基本方法与前沿技术,医学遗传学论文摘 要: 本研究介绍了基因组构造变异检测的生物信息学基本方式方法和前沿技术。对基于第二代测序技术的四种检测方式方法 (读对方式方法, 读深方式方法, 分裂片段方式方法和序列拼接方式方法) 的原理和特点进行了具体解读, 分析了第二代测序技术应用在检测构造变异上的特点与发展趋势。最后介绍了三代测序、Linked-reads和光学物理图谱等新技术在基因组构造变异检测中的应用, 阐述了融合新技术的构造变异检测方式方法的特点与优势。 本文关键词语: 构造变异; 测序片段; 第二代测序技术; 长片段测序技术; 光学物理图谱技术; Abstract: T

2、he basic methods and frontier technologies of genome structural variations detection were introduced in this paper. The principles and features of the 4 detection methods (Read-pair method, Read-depth method, Spiltread method and Sequence Assembly method) based on next generation sequencing technolo

3、gy were elaborated and the characteristics and development trend of the next generation sequencing technology on detecting structural variations were analyzed. Finally, some new technologies and their applications in detecting genome structural variations were introduced, including the third generat

4、ion sequencing, linked-reads and optics physical maps. The features and advantages of the detection methods mixed with new technologies were discussed. Keyword: Structural variations; Sequencing reads; Next generation sequencing; Long reads sequencing; Optics physical maps; 从基因的概念被提出伊始, 对人类本身基因信息的探究

5、一直是生命科学的热门问题之一, 人类基因组计划 (human genome project, HGP) 于2001年第一次完成了人类24条染色体的序列测定后, 人们发现个体之间基因的类似程度到达99.9%, 存在着大约0.1%的片段上的差异, 我们称之为基因组的多态性或基因组变异, 正是这些差异导致了人与人之间截然不同的各类性状差异。 根据发生变异的碱基数量, 基因组变异又能够分为单核苷酸变异 (single nucleotide variations, SNV) 与构造变异 (structural variation, SV) 。SNV是指发生在基因组水平上的单个核苷酸的变异;SV最初提出是

6、指长度在1 000 bp以上的基因的大片段的变异 (Feuk et al., 2006) , 随着对SV认识的不断发展, 现SV一般指长度在50 bp以上DNA片段变异 (Alkan et al., 2018) 。在构造变异中, 根据长度能够分为长度在3 MB下面的亚显微水平的构造变异和长度在3 MB以上的显微水平的构造变异;根据类型能够分为十多种不同的构造变异, 几种常见的类型为缺失 (Deletion) 、重复 (Duplication) 、插入 (Insertion) 、倒位 (Inversion) 、易位 (Translocation) 等 (图1) , 华而不实缺失、重复、插入等改变

7、基因组碱基对数量的构造变异以及互相组合衍生出的复杂的构造变异又能够称为拷贝数变异 (copy number variation, CNV) (Cooper et al., 2007) 。 构造变异的影响能够归纳为两大方面 (Hurles et al., 2008) 。首先, 在基因表示出方面, 构造变异会通太多种方式影响基因的转录与翻译。当基因发生重复、插入和缺失等变异时, 会导致基因剂量的改变;当编码区域发生构造变异时, 会改变基因的转录翻译;当非编码区域发生构造变异时, 会通过位置效应影响基因表示出调控元件的调控作用;当发生加强子或抑制子的删除变异时, 会影响基因的转录水平。其次, 在疾病

8、方面, 构造变异会导致性状的非正常表示出, 进而引发各类遗传性疾病。除了已经为人们熟知的部分显微水平的构造变异引发的疾病, 例如21号染色体3体引发的唐氏综合征, 5号染色体短臂上的缺失引发的猫叫综合征等等;也有越来越多关于亚显微构造的构造变异引发的疾病的报道, 例如视蛋白基因的基因重组可能会引发红绿色盲疾病 (Lupski, 2021) ;17q21.31部位的缺失变异会引发学习障碍 (Koolen et al., 2006) ;16p11.2部位的缺失变异会引发孤单症 (W-eiss et al., 2008) 。 最初, 基因组中大量存在的SNV被以为是影响遗传和表型的主要因素, 但后来

9、发现基因组中普遍存在大量的SV片段, 同样在人类疾病、复杂性状和进化的研究中具有重要意义 (Check, 2005) , 因而吸引了大量研究。一方面, 研究集中于人类基因组构造变异的检测。从2008年开场, 中、英、美各国共同发起的 国际千人基因组计划 (The 1000 Genomes Project) , 对基因组的构造变异作了当时最全面最完善的分析。在2020年和2021年, 国际千人基因组计划分别发布了1 092个样本 (Genomes Project et al., 2020) 和2 504个样本 (Sudmant et al., 2021) 的测序数据以及具体的构造变异检测结果。之

10、后陆续有关于构造变异检测成果的报道, 到2021年10月, 韩国国立首尔大学医学院针对一名韩国人的基因组 (AK1) 进行了相关分析 (Seo et al., 2021) , 发布了迄今为止最为具体的人类基因组构造变异检测结果。另一方面, 人们关注于构造变异与相关疾病的关联分析, 已经有多种本身免疫性疾病 (Yang et al., 2007;Wang et al., 2020) 、病毒感染 (Gonzalez et al., 2005) 、肥胖 (Falchi et al., 2020) 、骨质疏松 (Yang et al., 2008) 等被证明与构造变异相关, 尤其在癌症与构造变异的关联

11、性研究中, 更是发现构造变异是导致食道癌 (Cheng et al., 2021) 、儿童神经母细胞瘤 (Pugh et al., 2020) 、小细胞肺癌 (George et al., 2021) 等最主要的因素。 图1 构造变异的几种常见类型Figure 1 Several common types of structural variations 其实早在上世纪五十年代, 对于构造变异的研究便已经开场, 但受限于技术手段, 过去人们往往只能通过显微镜观察到显微水平的构造变异。上世纪七十年代, 人们用遗传学方式方法对构造变异进行了更深切进入的研究 (Sperling and Wiesne

12、r, 1972) 。21世纪以来, 一方面随着微阵列 (Microarrays) 、细菌人工染色体 (bacteria artificial chromosome, BAC) 、单分子分析 (Single-molecule analysis) 等实验技术的发展, 人们开场使用阵列比拟基因组杂交 (array comparative genomic hybridization, aCGH) 、SNP微阵列 (SNP microarrays) 以及荧光原位杂交 (fluorescent in situ hybridization, FISH) 等方式方法来检测构造变异 (Iafrate et al

13、., 2004) 。另一方面, 随着聚合酶链式反响 (polymerase chain reaction, PCR) 、DNA测序以及基因组序列比拟分析等技术的发展, 人们开场通过基于测序数据的计算机处理方式方法检测构造变异, 尤其随着新一代测序技术 (next generation sequencing, NGS) 的发展和普及, 基于测序数据的分析方式方法开场被大量使用。最近几年来, 为了弥补NGS技术检测构造变异的各种缺乏, 人们开场通过单分子实时测序 (single-molecule realtime sequencing, SMRT) 、纳米孔 (Nanopore) 等第三代测序技术

14、 (third generation sequencing, TGS) 进行SV检测。本研究主要就基于测序技术发展起来的一系列检测构造变异的方式方法和技术进行介绍和讨论。 1、 基因组构造变异检测基本方式方法 每段DNA的测序序列的原始数据称之为测序片段 (Reads) , 基于测序技术的构造变异检测方式方法大部分通过reads与参考基因组的比对进行检测。主要检测方式方法分为四种 (Medvedev et al., 2018;Alkan et al., 2018;Mills et al., 2018) , 分别是读对方式方法 (Read-pair Method) 、读深方式方法 (Read-d

15、epth method) 、分裂片段方式方法 (Split-read method) 以及序列拼接方式方法 (Sequence assembly method) 。 1.1、 读对方式方法 将同一段DNA分别从两端测得不同方向的序列信息称之为双端测序 (Paired-end reads) 。读对方式方法通过双端测序, 获得DNA片段两端成对reads的分布的信息, 再寻找比对到参考基因组上后分布和方向与参考基因组不一致的Reads, 以此为特征判定构造变异的类型 (Alkan et al., 2018) 。 读对方式方法以PEM算法 (Korbel et al., 2007) 、BreakDa

16、ncer算法 (Chen et al., 2018) 、HYDRA算法 (Quinlan et al., 2018) 等为代表。以PEM算法为例, 首先对样本DNA进行双端测序 (图2A) , 能够获得DNA片段两端成对reads的距离和方向等信息。之后将测得的成对的reads比对到参考基因组上, 分析其在参考基因组上的距离和方向信息, 根据比对前后距离和方向信息的不一致性 (图2B) , 来判定能否存在SV。发生缺失变异的片段两端的reads在比对到参考基因组上时, 其距离会增大, 而发生插入变异的片段则会出现距离减少的情况, 发生倒位变异的片段会出现方向上的变化。 读对方式方法是基于高通量

17、测序数据检测构造变异的方式方法中使用最广泛的, 最早通过乳腺癌细胞系MCF-7产生的BAC序列验证该方式方法的可行性 (Volik et al., 2003) 。理论上读对方式方法能够检测各种类型的构造变异, 但是在处理基因组重复区域的比对时会遭到很大干扰。同时由于DNA片段长度的限制, 读对方式方法无法检测大片段的构造变异。 1.2、 读深方式方法 读深方式方法首先假设在参考基因组上测序深度 (Read depth) 是随机分布的 (通常服从泊松分布或者修正泊松分布) 。将通过高通量测序获得的样本基因组的reads比对参考基因组上, 分析其测序深度, 通过测序深度在某些区域的差异变化来发现重

18、复变异和缺失变异:重复区域的测序深度会出现明显增加, 缺失区域的测序深度会出现明显减少 (Alkan et al., 2018) 。 读深方式方法以EWT算法 (Yoon et al., 2018) 、CNV-nator算法 (Abyzov et al., 2018) 等为代表。以EWT算法为例, 首先在参考基因组上每100 bp取互不重叠的窗, 计算每个窗中比对到参考基因组上的reads的起始位点的个数 (图3A) , 再乘以与基因组中GC含量相关的比例系数, 作为每个窗的序列深度。依次计算每个窗中的测序深度, DNA片段上所有窗的测序深度总体应当近似服从泊松分布, 但假如出现缺失变异、重复

19、变异等拷贝数变异, 则必然会引起连续的窗中的序列深度发生明显的增加或降低的情况 (图3B) 。 图2 PEM算法检测SV的流程与特征Figure 2 The workflow and features of PEM algorithm for SVdetection 注:A:双端测序经过, 将基因组DNA剪切成长度为3 kb左右的DNA片段, 在片段两端用生物素标记后环化, 再将环化片段随机剪切, 挑选出具有生物素标记的片段, 然后对挑选出的片段进行测序, 进而分析获得DNA片段两端成对reads的距离和方向信息;B:不同构造变异检测时的不同特征, 假设本来DNA片段长度为3 kb, 两端序列

20、在比对到参考基因组上后, 若距离变为了2 kb, 则DNA片段中可能出现了插入变异;若距离变成了5 kb, 则可能出现了缺失变异;若一端的序列出现方向上的变化, 则可能出现倒位变异Note:A:The figure of progress of paired-end sequencing.The genome DNA was sheared to yield DNA fragments of 3 kb, and then the fragments were labeled by biotin at both ends and circularized.And the circularized

21、 fragments were randomly sheared and the biotinylated fragments were screened, then the selected fragments were sequenced, and the distance and direction information of the pair-end reads of the DNA fragments were obtained;B:The figure of various features when detecting different kinds of structural

22、 variations;Suppose that the length of the original DNA fragments is 3 kb.If the length becomes 2 kb after their paired-end reads are mapped to the reference genome, there might be insertions in the DNA fragment;if the length becomes 5 kb, there might be deletions;if one of the reads direction chang

23、es, there might be inversions 读深方式方法是通过reads比对的统计信息检测构造变异的方式方法, 其最早被用来解释在癌症细胞中发生的基因重组的现象 (Campbell et al., 2008) 。读深方式方法在检测基因组重复、缺失构造变异时的效果非常显着, 且能够用来预测基因的拷贝数, 但其无法检测其他类型的构造变异, 无法区分串联重复和散在重复, 而且读深方式方法无法获得断点的相关信息, 只能判定片段中能否存在构造变异, 而不能判定出构造变异的准确位置。 图3 EWT算法检测SV的原理Figure 3 The principle of EWT algorith

24、m for SV detection 注:A:EWT算法计算测序深度经过;方框的长度为100 bp, 以此作为一个窗, 计算窗内reads的起始位点 (标记区域内) 个数, 作为这个窗的测序深度的计算标准;B:模拟的缺失变异样本基因组的测序深度分布情况;在样本157 224157 238 kb的长度为14 kb的DNA片段上共构建了140个窗, 这些窗的测序深度的分布在正常情况下近似服从期望为70的泊松分布;在157 227157 229 kb的区域内, 序列深度出现了连续且明显的降低则能够判定在这一区域内出现了缺失变异Note:A:The progress of calculating re

25、ad-depth in EWT algorithm;The length of the box is 100 bp, it is called a window, the number of start points (the marked region) of the reads in this window is the standard of the read-depth;B:The distribution of read-depths of simulated sample genome with deletions;From the point 15 722 kb to the p

26、oint 157 238 kb, the DNA fragment s length is 14kb;We built 140 windows, the distribution of the windows ought to obey the poisson distribution whose expectation is 70;In the region be tween 157 227 kb and 157 229 kb, the read-depth decreased obvi ously and continuously;It can be judged that here mi

27、ght be deletions in this region 1.3、 分裂片段方式方法 样本基因组测序获得的reads通常要比对到参考基因组上, 由于发生构造变异, 在某些reads的某个位置的左右两侧, 碱基对的坐标和方向与参考基因组不一致, 这个位置被称为断点 (Break point) 。分裂片段方式方法通过寻找构造变异样本中含有断点的reads上准确的断点位置信息来检测构造变异 (Alkan et al., 2018) (图4A) 。分裂片段方式方法将样本基因的各个reads比对到参考基因组上, 寻找无法比对的reads, 分别在无法比对的reads的特定碱基位置设置断点, 按断点

28、分裂成两小段reads, 再通过观察两个小段reads比对到参考基因组中的情况, 进而判定构造变异情况。 分裂片段方式方法以Pindel算法 (Ye et al., 2018) 、AGE算法 (Abyzov and Gerstein, 2018) 等为代表。以Pindel算法为例, 首先通过SSAHA2软件将所的reads比对到参考基因组上, 寻找华而不实一端能比对到基因组上而另一端无法比对的reads, 再从能够比对的一端开场使用形式增长 (Pattern growth) 算法搜索最大-最小子串, 来寻找断点的精到准确位置, 再将reads按断点分裂成两段, 将片段分别比对到基因组上, 来判

29、定构造变异的详细信息 (图4B) 。 分裂片段方式方法基于对reads的分段来检测构造变异的断点, 能够检测单碱基分辨率的缺失变异和插入变异, 对有明确的断点特征的构造变异具有很好的检测效果, 当reads的长度大于插入片段的长度时, 分裂片段方式方法的拓展还能够用来检测移动元素插入 (mobile-element insertions, MEI) (Mills et al., 2018) 。但仍有大量的构造变异不存在断点特征, 无法通过分裂片段方式方法检测, 且其在具有大量重复片段的区域检测效果不佳。分裂片段方式方法最早是基于Sanger测序法开发的 (Mills et al., 2006)

30、 , 测序片段越长, 检测效果越好, 二代测序数据读长短的特点会严重影响分裂片段方式方法检测的效果。 1.4、 序列拼接方式方法 序列拼接方式方法通过对样本基因组的reads片段进行从头拼接 (De novo assembly) , 重新组装后解码样本基因组的序列, 再将其与参考基因组序列进行比对, 进而能够清楚地判定能否存在构造变异以及构造变异类型 (Alkan et al., 2018) 。 序列拼接的方式方法以ABy SS算法 (Simpson et al., 2018) 、Velvet算法 (Zerbino and Birney, 2008) 和SOA-Pdenovo算法 (Li et

31、 al., 2018) 等为代表。以ABy SS算法为例, 首先根据目的k值, 通过测序片段产生所有可能的长度为k的子串, 移除子串数据集读取误差, 再通过de Bruijn图算法构建初始的重叠群 (Contigs) , 之后使用配对信息来消除Contigs的重叠模糊性, 拓展Contigs的范围, 进而获得最后的拼接结果 (图5A) 。用拼接获得的完好的样本基因组片段与参考基因组片段进行比对时, 在未发生构造变异的区域比对完全一致, 在发生构造变异的区域比对则会出现差异 (图5B) 。 相对于前三种方式方法, 序列拼接方式方法采用了截然不同的非reads比对的思路。从理论上来讲, 假如能够拼

32、接样本基因组的全部序列, 则能够检测出所有的SV与SNV, 但以测序长度为100 bp的Illumina测序仪为代表的第二代测序技术普遍读长偏短, 使得拼接难度大大提升, 同时假如基因组上出现大量重复片段时, 会引发拼接算法的崩溃性错误 (Chaisson et al., 2021) 。怎样提高测序片段长度并改良序列拼接的算法是序列拼接方式方法亟待解决的问题。 图4 使用分裂片段方式方法检测SV原理Figure 4 The principle of Split-read method for SV detection 注:A:构造变异的断点示意, 样本基因组标记区域内为缺失变异区域, 在构造变

33、异区域之外的reads能够正确比对到参考基因组上, 构造变异区域的reads无法正确比对到参考基因组上, 在构造变异区域的起始和终止位置的reads, 其标记之外的部分是能够正确比对的, 标记处的位置即为reads的断点;B:不同构造变异检测时的不同特征, 发生插入变异的DNA片段, 插入片段前后的reads在断点处各有一部分能够比对到参考基因组上的相邻位置;发生缺失变异的DNA片段, 缺失部分的reads按断点能够分别比对到参考基因组前后不同位置Note:A:The figure of the break point of SV, the region inside the marked a

34、rea is deletion region, the Reads out of the mark can be mapped to the reference genome correctly, and the Reads in the variation regions cannot be mapped to the reference genome;In the start and end regions, the part out of the mark can be correctly mapped, and the mark positions are the break poin

35、ts of the Reads;B;The figure of various features when detecting different kinds of structural variants.In the DNA fragments with insertions, the Reads before and after the insertion region can be partly mapped to the adjacent positions of the reference genome;in the DNA fragments with deletions, the

36、 reads can be partly mapped to dispersed positions in reference genome 1.5、 当下构造变异检测方式方法的特点以及发展趋势 当前的测序技术以第二代测序技术为主, 第二代测序技术又称为新一代测序技术, NGS技术的代表是Illumina公司的测序仪, 其每次产生的reads长度在100 bp左右, 重要特点是技术成熟、通量高、测序成本低、测序速度快, 是当前基因组测序的主要手段。借助NGS技术, 能够通过单次测序实验发现不同类型的构造变异, 而且得益于NGS技术的高准确度, 能够准确检测出基因组的拷贝数变化, 且具备了发现完

37、好基因组变异的潜力。同时由于NGS技术高通量的特点, 提高了构造变异检测效率并降低了其成本。但是, NGS技术存在读长短的缺陷, 会制约读对和分段方式方法的检测效率, 且对序列拼接方式方法带来极大困难。使用NGS数据检测构造变异的灵敏度不高, 且大多局限于短片段的缺失变异和插入变异, 无法检测大片段的复杂构造变异。 图5 序列拼接方式方法检测SV原理Figure 5 The principle of Sequence assembly method for SV detection 注:A:为序列拼接经过, 通过大量互相重叠的reads进行拼接, 能够获得长度较长的Contigs, 再对Con

38、tigs进行拼接, 能够获得长片段Scaffold;B部分为含有缺失变异的Scaffold与参考基因组比对示意图, 非缺失部分的序列都能够正常比对到基因组上, 缺失部分则无法正常比对, 由此能够非常直观地得到变异区域的详细信息Note:A:The figure of the progress of sequence assembly, The long Contigs can be achieved by assembling large number of overlapping reads, and the Scaffold can be achieved by assembling co

39、ntigs;B:The figure of the result the Scaffold with deletions mapped to the reference genome;The normal part can be mapped to the reference genome correctly, but the deletion part cannot be mapped correctly;According to this, the specific information of the variant parts can be obtained directly 在国际千

40、人基因组计划于2020年发布1 092个个体的构造变异检测结果中, 所有样本的数据均通过低覆盖度NGS获得, 包括6 x覆盖度的全基因组测序 (whole-genome sequencing, WGS) 和全外显子组测序 (whole-exome sequencing, WES) , 运用BreakDancer、CNVnator、Delly、Pindel、Genome STRiP (Handsaker et al., 2018) 等构造变异检测算法, 检测了14 000多个大片段的缺失变异以及小片段的串联重复序列;而在2021年发布的构造变异检测结果中, 除了使用了低覆盖度的全基因组测序, 还

41、参加了单分子实时测序、SNP微阵列等各种技术相结合的测序手段, 使用同样的算法, 共检测了68 000多个构造变异, 包括了缺失、重复、倒置、插入等不同类型的构造变异, 华而不实有48 000多个构造变异是从未发现的, 而且近一半的构造变异没有明显的断点特征。 比照来看, 由于测序技术的区别, 固然采用一样的算法, 但两次检测构造变异的结果存在宏大差异。仅仅采用低覆盖度的二代测序数据只能检测出相对少量的SV, 且大多只局限于缺失变异。同时, 不同的构造变异被检测出的程度也不尽一样, 据估计, 68%的倒位变异和35%的重复变异尚未被检测出;相反, 80%的缺失变异已经被检测。所以, 仅仅采用低

42、覆盖度的二代测序产生的数据来检测构造变异已经逐步无法知足检测的需求。 对于怎样提高构造变异的检测水平, 能够从3个方面入手 (Huddleston and Eichler, 2021) 。 (1) 提高测序深度, 改良测序形式:NGS的测序深度至少要到达30 x, 而不是简单的6 覆盖度, 这样才能够提高检测构造变异的灵敏度。同时最好以家庭为单位来进行测序, 以了解表型特征的传递以及变异频率等信息; (2) 提高测序长度, 完善序列拼接算法:使用单分子实时测序 (Single molecule real-time sequencing) 等长片段测序方式方法提高Reads长度, 随着读长增加,

43、 序列拼接算法的效果会出现显着提高, 序列拼接的难度也会显着降低, 实现基因组的完全解码成为可能; (3) 综合使用检测算法, 采用读深方式方法、读对方式方法、分裂片段方式方法和序列拼接方式方法相结合的构造变异检测方式方法, 例如CNVer算法 (Medvedev et al., 2018) 、Genome STRiP算法等弥补单一方式方法的缺乏。 2、 构造变异检测前沿技术和新方式方法 2.1、 基因组分析新技术 最近几年来, 在基因组分析上出现了很多新技术, 这些技术都围绕着获取长片段的基因组测序序列的进行, 主要分为三类: (1) 直接获取长片段的新测序技术, 即第三代测序技术; (2)

44、 对NGS获得的短片段进行处理获取长片段的技术, 即连Link-reads技术; (3) 构建基因组物理图谱辅助序列拼接的技术, 即光学图谱技术。 第三代测序技术以Pacific BioSciences公司的单分子实时测序 (single molecule real-time, SMRT) 技术 (Rhoads and Au, 2021) 为代表。SMRT技术通过荧光信号获取序列信息, 其优点是读长超长, 平均读取长度能够到达16 kb左右, 在基因组组装和构造变异检测方面能够起突破性的作用。然而三代测序技术相较于二代测序技术错误率高, 准确率在85%左右, 固然能够通太多次重复测序使测序准确

45、率到达95%以上, 但成本也会成倍增加;测序通量低, 单次测序的通量是MB级别, 与NGS的通量差距宏大, 因而测序成本高, 无法大规模应用。 Linked-reads技术 (Kitzman, 2021) 以10X Genomics公司的GemCode平台为代表。GemCode平台对基因组上同一区域内的DNA片段标记以一样的特殊碱基序列, 在通过Illumina平台测序后, 连接一样特殊碱基序列标记的DNA片段, 产生一种新的数据类型:连接片段 (Linked-reads) , 进而能够以相对较低的成本来获得长度到达10 kb以上的测序片段, 进而能更好地进行基因组组装并提高构造变异检测灵敏度

46、。Gemcode的缺点在于其对样本质量要求高, 需要制备大小不同的文库, 且其测序基础是基于Illumina测序的, 所以无法改善高GC或低GC含量时测序覆盖效果较差的情况 (Ross et al., 2020) 。 光学图谱技术又被称为新一代图谱 (next-generational mapping, NGM) 技术, 以BioNano公司的Irys平台为代表。Irys平台通过酶切技术和荧光标记成像技术构建基因组的物理图谱, 描绘DNA上能够辨别的标记的位置 (包括限制性内切酶的酶切位点, 基因等) 和互相之间的距离, 构建基因组的宏观框架, 按照框架能够使测序信息准确地回归到染色体上, 进

47、而提高序列拼接的长度和准确度, 解决在高度重复区域的基因组组装和构造变异检测问题。在基因组分析方面, 光学图谱技术只是一项辅助技术, 但其能够很好地复原DNA分子的真实信息, 辅助序列重新组装, 并且能够与第二、第三代测序技术完美兼容, 具有重要的应用价值。 2.2、 融合长片段测序和物理图谱的构造变异检测方式方法 随着上述新技术的出现, 基因组测序的片段长度大大提高, 弥补了序列拼接方式方法的缺陷, 其检测效果获得了突破性地提高, 能够检测大片段和复杂的构造变异。从最新的关于构造变异的相关报道来看, 以NGS短片段数据结合长片段测序数据, 辅助以基因组物理图谱技术, 使用序列拼接方式方法检测

48、构造变异的流程大概分为两个部分 (图6) : (1) 对长测序片段进行序列拼接, 构成长度在MB级别的Contigs, NGS短片段补充细节, 将Bionano基因组图谱与Contigs相结合, 构建大片段的Scaffolds, 与参考基因组比对, 检测构造变异; (2) 以长片段数据为框架, 对NGS短片段数据进行序列拼接, 将拼接获得的Contigs与参考基因组比对, 检测构造变异。基于以上方式方法, 在构造变异的检测上有了新的突破。 2021年6月, Pacific Biosciences (PacBio) 公司给出了SMRT测序组装人类基因组的成果 (Pendleton et al.,

49、 2021) , 选用的样本是NA12878。其主要使用SMRT测序数据结合Bionano物理图谱技术, 构建样本基因组Scaffolds, 再使用NGS测序数据填补缺口, 使用序列拼接方式方法等进行构造变异检测。使用SMRT测序数据拼接获得的Contigs的N50长度能够到达900 kb以上, Scaffold的N50长度高达30 MB, 相对于NGS测序数据拼接的长度有了显着提高。在检测构造变异方面, 除了检测出了各种小片段的构造变异, 以及类型为插入、缺失以及片段重复的90多个长度在6 kb以上的长片段SV, 更是通过基因组图谱检测出了长度在100400 kb之间的8个大片段缺失变异与11个大片段插入变异。 2021年12月, 10 Genomics公司给出了Linkedreads测序组装人类基因组的结果 (Mostovoy et al., 2021) , 选用的样本同样是NA12878。其首先对NGS数据使用SOAP de novo算法进行拼接, 再结合10 Genomics的Gemcode平台产生的连接读取数据, 构成大片段的scaffold, 最后再与

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 毕业论文 > 文化交流

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁