《2022年高通量测序-名词解释.docx》由会员分享,可在线阅读,更多相关《2022年高通量测序-名词解释.docx(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 高通量测序基础学问汇总一代测序技术:即传统的 Sanger测序法, Sanger法是依据核苷酸在待定序列模板上的引物点开头,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以 A、T、C、G 终止的四组不同长度的一系列核苷酸,每一次序列测定由一套四个单独的反应构成,每个反应含有全部四种脱氧核苷酸三磷酸dNTP ,并混入限量的一种不同的双脱氧核苷三磷酸 ddNTP ;由于 ddNTP缺乏延长所需要的3-OH 基团,使延长的寡聚核苷酸挑选性地在 G、A、T 或 C 处终止,使反应得到一组长几百至几千碱基的链终止产物;它们具有共同的
2、起始点, 但终止在不同的的核苷酸上,片段,通过检测得到 DNA 碱基序列;可通过高辨论率变性凝胶电泳别离大小不同的二代测序技术:next generation sequencingNGS 又称为高通量测序技术,与传统测序相比, 二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定,从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序 Deep sequencing;NGS 主要的平台有Roche454 & 454+ ,Illumina HiSeq 2000/2500、GA IIx 、MiSeq , ABI SOLiD等;基因 :Gene ,是遗传的物质基
3、础, 是 DNA 或 RNA 分子上具有遗传信息的特定核苷酸序列;基因通过复制把遗传信息传递给下一代,使后代显现与亲代相像的性状;DNA :Deoxyribonucleic acid,脱氧核糖核酸,一个脱氧核苷酸分子由三部分组成:含氮碱基、脱氧核糖、磷酸;脱氧核糖核酸通过 3,5- 磷酸二酯键按肯定的次序彼此相连构成长链,即 DNA 链, DNA 链上特定的核苷酸序列包含有生物的遗传信息,是绝大部分生物遗传信息的载体;名师归纳总结 - - - - - - -第 1 页,共 11 页精选学习资料 - - - - - - - - - RNA :Ribonucleic Acid ,核糖核酸,一个核糖
4、核苷酸分子由碱基,核糖和磷酸构成;核糖核苷酸经磷酯键缩合而成长链状分子称之为 RNA 链; RNA 是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体;不同种类的 RNA 链长不同, 行使各式各样的生物功能,如参加蛋白质生物合成的 RNA 有信使 RNA 、转移 RNA 和核糖体 RNA 等;16S rDNA :S 是沉降系数,是反映生物大分子在离心场中向下沉降速度的一个指标,值越高, 说明分子越大; rDNA ribosome DNA指的是原核生物基因组中编码核糖体 RNArRNA 分子对应的 DNA 序列, 16S rDNA 是原核生物编码核糖体小亚基 16S rRNA 的基因;细菌 r
5、RNA 核糖体 RNA 按沉降系数分为 3 种,分别为 5S、16S 和 23S rRNA ;16S rDNA 是细菌染色体上编码 16S rRNA 相对应的 DNA 序列,存在于全部细菌染色体基因中; 16S rRNA 普遍存在于原核生物中;16S rRNA 分子,其大小约 1540bp ,既含有高度保守的序列区域,又有中度保守和高度变化的序列区域,其可变区序列因细菌不同而异,恒定区序列基本保守,所以可利用恒定区序列设计引物,将16S rDNA片段扩增出来,通过高通量测序利用可变区序列的差异来对不同菌属、菌种的细菌进行分类鉴定;cDNA :complementary DNA,互补脱氧核糖核酸
6、,与 RNA 链互补的单链DNA ,以 RNA为模板,在反转录酶的作用下所合成的DNA ;18-30nt,包括Small RNA :生物体内一类高度保守的重要的功能分子,其大小在microRNA、siRNA 、 snRNA 、snoRNA 和 piRNA piwi-interacting RNA等,它的主要功能是诱导基因缄默,调控细胞生长、发育、基因转录和翻译等生物学过程;以 miRNA为例介绍它们的功能: miRNA与 RNA 诱导缄默复合体 RNA induced silencing complex, 名师归纳总结 - - - - - - -第 2 页,共 11 页精选学习资料 - - -
7、 - - - - - - RISC结合,并将此复合体与其互补的mRNA序列结合,依据靶序列与miRNA的互补程度,从而导致靶序列降解或干扰靶序列蛋白质的翻译过程;SD 区域: Segmentduplication,串联重复是由序列相近的一些 DNA 片段串联组成;串联重复在人类基因多样性的灵长类基因中发挥重要作用;Genotypeand phenotype:基因型与表型,基因型是指某一生物个体全部基因组合的总称;表型,又称性状,是基因型和环境共同作用的结果;基因组 :Genome ,单倍体细胞核、 细胞器线粒体、 叶绿体 或病毒粒子所含的全部 DNA分子或 RNA 分子;全基因组 de nov
8、o 测序 :又称从头测序,它不依靠于任何现有的序列资料,而直接对某个物种的基因组进行测序,然后利用生物信息学分析手段对序列进行拼接、组装, 从而获得该物种的基因组序列图谱;全基因组重测序:对已有参考序列Reference Sequence物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析;全基因组重测序能够发觉大量的单核苷酸多态性位点SNP 、拷贝数变异Copy Number Variation,CNV 、插入缺失 InDel ,Insertion/Deletion、结构变异Structure Variation,SV等变异类型,以精确快速的方法将单个参考基因组信息上
9、升为群体遗传特点;转录组 :Transcriptome,是指特定生长阶段某组织或细胞内全部转录产物的集合;狭义上名师归纳总结 指全部 mRNA的集合;第 3 页,共 11 页- - - - - - -精选学习资料 - - - - - - - - - 转录组测序 :对某组织在某一功能状态下所能转录出来的全部RNA 进行测序,获得特定状态下的该物种的几乎全部转录本序列信息;通常转录组测序是指对mRNA进行测序获得相关序列的过程;其依据所讨论物种是否有参考基因组序列分为转录组考基因组序列和转录组重测序有参考基因组序列;de novo 测序无参外显子组 :Exome ,人类基因组全部外显子区域的集合称
10、为外显子组,是基因中重要的编码蛋白的部分,并涵盖了与个体表型相关的大部分的功能性变异;外显子组测序 :是指利用序列捕获技术将全基因组外显子区域DNA 捕获并富集后进行高通量测序的基因组分析方法;外显子测序相对于基因组重测序成本较低,对讨论已知基因的SNP 、InDel 等具有较大的优势;目标区域测序: 应用相关试剂盒对基因组上感爱好的目标区域进行捕获富集后进行大规模测序,一般需要依据目标区域特地定制捕获芯片;宏基因组: Metagenome,指特定生活环境中全部微小生物遗传物质的总和;它包含了可培育的和未可培育的微生物的基因;目前主要指环境样品中的细菌和真菌的基因组总和;宏基因组 16S rR
11、NA 测序 :可以对特定环境下的细菌和古细菌群体的微生物种类和风度进行有效的鉴定;对不同地点、不同条件下的多个样本16S rRNA的 PCR 产物平行测序,可以比较不同样本间的微生物组成及成分差异,进而阐明物种丰度、种群结果等生态学信息;表观遗传学 :Epigenetics,是指在基因组DNA序列没有转变的情形下,基因的表达调控名师归纳总结 和性状发生了可遗传的变化;表观遗传的现象许多,已知的有DNA甲基化DNA 第 4 页,共 11 页methylation,基因组印记genomic impriting,母体效应maternal effects ,- - - - - - -精选学习资料 -
12、- - - - - - - - 基因缄默 gene silencing,核仁显性,休眠转座子激活和RNA 编辑 RNA editing等;全基因组甲基化测序:DNA 甲基化是指在 DNA 甲基化转移酶的作用下,在基因组 CpG 二核苷酸的胞嘧啶 5 碳位共价键结合一个甲基基团;DNA 甲基化已经成为表观遗传学和表观基因组学的重要讨论内容;甲基化是基因表达的主要调控方式之一,讨论染色体 DNA 甲基化情形是明白基因调控的重要手段;对已经有参考基因组的物种的基因组 DNA 用标准亚硫酸氢盐 Bisulfite 处理后,未甲基化的胞嘧啶 C 会脱氨基形成尿嘧啶 U,经 PCR 扩增,U 替换为胸腺嘧
13、啶 T,而发生甲基化的胞嘧啶 C 保持不变; 将处理组与参考基因组序列进行比对,可发觉甲基化位点并对甲基化情形进行定量分析的方法叫做全基因组甲基化测序;ChIp-Seq:Chromatin Immunoprecipitation sequencing,即染色质免疫共沉淀-测序技术, 即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA 片段;对富集得到的 DNA 片段进行纯化与文库构建,然后进行高通量测序,从而得到全基因组范畴内可以与目的蛋白相互作用的 DNA 片段的方法叫做 ChIP-Seq ;数字表达谱 :Digital Gene Expression Profile,利用新一代高通
14、量测序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情形,即运用特定的酶对 mRNA 距 polyA tail 21-25nt 的位置进行酶切,所获得的带polyA 尾的序列 Tag 通过高通量测序,该 tag 被测得的次数即是对应基因的表达值;数字基因表达谱已被广泛应用于基础科学讨论、医学讨论和药物研发等领域;特点是经济,但获得的数据量有限;假设想获得转录本的更多信息的话,一般都采纳转录组测序的方法来测序;名师归纳总结 - - - - - - -第 5 页,共 11 页精选学习资料 - - - - - - - - - SBS: sequencing
15、 by synthesis ,边合成边测序反应,是指在DNA 聚合酶的作用下延长碱基所进行的测序;Run :指高通量测序平台单次上机测序反应;Lane :也叫 channel ,单泳道,每条泳道包含2 列 column ,每列分布有多个小区 tile ,如图 1;不同的测序平台 Flow Cell 中所含的 Lane 不一样,如 HiSeq 2000 是 2 个 flow cell,每个 flow cell 中含有 8 个 lane ;HiSeq 2500 是包含 2 个 mini flow cell快速运行模式和 2 个 high output flow cell ,两个模式不能同时运行,其
16、中每个 mini flow cell 包含 2个 lane ,每个 high output flow cell 中包含 8 个 lane ;Miseq 系统的 flow cell 仅含有 1个 lane ;Tile :小区,每条 Lane 中有 2 列 tile ,合计 120 个小区;每个小区上分布数目繁多的簇结合位点,如图1;测序平台中会采纳桥式PCR 方式生产 DNA 簇,每个 DNA 簇才Cluster :簇,在 Illumina能产生亮度到达 CCD 可以辨论的荧光点;Index :标签,在 Illumina 平台的多重测序 Multiplexed Sequencing过程中会使用
17、Index来区分样品, 并在常规测序完成后,针对 Index 部分额外进行 7 个循环的测序, 通过 Index的识别,可以在 1 条 Lane 中区分 12 种不同的样品;Barcode:与 Index 同义,多指在 Roche GS FLX 454 测序平台的 16S PCR 产物的测序过程中接头序列所包含的的用来区分不同样本的序列;PF% :PF%是指符合测序质量标准的簇的百分比,与测序的通量相关联;名师归纳总结 - - - - - - -第 6 页,共 11 页精选学习资料 - - - - - - - - - Fasta :一种序列储备格式;一个序列文件假设以FASTA 格式储备,就每
18、一条序列的第一行以“” 开头,而跟随 “ ” 的是序列的 ID 号即唯独的标识符及对该序列的描述信息;其次行开头是序列内容,序列短于 61nt 的,就一行排列完;序列长于 61nt 的,就每行存储 61nt ,最终剩下小于 61nt 的,在最终一行排列完;其次条序列另起一行,仍旧由“ ”和序列的 ID 号开头,以此类推;Fastq : Fastq 是 Solexa测序技术中一种反映测序序列的碱基质量的文件格式;第一行以“ ” 符号开头,后面紧跟一个序列的描述信息;其次行是该序列的内容;第三行以“+ ”符号开头, 后面可以是该序列的描述信息,碱基所对应的测序质量值;也可省略; 而第四行是其次行中
19、的序列内容每个Read :高通量测序平台产生的序列标签就称为 reads ;基因组组装: 进行基因组或转录组de novo 测序时,物种基因组经构建不同的文库测序所得的片段需经过生物信息学手段对其进行整理拼接,并通过肯定的标准如 N50 对后续组装结果进行质量评估等,最终获得高精确度的基因组序列的过程;基因组测序深度: 测序得到的总碱基数与待测基因组大小的比值;如测一个物种的全基因组的重测序,基因组大小约为 5G ,测序获得 100G 的数据量,就测序深度为 20 ;基因组掩盖率: 指测序获得的序列占整个基因组的比例;由于基因组中的高 GC 、重复序列等复杂结构的存在,测序最终拼接组装获得的序
20、列往往无法掩盖有所的区域,这部分没有获得的区域就称为 Gap ;例如一个细菌基因组测序,掩盖率是 98% ,那么仍有 2% 的序列区域是没有通过测序获得的;名师归纳总结 - - - - - - -第 7 页,共 11 页精选学习资料 - - - - - - - - - Contig:在 de novo 测序中拼接软件基于 reads 之间的 overlap 区,拼接获得的中间没有 gap 的序列称为 Contig 重叠群;Scaffold:基因组 de novo 测序, 通过 reads 拼接获得 Contigs 后,往往仍需要构建 454 Paired-end 库或 Illumina Mat
21、e-pair 库,以获得肯定大小片段如 3Kb 、8Kb 、10Kb 、20Kb 两端的序 列;基于这些序列,可以确定一些 Contig 之间的次序关系,这些先后顺序已知的 Contigs 组成 Scaffold ;Contig N50:Reads 拼接后会获得一些不同长度的 Contigs ;将全部的 Contig 长度相加,能获得一个 Contig 总长度;然后将全部的 Contigs 依据从长到短进行排序,如获得 Contig 1,Contig 2,Contig 3 Contig 25;将 Contig 依据这个次序依次相加,当相加的长度到达 Contig 总长度的一半时, 最终一个加上
22、的 Contig 长度即为 Contig N50;举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig 总长度 *1/2 时,Contig 4 的长度即为 Contig N50 ;Contig N50 可以作为基因组拼接的结果好坏的一个判定标准;Scaffold N50:Scaffold N50 与 Contig N50 的定义类似; Contigs 拼接组装获得一些不名师归纳总结 同长度的 Scaffolds ;将全部的Scaffold长度相加,能获得一个Scaffold总长度;然后将第 8 页,共 11 页全部的 Scaffolds依据从长到短进行
23、排序,如获得Scaffold 1,Scaffold 2,Scaffold 3 Scaffold 25 ;将 Scaffold依据这个次序依次相加,当相加的长度到达Scaffold总长度的一半时,最终一个加上的Scaffold长度即为 Scaffold N50;举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度 *1/2时, Scaffold 5 的长度即为Scaffold N50;Scaffold N50可以作为基因组拼接的结果好坏的一个判定标准;- - - - - - -精选学习资料 - - - -
24、 - - - - - Isotig:指在转录组de novo测序时,用454 平台测序完成后组装出的结果,一个isotig可视为一个转录本;Isogroup: 指转录组de novo 测序中,用454 平台测序完成后组装出的结果获得的可聚类到同一个基因的转录本群;GC% :GC 含量, 全基因组范畴内或在特定基因组序列内的所占的比率;4 种碱基中, 鸟嘌呤和胞嘧啶SNP :single nucleotide polymorphism,单核苷酸多态性,个体间基因组 DNA 序列同一位置单个核苷酸变异 替代、插入或缺失 所引起的多态性;不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差异
25、的现象;有这种差异的基因座、DNA 序列等可作为基因组作图的标志;SNP 在 CG 序列上显现最为频繁,而且多是 C 转换为 T ,缘由是 CG 中的 C 常为甲基化的, 自发地脱氨后即成为胸腺嘧啶;一般而言, SNP 是指变异频率大于 1 %的单核苷酸变异, 主要用于高危群体的发觉、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础讨论等;InDel :Insertion/Deletion,插入 / 缺失, 在基因组重测序进行mapping时, 进行容 Gap的比对并检测可信的 Short InDel,如基因组上小片段 50bp 的插入或缺失;在检测过程中, Gap 的长度为 15 个碱基
26、;CNV :copy number variation,基因组拷贝数变异,是基因组变异的一种形式,通常使名师归纳总结 基因组中大片段的DNA 形成非正常的拷贝数量;如人类正常染色体拷贝数是2 ,有些染色第 9 页,共 11 页体区域拷贝数变成1 或 3 ,这样, 该区域发生拷贝数缺失或增加,位于该区域内的基因表达量 也 会 受 到 影 响 ; 如 果 把 一 条 染 色 体 分 成A-B-C-D四 个 区 域 , 就- - - - - - -精选学习资料 - - - - - - - - - A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发生了C 区域的扩增及缺
27、失,扩增的位置可以是连续扩增如 A-B-C-C-D 也可以是在其他位置的扩增,如 A-C-B-C-D;SV :structure variation,基因组结构变异,染色体结构变异是指在染色体上发生了大片段的变异;主要包括染色体大片段的插入和缺失引起 CNV 的变化,染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组inter-chromosome trans-location等;基因表达差异:是指某一物种或特定细胞在特定时期 / 功能状态下,多样本间不同基因在mRNA 水平上表达量的差异,可通过RPKM/FPKM值来表达;etal.,2022 ,是RPKM :Reads
28、 Per Kilobase per Million mapped reads Mortazavi指每 1 百万个 map 上 的 reads 中 map 到外显子的每 1K 个碱基上的 reads 个数;运算公式四 RPKM=10 6C/NL/10 3,其中 C 为唯独比对到目的基因的 reads 数; N 为唯独比对到参考基因的总 reads 数,L 是目的基因编码区的碱基数;RPKM 法可以排除基因长度、数据量之间的差异进行运算基因表达量;可变剪切: alternative splicing大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种mRNA ,因而只产生一种蛋白质;但有
29、些基因产生的mRNA前体可按不同的方式剪接,产生出两种或更多种mRNA ,即可变剪接;基因融合: Gene fusion ,将基因组位置不同的两个或多个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因或嵌合体基因,该基因有可能翻译出融合或嵌合体蛋白;名师归纳总结 - - - - - - -第 10 页,共 11 页精选学习资料 - - - - - - - - - 基因家族分析: 通过进行 BLASTN/ HMM注释;比对等查找基因归属的基因家族并添加相关功能基因组注释: Genome annotation 是利用生物信息学方法和工具 ,对基因组全部基因的生物学功能进行高通量注释 ,是
30、当前功能基因组学讨论的一个热点;基因组注释的讨论内容包括基因识别和基因功能注释两个方面;基因识别的核心是确定全基因组序列中全部基因的确切位置;常见的基因组注释有 GO 注释、 pathway 分析;GO 注释: gene ontology 是指对基因功能的注解;GO 强调基因产物在细胞中的功能;GO 不能反映此基因的表达情形,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关, 但 GO 支持其他的OBOopen biology ontologies成员成立其他类型的本体论数据库如发育本体学、蛋白组本体学、基因芯片本体学等名师归纳总结 - - - - - - -第 11 页,共 11 页