《转录组研究新技术RNA-Seq及其应用 优先出版.doc》由会员分享,可在线阅读,更多相关《转录组研究新技术RNA-Seq及其应用 优先出版.doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、HEREDITAS (Beijing) 2011 年 11 月 , 33(11): 1191 1202 ISSN 0253-9772 综 述 DOI: 10.3724/SP.J.1005.2011.01191 转录 组研究 新技术 : RNA-Seq 及 其应用 祁云 霞 1,2 , 刘 永斌 2 , 荣威恒 2 1. 内蒙古农业大学动物科学学院 , 呼和浩特 010018; 2. 内蒙古自治区农牧业科学院 , 呼和浩特 010031 摘要 : 转录 组是 特定 组织或 细胞 在某一 发育阶 段或 功能 状态下 转录 出来的 所有 RNA 的集 合。 转录组 研究 能够 从整 体水平 研究
2、基 因 功能以 及基因 结构 , 揭示 特定 生物学 过程 以及疾 病发 生过程 中的 分子机 理。 RNA-Seq 作为 一种 新的高 效、快捷的 转录组 研究 手段正 在改 变着人 们对 转录组 的认 识。 RNA-Seq 利用高 通量 测序技 术对 组织 或细 胞中所 有 RNA 反 转录 而成的 c DNA 文 库进 行测序 , 通 过统计 相关 读段 ( reads)数计 算出不 同 RNA 的 表达量 , 发现新的转录本 ; 如果有基因组参考序列 , 可以把转录本映射回基因组 , 确定转录本位置、剪 切情况等更为全 面的 遗传信 息 , 已广泛 应用 于生物 学研 究、医 学研 究
3、、临 床研究 和药 物研发 等。文 章主 要介 绍了 RNA-Seq 原理 、 技术 特点 及其 应用 , 并就 RNA-Se q 技 术面临 的挑 战和 未来 发展 前景进 行了 讨论 , 为 今后该 技术 的研 究与 应用 提供 参考。 关键词 : RNA-Seq; 转录组 ; 新 一代测 序技术 RNA-Seq and its applications: a new technology for transcriptomics QI Yun -Xia , LIU Yong-Bin , RONG Wei-Hen g 1. College of Animals Science, Inner
4、Mongolia Agriculture University, Huhhot 010018, China; 2. Inner Mongolia Academy of Agriculture-Animal Sciences, Huhhot 0 10031, China Abstract: The transcriptome is the complete set of transcripts for certain type of cells or tissues in a specific develop- mental stage or physiological condition. T
5、ranscriptome analysis can provide a comprehensive understanding of molecular mechanisms involved in specific biological processes and diseases from the information on gene structure and function. Transcriptome has been challenging due to the efficient and fast procedures of RNA-seq. RNA-seq, refers
6、to the use of high-throughput sequencing technologies to sequence cDNA library transcribed from all RNAs in tissues or cells, can be used to quantify, profile, and discover RNA transcripts by sequence reads. Thus, the transcripts can then be mapped on the reference genome to get comprehensive geneti
7、c information, such as transcription localization and alternative splicing status. RNA-Seq has been widely used in biological, medical, clinical and pharmaceutical research. The detailed principles, tech- nical characteristic s and applications of RNA-seq are reviewed here, and the challenges and ap
8、plication potentials of RNA-seq in the future are also discussed. This will present the useful information for other researchers. 收稿日期 : 201101; 修回日期 : 20110422 基金项目 : 内蒙古自然科学基金项目 (编号: 2010BS0405)和国家现代肉羊产业技术体系 (编号: nycytx-39)资助 作者简介 : 祁云霞 , 在读博士 , 研究方向:分子生物学与动物育种。 Tel: 15560908924; E-mail: qi_yunxia
9、163. com 通讯作者 : 刘永斌 , 博士 , 副研究员 , 研究方向:分子生物学与牛羊育种。 E-mail: ybliu117 荣威恒 , 研究员 , 博士生导师 , 研究方向:动物遗传育种。 E-mail: 网络出版时间 : 2011-7-28 17:21:30 URL: http:/ /detail/11.1913.R.20110728.1721.002.html 1, 2 2 2 1192 HEREDITAS (Beijing) 2011 第 33 卷 Keywords: RNA- Seq; tr anscr iptome; next-generation sequencin
10、g ( NGS) te chnology 随着后基因组时代的到来 , 转录组学、蛋白质 组学、代谢组学等各种组学技术相继出现 , 其中转 录组学 是率先发展起来以及应用最广泛的技术 。 遗传学中心法则表明 , 遗传信息在精密的调控下通 过信使 RNA(mRNA)从 DNA 传递到蛋白质。因此 , mRNA 被认为是 DNA 与蛋白质之间生物信息传递 的一个 桥梁 , 而所有表达基因的身份以及其转录 水平 , 综合起来被称作转录组 (Transcriptome) 。转 录组是特定组织或细胞在某一发育阶段或功能状态 下转录出来的所有 RNA 的总和 , 主要包括 mRNA 和 非编码 RNA(no
11、n-coding RNA, ncRNA) 。 转录 组研究是基因功能及结构研究的基础和出 发点 , 了解转录组是解读基因组功能元件和揭示细 胞及组织中分子组成所必需的 , 并且对理解机体发 育和疾病具有重要作用。整个转录组分析的主要目 标是:对所有的转录产物进行分类 ; 确定基因的转 录结构 , 如其起始位点 , 5和 3末端 , 剪接模式和其 他转录后修饰 ; 并量化各转录本在发育过程中和不 同条件下 (如生理 /病理 )表达水平的变化 。 在过去的十几年里 , 杂交技术的发展 , 再加上 以标签序列为基础的方法的应用 , 第一次使研究人 员对这一领域 有了深入的了解 , 但毋庸置疑 , 随
12、着 新一代测序 (Next-generation s equencing, NGS)平台 的市场化 , RNA-Seq(RNA sequencing)技术的应用已 经彻底改变了转录组学的思维方式。 RNA-Seq, 即 RNA 测序又称转录组测序 , 是最近发展起来的利用 深度测序技术进行转录组分析的技术 , 该技术能 够在单核苷酸水平对任意物种的整体转录活动进行 检测 , 在分析转录本的结构和表达水平的同时 , 还 能发现未知转录本和稀有转录本 , 精确地识别 可变 剪切位点以及 cSNP(编码序列单核苷酸多态性 ), 提 供更为全面的转录组信息。相对于传统的芯片杂交 平台 , RNA-Se
13、q 无需预先针对已知序列设计探针 , 即可对任意物种的整体转录活动进行检测 , 提供更 精确的数字化信号 , 更高的检测通量以及更广泛的 检测范围 , 是目前深入研究转录组复杂性的强大工 具 , 已广泛应用于生物学研究、医学研究、临床研 究和药物研发等。本文在扼要介绍支持 RNA-Seq 的 新一代测序平台的基础上 , 对 RNA-Seq 原理 、特点 以及到目前为止在研究真核生物转录特征方面的进 展做一个较为全面的综述 , 并对其中有待进一步研 究的问题进行了展望。 1 RNA 测序技术平台 原则上 , 所有的高通量测序技术都能进行 RNA 测序。自 2005 年以来 , 以 Roche 公
14、司的 454 技术、 Illumina 公司的 Solexa 技术和 ABI 公司的 SOLiD 技 术为标志的新一代测序技术相继诞生 , 之后 Helicos Biosciences 公司又推出单分子测序 (Single molecule sequencing, SMS)技术。新一代测序又称作深度测序 或高通量测序 , 是相对于传统的 Sanger 测序而言 , 主要特点 是测序通量高 , 测 序时间和成本 显著下 降。各平台测序原理及序列长度的差异决定了各种 高通量测序仪具有不同的应用侧重。这就要求我们 在熟悉各种高通量测序仪内在技术特点的基础上进 行选择。各平台比较见表 1。 1.1 I
15、llumina/Solexa Illumina 公司目前使用最多的测序仪是 Genome Analyzer(GA), 其 专利 核心 技术 是 DNA 簇 (DNA cluster) 和 可 逆 性 末 端 终 结 (Reversible termina- tor) , 采用边合成边测序 (Sequencing by synthesis, SBS)的原理 , 测序流程如下 : (1)测序文库的构建。 将 DNA 随机打断后在每条 DNA 链两端加上接头 (adapter); (2)锚定桥接。每一个带接头的 DNA 片段 与测序通道上的接头引物随机结合 , 添加未标记的 dNTP 和普通 Taq
16、 酶进行固相桥式 PCR 扩增 ; (3) 产 生 DNA 簇。通过变性和桥式扩增循环在每个测序通 道表面获得数百万条密集成簇的待测 DNA 片段 ; (4) 单碱基延伸测序。将 4 种被标记的 dNTP、引物和 DNA 聚合酶添加到测序通道内以启动测序循环。通 过激光的激发 , 从每个测序通道的测序簇里面产生 出对应的荧光 , 通过判断捕获的荧光颜色记录待测 序簇的碱基。 GA 作为新一代测序技术平台 , 具有高准确性、 1 2 2, 3 2,3 3 第 11 期 祁云霞等 : 转录组研究 新技术: RNA-Seq 及其应用 1193 表 1 主要 高通 量测序 平台比 较 GA IIx 测
17、序原理 可逆染料终 结合成测序 平均读长 (b p) 100 数据量 (Gb/run) 5460 每 Mb 费用 ( ) 2 仪器价格 ( ) 540,000 准确率 (%) 98 99 主要错误类型 替换 运行时间 (d) 4 优点 性价比高 ; 目前应用最 广泛的平台 缺点 读长短 Roche/454 GS FLX 焦磷酸合成 测序 400 0.5 60 500,000 99 插入 , 缺失 0.35 读长最长 ; 运行速度快 试剂花费高 ; 同源重 复序列出错率较高 ABI/SOLiD SOLiD3 连接测序 50 100 2 595,000 99.94 替换 7 准确率最高 读长短 ;
18、 运行时间长 Helicos HeliScope 单分子合成 测序 35 21 35 1 999,000 97 99.8 缺失 8 产量高 ; 文库制备 简单 , 不需要 DNA 扩增或连接 失误率高 参考文献 47 47 8,9 10 11 9 8,10 47, 11 / / 注: 由于 NGS 技术 发展迅 速 , 费用和 运行时 间可能 会降低 和缩短 , 而 序列的 长度、 数 据量 和准确 率将增 加。 高通量、高灵敏度和低运行成本等突出优势 , 是目 文库构建和 PCR 扩增方面与 GS FLX 系统类似 , 微 前使用最广泛的新一代测序平台。近两年来 , Illu- 珠通过接头捕
19、获 DNA 片段 , 并进行乳液 PCR。接下 mina/Solexa 测序平台 不断升级 , 相继推出了 GA 来的测序则是 SOLiD 的独特之处 :以连接反应取 IIx、 HiSeq 2000 等测序仪。 代传统的聚 合酶延伸反应。连接反应的底物是 8 碱 1.2 Roche/454 基单链荧光探针混合物 , 探针的 5端标记有荧光 , 3 低于 Solexa 测序的价格。但同样地 , 由于序列读长 1.3 ABI/SOLiD 较短 , 测序后数据的装配需要有坚实的生物信息学 SOLiD(supported oligo ligation detection)系统在 分 析基础。 Illu
20、mina/Solexa 平台和机型 16 端 1 2 位碱基对与 5端荧光信号的颜色对应 , 由于 454公司可谓新一代测序技术的奠基人 , 2003 年 2个碱基有 16 种组成情况 , 而只有 4 色荧光 , 因此 底推出了革命性的基于焦磷酸测序法 (pyrosequencing) 每色荧光对应 4 种碱基组成 , 而碱基序列则通过以 的超高通量基因组测序系统 , 开创了边合成边测 下测序循 环过程来确定:每次SOLiD 测序包括五轮 序的先河。之后 , 454 公司被罗氏诊断公司收购 , 推 测序反应 , 每轮测序反应又由多个连接反应组成。 出了性能更优的第二代基因组测序系统 Genom
21、e 第一轮测序的第一次连接反应将参入 1 条探针 , 测 Sequencer FLX System。其测序步骤为: (1)测序文库 序仪记录下反映该条探针 3端 1 2 位编码区颜色信 构建。将基因组DNA 或待测样品 DNA 用物理方法 息 , 随后除去 6 8 位碱基及 5末端荧光基团 , 这样 打碎成 300800 bp 的片段后 , 在片段两端加上锚定 实际上连接了 5个碱基 , 并获得 1 2 位的颜色信 接头 ; (2)乳液PCR(emulsion PCR)。每一个带接头的 息。以此类推 , 第二次连接反应得到模板上第 6 7 DNA片段与一个磁珠结合 , 并在小油滴的包裹下进 位
22、碱基序列的颜色信息 , 而第三次连接反应得到第 行独立的PCR 扩增 ; (3)PTP 载板 (Pico Titer Plate)。 11 12位的颜色信息 几个循环之后 , 引物重置 , 每一个磁珠进入454 公司发明的 454 PTP 载样板的 开始第二轮的测序。由于第二轮测序的引物比第一 每一个小孔内 ; (4)焦磷酸测序。将包含有焦磷酸测序 轮前移一位 , 所以这轮测序将得到 0 1 位、 5 6 位、 反应激活液的微磁珠加入 PTP 孔内 , 通过检测到的 10 11 位 的颜色信息 , 五轮测序反应后 , 就可得 14, 15 光信号确定待测 DNA 的序列 。 到所有位置的颜色信
23、息 , 并推断出相应的碱基序列。 13 454 平台的突出优势是读长长 , 但准确率较低 , SOLiD系统的主要优势在于具有很高的序列读 成本高。尽管如此 , 对于那些需要较长读长的应用 取精确度和数据输出量 , 相同数据量的测序价格略 如从头拼接和宏基因组学 , 它仍是最理想的选择。 1194 HEREDITAS (Beijing) 2011 第 33 卷 1.4 Helicos/HeliScope 2008 年 , Helicos Biosciences 公司开发了第一 台单分子测序仪 HeliScope 遗传分析系统 , 与上 述 3 种高通量测序技术不同的是 , 它通过在单一 DNA
24、 分子组成的阵列上进行合成测序 , 跨越了文库 制备中基于 PCR 扩增的信号放大过程 ,避免了该过 程可能引入的错误 , 达到了读取单个荧光分子的能 力。其测序流程如下:构建的单链 DNA 文库未经 扩增 , 没有规律地排列在平面基板上。每个测序循 环中 , DNA 聚合酶和 4 种荧光标记的核苷酸中的 一种流入 , 按照模板序列延伸 DNA 链 , 阵列中发 生了碱基延伸反应的 DNA 链就会发出荧光 , 并通 过 CCD 记录 下来。经过洗涤 , 延伸了的 DNA 链上 的荧光物质被切除并被移走 , 便可以进行下一轮单 个碱基的延伸 , 荧光标记的切除以及图像的获取 。 SMS 技术省去
25、了昂贵的 DNA 扩增步骤 , 降低 了测序成 本 , 同时还增加了 数据产出量和 序列读 长。但同时也面临着新的难题 , 主要是集中在单分 子水平光学信号的检测方面 , HeliScope 利用了一项 被称为全内反射显微镜 (Total internal reflection mi- croscopy, TIRM)的技术来解决这一问题 , 只有靠近 流通池反应表面很薄的一层空间内的荧光集团才能 被消逝波所激发产生荧光 。另外该平台原始数据 的准确度明显低 , 不过应用双末端测序 (paired-end sequencing)技术可以显著提高准确率。 2 RNA-Seq 原理 把上述高通量测序
26、技术应用到由 mRNA 逆转 录生 成的 cDNA 上 , 从 而获 得 来自 不同 基因 的 mRNA 片段在特定样本中的含量 , 这就是 mRNA 测 序或 mRNA-Seq, 同样原理 , 各种类型的转录本都 可 以用 深 度 测序 技 术 进行 高 通 量检 测 , 统 称 作 RNA-Seq。该技术 首先将细胞中的所有转录产物反 转录为 cDNA 文库 (利用最新的 SMS 技术可略去这 一步 , 直接对 RNA 进行测序 ), 然后将 cDNA 文 库中的 DNA 随机剪切为小片段 (或先将 RNA 片段 化后再反转录 ), 在 cDNA 两端加上接头利用新一代 高通量测序仪测序
27、, 直到获得足够的序列 , 所得序 列通过比对 (有参考基因组 )或从头组装 (de novo as- sembling)(无参考 基因组 )形成全基因组范围的转录 谱 (图 1)。 图 1 RNA-Seq 实 验流程 此外 , 双末端测序是目前各平台广泛采用的一 种策略。该技术是将基因组 DNA 或 cDNA 打断为一 定长度的片断后从两端进行测序 , 这样可以从一个 片断获得距离已知的两条序列信息 , 同时相对于单 端测序增加了物理覆盖度 (Physical coverage) , 因此显著增强了对数据分析的能力。在转 录组测序 中 , 双末端测序使信号可以更好地与转录子联系起 来 , 例
28、如 , 可以更好地区别不同剪切方式 , 鉴 定由染色体重排造成的融合基因 等。在全基 因组测序中 , 双末端测序可以用来确定读段的方向 和两个读段之间的距离 , 以及基因组重组和结构变 异等信息 。 3 RNA-Seq 技术优势 目前用于转录组数据获得和分析的方法主要有 基于杂交技术的芯片 (Gene chip 或 microarray)技术 , 基于序列分析的基因表达系列分析 (Serial analysis of gene expression, SAGE)和大规模平行信号测序系 统 (Massively parallel signature sequencing, MPSS), 以及最新
29、提出的 RNA-Seq 技术等。 基因芯片是开发最早也是目前应用较广的高通 量转录组检测技术。该技术成本适中 , 数据分析软 17 18 3 19 第 11 期 祁云霞等 : 转录组研究新技术: RNA-Seq 及其应用 1195 件较多 , 整个方法较为成熟 , 然而基于杂交技术的 微阵列技术只限用于已知序列 , 无法检测新的 RNA; 而且杂交技术灵敏度有限 , 难以检测低丰度的目标 (需要更多的样品量 )和重 复序列 ; 也很难检测出融 合基因转录、多顺反子转录等异常转录产物 。 与芯片不同 , SAGE 不需任何基因序列的信息 , 能够 全局性地检测所有基因的表达水平 , 除了具有显示
30、 基因差异表达谱的作用外 , 还对那些未知基因特别 是那些低拷贝基因的发现起到了巨大的推动作用 。 MPSS 技术是对 SAGE 技术的改进 , 简化了测序过 程 , 提高了精度 , 但二者都是基于昂贵的 Sanger 测 序 , 需要大量的测序工作 , 技术难度较大 , 而且涉 及酶切、 PCR 扩增、克隆等可能会产 生碱基偏向性 的操作步骤 , 因而限制了其推广。 相比之下 , RNA-Seq 技术具有诸多独特优势 (表 2)。 (1)数字化信号:直接测定每个转录本片段序列 , 单核苷酸分 辨率的精确度 , 可以检测单个 碱基差 异、基因家族中相似基因以及可变剪接造成的不同 转录本的表达
31、, 同时不存在传统微阵列杂交的荧 光模拟信号带来的交叉反应和背景噪音问题 , 能覆 盖信号超高的动态变化范围。 (2)高灵敏度:能够检 测到细胞中少至几个拷贝的稀有转录本。 (3)任意物 种的全基因组分析:无需预先设计特异性探 针 , 因 此无需了解物种基因信息 , 能够直接对任何物种进 行转录组分析 , 这对非模式生物的研究尤为重要 , 例如 Wang 等 、 Xiang 等 和 Vera 等 利用 RNA-Seq 技术分别对白粉虱、海鲈鱼和蝴蝶转录组 进行了研究。同时能够检测未知基因 , 发现新的转 录本 , 并精确地识别可变剪切位点及 cSNP, UTR 区 表 2 RNA-Se q 与
32、 其他转 录组学 技术比 较 MPSS 原理 杂交 Sanger 测序 高通量测序 信号 荧光模拟信号 数字化信号 数字化信号 分辨率 数个 -100 bp 单碱基 单碱基 通量 高 低 高 背景 高 低 低 基因表达定 几十到几百倍 不适用 8000 倍 量范围 全转录组图谱 高 高 相对较低 分析成本 起始 RNA 用量 多 多 少 域 。 (4)更广的检测范围:高于 6 个数量级的动 态检测范围 , 能够同时鉴定和定量稀有转录本和正 常转录本 ; 而芯片对过低或过高表达的基因缺乏敏 感性 , 因而动态检测范围小 。此外 , RNA-Seq 重复 性好 , 无需技术重复 , 而且起始样品比
33、 芯片技 术要少得多 , 尤其适用于来源极为有限的生物样品 分析 , 如癌症干细胞。 4 RNA-Seq 的应用 4.1 转录本结构研究 利用单碱基分辨率的 RNA-Seq 技术可极大地丰 富基因注释的很多方面 , 包括 5/3边界鉴定、 UTRs 区域鉴定以及新的转录区域鉴定等。 Mortazavi 等 对小鼠的大脑、肝脏和骨骼肌进行了 RNA 深度测序 , 分析所得序列 , 有大于 90%的数据显示落在已知的 外显子中 , 而那些在已知序列之外的信息通过数据 分析展示的是从未报道过的 RNA 剪接形式、 3末端 UTRs 区、变动的启动子区域及潜在的小 RNA 前体。 2008 年 Nag
34、alakshmi 等 利用 RNA-Seq 技术分别鉴 定出酿酒酵母 (S.cerevis iae)已知基因中 80%和 85% 的 5边界和 3边界 , 同年 Wilhelm 等 使用芯片和 RNA-Seq 相结合的方法在栗酒裂殖酵母 (S.pombe)中 鉴定出很多 5和 3边界。这两项研究导致了许多之 前未分析过的 5和 3末端 UTRs 的发现。在酿酒酵 母中 , 发现 3末端 存在广泛的多样性 , 这些不同的 3端赋予不同 mRNA 异构体 (isoforms)以不同的属性 , 如 mRNA 定位或降解的信号 , 这反过来又可能与独 特的生物学功能相关 。除了 3末端多样性外 , 5
35、 末端 UTRs 内的上游 ORFs (uORFs)名单也大大扩增 , 从 17 到 340(占酵母基因的 6%)。 2010 年 , Zhang 等 利用配对末端 RNA-Seq 技 术对栽培水稻的 8 个器官进行测序 , 鉴定出 38 650 个转录单元 , 通过与之前的芯片结果和 已知基因模 型比较 , 检测出 7 232 个之前尚未确定的新转录区。 除此之外 , 还鉴定出 10 595 个新的外显子和 29 751 个新的或延长的 5和 3UTRs 边界。不久 Lu 等 对栽 培水稻的两个亚种 (Oryza s ativa indica 和 japonica) 进行转录组测序 , 鉴定
36、出 15 708 个新转录活跃区 (nTARs), 并且证明有 6 228 个基因在 5和 /或 3末端 延长至少 50 bp。 25, 26 27 28 29 30 31 32 SAGE 和 技术 芯片 33, 34 3 33, 35 3 1196 HEREDITAS (Beijing) 2011 第 33 卷 RNA-Seq 还可对可变剪接 (Alternative splicing) 进行定量研究。 Sultan 等 利用深度测序对人类细 胞系 mRNA 剪接进行了全局性研究 , 鉴定出 94 241 个剪接位点 , 其中有 4 096 个是全新的。该研究还表 明 , 外显子跳跃 (Ex
37、on skipping)是选择性剪接的一 种普遍形式。最新 RNA-Seq 数据分析显示 , 至少 48%的水稻基因经历可变剪接 , 比之前报道的利 用 RNA-Seq 数据分析结果 (33%) 和 EST/cDNA 数 据分析结果 (20%30%) 多 ; 在拟南芥中 , 至少 42%携带内含子的基因经历可变剪接 , 多于之前 利用 EST/cDNA 数据分析的 20% 到 30% , 并且这些可变剪接转录本中 , 大多数是携带成熟前 终止密码子的剪接异构体 , 可能在基因表达调控中 发挥重要作用 。 4.2 转录本结构变异研究 在发现序列差异 (如融合基因鉴定、编码序列多 态性研究 )方面
38、 , RNA-Seq 也展示了其很大的潜力。 Zhang 等 在对水稻转录组进行测序时 发现了 234 件转录融合事件 , 可能是由反式剪接所产生。其中 , 173 件发生在染色体之间 , 即两个 RNA 前体来自不 同的染色体 ; 其余 61 件发生在染色体内部。 Shah 等 对雌激素受体 -正转移性乳腺小叶肿瘤的基 因组进行了重测序 , 在 DNA 水平上发现了 32 个非 同义突变 , 结合基因组和转录组数据 , 他们找到了 2 个未报道过的 RNA 编辑事件 (引导重新编码 SRP9 和 COG3 的氨基酸序列 )。上述单核苷酸的突变成为 了原发性早期、中期乳腺癌的特征之一 , 亦是
39、 癌症 病变过程的重要因素。 Sugarbaker 等 利用 mRNA 深度测序对恶性胸膜瘤和对照样品进行比较 , 发现 了肿瘤中存在的 15 个不同的点突变。由于大多数与 疾病 相关 的单核 苷酸 变异 都发生 在蛋 白编 码区 , Chepelev 等 利用 RNA-Seq 对人 Jurkat T 细胞和 CD4 T 细胞外显子进行测序 , 分别检测到 12 176 和 10 621 个 SNVs(单核苷酸变异体 ), 其中 4 703 和 2 952 个是全新的。 4.3 基因表达水 平研究 自 20 世纪 90 年代中期 , DNA 芯片已被用于大 规模的基因表达水平研究。然而基于杂交
40、技术的微 阵列技术只限用于已知序列 , 无法检测新的 mRNA; 而且杂交技术灵敏度有限 , 难以检测低丰度的目标 , 也无法捕捉到目的基因表达水平的微小变化 而 这恰恰是研究在刺激下或环 境变化时的生物反应所 必需的。由于 RNA-Seq 技术是定量的 , 它可以比芯 片更准确地确定 RNA 的表达水平。原则上 , RNA-Seq 有可能确定细胞群中的每一个分子的绝对数量 , 并 对实验之间的结果进行直接比较。 Marioni 等 对 RNA-Seq 和芯片技术在检测差异表达基因方面进行 了比较 , 研究人员利用 Illumina 测序平台对肝脏和 肾脏 RNA 样品进行测序 , 并与使用相
41、同 RNA 样品 的芯片 (Affymetrix 公司 )结果比较。发现 , 在相同的 错误发 现率 (False discovery rate, FDR) 的情况下 , RNA-Seq 比芯片多检测出 30%的差异表达基因。研 究结果还表明 , Illumina 的测序数据具有高度的重复 性 , 技术的变化相对较小。最近 Xiang 等 用 RNA- Seq 和 DGE 技术分析了海鲈鱼受细菌攻击前后的转 录组谱 , 发现在受到哈维氏弧菌攻击后海鲈鱼的转 录组谱是变化的 , 有 1 224 个转录本表现出具有显著 意义的上调或下调表达 , 这一结果表明具有先天性的 调节免疫适应性的组分和转录
42、组的改变 , 在鱼类和其 他脊椎动物模式中都是全面的保守存在的。 RNA-Seq 一个特别强大的优势是它可以捕捉不 同组织或状态下的转录组动态变化而无需对数据集 进行复杂的标准化 。 RNA-Seq 已被用来准确 地监测酵母营养生长 、酵母减数分裂 、小鼠胚 胎干细胞分化 期间和白粉虱发育过程 中的基因 表达 , 来跟踪发育过程中基因表达变化 , 并提供不 同组织间基因差异表达的 数字化测量 。 4.4 非编码区域功能研究 转录组学研究的一个重要方面就是发现和分析 ncRNA。目前高 通量实验揭示 , 至少 93%以上的人 类基因组可转录为 RNA , 除了不到 2%的序列用 于编码蛋白 , 其余 91%的基因组可转录为非蛋白 编码的 RNA 分子 , 即 ncRNA。 ncRNA 按其功能可 分为看家 ncRNA 和调节 ncRNA。前者通常稳定表 达 , 发挥着一系列对细胞存活至关重要的功能 , 主 要包括转移 RNA(tRNA)、核糖体 RNA(rRNA)、小 核 RNA(snRNA)及小核仁 RNA(snoRNA)等 ; 后者主 要包括长链 ncRNA(lncRNA)和 以 microRNA 为代表 的小 ncRNA(small n