《2022年bioconductor系列教程之一分析基因芯片上 .pdf》由会员分享,可在线阅读,更多相关《2022年bioconductor系列教程之一分析基因芯片上 .pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、?bioconductor系列教程之一分析基因芯片上可以取代 MAS5 的主要还有两种算法,分别是dChip 和 RMA。RMA 算法正逐步成为 microarray 的主流算法。RMA 全称为 log scale robust multi-array analysis,多阵列对数健壮算法。RMA 算法并不直接从 PM 的信号中减去做为背景的MM信号,而是基于 20 组探针的信号分布来判断是信号还是噪音。这种算法无疑对于低噪号的实验有较大的适用性。Figure 2 MAS5.0,dChip 和 RMA 算法结果比较(数据来源:Summaries of Affymetrix GeneChip p
2、robe level data.Irizarry RA,Bolstad BM,Collin F,Cope LM,Hobbs B,Speed TP.Nucleic Acids Res 2003:31(4);)所以这里,我就主要介绍一下如何在bioConductor 使用 RMA 算法预处理基因芯片原始数据。首先,去 http:/ AGCC 数据示例。我们先把下载下来的文件解压后拷贝ArabidopsisATH1-121502.CEL 文件至 R 工作文件夹下。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 4 页 -首先是一个快速上手教程:1 2 3 4 5 6 7 8 9 10
3、11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 library(affy)#加载库文件Loading required package:Biobase Welcome to Bioconductor Vignettes contain introductory material.To view,type openVignette().To cite Bioconductor,see citation(Biobase)andfor packages citation(pkgname)
4、.Data eset write.exprs(eset,file=mydata.txt)#将经过处理后的数据输出至mydata.txt文件。我们从这简单的几步,就可以得到拟兰介基因芯片中每个对应的基因的表达状况了。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 4 页 -?bioconductor系列教程之一分析基因芯片中(质量控制)上一节,我们了解了分析基因芯片的预处理的基本知识。其实那只是一个热身。这一节,我们来学习拿到基因芯片数据时更基本的操作:质量控制。只有通过质量检测合格的芯片数据才会真正地进入数据分析的步骤。本节将学习以下内容:背景MAS5 标准化Affymetrix
5、 公司制定的内参教程数据下载质量控制总览图及报告使用 FitPLM 生成权重,残差及NUSE 图像RNA 降解曲线及 MVA 线图PCA 分析总结背景通过上一节的介绍,我们了解到Affymetrix 基因芯片中的探针都是由25 个碱基组成的寡聚核苷酸序列。每个芯片上可能包含上百万的探针,它们被整齐有序的印刷在芯片上。而探针的排序以组为单位,随机排列。而每一组,都由20 对探针组成。这一组探针被称为探针组(probeset)。每一对探针都由 perfect match(PM)和 mismatch(MM)组成,称为探针对(probe pair)(figure 1)。MM 与 PM 维一的不同,就是
6、正中央的那个碱基不同,其余的都一致。人们期待MM 不会象 PM那样与 RNA 或者 DNA 有特异性配对,有的只是非特异性配对。而事实上,我们都知道,这是不可能的。在后面的教程中,会可能提及一些这方面的分析。而每一个探针组都均匀包含了目标基因3 至 5 不同区段特异序列。这种设计一方面可以通过均衡它们结果的方式来获取目标基因的表达强度(这一过程被称为总结步骤(summarization step),另一方面,它也可以提供mRNA 降解的程度信息。我们知道一般mRNA 都是按 5 端至 3 端的顺序来降解的,而这些探针组应该能体现这一趋势。上一节我们谈到过标准化的问题。这一节并不会深入探讨这个问
7、题,但是我们会简单地应用上一节提到过了两个标准化方法MAS5 和 RMA 方法。使用它们只是作为一种示例来表达如何通过试用不同的标准化方法来获得最佳的结果。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 4 页 -Affymetrix 公司在指导手册上就已经提出了用于判断基因芯片质量的多种标准。这些标准大多都是依照该公司的MAS5 算法而提出的,所以我们还是得重新提及一下 MAS5 算法。提取差异表达的基因从基因芯片当中提取生物学的信息需要合理的统计学方法。人们已经为优化传统统计学方法在基因芯片方面的应用做出了多年的努力。但是直到现在,最主要的努力依然还是依据实验设计的差别,用统
8、计学方法提取出差异表达的基因,然后再转回使用实验的方法去验证这个结果。在提取差异表达的基因时,人们总是会有这两种考虑,一是不可漏过一个,二是不能错杀过多(在英语里称为false discovery rate(FDR)错误发现率)。常见的手段是使用多种统计学方法来分析同样一个结果,尽可能多的得到差异表达的基因,而排除那些假的信号。然而学习和使用多种统计分析手段并不一定对于每一个生物学工作者都是非常容易的,这需要付出时间和努力。在这里,我们尽量多介绍几种常用的统计分析手段,并给出实践中人们常常使用的组合,来帮助你更好的分析自己的数据。现在常用的分析手段主要有:significance analys
9、is of microarrays(SAM),CyberT和 Rank products(RP)三种手段。其中CyberT 是 bioconductor 当中最为常用的分析手段,因为它的算法完整地被limma 库实现。但有研究指出,使用SAM 和RP算法相结合可能是最佳的方案。其实任何一种算法都是有局限性的,我们需要从根本上对算法有所了解,然后才能有针对性地选择合适的算法。SAM:Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response
10、.Proc Natl Acad Sci USA 2001;98:5116-21 CyberT:Baldi P,Long AD.A Bayesian framework for the analysis of microarray expression data:regularized t-test and statistical inferences of gene changes.Bioinformatics 2001;17:509-19 RP:Breitling R,Armengaud P,Amtmann A,et al.Rank products:a simple,yet powerful,new method to detect differentially regulated genes in replicated microarray experiments.FEBS lett 2004;573:83-92 名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 4 页 -