《差异表达分析》PPT课件.ppt

上传人:wuy****n92 文档编号:53627300 上传时间:2022-10-26 格式:PPT 页数:63 大小:2.70MB
返回 下载 相关 举报
《差异表达分析》PPT课件.ppt_第1页
第1页 / 共63页
《差异表达分析》PPT课件.ppt_第2页
第2页 / 共63页
点击查看更多>>
资源描述

《《差异表达分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《差异表达分析》PPT课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七讲Quantile Normalization使每张芯片/通道的强度值有相同的分布(intensity distribution)Quantile normalizationBeforeAfterQuantile normalizationR语言和bioconductor差异表达基因分析单张cDNAcDNA芯片差异表达基因芯片差异表达基因差异表达基因分析基因表达基因表达谱谱芯片芯片实验实验的主要目的之一是的主要目的之一是发现发现两个两个样样本本间间差异表达基因。差异表达基因。通常采用基因在通常采用基因在实验组实验组和和对对照照组组中信号的比中信号的比值值作作为为衡量基因在两种状衡量基因在两

2、种状态态下基因的表达差异,在双下基因的表达差异,在双色色荧荧光系光系统统中,用中,用Cy5/Cy3Cy5/Cy3的比的比值值来衡量基因的表来衡量基因的表达差异,也称表达差异达差异,也称表达差异值值。在。在AffymetrixAffymetrix等短的等短的寡核苷酸芯片中,采用寡核苷酸芯片中,采用单单色色荧荧光光标记标记的方式,的方式,实实验组验组和和对对照照组组分分别别用两用两张张芯片芯片进进行行检测检测,表达差,表达差异异值值即即为为两两张张芯片的信号比芯片的信号比值值。噪声和芯片本身的一些因素以及生物学本身的特噪声和芯片本身的一些因素以及生物学本身的特点点给筛选给筛选差异表达基因差异表达基

3、因带带来了很大的麻来了很大的麻烦烦。必。必须须设设定一个差异表达基因的判定定一个差异表达基因的判定标标准。准。这这个个筛选筛选的的标标准就称准就称为为差异表达基因的差异表达基因的阈值阈值。倍数法倍数法倍数法是比倍数法是比较较常用的一种方法,因常用的一种方法,因为为比比较简单较简单和和直接。直接。但是,但是,这这种方法也是有其重大缺陷的。比如,在种方法也是有其重大缺陷的。比如,在某个某个实验实验中,基因表达水平的中,基因表达水平的变变化不大,如果化不大,如果选选择择判判别别域域值为值为2 2倍,倍,则则有可能找不到几个差异表达有可能找不到几个差异表达的基因,假阴性率比的基因,假阴性率比较较高。但

4、如果是主高。但如果是主观缩观缩小判小判断域断域值值,又有可能增大假阳性率。,又有可能增大假阳性率。这这一方法没有考一方法没有考虑虑到差异表达的到差异表达的统计显统计显著性。著性。Z值法在一在一张张cDNAcDNA芯片上一般都点了很多基因,其芯片上一般都点了很多基因,其实这实这些基因中只有很小一部分表达有差异,所以一般些基因中只有很小一部分表达有差异,所以一般都假都假设设表达的比率表达的比率值满值满足正足正态态分布。分布。Z=(X-)/Z=(X-)/在寡核苷酸芯片中,芯片上的基因在相在寡核苷酸芯片中,芯片上的基因在相应实验应实验条条件下或相件下或相应组织应组织中也只是有很小一部分基因有表中也只是

5、有很小一部分基因有表达,可以假定达,可以假定强强度度满满足足对对数正数正态态分布,同分布,同样样可以可以对对其作其作Z Z变换变换,使其具有,使其具有统计统计意意义义。如果如果实验实验体系中没有一条差异表达的基因,体系中没有一条差异表达的基因,Z Z值值法法还还是会挑是会挑选选出出5 5的差异表达基因。的差异表达基因。这这是因是因为为在芯在芯片片实验实验中,中,总总有一些由于背景噪声有一些由于背景噪声产产生的假阳性生的假阳性点。如果点。如果实际实际上上实验实验中有大量的基因中有大量的基因发发生表达改生表达改变变,Z Z值值法法还还是机械的找出是机械的找出5 5的差异表达基因,的差异表达基因,丢

6、丢失了一部分真阳性点。失了一部分真阳性点。一般性的方法选择一个统计量给基因排秩来证明表达有差异为排秩统计量选择一个判别值,在它之上的值将被认为是显著的前面一个部分更为重要,所以研究的较多,方法也更多,后面那部分的方法稍微简单重复芯片(replicates)M值根据比率平均值或对基因排序。M值为信号强度比值的log2值,是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。例如,可能某一个基因在某一张芯片上M值很大,但在其他芯片上M值很小,其实这条基因并没有差异表达,但由于个别M值的影响,从而显示出一个差异表达的特性,造成假阳性。T值排序假如一

7、个基因在几张重复芯片的M值都很小,但是这些M值非常接近,所以s值也非常小,这样可能会导致t值很大,从而会把这个本没有差异表达的基因误认为差异表达。修正的T值修正值由样本方差的均数和标准差估计而得。结果显示:在一个模拟的数据集中,虽然带有一些经验性质,但用修正t-统计量给基因排秩比用均数和一般的t-统计量效果要好。单通道寡核苷酸芯片差异基因(两个样本直接比较)Affymetrix,illumina芯片由于有探针重复,可以利用统计方法计算出一个统计性的P值或者score值,筛选差异表达基因不同类样本差异基因识别评价一组数的统计量l l平均平均值值 标标准差准差232.7232.7232.7232.

8、7198.2198.2198.2198.2137.7137.7137.7137.784.384.384.384.3218.6218.6218.6218.6181.5181.5181.5181.5216.7216.7216.7216.787878787比较多组数的方法T检验:平均值F检验:方差SAM(significance analysis of microarrays)单通道通道Oligo芯芯片,尤其是片,尤其是affymetrix芯片芯片数据分析用得数据分析用得较多多双通道双通道cDNA芯片数据分析用得芯片数据分析用得较多多False Discovery Rate(FDR)错误发现率是率是

9、评估估检验统计显著性的最有著性的最有力工具。力工具。统计学家都想用更符合学家都想用更符合统计学的学的手段得到差异基因,具体手段得到差异基因,具体说来就是想用假来就是想用假设检验后后赋予每个基因予每个基因统计显著性或者著性或者P P值,使得每个基因的判使得每个基因的判别更有更有统计学上的意学上的意义。为了达到了达到这个目的,个目的,统计学家学家们常常用控常常用控制制错误发现率(率(FalseDiscoveryRateFalseDiscoveryRate)的方法来判断差异基因。的方法来判断差异基因。Multiple test(Pvalue adjustment)火山图(火山图(volcano pl

10、ot)Statistical test:PvalueStatistical test:PvalueFold change:RatioFold change:Ratio其他方法其他方法B-statistics(Smyth,2004)Bayes T-test(Baldi and Long,2001)SAMROC(Broberg,2002)Zhao-Pan method(Zhao and Pan,2003)Improved Detection of Differentially Expressed GenesImproved Detection of Differentially Expressed

11、 GenesTime series microarray datasetTime series microarray dataset聚聚类分析分析基因表达数据矩基因表达数据矩阵(Affymetrix GeneChip oligonucleotide arrays)sam/ref基因表达数据矩基因表达数据矩阵(glass slides)数据矩数据矩阵具体形式具体形式数据形式数据形式数据矩数据矩阵,基因数基因数远大于大于样品数品数 对任意一个基因来任意一个基因来说,样本本值是特征是特征值,数据的数据的维数是数是M对任意一个任意一个样本来本来说,基因基因值是特征是特征值,数据的数据的维数是数是N聚聚

12、类时考考虑基因之基因之间的相似性,从数学上的相似性,从数学上讲就是看就是看对应的的M维数据之数据之间的相似性的相似性Cluster&TreeviewCluster&Treeview软件件Cluster&TreeviewCluster&Treeview软件件Genesis软件预分析(分析(Pre-Analysis)重复重复值合并(合并(replicate handling)数据数据转换和和标准化(准化(data transformation and standardization)缺失数据缺失数据处理(理(missing value management)基因基因筛选(pattern selec

13、tion)重复重复值合并合并基因不同命名基因不同命名重复重复值合并合并Gene ID converter重复重复值合并合并在特定条件下把所有的重复在特定条件下把所有的重复在特定条件下把所有的重复在特定条件下把所有的重复值值合并成一个数合并成一个数合并成一个数合并成一个数值值可可可可能更能更能更能更为为方便,而方便,而方便,而方便,而这这一个一个一个一个值值是是是是给给定基因定基因定基因定基因/条件的代表。条件的代表。条件的代表。条件的代表。通常的合并是指通常的合并是指通常的合并是指通常的合并是指计计算算算算这这些重复些重复些重复些重复值值的集中的集中的集中的集中趋势趋势指指指指标标,如均数、中

14、位数或众数。然而,使用一个集中如均数、中位数或众数。然而,使用一个集中如均数、中位数或众数。然而,使用一个集中如均数、中位数或众数。然而,使用一个集中趋趋势势指指指指标标代替一代替一代替一代替一组组数数数数值值意味着信息的意味着信息的意味着信息的意味着信息的丢丢失,因此数失,因此数失,因此数失,因此数据的合并据的合并据的合并据的合并应谨应谨慎。慎。慎。慎。去除奇异去除奇异去除奇异去除奇异值值。可以通。可以通。可以通。可以通过计过计算原始数据的均数和算原始数据的均数和算原始数据的均数和算原始数据的均数和标标准差,去除位于准差,去除位于准差,去除位于准差,去除位于给给定区定区定区定区间间外的数据(

15、如均数加减外的数据(如均数加减外的数据(如均数加减外的数据(如均数加减3 3 3 3个个个个标标准差外的数据)。剩余的数据重新准差外的数据)。剩余的数据重新准差外的数据)。剩余的数据重新准差外的数据)。剩余的数据重新计计算均数算均数算均数算均数和和和和标标准差,并消除准差,并消除准差,并消除准差,并消除给给定区定区定区定区间间外的数据。外的数据。外的数据。外的数据。数据数据转换和和标准化准化数据数据变换的目的是在尽量保的目的是在尽量保证原始数据特原始数据特征不征不变的前提下,使的前提下,使变换后的数据更适于后的数据更适于进行行统计分析。分析。对数数转化(化(log-transformation

16、log-transformation)中心化中心化处理(理(centercenter)单位位圆化化正正态化(均化(均值为0 0,方差,方差为1 1)缺失数据缺失数据处理理芯片上的某些点可能因芯片上的某些点可能因芯片上的某些点可能因芯片上的某些点可能因为为芯片的缺陷、点像素芯片的缺陷、点像素芯片的缺陷、点像素芯片的缺陷、点像素强强度达到度达到度达到度达到饱饱和、点像素和、点像素和、点像素和、点像素强强度非常小等因素而度非常小等因素而度非常小等因素而度非常小等因素而产产生异生异生异生异常的数据点,在数据的常的数据点,在数据的常的数据点,在数据的常的数据点,在数据的预处预处理理理理阶阶段把段把段把段

17、把这这些数据点些数据点些数据点些数据点删删除。除。除。除。未未未未观测观测点点点点若后若后若后若后续续的的的的统计统计分析要求数据分析要求数据分析要求数据分析要求数据满满足完整性,如特征足完整性,如特征足完整性,如特征足完整性,如特征基因提取的奇异基因提取的奇异基因提取的奇异基因提取的奇异值值分解、某些基因的聚分解、某些基因的聚分解、某些基因的聚分解、某些基因的聚类类分析方分析方分析方分析方法等,法等,法等,法等,则则需要需要需要需要对对含有缺失含有缺失含有缺失含有缺失值值的数据的数据的数据的数据进进行行行行处处理理理理 删删除含有缺失除含有缺失除含有缺失除含有缺失值值的整条的整条的整条的整条

18、记录记录,这这种方法操作种方法操作种方法操作种方法操作简单简单,但却因但却因但却因但却因为为个个个个别值别值的缺失而的缺失而的缺失而的缺失而删删除整个除整个除整个除整个记录记录,可能,可能,可能,可能丢丢失大量有价失大量有价失大量有价失大量有价值值的信息的信息的信息的信息 填充或修填充或修填充或修填充或修补补缺失数据缺失数据缺失数据缺失数据缺失数据的缺失数据的处理理固定固定固定固定值值法,比如法,比如法,比如法,比如0 0 0 0或者或者或者或者1 1 1 1行平均法行平均法行平均法行平均法使用重复数据点使用重复数据点使用重复数据点使用重复数据点对对缺失数据缺失数据缺失数据缺失数据进进行填充。

19、行填充。行填充。行填充。对对于生物于生物于生物于生物学重复中缺失数据的填充学重复中缺失数据的填充学重复中缺失数据的填充学重复中缺失数据的填充应应慎重,慎重,慎重,慎重,应应当使用尽量当使用尽量当使用尽量当使用尽量同同同同质质的的的的样样品品品品对对缺失缺失缺失缺失值进值进行估行估行估行估计计。使用基因使用基因使用基因使用基因间间的相关性的相关性的相关性的相关性对对缺失数据缺失数据缺失数据缺失数据进进行填充。奇异行填充。奇异行填充。奇异行填充。奇异值值分解法,分解法,分解法,分解法,KNNKNNKNNKNN法。法。法。法。其他方法,最小二乘法其他方法,最小二乘法其他方法,最小二乘法其他方法,最小

20、二乘法拟拟合修合修合修合修补补,方差迭代分析,方差迭代分析,方差迭代分析,方差迭代分析,最大可能性分析最大可能性分析最大可能性分析最大可能性分析 KNN法法K K K K最近最近最近最近邻邻法(法(法(法(K-nearestneighborhoodmethodK-nearestneighborhoodmethodK-nearestneighborhoodmethodK-nearestneighborhoodmethod):):):):假定某个基因在某个指假定某个基因在某个指假定某个基因在某个指假定某个基因在某个指标标上含有缺失上含有缺失上含有缺失上含有缺失值值,计计算此算此算此算此包含缺失包含

21、缺失包含缺失包含缺失值值的基因与在的基因与在的基因与在的基因与在该该指指指指标标上无缺失的基因上无缺失的基因上无缺失的基因上无缺失的基因间间的相似性指的相似性指的相似性指的相似性指标标或距离指或距离指或距离指或距离指标标(相似性或距离的(相似性或距离的(相似性或距离的(相似性或距离的计计算算算算中不包括欲估中不包括欲估中不包括欲估中不包括欲估计计的指的指的指的指标标),与),与),与),与该该基因相似性最大基因相似性最大基因相似性最大基因相似性最大的的的的K K K K个基因称个基因称个基因称个基因称为该为该基因的基因的基因的基因的K K K K个最近个最近个最近个最近邻邻(knearestk

22、nearestknearestknearestneighborhoodsneighborhoodsneighborhoodsneighborhoods),),),),这这K K K K个基因在个基因在个基因在个基因在该观测该观测指指指指标标上的上的上的上的数据就是估数据就是估数据就是估数据就是估计计缺失基因数据的基缺失基因数据的基缺失基因数据的基缺失基因数据的基础础,估,估,估,估计值计值可以可以可以可以是是是是这这K K K K个基因在个基因在个基因在个基因在该该指指指指标标上的均数,也可以是上的均数,也可以是上的均数,也可以是上的均数,也可以是这这K K K K个个个个基因的加基因的加基因

23、的加基因的加权权均数。在加均数。在加均数。在加均数。在加权权均数中,均数中,均数中,均数中,权权重重重重为为上面上面上面上面计计算的基因算的基因算的基因算的基因间间的相似性。的相似性。的相似性。的相似性。K K K K值值的确定具有一定的的确定具有一定的的确定具有一定的的确定具有一定的经验经验性,但不宜太大和太小。性,但不宜太大和太小。性,但不宜太大和太小。性,但不宜太大和太小。基因基因筛选(gene selection)在在在在进进行分析之前,要先行分析之前,要先行分析之前,要先行分析之前,要先选择选择用来分析的基因。不用来分析的基因。不用来分析的基因。不用来分析的基因。不然所有的基因有上万

24、条,也就是数据矩然所有的基因有上万条,也就是数据矩然所有的基因有上万条,也就是数据矩然所有的基因有上万条,也就是数据矩阵阵有上万有上万有上万有上万行行行行时时,既增加了运算的,既增加了运算的,既增加了运算的,既增加了运算的难难度,又引入了不必要的度,又引入了不必要的度,又引入了不必要的度,又引入了不必要的基因,也增加了解基因,也增加了解基因,也增加了解基因,也增加了解释结释结果的果的果的果的难难度,要度,要度,要度,要预预先先先先进进行基行基行基行基因的因的因的因的滤滤取。取。取。取。当一条基因表达当一条基因表达当一条基因表达当一条基因表达谱谱数据中的无效数据个数超数据中的无效数据个数超数据中

25、的无效数据个数超数据中的无效数据个数超过过一一一一定的范定的范定的范定的范围时围时,这这条基因就条基因就条基因就条基因就认为认为是一条无效基因,是一条无效基因,是一条无效基因,是一条无效基因,在以后的聚在以后的聚在以后的聚在以后的聚类类分析中不把分析中不把分析中不把分析中不把这这条基因考条基因考条基因考条基因考虑虑在内。在内。在内。在内。一条基因表达一条基因表达一条基因表达一条基因表达谱谱数据的波数据的波数据的波数据的波动动很小,也就是很小,也就是很小,也就是很小,也就是说说,数,数,数,数据的方差小于一定的范据的方差小于一定的范据的方差小于一定的范据的方差小于一定的范围围,意味着,意味着,意

26、味着,意味着这这条基因与所条基因与所条基因与所条基因与所要研究的生物要研究的生物要研究的生物要研究的生物过过程或程或程或程或对对象关象关象关象关联联很小,也被很小,也被很小,也被很小,也被滤滤掉,掉,掉,掉,不不不不进进行聚行聚行聚行聚类类分析。分析。分析。分析。差异表达次数差异表达次数差异表达次数差异表达次数基因基因筛选针对特特别目的目的选取,比如取,比如选取不同取不同类之之间差异表达基因。常用的方法,假差异表达基因。常用的方法,假设检验,比如比如t t检验,F F检验等等不改不改变整体数据矩整体数据矩阵的数据的数据结构,去除数构,去除数据的冗余性。常用方法,主成分分析等。据的冗余性。常用方

27、法,主成分分析等。发展展新算法新算法新角度新角度合并多种方法合并多种方法主成分分析主成分分析(Principle Component Analysis)降降维概述概述降降维是指将是指将样本从本从输入空入空间通通过线性或非性或非线性映射到一性映射到一个低个低维空空间。降降维可以减少无用信息和冗余信息,将高可以减少无用信息和冗余信息,将高维数据数据转换为易于易于处理的低理的低维数据,减少了后数据,减少了后续步步骤处理的理的计算量,算量,当降至三当降至三维以下以下时还可用于可可用于可视化技化技术,从而从而发挥人在人在低低维空空间感知上的感知上的优点,点,发现数据集的空数据集的空间分布、聚分布、聚类性

28、性质等等结构特征构特征。主成分分析主成分分析(PCA,principal component analysis)对对于一于一于一于一组组原始随机原始随机原始随机原始随机变变量量量量为为X X X X1 1 1 1,X,X,X,Xp p p p,寻寻找一个新的找一个新的找一个新的找一个新的变变量量量量Z Z Z Z1 1 1 1,这这个新的个新的个新的个新的变变量是量是量是量是原始原始原始原始变变量的量的量的量的线线性性性性组组合,合,合,合,Z Z Z Z1 1 1 1=a=a=a=a11111111X X X X1 1 1 1+a+a+a+a21212121X X X X2 2 2 2+a+

29、a+a+ap1p1p1p1X X X Xp p p p,并使得并使得并使得并使得Z Z Z Z1 1 1 1的的的的变变异最大化异最大化异最大化异最大化Z1Z1Z1Z1即即即即为为原始原始原始原始变变量的最大主量的最大主量的最大主量的最大主成分,它使用一个成分,它使用一个成分,它使用一个成分,它使用一个变变量量量量试试图图最大化地包含一最大化地包含一最大化地包含一最大化地包含一组变组变量量量量的的的的变变异。通常一个异。通常一个异。通常一个异。通常一个变变量量量量还还不足不足不足不足够够,因此,需要,因此,需要,因此,需要,因此,需要寻寻找找找找第二个主成分第二个主成分第二个主成分第二个主成分Z2Z2Z2Z2,Z2Z2Z2Z2与与与与Z1Z1Z1Z1不相关,且是除不相关,且是除不相关,且是除不相关,且是除Z1Z1Z1Z1外具有外具有外具有外具有最大方差的原始最大方差的原始最大方差的原始最大方差的原始变变量的量的量的量的线线性性性性组组合。合。合。合。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁