《基因芯片技术》第9章-基因芯片与系统生物学.ppt

上传人:wuy****n92 文档编号:74440386 上传时间:2023-02-26 格式:PPT 页数:102 大小:4.93MB
返回 下载 相关 举报
《基因芯片技术》第9章-基因芯片与系统生物学.ppt_第1页
第1页 / 共102页
《基因芯片技术》第9章-基因芯片与系统生物学.ppt_第2页
第2页 / 共102页
点击查看更多>>
资源描述

《《基因芯片技术》第9章-基因芯片与系统生物学.ppt》由会员分享,可在线阅读,更多相关《《基因芯片技术》第9章-基因芯片与系统生物学.ppt(102页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基因芯片技术基因芯片技术Gene chip technology第第9章章 基因芯片与系统生物学基因芯片与系统生物学内容提要:内容提要:第一节第一节 系统生物学与基因芯片系统生物学与基因芯片 第二节第二节 基因芯片数据的基因芯片数据的MIAME规则规则 第三节第三节 芯片实验设计原则和方法芯片实验设计原则和方法第一节第一节 系统生物学与基因芯片系统生物学与基因芯片系统生物学四个方面系统生物学四个方面l一是系统结构:包括基因,蛋白间关系;由此得到的基因蛋一是系统结构:包括基因,蛋白间关系;由此得到的基因蛋白网络和生物通路(白网络和生物通路(pathwaypathway),以及这些相互之间关系所牵

2、),以及这些相互之间关系所牵涉到的细胞内、外结构的物理特性和机制。涉到的细胞内、外结构的物理特性和机制。l二是系统动力学:在不同时间点不同条件下系统的行为。通二是系统动力学:在不同时间点不同条件下系统的行为。通过代谢分析,敏感性分析,动力学分析工具、识别不同行为过代谢分析,敏感性分析,动力学分析工具、识别不同行为内在机制分析方法等来研究。内在机制分析方法等来研究。l三是系统的控制方法。搞清楚控制细胞处于各种状态的机制,三是系统的控制方法。搞清楚控制细胞处于各种状态的机制,然后模拟系统,能得到治疗疾病的药靶。然后模拟系统,能得到治疗疾病的药靶。l四是设计的方法。基于某些设计的原则和模拟方法,可以

3、修四是设计的方法。基于某些设计的原则和模拟方法,可以修正和构造具有所需特性的系统,而不必盲目地反复实验。正和构造具有所需特性的系统,而不必盲目地反复实验。系统生物学系统生物学两个关键技术基础两个关键技术基础1.“1.“组学组学”数据基础:数据基础:从从基基因因组组学学到到功功能能基基因因组组学学从从大大量量的的测测序序数数据据到到大大量量生生命命过过程程中中结结构构与与功功能能的的数数据据:基基因因组组、转转录录组组、蛋蛋白白组组、结结构构基基因因组组、代谢组、生理组、表型组、化学(药物)基因组代谢组、生理组、表型组、化学(药物)基因组2.2.检测和实验技术基础:检测和实验技术基础:v 功能基

4、因组检测技术平台:单分子测序、生物芯片等功能基因组检测技术平台:单分子测序、生物芯片等v 系系统统生生物物学学研研究究技技术术和和体体系系:细细胞胞和和动动物物模模型型(人人类类样样品品库库)、药物材料库、生物信息和生物计算技术药物材料库、生物信息和生物计算技术图:有丝分裂图:有丝分裂细胞周期图细胞周期图心脏病细胞的钙调途径心脏病细胞的钙调途径Genmapp对数据整理的形象描述对数据整理的形象描述转录调控网络转录调控网络通过通过表达谱表达谱将基因将基因聚类聚类,识别每类基,识别每类基因可能存在的共有因可能存在的共有转录调控因子的结转录调控因子的结合区域,综合相应合区域,综合相应的转录调控因子和

5、的转录调控因子和各类基因,构成基各类基因,构成基因调控网络。因调控网络。调控元件分析调控元件分析 共表达在一定程度上意味共调控,从共调控序列的上共表达在一定程度上意味共调控,从共调控序列的上游序列能得到共有调控元件。同一个类别中的基因在转录游序列能得到共有调控元件。同一个类别中的基因在转录中可能受共同调控,而中可能受共同调控,而表达谱聚类分析表达谱聚类分析是高通量识别共调是高通量识别共调控基因群的最有效和最方便的手段。通过分析同处在一个控基因群的最有效和最方便的手段。通过分析同处在一个类中的基因共有保守序列就能发现调控区域和调控元件。类中的基因共有保守序列就能发现调控区域和调控元件。基因芯片技

6、术预测调控元件常用的策略基因芯片技术预测调控元件常用的策略 工具工具l聚类工具:聚类工具:KmeansKmeans,SOMSOMl多序列比对工具:保守性、特异性多序列比对工具:保守性、特异性lLOGOLOGO的显示:的显示:WeblogoWeblogoGene OntologyGene Ontology数据库中基因功能分类的分析数据库中基因功能分类的分析 GO研究目的:研究目的:1)提供和维护基因本体论的类别;)提供和维护基因本体论的类别;2)把基因与本体论联系起来,从而进行更有效的基因)把基因与本体论联系起来,从而进行更有效的基因功能注释和信息提取;功能注释和信息提取;3)提供工具来便于对基

7、因信息的利用。)提供工具来便于对基因信息的利用。Gene OntologyGene Ontology数据库中基因功能分类的分析数据库中基因功能分类的分析 GO提供三种本体论分类:提供三种本体论分类:1)分子功能)分子功能(molecular function)、2)生物学过程)生物学过程(biological process)3)细胞组分)细胞组分(cellular component)。在每一个分类中,都提供一个描述相关信息的分级结构在每一个分类中,都提供一个描述相关信息的分级结构。http:/使用使用AmiGOAmiGO浏览浏览GOGO的例子的例子 PathwayPathway分析分析 K

8、EGGKEGG数据库数据库http:/KEGGKEGG结果结果TCA cycle(三羧酸循环(三羧酸循环)的)的KEGG生物学通路生物学通路BioCartahttp:/BioCartaBioCarta结果结果BioCarta数据库中的数据库中的AKT信号转导通路信号转导通路 基因芯片实验与功能分析基因芯片实验与功能分析(GO pathway analysis)(GO pathway analysis)l第一种方法是把发生差异表达的基因和第一种方法是把发生差异表达的基因和GO pathwayGO pathway联系起来,并且使用不同的颜色来表示其中的差异联系起来,并且使用不同的颜色来表示其中的差

9、异表达基因,使其能够很容易地被检测到。这是一种表达基因,使其能够很容易地被检测到。这是一种比较直观的方法。比较直观的方法。l例如:根据在某一例如:根据在某一GOGO分类中发生差异表达的基因的分类中发生差异表达的基因的数量,来推理与此数量,来推理与此GOGO分类相关的生物学功能是否发分类相关的生物学功能是否发生了改变。生了改变。基因芯片实验与功能分析基因芯片实验与功能分析(GO pathway analysis)(GO pathway analysis)基因芯片实验与功能分析基因芯片实验与功能分析(GO pathway analysis)l第二种方法是对基因芯片检测的结果进行统计第二种方法是对基

10、因芯片检测的结果进行统计学分析,从而确定一系列发生差异表达的基因学分析,从而确定一系列发生差异表达的基因是否多到可以代表某些生物学通路。通常用富是否多到可以代表某些生物学通路。通常用富集度分析。集度分析。http:/GeneMAPPlGenMAPP(Gene MicroArray Pathway Profiler)GenMAPP(Gene MicroArray Pathway Profiler)是一是一个可以免费使用的计算机程序,用来显现和分析基因个可以免费使用的计算机程序,用来显现和分析基因芯片的表达谱实验结果,并且将分析结果与生物学通芯片的表达谱实验结果,并且将分析结果与生物学通路和其它基

11、因群联系起来路和其它基因群联系起来。GeneMAPP顺向技术和反向技术顺向技术和反向技术l勾勒网络有顺向技术和反向技术勾勒网络有顺向技术和反向技术(reverse-(reverse-engineering)engineering)。l顺向技术:顺向技术:是指先根据生物化学知识,推导出是指先根据生物化学知识,推导出一些关系,设计出简单网络,并通过实验来证一些关系,设计出简单网络,并通过实验来证实。实。l反向技术:反向技术:是指从已有的表达数据中,去推断是指从已有的表达数据中,去推断其中蕴含的网络。其中蕴含的网络。l海量堆积的芯片数据,正需要反向技术来挖掘海量堆积的芯片数据,正需要反向技术来挖掘其

12、中的生物意义。其中的生物意义。基因网络研究的源起和发展基因网络研究的源起和发展基因调控网络:基因调控网络:运用生物信息学的方法和技术,通过数据采集、运用生物信息学的方法和技术,通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系,在基因分析、建模、模拟和推断等手段研究复杂的网络关系,在基因组层次上揭示有关的作用机理。组层次上揭示有关的作用机理。基因网络的研究始于基因网络的研究始于20世纪世纪60年代,年代,Rater描述了控制原核生描述了控制原核生物的分子基因系统组织的特点。另一项研究是物的分子基因系统组织的特点。另一项研究是Kaufman通过简通过简单的逻辑规则研究基因网络动力学。单

13、的逻辑规则研究基因网络动力学。20世纪世纪90年代实验数据的增加加速了基因网络理论的研究,到年代实验数据的增加加速了基因网络理论的研究,到目前为止已发展了很多目前为止已发展了很多研究基因网络的方法研究基因网络的方法:如结构方程模型、:如结构方程模型、随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。的方法等。基因调控网络研究的目的和内容基因调控网络研究的目的和内容 l识别和推断基因网络的结构、特性和调控关系识别和推断基因网络的结构、特性和调控关系l认识复杂的分子调控过程认识复杂的分子调控过程l理解支配基因表达和功能的基本规则理

14、解支配基因表达和功能的基本规则l揭示基因表达过程中的信息传输规律揭示基因表达过程中的信息传输规律l整体的框架下研究基因的功能整体的框架下研究基因的功能芯片数据识别和推断网络芯片数据识别和推断网络目前研究最多的是从基因表达谱推断和识别基因网络。目前研究最多的是从基因表达谱推断和识别基因网络。l从表达数据识别基因调控网络结构;从表达数据识别基因调控网络结构;l通过随机扰动,分析个体基因对全局动态网络性能的影响,通过随机扰动,分析个体基因对全局动态网络性能的影响,得出网络特性;得出网络特性;l根据大规模的数据进行基因网络分析,识别基因网络中的调根据大规模的数据进行基因网络分析,识别基因网络中的调控关

15、系,获得网络参数,推断网络特征;控关系,获得网络参数,推断网络特征;l通过建立静态网络,推断网络中基因之间在稳态下的相互作通过建立静态网络,推断网络中基因之间在稳态下的相互作用机制;用机制;l在表达谱的基础上推断基因功能和生物网络的线路逻辑;在表达谱的基础上推断基因功能和生物网络的线路逻辑;l识别基因网络的因果结构等等。识别基因网络的因果结构等等。芯片数据识别和推断网络芯片数据识别和推断网络l 生物信息学通过对基因网络的关系进行适当简生物信息学通过对基因网络的关系进行适当简化和定量化处理,根据实验获得的数据和已知的经化和定量化处理,根据实验获得的数据和已知的经验知识发掘关系信息,建立网络模型,

16、通过模拟分验知识发掘关系信息,建立网络模型,通过模拟分析和实验测试挖掘各种关系研究网络特性,认识调析和实验测试挖掘各种关系研究网络特性,认识调控关系和相关机制。控关系和相关机制。权重矩阵网络权重矩阵网络l权重矩阵网络:假如基因的表达与时间无关,某个权重矩阵网络:假如基因的表达与时间无关,某个时刻的基因的表达只是受到这个时刻其它基因表达时刻的基因的表达只是受到这个时刻其它基因表达量的影响。量的影响。线性结构方程组线性结构方程组Y:endogenous variablesX:exogenous variables布尔网络布尔网络l基因的表达是一个连续的过程,若将其基因的表达是一个连续的过程,若将其

17、离散化离散化处理,处理,那么就得到那么就得到布尔网络布尔网络。l一个布尔网络含有一个布尔网络含有N N个节点(每个节点就是基因),个节点(每个节点就是基因),当这些基因被抑制或者表达,节点分别表现出的状当这些基因被抑制或者表达,节点分别表现出的状态是态是0 0和和1 1。l布尔网络从初始状态开始,经过一系列的状态转换,布尔网络从初始状态开始,经过一系列的状态转换,最终到达最终的稳定状态。从不同的初始状态出发,最终到达最终的稳定状态。从不同的初始状态出发,布尔网络会达到不同的中止状态,而这些不同的中布尔网络会达到不同的中止状态,而这些不同的中止状态对应于细胞相对稳定的生化状态。止状态对应于细胞相

18、对稳定的生化状态。布尔网络布尔网络l它有一些和真正的生物基因网络可比的特征,例如,它有一些和真正的生物基因网络可比的特征,例如,全局性,自组织性,冗余性等等。全局性,自组织性,冗余性等等。l布尔网络在应用于调控网络学习时仍然存在很多缺布尔网络在应用于调控网络学习时仍然存在很多缺点:基因只有开和关两种状态;不能量化调控关系;点:基因只有开和关两种状态;不能量化调控关系;要求所有基因的状态必须同步变化。要求所有基因的状态必须同步变化。常微分方程常微分方程l在常微分方程模型中在常微分方程模型中,方程的变量包括方程的变量包括RNAsRNAs、蛋白、蛋白质及其他生物小分子,基因调控关系可以用分子质及其他

19、生物小分子,基因调控关系可以用分子表达水平的变化率函数来表示表达水平的变化率函数来表示 常微分方程常微分方程l常微分方程族方法在建模时存在不少的问题:常微分方程族方法在建模时存在不少的问题:l适用于在大多数基因和它们的调控关系相对比较适用于在大多数基因和它们的调控关系相对比较清楚的情况;清楚的情况;l要求基因状态同步发生变化;要求基因状态同步发生变化;l在模型中对变量之间的关系过多的简化,比如表在模型中对变量之间的关系过多的简化,比如表达量函数通常是简单的线性关系。达量函数通常是简单的线性关系。偏微分方程偏微分方程l生物调控网络不仅是单个细胞内部不同分子之间相生物调控网络不仅是单个细胞内部不同

20、分子之间相互作用的结果,不同细胞内部基因产物的相互作用互作用的结果,不同细胞内部基因产物的相互作用也会对分子的表达量产生影响。也会对分子的表达量产生影响。l在偏微分模型中变量不仅是时间的函数,还可以是在偏微分模型中变量不仅是时间的函数,还可以是细胞序列号等变量的函数。细胞序列号等变量的函数。偏微分方程偏微分方程l该模型的最大优点是:比较符合生物网络的特点。该模型的最大优点是:比较符合生物网络的特点。l但是该模型要求非常精确的分子绝对表达量,这但是该模型要求非常精确的分子绝对表达量,这一点是目前的基因芯片实验所达不到的。一点是目前的基因芯片实验所达不到的。l其次,对于比较大的复杂网络,寻找参数和

21、数据其次,对于比较大的复杂网络,寻找参数和数据之间最优匹配的之间最优匹配的计算代价非常高,难以用于实际计算代价非常高,难以用于实际数据分析数据分析。l最后,由于在应用中通常需要对不同细胞之间分最后,由于在应用中通常需要对不同细胞之间分子的关系作较多的简化,因此对于复杂的生物网子的关系作较多的简化,因此对于复杂的生物网络并不能得到比较满意的效果。络并不能得到比较满意的效果。贝叶斯网络贝叶斯网络l对于对于贝叶斯网络贝叶斯网络,调控网络学习问题就是在给定打分函,调控网络学习问题就是在给定打分函数和搜索策略的情况下,寻找和基因芯片数据拟合得最数和搜索策略的情况下,寻找和基因芯片数据拟合得最好的简单网络

22、。好的简单网络。l贝叶斯网络的统计特性使得能够处理基因表达数据存在贝叶斯网络的统计特性使得能够处理基因表达数据存在的噪音和随机问题。同时它还能用于处理信息不完备的的噪音和随机问题。同时它还能用于处理信息不完备的系统。正是由于这些优点,贝叶斯网络方法在生物网络系统。正是由于这些优点,贝叶斯网络方法在生物网络学习方面得到了广泛的应用。学习方面得到了广泛的应用。l动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率布尔网络等随机模型有关系,并且动态贝叶斯网络证明布尔网络等随机模型有关系,并且动态贝叶斯网络证明了在利用基因表达数据学习调控网络方面的优越性。了

23、在利用基因表达数据学习调控网络方面的优越性。贝叶斯网络模型贝叶斯网络模型 (一一)数据预处理。基因表达数据首先被离散成三种类型:数据预处理。基因表达数据首先被离散成三种类型:-1-1,0 0,1 1。这一简化是基于一个基因的表达水平是否显著地低于,。这一简化是基于一个基因的表达水平是否显著地低于,或者是近似,或者是显著地高于某个参照水平。或者是近似,或者是显著地高于某个参照水平。(二二)学习贝叶斯网络的算法。主要思想是首先利用一些简单的学习贝叶斯网络的算法。主要思想是首先利用一些简单的统计量统计量(如相关系数如相关系数)对每个基因推导出少数几个可能的父母集对每个基因推导出少数几个可能的父母集合

24、。合。在随后的寻找过程中,这个算法只是从这些可能的父母集合中在随后的寻找过程中,这个算法只是从这些可能的父母集合中寻找每个基因可能的调控基因,因此,这个算法可以从很小的寻找每个基因可能的调控基因,因此,这个算法可以从很小的网络空间中寻找到局部的网络空间中寻找到局部的(local)(local)最佳结构。最佳结构。贝叶斯网络模型贝叶斯网络模型 l(三三)对网络统计显著性的评估。对网络统计显著性的评估一对网络统计显著性的评估。对网络统计显著性的评估一般可以用我们上面定义的得分函数般可以用我们上面定义的得分函数(BIC(BIC或或AIC)AIC)来进行。来进行。l(四四)对于推导的网络的稳健性评估。

25、这一步骤对学习贝叶斯对于推导的网络的稳健性评估。这一步骤对学习贝叶斯网络是必不可少的。网络是必不可少的。构造大规模的网络构造大规模的网络酵母转录网络酵母转录网络 构造大规模的网络困难和不足构造大规模的网络困难和不足l数据量不足数据量不足l相关数据库的建设和高质量软件的开发是一项紧相关数据库的建设和高质量软件的开发是一项紧迫而艰巨的任务迫而艰巨的任务 l数据噪声和系统鲁棒问题以及数据采集和分析的数据噪声和系统鲁棒问题以及数据采集和分析的可靠性和数据集的可容性问题可靠性和数据集的可容性问题 构造大规模的网络困难和不足构造大规模的网络困难和不足l建模时遇到的两难问题:建模时遇到的两难问题:l求大导致

26、模型粗糙求大导致模型粗糙试图建立适用于研究大规模基试图建立适用于研究大规模基因网络的模型导致模型过于粗糙,不能很好反映真实因网络的模型导致模型过于粗糙,不能很好反映真实情况;情况;l求全导致计算复杂求全导致计算复杂试图建立高效、仿真的模型,试图建立高效、仿真的模型,使参数集规模过大、计算复杂度剧增,结果模型复杂使参数集规模过大、计算复杂度剧增,结果模型复杂到难以处理的程度。到难以处理的程度。l建模范围小建模范围小使模型反映的网络范围狭小,从而使使模型反映的网络范围狭小,从而使研究难以达到预期的目的和效果。研究难以达到预期的目的和效果。l分析模拟结果的生物学解释方面也存在一些问题。分析模拟结果的

27、生物学解释方面也存在一些问题。第二节第二节基因芯片数据的基因芯片数据的MIAMEMIAME规则规则芯片数据难以共享芯片数据难以共享l基因芯片发展年限太短,最近才日趋成熟;基因芯片发展年限太短,最近才日趋成熟;l数据复杂,例如需要详细描述芯片制备方法、基因信息,所数据复杂,例如需要详细描述芯片制备方法、基因信息,所用的实验条件、实验样品等;用的实验条件、实验样品等;l数据之间相互比较的难度大,因为芯片结果不是基因的绝对数据之间相互比较的难度大,因为芯片结果不是基因的绝对丰度,而是和对照样本的相对比值,而所用对照样本没有统丰度,而是和对照样本的相对比值,而所用对照样本没有统一标准;一标准;l芯片生

28、产平台、数据产生格式、处理软件,归一化方法都存芯片生产平台、数据产生格式、处理软件,归一化方法都存在多样性等。在多样性等。l另外目前一些文献上和已报告的芯片数据格式多样,信息不另外目前一些文献上和已报告的芯片数据格式多样,信息不全,不能很好地评估芯片试验的质量、重复性、可靠性等,全,不能很好地评估芯片试验的质量、重复性、可靠性等,也影响了芯片结果数据的共享。也影响了芯片结果数据的共享。l必须有一个统一的标准来规范基因芯片实验数据。必须有一个统一的标准来规范基因芯片实验数据。MGEDMIAMEMIAME规则规则 MIAME(Minimum information about a microarr

29、ay MIAME(Minimum information about a microarray experiment)experiment)标准:标准:芯片实验的最低限度信息。是针芯片实验的最低限度信息。是针对基因芯片提出了一套指导方案。对基因芯片提出了一套指导方案。构建基因芯片数据库的过程中,如果参考构建基因芯片数据库的过程中,如果参考MIAMEMIAME规则,规则,那么整个基因芯片体系的基本内容就不会被遗漏那么整个基因芯片体系的基本内容就不会被遗漏.制定制定MIAMEMIAME规则的一个主要的目标就是能指导微阵列规则的一个主要的目标就是能指导微阵列数据库和数据管理软件的开发。数据库和数据管

30、理软件的开发。MIAMEMIAME规则规则l(1 1)每次实验记录的信息足以解释实验而且应该足)每次实验记录的信息足以解释实验而且应该足够详细,使得能比较类似的实验和进行重复实验;够详细,使得能比较类似的实验和进行重复实验;l(2 2)信息应当以一定方式结构化,使得能够有利于)信息应当以一定方式结构化,使得能够有利于查询和数据分析和挖掘,比如结构化的词汇表,包查询和数据分析和挖掘,比如结构化的词汇表,包括用一些标准化的名字注释生物样本和条件。括用一些标准化的名字注释生物样本和条件。MIAMIMIAMI主要内容主要内容l微阵列的描述微阵列的描述 阵列相关信息阵列相关信息微阵列上每个点的类型信息微

31、阵列上每个点的类型信息微阵列上每个点的信息微阵列上每个点的信息 微阵列的类型信息微阵列的类型信息 微阵列的详细信息微阵列的详细信息 微阵列上对照点的信息微阵列上对照点的信息 MIAMIMIAMI主要内容主要内容l对基因表达实验的描述对基因表达实验的描述基因表达实验的设计;主要对整个实验项目基因表达实验的设计;主要对整个实验项目进行简述进行简述 样品的信息,样品抽提,标记的信息。样品的信息,样品抽提,标记的信息。杂交实验的信息。杂交实验的信息。杂交获得的实验数据及后续数据分析的信息。杂交获得的实验数据及后续数据分析的信息。MIAMEMIAME规则从三个层面来考量微阵列杂交实验规则从三个层面来考量

32、微阵列杂交实验获得数据:原始数据,图像分析结果和均一化获得数据:原始数据,图像分析结果和均一化及分析后的结果数据。及分析后的结果数据。第三节第三节芯片实验设计原则和方法芯片实验设计原则和方法芯片实验设计芯片实验设计l根据实验目的、实验材料以及实验条件而选择合根据实验目的、实验材料以及实验条件而选择合适的芯片,设计最佳的样品处理和收集方法,并适的芯片,设计最佳的样品处理和收集方法,并在此基础上制定出杂交方案。在此基础上制定出杂交方案。l杂交方案:包括参考样品的使用与否以及样品的杂交方案:包括参考样品的使用与否以及样品的配对方式,是实验设计的核心配对方式,是实验设计的核心l样品的处理和收集:重复样

33、品的使用以及样品数样品的处理和收集:重复样品的使用以及样品数量的确定,是否合并样品量的确定,是否合并样品l芯片探针的设计芯片探针的设计芯片实验设计中存在的问题芯片实验设计中存在的问题l缺乏统计学参与。不少实验设计中缺乏统计学缺乏统计学参与。不少实验设计中缺乏统计学家的参与,仅由生物学家完成。但是有关实验家的参与,仅由生物学家完成。但是有关实验设计的研究通常是由统计学家完成,并且高效设计的研究通常是由统计学家完成,并且高效率的设计往往比较复杂。率的设计往往比较复杂。l经费原因。由于芯片技术的高成本而对芯片实经费原因。由于芯片技术的高成本而对芯片实验有不切实际的期望,希望一个实验能解答许验有不切实

34、际的期望,希望一个实验能解答许多问题。追求多效性但往往低效。多问题。追求多效性但往往低效。基因芯片实验目的基因芯片实验目的l类型比较(类型比较(Class ComparisonClass Comparison):通过比较不):通过比较不同样品类型的表达谱来找到同样品类型的表达谱来找到差异表达差异表达的基因。的基因。l类型发现(类型发现(Class DiscoveryClass Discovery):通过基因表):通过基因表达谱的研究来对生物样品进行达谱的研究来对生物样品进行分类分类。类型比较类型比较l样品间的生物学差异已知,目的是通过比较不同样品间的生物学差异已知,目的是通过比较不同类型样本找

35、出它们之间的类型样本找出它们之间的差异表达基因差异表达基因,研究造,研究造成样本差异的内在机理,或者是利用差异基因建成样本差异的内在机理,或者是利用差异基因建立预测模型用来对未知样本进行预测。立预测模型用来对未知样本进行预测。l比如,转基因动物与正常动物间的比较、疾病组比如,转基因动物与正常动物间的比较、疾病组织与正常组织间的比较、不同生长状态下细胞株织与正常组织间的比较、不同生长状态下细胞株的比较的比较类型比较时样本的选择类型比较时样本的选择l根据不同的检测目标选用不同的样本,可以是组根据不同的检测目标选用不同的样本,可以是组织来源或者血液来源,也可以是培养的细胞或者织来源或者血液来源,也可

36、以是培养的细胞或者病人的体外分泌物。病人的体外分泌物。l组织样本比较宝贵。组织样本比较宝贵。l病人组织和培养的细胞还是有一定差异的。内源病人组织和培养的细胞还是有一定差异的。内源性基因用活检组织最好,当针对不同诱导物的诱性基因用活检组织最好,当针对不同诱导物的诱导进行基因表达谱研究时用培养的细胞。导进行基因表达谱研究时用培养的细胞。l样品要准确样品要准确类型比较类型比较l简单离散型差异比较:简单离散型差异比较:所需比较类型不多,或所需比较类型不多,或者虽然样品组数较多,但并不需要在所有样品者虽然样品组数较多,但并不需要在所有样品间两两比较,而是用一个参照样品测出其他样间两两比较,而是用一个参照

37、样品测出其他样品的相对差异表达。品的相对差异表达。l比如,一组疾病样本与一组正常样本间比较,比如,一组疾病样本与一组正常样本间比较,或者要测试许多药物,但只关心药物和非药物或者要测试许多药物,但只关心药物和非药物之间的差异,而不是药物彼此间差异。之间的差异,而不是药物彼此间差异。类型比较类型比较l连续型差异比较:实验样本与对照样本间仅有连续型差异比较:实验样本与对照样本间仅有一种差异因素,但差异因素有很多种状态,近一种差异因素,但差异因素有很多种状态,近似于连续变量。似于连续变量。l比如,同一种药物不同剂量下基因表达谱变化比如,同一种药物不同剂量下基因表达谱变化或者同一药物不同时间下基因表达谱

38、变化,细或者同一药物不同时间下基因表达谱变化,细胞周期研究中不同时间点基因表达谱变化。胞周期研究中不同时间点基因表达谱变化。l每一个点都是与对照比较,但各点彼此相关,每一个点都是与对照比较,但各点彼此相关,常用聚类分析或相关分析。常用聚类分析或相关分析。类型比较类型比较l多因子实验:几种因素及它们之间相互作用造多因子实验:几种因素及它们之间相互作用造成的表达谱差异。成的表达谱差异。l比如,研究两种生长因子对细胞生长的影响,比如,研究两种生长因子对细胞生长的影响,每一种因子与对照作比较,而比较两种因子共每一种因子与对照作比较,而比较两种因子共同处理下与一种因子单独处理可以得到需要两同处理下与一种

39、因子单独处理可以得到需要两种因子共同刺激才能表达的基因,这些基因就种因子共同刺激才能表达的基因,这些基因就体现了相互作用。体现了相互作用。l随着变量数目及每个变量状态数目的增加,需随着变量数目及每个变量状态数目的增加,需要考虑的相互作用大大增加了。要考虑的相互作用大大增加了。类型发现类型发现l样本间的生物学差异是未知的,实验目的是通样本间的生物学差异是未知的,实验目的是通过基因表达谱的差异对样本进行归类过基因表达谱的差异对样本进行归类l往往通过聚类分析同时找到样本的类型划分和往往通过聚类分析同时找到样本的类型划分和差异基因差异基因l比如,临床医学研究中对疾病亚型的分类,基比如,临床医学研究中对

40、疾病亚型的分类,基础研究中也可以研究细胞株的分类及活体组织础研究中也可以研究细胞株的分类及活体组织的分类的分类样本配对方案样本配对方案l如何将样品配对如何将样品配对l如何选择标记染料如何选择标记染料l如何将样品分配到芯片上如何将样品分配到芯片上l共同参照、直接比较、环状、更复杂的设计共同参照、直接比较、环状、更复杂的设计共同参照方案共同参照方案l所有的芯片都只将一种染料用于实验样品,另一种染料被用于一个参考样品。l使用参考样品目的是校正芯片点样量的误差l所有芯片表达量基于同样基准的相对值,因而是可比的。T1RefT2Tn-1Tn参照样品的选用参照样品的选用l所用的实验样品等量混合所用的实验样品

41、等量混合 优点:参考样品与实验样品相似,校正作用较好优点:参考样品与实验样品相似,校正作用较好 缺点:不同实验不能比较缺点:不同实验不能比较l一些与实验无关,但来源广泛切大部分基因均有表一些与实验无关,但来源广泛切大部分基因均有表达的达的RNA样本(多种细胞株或多种组织的样本(多种细胞株或多种组织的mRNA)混合混合 缺点:参考样本与实验样本无关,参考样本中缺缺点:参考样本与实验样本无关,参考样本中缺少某些基因使校正功能丧失少某些基因使校正功能丧失 优点:优点:参考样本稳定可靠,易于进行多实验比较参考样本稳定可靠,易于进行多实验比较共同参照方案共同参照方案l适合大规模比较、需要聚类分析或相关性

42、分析的实适合大规模比较、需要聚类分析或相关性分析的实验,以及一些需要进行很多两两比较的实验。验,以及一些需要进行很多两两比较的实验。l优点:较好的牢固性(少数样品的损失对整个实验优点:较好的牢固性(少数样品的损失对整个实验影响较小,不需要染料互换),可扩展性。影响较小,不需要染料互换),可扩展性。l缺点:误差大些,所需芯片更多一些。缺点:误差大些,所需芯片更多一些。直接比较方案直接比较方案l一个实验样品和一个对照样品分别标记两种染一个实验样品和一个对照样品分别标记两种染料,杂交到同一芯片。料,杂交到同一芯片。l实验组和对照组的基因表达差异值直接从两种实验组和对照组的基因表达差异值直接从两种染料

43、的比值中得到。染料的比值中得到。直接比较方案直接比较方案l适用于两个样本间差异表达基因的寻找适用于两个样本间差异表达基因的寻找l优点:节省芯片,测量精度高优点:节省芯片,测量精度高l缺点:不适合聚类分析和相关分析,不适合在缺点:不适合聚类分析和相关分析,不适合在不同样品之间进行多种比较(样品之间没有经不同样品之间进行多种比较(样品之间没有经过同一对照校正,不具有直接可比性)过同一对照校正,不具有直接可比性)染料互换染料互换l直接比较中,两种染料可能带来系统误差(有些直接比较中,两种染料可能带来系统误差(有些基因用一种染料测出的表达量比用另一种染料测基因用一种染料测出的表达量比用另一种染料测出的

44、表达量高)出的表达量高)l标记标记mRNAmRNA是不同的基因对是不同的基因对Cy5Cy5和和Cy3Cy3有不同的标记有不同的标记效率,在杂交结果上表现出由染料造成的差异。效率,在杂交结果上表现出由染料造成的差异。l解决办法:染料互换(解决办法:染料互换(Dye SwappingDye Swapping)(一半的)(一半的芯片用芯片用Cy5Cy5标记的对照组样品和标记的对照组样品和Cy3Cy3标记的实验组标记的实验组样品杂交,另一半芯片用样品杂交,另一半芯片用Cy3Cy3标记的对照组样品和标记的对照组样品和Cy5Cy5标记的实验组样品杂交)标记的实验组样品杂交)环状设计及更复杂的网状设计环状设

45、计及更复杂的网状设计l适用于比较复杂的特别是有较多样品组别需要比适用于比较复杂的特别是有较多样品组别需要比较的实验较的实验l优点:同时运用直接和间接方法提高测量精度优点:同时运用直接和间接方法提高测量精度l缺点:复杂,中间可能缺失缺点:复杂,中间可能缺失l在相隔较远节点间增加一些杂交,环状成网状在相隔较远节点间增加一些杂交,环状成网状TATATBTBTCTCTATATBTBTCTCTDTDTBTBTCTCTDTDTETETATA样本配对模式的选择样本配对模式的选择l实验目的,实验室生物学背景和每个实验室具实验目的,实验室生物学背景和每个实验室具体情况体情况l类型发现实验需要经过聚类分析,一般采

46、用间类型发现实验需要经过聚类分析,一般采用间接比较模式接比较模式l简单离散型比较实验采用直接比较模式合适,简单离散型比较实验采用直接比较模式合适,能在花费较低情况下得到比较准确的结果能在花费较低情况下得到比较准确的结果l连续型比较实验常要用聚类分析和相关分析,连续型比较实验常要用聚类分析和相关分析,多采用间接比较模式。多采用间接比较模式。时间序列实验时间序列实验T2T2T3T3T4T4T1T1RefRefT2T2T3T3T4T4T1T1用了用了4 4张芯片,间接比较,测定误张芯片,间接比较,测定误差大但适用于各种比较差大但适用于各种比较用了用了3 3张芯片,起始时间作为对照张芯片,起始时间作为

47、对照直接比较,直接比较,T1T1为通用参照,适用于为通用参照,适用于各个时间与起始时间的比较各个时间与起始时间的比较T1T1T2T2T3T3T4T4用了用了3 3张芯片,直接按顺序比较,张芯片,直接按顺序比较,适用于相邻时间样品间的比较适用于相邻时间样品间的比较T1T1T2T2T3T3T4T4用了用了4 4张芯片,张芯片,T1T1为通用对照,在为通用对照,在直接比较方案上增加一些配对以提直接比较方案上增加一些配对以提高测定精确度高测定精确度多因子实验多因子实验l多因子实验和复杂的离散型比较实验多采用网状或环多因子实验和复杂的离散型比较实验多采用网状或环状,以提高效率并满足其多重比较的特点状,以

48、提高效率并满足其多重比较的特点。A AB BABABC CC CA AABABB BC CA AABABB B用了用了6 6张芯片,间张芯片,间接比较,测定误接比较,测定误差大差大,但所需样品但所需样品最少最少用了用了6 6张芯片,环张芯片,环状,综合精度最状,综合精度最高高,但但A A因子测量因子测量误差大误差大用了用了6 6张芯片,网张芯片,网状,但状,但ABAB作用测作用测量误差大量误差大C C是空白对照是空白对照探针的设计探针的设计l一般由芯片制造商完成一般由芯片制造商完成l寡核苷酸和寡核苷酸和cDNAcDNA探针设计探针设计l定制或查阅克隆信息一般都从公开的数据库:定制或查阅克隆信息

49、一般都从公开的数据库:EST(expressed sequence tags)EST(expressed sequence tags),UnigeneUnigene,RefSeq(reference sequences)RefSeq(reference sequences)控制系统的设计控制系统的设计l空白点。控制芯片制备过程中的污染l阴性内参。对实验阴性结果的说明l阳性内参。对实验阳性结果的说明l定量内参或者管家基因。对实验结果量化的修正l外参。与研究物种的基因没有同源性的基因。校正样本间的差异样品重复样品重复l重复样本使用可以提高数据可靠性重复样本使用可以提高数据可靠性l一个目的是通过重复

50、样品的平均值得到更准确一个目的是通过重复样品的平均值得到更准确的测量结果的测量结果l另一个目的是计算样品群体的方差,用统计学另一个目的是计算样品群体的方差,用统计学的方法判断两组样品之间的差异是否有显著性。的方法判断两组样品之间的差异是否有显著性。这对类型比较实验很重要,因为只有通过统计这对类型比较实验很重要,因为只有通过统计学的显著性才能判断得到的差异基因是否是真学的显著性才能判断得到的差异基因是否是真的。的。样品重复样品重复l生物上的差异生物上的差异 个体差异个体差异 同一个体样本也有差异同一个体样本也有差异l技术上的差异:样本的准备技术上的差异:样本的准备 抽提,标记和杂交抽提,标记和杂

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁