《第八章基因芯片分析.ppt》由会员分享,可在线阅读,更多相关《第八章基因芯片分析.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC生物信息学生物信息学第八章第八章 基因芯片分析基因芯片分析2021/9/211Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC本章内容提要本章内容提要r1.Microarray简介简介r2.图像处理与数据标准化图像处理与数据标准化r3.基因芯片的数据分析基因芯片的数据分析r4.Microarray:工具工具&数据库数据库202
2、1/9/212Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因芯片基因芯片r1.基因芯片基因芯片(1987)p2.根据免疫测定的根据免疫测定的(immunoassay)的方法予以改进的方法予以改进r3.高通量、点阵以及高通量、点阵以及Northern杂交杂交|同时测定细胞内数千个基因的表达情况同时测定细胞内数千个基因的表达情况|将将mRNA反转录成反转录成cDNA与芯片上的探针杂交与芯片上的探针杂交r4.芯片的体积非常小:微量样品的检测芯片的体积非常小:微量样品的检测r5.基因表
3、达情况的定量分析基因表达情况的定量分析r6.其他类型的芯片:其他类型的芯片:|组织芯片组织芯片|蛋白质芯片蛋白质芯片2021/9/213Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因芯片的密度:基因芯片的密度:基因芯片的密度:基因芯片的密度:100-1 million DNA 100-1 million DNA 探针探针探针探针/1cm/1cm2 2将样品中的将样品中的DNA/RNA表上荧表上荧光标记,则可以定量检验基光标记,则可以定量检验基因的表达水平因的表达水平碱基互补碱基
4、互补2021/9/214Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因表达情况的定量测定基因表达情况的定量测定p1.发现在特定生长时期,或者随着环境变化,那发现在特定生长时期,或者随着环境变化,那些基因的表达收到诱导或者抑制些基因的表达收到诱导或者抑制p2.在相同条件下,上调或者下调变化规律相似的在相同条件下,上调或者下调变化规律相似的基因,可能具有功能上的关联基因,可能具有功能上的关联p3.可以从共表达的基因中寻找调控模体可以从共表达的基因中寻找调控模体p4.基因表达的模式可
5、以用来表征异常的细胞调控,基因表达的模式可以用来表征异常的细胞调控,例如,癌症的诊断例如,癌症的诊断2021/9/215Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因芯片技术的类型基因芯片技术的类型按技术手段、探针类型分类按技术手段、探针类型分类r1.Short oligonucleotide arrays(Affymetrix)r2.cDNA arrays(Brown/Botstein)r3.Long oligo arrays(Agilent)r4.Serial analys
6、is of gene expression(SAGE)按实验要求分类按实验要求分类r1.单通道单通道(Single Channel):一次检验一种状态一次检验一种状态 r2.双通道双通道(Dual Channel):差异表达基因的筛选差异表达基因的筛选2021/9/216Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC两类主流的两类主流的DNA芯片芯片p1.cDNA microarrays:将将5005,000bp的的cDNA固载到介质上固载到介质上(例如玻璃例如玻璃),Stanfo
7、rd开发设计,开发设计,通常为双通道通常为双通道p2.DNA chips:将寡核苷酸探针将寡核苷酸探针(2080-mer)合合成到芯片上,成到芯片上,Affymetrix开发设计,通常为单通开发设计,通常为单通道道2021/9/217Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(1)cDNA microarrayscDNA clones2021/9/218Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-200
8、9,Semester 1,USTCRobot spotter普通的盖玻片普通的盖玻片cDNA microarrays的制备的制备2021/9/219Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC差异表达基因的筛选差异表达基因的筛选Treatment/controlNormal/tumor tissueBrain/liver2021/9/2110Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semes
9、ter 1,USTC点样后的点样后的cDNA Microarrays2021/9/2111Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCGenesmRNA samplesGene expression level of gene i in mRNA sample j=Log(Red intensity/Green intensity)Log(Avg.PM-Avg.MM)sample1 sample2 sample3 sample4 sample5 1 0.46 0.30 0.80
10、1.51 0.90.2-0.10 0.49 0.24 0.06 0.46.3 0.15 0.74 0.04 0.10 0.20.4-0.45-1.03-0.79-0.56-0.32.5-0.06 1.06 1.35 1.09-1.09.基因表达的数据基因表达的数据2021/9/2112Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(1)DNA chips2021/9/2113Bioinformatics,2008-2009,Semester 1,USTCBioinformatics
11、,2008-2009,Semester 1,USTC2021/9/2114Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCDNA chips的制备:的制备:Affymetrix photolitographyr探针长度:探针长度:25 bpr每个基因:每个基因:22-40个探针个探针rPerfect Match(PM)vs.MisMatch(MM)probes2021/9/2115Bioinformatics,2008-2009,Semester 1,USTCBioinformati
12、cs,2008-2009,Semester 1,USTC点样后的点样后的Gene chip2021/9/2116Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC总结总结2021/9/2117Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因芯片的实验流程基因芯片的实验流程2021/9/2118Bioinformatics,2008-2009,Semester 1,USTC
13、Bioinformatics,2008-2009,Semester 1,USTC2.图像处理与数据标准化图像处理与数据标准化单单通道基因芯片通道基因芯片 white(very high)red(high)Yellow(a little high)green(medium)blue(low)black(no)2021/9/2119Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC图像处理图像处理植根区域生长法植根区域生长法(SRG)Fixed Circle1.栅格化:确定点的位置栅格化:
14、确定点的位置2.图象分割图象分割(Segmentation):将点从背景中分离出来。:将点从背景中分离出来。3.抽提亮度:各个像素亮度的平均值抽提亮度:各个像素亮度的平均值(mean)或中位数或中位数(median)4.背景校正:局部或全局背景校正:局部或全局2021/9/2120Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因表达量的定量基因表达量的定量对于每个点,我们可以计算对于每个点,我们可以计算 Red intensity =Rfg-Rbgfg=foreground,bg
15、=background,and Green intensity=Gfg-Gbgand combine them in the log(base 2)ratio Log2(Red intensity/Green intensity)Green intensity(medium):12021/9/2121Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCMicroarray:误差的来源误差的来源r系统的系统的r随机的随机的 log signal intensity log RNA abun
16、dance2021/9/2122Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCMicroarray:误差的来源误差的来源r1.图像分析图像分析r2.扫描扫描r3.DNA杂交过程杂交过程(温度、时间、混合均匀温度、时间、混合均匀程度等程度等)r4.探针的标记探针的标记r5.RNA的抽提的抽提r6.加样加样r7.其他其他2021/9/2123Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester
17、 1,USTCRed/green 比值比值存在亮度的倾向存在亮度的倾向M=log2R/G =log2R-log2G=(log2R+log2G)/2Values should scatter about zero.2021/9/2124Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC数据标准化数据标准化beforeafter2021/9/2125Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semest
18、er 1,USTC3.基因芯片的数据分析基因芯片的数据分析r(1)差异表达基因的分析差异表达基因的分析r(2)基因共表达分析基因共表达分析r(3)基因表达数据的聚类基因表达数据的聚类r(4)基因表达数据的分类基因表达数据的分类r(5)Map to GOr(6)Gene regulatory network2021/9/2126Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(1)差异表达基因的分析差异表达基因的分析r1.差异表达基因的分析差异表达基因的分析:寻找处理前后表达上调寻找处
19、理前后表达上调或者下调的基因或者下调的基因r2.Are the treatments different?r3.使用标准的统计学方法检验使用标准的统计学方法检验(t-test or f-test),发现统计显著性差异表达的基因,发现统计显著性差异表达的基因,r4.如果处理本身并不显著,则结果无意义如果处理本身并不显著,则结果无意义2021/9/2127Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC统计学分析统计学分析r1.Fold change,一般一般2-fold increas
20、e or decrease(平行实验的样本较少平行实验的样本较少)r2.p-value(平行实验的样本较多平行实验的样本较多)under-expressedover-expressed/2/22021/9/2128Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCP-value:学生分布学生分布r1.T-test:学生分布学生分布r2.Excel函数:函数:TTEST(array1,array2,tails,type)|Array1为第一个数据集为第一个数据集|Array2为第二个数据
21、集为第二个数据集|Tails指示分布曲线的尾数。如果指示分布曲线的尾数。如果 tails=1,函数,函数 TTEST 使用单尾分布。如果使用单尾分布。如果 tails=2,函数,函数 TTEST 使使用双尾分布用双尾分布|Type为为 t 检验的类型检验的类型1 成对成对 2 等方差双样本检验等方差双样本检验 3 异方差双样本检验异方差双样本检验 2021/9/2129Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCP-value:学生分布学生分布r1.一般选择双尾分布一般选择双尾分
22、布r2.异方差双样本检验异方差双样本检验r3.Excel函数:函数:=TTEST(B2:D2,E2:G2,2,3)r4.C:对照组;:对照组;T:实验组:实验组C1C2C3T1T2T3TTESTGene 11.3221.6761.4573.5264.2343.8790.0019882021/9/2130Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCMultiple Comparisonsr1.在基因芯片的实验中,每一个基因在基因芯片的实验中,每一个基因/探针,都是一探针,都是一个独
23、立的实验个独立的实验r2.基因芯片:高通量,基因芯片:高通量,1,000个基因个基因/探针探针r3.因此,无论怎么比较,总会有一些基因会是统计因此,无论怎么比较,总会有一些基因会是统计显著性差异表的显著性差异表的 可能是随机产生的可能是随机产生的r4.如何评估表达差异基因预测的有效性?如何评估表达差异基因预测的有效性?r5.例:例:1,000个探针的双通道芯片,以个探针的双通道芯片,以p-value 0.01为域值,发现为域值,发现7个上调基因,个上调基因,5个下调基因,分个下调基因,分析结果是否具有统计学意义?析结果是否具有统计学意义?2021/9/2131Bioinformatics,20
24、08-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCFalse Discovery Rate(FDR)r1.False positive prediction:“Type 1 error or False Discoveryr2.False Discovey Rate(FDR)=p-value*No.of Genes|上例:上例:FDR=0.01*1,000=10(随机随机)|7个上调基因,个上调基因,5个下调基因个下调基因 10|因此上例计算的结果无统计学意义因此上例计算的结果无统计学意义r3.FDR必须远小于发现的差
25、异表达基因数目必须远小于发现的差异表达基因数目|实验的有效性实验的有效性|p-value的选择的选择2021/9/2132Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(2)基因共表达分析基因共表达分析r1.在在N个不同的条件下个不同的条件下(时间序列的芯片数据时间序列的芯片数据),考,考察基因察基因X和和Y的表达是否相似的表达是否相似r2.Gene 1#是否与是否与Gene 2#、Gene 3#和和Gene 4#共表达?共表达?r3.共表达:共表达:|正相关:相似的表达谱,可能存
26、在正关联正相关:相似的表达谱,可能存在正关联|负相关:相反的表达谱,可能存在负调控负相关:相反的表达谱,可能存在负调控Eisen MB,et al.,(1998)PNAS 95:14863-14868Gene NameT1T2T3T4T5T6Gene 1#123456Gene 2#100200300400550610Gene 3#660540430320210101Gene 4#1504215357254516709982021/9/2133Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,U
27、STC没有相关性?没有相关性?2021/9/2134Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC基因相关性分析基因相关性分析r1.Spearman rank correlationr2.Kendalls taur3.Euclidean distancer4.Pearson correlation coefficient:-1 1rExcel函数:函数:=PEARSON(array1,array2)Eisen MB,et al.,(1998)PNAS 95:14863-148682
28、021/9/2135Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCPearson相关系数相关系数r1.r -1,1|r 1,正相关,正相关|r-1,负相关,负相关Gene 1#Gene 2#Gene 3#Gene 1#Gene 2#0.996368Gene 3#-0.99988-0.99611Gene 4#0.2452920.254855-0.2395r结论:Gene 1#与Gene 2#表达正相关,与Gene 3#表达负相关,与Gene 4#无关联2021/9/2136Bioin
29、formatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(3)基因表达数据的聚类基因表达数据的聚类r1.将表达谱相似的基因聚类在一起将表达谱相似的基因聚类在一起r2.无督导学习无督导学习(unsupervised learning)r3.Pattern finding:发现新的模式发现新的模式r4.聚类方法:聚类方法:|A.Hierarchical clustering|B.K-means clusteringHierarchical Clustering2021/9/2137Bioinformati
30、cs,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCHierarchical clusteringr1.用树状结构来表征基因表用树状结构来表征基因表达之间的相似性达之间的相似性/相关性相关性r2.优点:不需要指定结果有优点:不需要指定结果有多少类多少类Object12345122365410 9459853Distance matrixDistanceCluster01,2,3,4,52(1,2),3,4,53(1,2),3,(4,5)4(1,2),(3,4,5)5(1,2,3,4,5)2021/9/2138B
31、ioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCK-means clusteringr1.对数据进行聚类对数据进行聚类r2.必须给定结果分成必须给定结果分成多少类!多少类!r3.假设,该例中,指假设,该例中,指定为聚成定为聚成5类类2021/9/2139Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCK-means clusteringr1.随便选取随便选取5个点,个点,作为
32、每一个类的中作为每一个类的中心点心点2021/9/2140Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCK-means clusteringr2.计算其他点与这计算其他点与这5个中心点的个中心点的距离距离r距离:距离:|欧氏距离欧氏距离|马氏距离马氏距离|皮尔孙相关系数皮尔孙相关系数r点的归类:离哪个中点的归类:离哪个中心点近,归哪个类心点近,归哪个类2021/9/2141Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,
33、2008-2009,Semester 1,USTCK-means clusteringr3.针对每一类中的每针对每一类中的每一个点,计算其与其一个点,计算其与其他点的距离,加和,他点的距离,加和,除以该类点的数目;除以该类点的数目;r找到新的中心点,即找到新的中心点,即改点到该类中其他点改点到该类中其他点的平均值最小;的平均值最小;r确定新的确定新的5个中心点!个中心点!2021/9/2142Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCK-means clusteringr4.重
34、复重复2,3,直到结,直到结果收敛果收敛r实际操作时,因结果实际操作时,因结果完全收敛时间过长,完全收敛时间过长,一般指定迭代的次数,一般指定迭代的次数,如如1,000次次2021/9/2143Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCK-means clusteringr5.最终结果:所有基最终结果:所有基因芯片数据被聚成因芯片数据被聚成5类类r软件:软件:Cluster 3.0,Michael Eissen,Stanford2021/9/2144Bioinformatics
35、,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(4)基因表达数据的分类基因表达数据的分类r1.根据基因表达的数据将样本分成两类或多类;根据基因表达的数据将样本分成两类或多类;r2.督导学习督导学习(supervised learning):根据发现:根据发现的的pattern进行预测进行预测r3.应用:应用:|癌症癌症 vs.正常组织正常组织|癌症的亚型、不同阶段癌症的亚型、不同阶段(良性的良性的 vs.恶性的恶性的)|对药物的敏感性对药物的敏感性(tamoxifen for breast cancer)20
36、21/9/2145Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCDiffuse large B-cell lymphoma(DLBCL)1.通过聚类发现各种亚型之通过聚类发现各种亚型之间的关系间的关系2.根据基因表达模式,能够根据基因表达模式,能够预测新的基因表达样本预测新的基因表达样本2021/9/2146Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC(5)Map t
37、o GOr1.通过基因芯片,找到了一批通过基因芯片,找到了一批“interesting”的基因的基因r2.生物学功能上是否存在关联?生物学功能上是否存在关联?|某种功能是否显著?某种功能是否显著?r3.Gene Ontology+超几何分布超几何分布2021/9/2147Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCGOToolBox2021/9/2148Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009
38、,Semester 1,USTC(6)Gene regulatory networkr1.早期观点:表达谱相似的基因可能存在早期观点:表达谱相似的基因可能存在功能上的关联,可能相互作用功能上的关联,可能相互作用(直接作用直接作用)r2.当前的观点:表达谱相似的基因可能具当前的观点:表达谱相似的基因可能具有共同的调控元件有共同的调控元件(基因基因UTR区域存在共同区域存在共同的的Promotor),能够被同一个上游因子所调能够被同一个上游因子所调控控2021/9/2149Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-200
39、9,Semester 1,USTC相关系数:基因共表达网络相关系数:基因共表达网络ERL2SKP1UnknownChS1Wild-typeMutantr1.与光合效率和气孔发育相关的基因:与光合效率和气孔发育相关的基因:ERL2|A.在在Wild-type中与之显著相关,但在中与之显著相关,但在Mutant中显著不中显著不相关的基因相关的基因2021/9/2150Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC相关系数:基因共表达网络相关系数:基因共表达网络2021/9/2151Bi
40、oinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTC4.Microarray:工具工具&数据库数据库2021/9/2152Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCGEO-NCBI2021/9/2153Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCArray Express-EMBL2021/9/2154Bioinformatics,2008-2009,Semester 1,USTCBioinformatics,2008-2009,Semester 1,USTCSMD-Stanford2021/9/2155