《生物信息学序列分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学序列分析ppt课件.ppt(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第7章章 序列分析序列分析2碱基组成碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。 表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。 表1 九种完整DNA序列的碱基组成 表2 人类胎儿球蛋白基因不同区段的碱基组成 78序列组成分析9A/G/C/T的组
2、成,尤其是G+C含量的预测(进化?探针设计?)1011序列组成分析12序列组成分析13蛋白分子量和等电点14蛋白分子量和等电点15蛋白分子量和等电点16蛋白质分子量/等电点预测 online Compute pI/MWhttp:/us.expasy.org/tools/pi_tool.html17 只要进行基因工程利用必须用到各种限制性内切酶如 GGATCC BamHI18进行酶切位点分析的时候,对于构建载体,我们需要知进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有道的信息是你的序列中有/没有某个酶的位点?没有某个酶的位点?为什么?为什么?如果答案是如果答案是“有有”,
3、是什么情况?,是什么情况?“没有没有”又是什么情又是什么情况?况?Plasmid vectorSac IXbaIHind IIIHind IIIXba ICloning siteSacI1920二碱基相邻频率二碱基相邻频率 分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例:例:鸡血红蛋白鸡血红蛋白链的链的mRNA编码区的编码区的438个碱基个碱基图1 鸡球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860) 表3 图1鸡球蛋白基因序列的相邻碱基分布 在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上
4、,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。 表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列) 相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计之间的关联,这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链(Markov cha
5、in)理论理论得到得到(Javare和和Giddings,1989)27什么是HMM?Hidden Markov Models (HMMs, 隐马尔可夫模型) 最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。28什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于其后的核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。大家只要知道大家只要知道HMM是目前生物信息学中应用非常广泛的概率是目前生物信息学中应用非常广泛的概率论
6、模型,广泛应用于基因识别,其基本原理基于任何一个序论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。列的出现都不是独立的。 密码子是核酸携带信息和蛋白质携带信息间对应的基本原则, 是生物体内信息传递的基本环节。在生物的遗传密码中, 除色氨酸和甲硫氨酸只有一个密码子外, 其余氨基酸都有一个以上的简并密码子。对同一物种, 不同蛋白编码密码子在基因中出现的频率不同; 就同一种氨基酸而言, 编码该氨基酸的不同密码子的比率在不同的蛋白中也有差异, 因此生物体基因对简并密码子的选择具有一定的偏爱性。 同义密码子(Synonymous Codons):编码同一氨基酸的密码子。 在蛋白
7、质编码过程中, 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子, 这种现象称为同义密码子的使用偏性(Synony mous Codon Usage Bias) 研究密码子使用偏性的意义: (一)作为预测真核生物核糖体在细胞内定位的一种手段 ,通过比较核基因编码的核糖体蛋白和线粒体基因编码的核糖体蛋白上密码子使用模式的差异来预测未知蛋白的基因所在基因组位置。 (二)通过密码子使用偏好性的研究,可以判定一些最优密码子,针对这些密码子设计基因工程表达载体可以提高目的基因的表达量 。 (三)利用密码子使用偏好性和某种功能的关联程度对某些未知功能基因进行预测,利用已知的密码子偏好知识对未知表
8、达水平的基因进行判定,初步判断该基因的表达水平高或低。 (四)利用编码区和非编码区的基因组特征差异进行全基因组扫描,发现新基因。 由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993)和最优密码子使用频率FOp(Lavnerand Kotlar2005) 等。多种多样的技术和方法促进了密码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致,特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才能确保结果的正确性。 计算同义密码子相对
9、使用度(Relative synonymous codon usage, RSCU) 在genebank中取出序列后,用codonw进行在线分析同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然 。其中,n表示这个密码子所代表的氨基酸的
10、同义密码子种类数目(1300bp)就能相当准确地预测出基因 利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法 CpG岛:CpG岛(CpG island)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧
11、啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一616263Genomic DNAcDNA64用softberry预测基因结构 http:/www.bio-65什么是HMM?对于给定的核苷酸序列,
12、我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。对于基因识别而言,HMM可以分为2种:按内容搜索:即根据核苷酸和密码子在编码区内的分布规律来确定蛋白质的编码区;按信号搜索:即通过分析编码区周围的信号(启动子终止子各种cis-element等来确定蛋白质的编码区。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。66一个例子: 用softberry预测基因结构67TSSATGTATApromoter69707172737475767778方法一: 用softberry预测.79方法二: 用Fruitfly网站的promoter预测程序预测.8081回顾和讨论回顾和讨论: : 什么是什么是HMM? 如何进行基因结构的预测?如何进行基因结构的预测? Promoter的位置在哪里的位置在哪里? 什么是什么是TSS, 为什么要预测为什么要预测TSS?预测预测TSS有哪有哪些方法些方法?