第七章-蛋白质结构预测.ppt-淘文阁

资源描述

《第七章-蛋白质结构预测.ppt》由会员分享，可在线阅读，更多相关《第七章-蛋白质结构预测.ppt（53页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七章第七章蛋白质结构预测蛋白质结构预测主讲人：孙啸制作人:刘志华东南大学吴健雄实验室第一节引言引言蛋白质结构预测问题序列结构功能.-Gly-Ala-Glu-Phe-.FUNCTION结构预测问题.-Gly-Ala-Glu-Phe-.FUNCTION?解决方法.-Gly-Ala-Glu-Phe-.FUNCTION！寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射蛋白质结构预测主要有两大类方法：（1）理论分析方法通过理论计算（如分子力学、分子动力学计算）进行结构预测。（2）统计的方法对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而对未知结构的蛋白质根

2、据映射模型直接从氨基酸序列预测结构。包括：经验性方法结构规律提取方法同源模型化方法第二节第二节蛋白质二级结构预测蛋白质二级结构预测蛋白质蛋白质序列：序列：二级结构：二级结构：二级结构预测二级结构预测蛋白质蛋白质序列：序列：二级结构：二级结构：QLMGERIRARRKKLK STHHHHHHHHHHHHT 1、二级结构预测概述、二级结构预测概述蛋白质的二级结构预测的基本依据是：蛋白质的二级结构预测的基本依据是：每一段相邻的氨基酸残基具有形成一定二每一段相邻的氨基酸残基具有形成一定二级结构的倾向。级结构的倾向。二级结构预测问题是模式分类问题二级结构预测问题是模式分类问题二级结构预测的目标

3、：二级结构预测的目标：判断每一段中心的残基是否处于判断每一段中心的残基是否处于螺旋、螺旋、折叠、折叠、转角（或其它状态）之一的二级结构态，即三转角（或其它状态）之一的二级结构态，即三态。态。基本策略（1）相似序列相似结构QLMGERIRARRKKLKQLMGAERIRARRKKLK结构？结构？基本策略（2）分类分析螺旋提取样本提取样本聚类分析聚类分析学习分类规则学习分类规则预测预测.-Gly-Ala-Glu-Phe-.二级结构预测的方法大体分为三代：第一代是基于单个氨基酸残基统计分析从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段

4、的统计分析统计的对象是氨基酸片段片段的长度通常为11-21片段体现了中心残基所处的环境在预测中心残基的二级结构时，以残基在特定环境形成特定二级结构的倾向作为预测依据这些算法可以归为几类：（1）基于统计信息（2）基于物理化学性质（3）基于序列模式（4）基于多层神经网络（5）基于多元统计（6）基于机器学习的专家规则（7）最邻近算法第一代和第二代预测方法对三态预测的准确第一代和第二代预测方法对三态预测的准确率都小于率都小于70%，而对，而对折叠预测的准确率仅为折叠预测的准确率仅为28 48%其主要原因是只利用局部信息其主要原因是只利用局部信息第三代方法（考虑多条序列）第三代方法（考虑

5、多条序列）运用长程信息和蛋白质序列的进化信息运用长程信息和蛋白质序列的进化信息准确度有了比较大的提高准确度有了比较大的提高2、蛋白质二级结构预测方法、蛋白质二级结构预测方法(1)经验参数法经验参数法蛋白质二级结构的组成规律性比较强蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的三种基本二级结构平均占氨基酸残基的85%各种二级结构非均匀地分布在蛋白质中各种二级结构非均匀地分布在蛋白质中有些蛋白质中含有大量的有些蛋白质中含有大量的螺旋螺旋如血红蛋白和肌红蛋白如血红蛋白和肌红蛋白而一些蛋白质中则不含或者仅含很少的而一些蛋白质中则不含或者仅含很少的螺旋螺旋如铁氧蛋白如铁氧蛋白有些

6、蛋白质的二级结构以有些蛋白质的二级结构以折叠为主折叠为主如免疫球蛋白如免疫球蛋白例：肽链例：肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成倾向于形成螺旋螺旋肽链肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成则不会形成螺旋螺旋每种氨基酸出现在各种二级结构中倾向或者每种氨基酸出现在各种二级结构中倾向或者频率是不同的频率是不同的例如：例如：Glu主要出现在主要出现在螺旋中螺旋中 Asp和和Gly主要分布在转角中主要分布在转角中 Pro也常出现在转角中，但是绝不会出现在也常出现在转角中，但是绝不会出现在螺旋中螺旋中可以根据每种氨基酸残基形成二级

7、结构的倾可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测向性或者统计规律进行二级结构预测经验参数法经验参数法由由Chou 和和Fasman在在70年代提出年代提出来来是一种基于单个氨基酸残基统计的经验预测是一种基于单个氨基酸残基统计的经验预测方法。方法。通过统计分析，获得的每个残基出现通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。用这些倾向性因子预测蛋白质的二级结构。一个氨基酸残基的构象倾向性因子定义为一个氨基酸残基的构象倾向性因子定义为Pi=Ai/Ti (i=,c,t)式

8、中下标式中下标i表示构象态表示构象态如如螺旋、螺旋、折叠、转角、无规卷曲等；折叠、转角、无规卷曲等；Ti是所有被统计残基处于构象态是所有被统计残基处于构象态i的比例；的比例；Ai是第是第A种残基处于构象态种残基处于构象态i 的比例；的比例；Pi大于大于1.0表示该残基倾向于形成二级结构构象表示该残基倾向于形成二级结构构象i，小于，小于1.0则表示倾向于形成其它构象。则表示倾向于形成其它构象。发现关于二级结构的经验规则发现关于二级结构的经验规则基本思想是在序列中寻找规则二级结构的成核基本思想是在序列中寻找规则二级结构的成核位点和终止位点。位点和终止位点。扫描输入的氨基酸序列，利用一组规则发现可

9、能成为特定二级结构成核区域的短序列，然后对于成核区域进行扩展，不断扩大成核区域，直到倾向性因子小于1.0为止。规则：（i）螺旋规则螺旋规则（ii）折叠规则折叠规则（iii）转角规则）转角规则 (iv)重叠规则重叠规则延伸成核区延伸（i）螺旋规则螺旋规则沿蛋白质序列寻找沿蛋白质序列寻找螺旋核螺旋核相邻的相邻的6个残基中如果有至少个残基中如果有至少4个残基倾向于形成个残基倾向于形成螺旋，则认为是螺旋核。螺旋，则认为是螺旋核。从螺旋核向两端延伸从螺旋核向两端延伸直至四肽片段的直至四肽片段的螺旋倾向性因子的平均值螺旋倾向性因子的平均值P 1.03，则，则预测为螺旋。预测为螺旋。延伸螺旋核延

10、伸（ii）折叠规则折叠规则相邻相邻6个残基中若有个残基中若有4个倾向于形成个倾向于形成折叠，则折叠，则认为是折叠核。认为是折叠核。折叠核向两端延伸直至折叠核向两端延伸直至4个残基的平均折叠倾个残基的平均折叠倾向性因子向性因子P 1.05，则预测为，则预测为折折叠。叠。（iii）转角规则）转角规则转角的模型为四肽转角的模型为四肽四肽片段四肽片段Pt的平均值大于的平均值大于100，并且，并且Pt 的均值同时的均值同时大于大于P 的均值以及的均值以及P 的均值，则可以预测这样的均值，则可以预测这样连续的连续的4个残基形成转角。个残基形成转角。则可以预测这样连续的则可以预测这样连续的4个氨基酸形成转

11、角。个氨基酸形成转角。(iv)重叠规则重叠规则对于螺旋和折叠的重叠区域，按对于螺旋和折叠的重叠区域，按Pa和和P 的的相对大小进行预测相对大小进行预测若若Pa大于大于P，则预测为螺旋；，则预测为螺旋；反之，预测为折叠。反之，预测为折叠。(2)GOR方法是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响序列窗口序列窗口中心残基中心残基窗口中各个残基对中心残基二级结构的支持程度窗口中各个残基对中心残基二级结构的支持程度两个事件S和R的条件概率P(S|R)即在R发生的条件下，S

12、发生的概率定义信息为：若S和R无关，则 I(S;R)=0若R的发生有利于S的发生，则I(S;R)0若R的发生不利于S的发生，则I(S;R)0I(S;R)在二级结构预测中的含义R代表中心氨基酸及其所处环境S代表二级结构类型I(S;R)代表中心氨基酸处于S的信息值例如：假定数据库中有1830个残基，780个处于螺旋态，1050个处于非螺旋态库中共有390个丙氨酸（A），有240个A处于螺旋态，其余150个 A 处于非螺旋态。可得：(3)Lim方法立体化学方法氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质如疏水性、极性、侧链基团的大小等，根据残基各方面的性质及残

13、基之间的组合预测可能形成的二级结构。“疏水性”是氨基酸的一种重要性质，疏水性的氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部。螺旋的形成规律：螺旋的形成规律：在一段序列中发现第在一段序列中发现第i、i+3、i+4位（如位（如1、4、5）是疏水残基时，这一片段就被预测）是疏水残基时，这一片段就被预测为为螺旋；螺旋；当发现第当发现第i、i+1、i+4位（如位（如7，8，11）为疏水残基时，这一片段也被预测为为疏水残基时，这一片段也被预测为螺螺旋。旋。对于对于折叠的形成规律：折叠的形成规律：对于对于折叠，也存在着一些特征的亲疏水折叠，也存在着一些特征的亲疏水残基间隔模式，埋藏的残基间隔模式，埋

14、藏的折叠通常由连续折叠通常由连续的疏水残基组成，一侧暴露的的疏水残基组成，一侧暴露的折叠则通折叠则通常具有亲水常具有亲水-疏水的两残基重复模式。疏水的两残基重复模式。原则上，通过在序列中搜寻特殊的亲疏水原则上，通过在序列中搜寻特殊的亲疏水残基间隔模式，就可以预测残基间隔模式，就可以预测螺旋和螺旋和折叠。折叠。点模式方法：点模式方法：将将20种氨基酸残基分为亲水、疏水以及两性残种氨基酸残基分为亲水、疏水以及两性残基三类基三类用八残基片段表征亲疏水间隔模式用八残基片段表征亲疏水间隔模式以一个二进制位代表一个残基，疏水为以一个二进制位代表一个残基，疏水为1，亲，亲水为水为0，共八位。，共八位。这

15、样，八残基片段的亲疏水模式可用这样，八残基片段的亲疏水模式可用0 255的的数值来表示数值来表示螺旋的特征模式对应的值为：螺旋的特征模式对应的值为：9，12，13，17，201，205，217，219，237。折叠的特征模式：折叠的特征模式：由连续的由连续的1或交替的或交替的01构成。构成。疏水性定量计算疏水性定量计算(4)同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。假设已知二

16、级结构的氨基酸片段假设已知二级结构的氨基酸片段T=STNGIYWT的二级结构为的二级结构为CHHHHHT H代表代表螺旋，螺旋，T代表转角，代表转角，C代表无规卷曲代表无规卷曲待预测二级结构的氨基酸片段待预测二级结构的氨基酸片段U=ATSGVFL序列比对：序列比对：T=S T N G I Y WU=A T S G V F L直接将直接将T的构象态赋予的构象态赋予U 更为合理的方法：是将待预测二级结构的蛋白质U与多个同源序列进行多重比对，对于U的每个残基位置，其构象态由多个同源序列对应位置的构象态决定，或取出现次数最多的构象态，或对各种可能的构象态给出得分值。(5)人工神经网络方法(6)综合方

17、法综合方法不仅包括各种预测方法的综合，而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测，综合评判一致结果序列比对与二级结构预测双重预测首先预测蛋白质的结构类型然后再预测二级结构3、利用进化信息预测蛋白质的二级结构、利用进化信息预测蛋白质的二级结构蛋白质序列家族中氨基酸的替换模式是高度特异的，如何利用这样的进化信息是二级结构预测的关键。蛋白质二级结构预测软件系统PHD第一步工作是形成同源序列的多重对比排列第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。4、RNA二级结构的预测二级结构的预测RNA的结构可以分为三个层次一级结构二级结构空间结构二级结构的预测方法点矩阵法作图动态规划法最大匹配法最小自由能法等。第三节第三节二维结构中的预测二维结构中的预测残基之间的距离残基之间的距离只要给出所有残基之间的距离，就可以利只要给出所有残基之间的距离，就可以利用距离几何或分子动力学方法构建蛋白质用距离几何或分子动力学方法构建蛋白质的三维结构。的三维结构。预测残基之间距离

展开阅读全文