《蛋白质结构预测精选课件.ppt》由会员分享,可在线阅读,更多相关《蛋白质结构预测精选课件.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于蛋白质结构预测第一页,本课件共有56页内内 容容1.概述概述2.蛋白质的序列分析蛋白质的序列分析3.蛋白质二级结构预测蛋白质二级结构预测4.蛋白质三维结构的预测蛋白质三维结构的预测5.主要生物信息学资源(蛋白质数据库)主要生物信息学资源(蛋白质数据库)6.生物信息学方法的应用(简单介绍)生物信息学方法的应用(简单介绍)7.预测蛋白性质和结构预测蛋白性质和结构第二页,本课件共有56页一、概述一、概述1.蛋白质结构研究的重要性蛋白质结构研究的重要性l基因序列基因序列蛋白质序列蛋白质序列蛋白质空间构象蛋白质空间构象生物功能生物功能l解析解析蛋白质的空间蛋白质的空间结构结构有利于有利于认识认识蛋白
2、质的功能?蛋白质的功能?认认识识蛋白质是如何执行功能的?蛋白质是如何执行功能的?认识认识结构与功能结构与功能的关系?的关系?l基础基础设计和创造新蛋白设计和创造新蛋白第三页,本课件共有56页l现代结构测定技术虽然现代结构测定技术虽然发展迅速发展迅速,但是,但是非常复杂非常复杂,费用很高。,费用很高。特别是已知结构的蛋白质,反复测定,费用高昂特别是已知结构的蛋白质,反复测定,费用高昂l基因组序列分析基因组序列分析导出大量的蛋白序列导出大量的蛋白序列但蛋白的但蛋白的空间结构空间结构未知未知?l结构测定结构测定面临的巨大挑战面临的巨大挑战蛋白质种类数量庞大,依靠蛋白质种类数量庞大,依靠结构测定方法结
3、构测定方法获得空间获得空间结构信息面临巨大挑战结构信息面临巨大挑战?l假如假如研究中研究中对对cDNAcDNA翻译的序列翻译的序列高级结构高级结构一无所知,一无所知,首先通过结构预测,提供实验设计思路首先通过结构预测,提供实验设计思路?需要发展需要发展理论分析方法理论分析方法预测蛋白质的结构预测蛋白质的结构2.为什么要进行蛋白质结构的预测为什么要进行蛋白质结构的预测?第四页,本课件共有56页3.3.蛋白质结构预测的蛋白质结构预测的可行性分析可行性分析可行性分析可行性分析Anfinsen Anfinsen 原理:蛋白去折叠原理:蛋白去折叠 重新折叠重新折叠 生物学活性能够完全恢生物学活性能够完全
4、恢复,说明复,说明高级结构高级结构高级结构高级结构的的信息信息信息信息蕴含在蕴含在一级结构一级结构一级结构一级结构中。因此,中。因此,设法设法以以一级结构一级结构来来推推测测高级结构具有高级结构具有理论上理论上理论上理论上的可行性的可行性的可行性的可行性。结构分析表明:有些结构分析表明:有些蛋白之间蛋白之间具有具有很高的很高的同源性,根据蛋白质结构和功能的同源性,根据蛋白质结构和功能的高同源性高同源性关系预测关系预测未知蛋白质未知蛋白质结构,在结构,在理论理论和和实践实践上是上是可行的可行的。蛋白质结构预测蛋白质结构预测已有已有大量研究大量研究和和成功实例成功实例,提供了实践上的,提供了实践上
5、的可行性可行性。分子生物学分子生物学和和生物信息学生物信息学等技术的发展,有可能等技术的发展,有可能直接直接从一级序列出发,从一级序列出发,预测蛋白质的预测蛋白质的高级结构,为高级结构的预测提供了保障。高级结构,为高级结构的预测提供了保障。因此,蛋白质因此,蛋白质高级结构高级结构的的预测预测是可行的,而且成本相对低廉。是可行的,而且成本相对低廉。第五页,本课件共有56页4.蛋白质结构预测的目的蛋白质结构预测的目的已知蛋白一级结构序列已知蛋白一级结构序列 预测或测定预测或测定预测或测定预测或测定构建构建立体立体立体立体结构模型结构模型 预测或测定预测或测定预测或测定预测或测定结构与功能研究结构与
6、功能研究 设计设计设计设计蛋白质新分子蛋白质新分子 蛋白质结构改造蛋白质结构改造蛋白质结构改造蛋白质结构改造 或或或或 创造新分子创造新分子创造新分子创造新分子(生产实践中应用)(生产实践中应用)(生产实践中应用)(生产实践中应用)第六页,本课件共有56页获得一级序列获得一级序列寻找同源蛋白寻找同源蛋白依据同源蛋白晶体结构依据同源蛋白晶体结构构建结构模型构建结构模型5.结构预测的主要思路结构预测的主要思路同源建模(同源建模(Holology Modeling)折叠识别(折叠识别(Fold Recognition)从头计算(从头计算(Ab Initio)获得一级序列获得一级序列没有同源蛋白没有同
7、源蛋白二级结构预测二级结构预测超二级结构结构预测超二级结构结构预测三级结构结构预测三级结构结构预测构建结构模型构建结构模型第七页,本课件共有56页第一节第一节 蛋白质序列分析蛋白质序列分析序列同源性分析序列同源性分析双重序列比对双重序列比对多重序列比对多重序列比对第八页,本课件共有56页1.序列同源性分析序列同源性分析?l概念:与已知的序列进行比对,找出同源性序列,从中概念:与已知的序列进行比对,找出同源性序列,从中获取未知该序列获取未知该序列蛋白的蛋白的性质和结构信息性质和结构信息的过程。的过程。l方法:目标序列方法:目标序列数据库序列比对数据库序列比对寻找同源寻找同源得分高得分高的序列的序
8、列获得获得如下信息如下信息未知蛋白质未知蛋白质aa组成、组成、pI、MW、疏水区等性质、疏水区等性质保守保守位点、位点、活性活性位点等位点等建立蛋白质之间的建立蛋白质之间的进化进化关系关系二级和三级结构二级和三级结构预测预测信息信息预测蛋白质的折叠块模式(二级结构与氨基酸关系,一级结构与三级结构预测蛋白质的折叠块模式(二级结构与氨基酸关系,一级结构与三级结构关系)关系)l意义:意义:获取获取未知高级结构未知高级结构蛋白的蛋白的性质和结构信息,性质和结构信息,对蛋白质的性质和结构对蛋白质的性质和结构进一步实验研究进一步实验研究具有指导作用。具有指导作用。第九页,本课件共有56页第十页,本课件共有
9、56页2.双重序列比对双重序列比对:概念:概念:两个序列两个序列 之间比较序列,通过之间比较序列,通过aa残基数匹配,反映序列间残基数匹配,反映序列间同源性高低同源性高低的程度和的程度和序列序列相似的相似的程度。程度。(1)原理)原理序列序列最小比较单位最小比较单位是是aa残基,即是残基,即是 每个每个aa残基残基代表一个结构单元代表一个结构单元通过通过二维矩阵的方法二维矩阵的方法,寻找两个,寻找两个序列的序列的最大匹配最大匹配路径路径;允许两个序列上允许两个序列上插入或删除插入或删除一些一些aa残基(残基(gap)获得残基获得残基最大匹配最大匹配数量数量。(2)打分矩阵类型打分矩阵类型:由:
10、由计算机软件计算机软件计算机软件计算机软件完成完成依据依据aa所对应的所对应的核苷酸核苷酸变异的分析方法变异的分析方法GC GCM GDM:依据依据aa所对应的所对应的物化性质物化性质的分析方法的分析方法Rao:依据依据aa侧链的疏水侧链的疏水性质性质的分析方法的分析方法HYDOR:aa在一组相关蛋白质中在一组相关蛋白质中相互间的相互间的替代关系替代关系MD PAM:结构打分矩阵结构打分矩阵.蛋白蛋白拓扑结构拓扑结构相应相应区域区域氨基酸残基的氨基酸残基的取代关系取代关系RIS:依据依据aa残基的残基的主链二面角主链二面角()分布)分布SCM:氨基酸残基的氨基酸残基的空间倾向因子空间倾向因子S
11、CMm,SCFs:第十一页,本课件共有56页(3)打分矩阵的)打分矩阵的gap值值 gapgap:序列中的序列中的aa残基的残基的插入和删除插入和删除。序列比对中允许有序列比对中允许有“gap”存在,扣除存在,扣除gap值,打分仍最高。值,打分仍最高。(4)矩阵打分)矩阵打分来自统计的结果来自统计的结果反映反映蛋白质家族蛋白质家族的的共性共性。如免疫球蛋白家族、白蛋白家族。如免疫球蛋白家族、白蛋白家族序列比对:仅在序列比对:仅在一定程度上一定程度上反映结构的反映结构的相似性相似性。结构打分矩阵序列比较结构打分矩阵序列比较是一种是一种类结构类结构比较法,比较法,提高结构相似性提高结构相似性(5)
12、双重比对的)双重比对的实例实例:l同种蛋白不同亚基,同种蛋白不同亚基,人血红蛋白人血红蛋白两个链同源性两个链同源性73%(P62)l不同来源同功蛋白,不同来源同功蛋白,人和软体动物人和软体动物肌红蛋白肌红蛋白同源性同源性22%(P63)同源性高,不同打分矩阵给出结果相同源性高,不同打分矩阵给出结果相一致一致。同源性低,不同打分矩阵给出结果有不同。同源性低,不同打分矩阵给出结果有不同。原因:主要由于序列原因:主要由于序列不保守不保守区区匹配不一致匹配不一致导致。导致。第十二页,本课件共有56页3.多重序列比对多重序列比对(Multiple sequence alignment;MSA)(1)多重
13、序列比对)多重序列比对三个以上的序列(蛋白、三个以上的序列(蛋白、DNA 等)等)相互间相互间的序列比对。的序列比对。l 推导出推导出序列序列之间的之间的同源性程度同源性程度 序列之间的序列之间的种系发生种系发生关系关系 蛋白质结构域的三维结构与二蛋白质结构域的三维结构与二级结构等。级结构等。图图3 基于细胞质砷还原蛋白氨基酸序列的系统发育分析基于细胞质砷还原蛋白氨基酸序列的系统发育分析第十三页,本课件共有56页(2)多重序列比对方法)多重序列比对方法多重序列比较以多重序列比较以双重序列比较为基础双重序列比较为基础序列比对给出序列比对给出显著性得分显著性得分的方法的方法假设假设6个序列,要得到
14、个序列,要得到显著性得分显著性得分,将序列重排,将序列重排100次,次,分别求出分别求出每两对序列每两对序列的的显著性得分显著性得分,需要进行,需要进行C62101=1515(次)(次)归一化归一化比对得分比对得分“NAS值值”与与“显著性得分显著性得分”成正比成正比NAS:两个序列的(:两个序列的(最大显著性得分)最大显著性得分)与与与与(序列长度)序列长度)的的比值比值(归一化处理归一化处理)NAS值高的一对序列,即是值高的一对序列,即是同源性最高的序列同源性最高的序列多重序列比对:多重序列比对:最先考虑最先考虑两个两个同源性高同源性高的序列,的序列,再挑选再挑选NAS值较高值较高的的第三
15、个序列第三个序列进行比对,进行比对,依次类推,获得依次类推,获得全部序列全部序列的的同源性同源性高低排列。高低排列。如:如:feng-Doolite法和法和Barton-Sternberg法等。法等。第十四页,本课件共有56页u双重序列比双重序列比对与对与多重序列多重序列比对关系比对关系双重比对:目标序列与其它系列的双重比对:目标序列与其它系列的同源性同源性和和结构相似结构相似性比较。性比较。一条系列一条系列与其它多条序列的比对。与其它多条序列的比对。多重比对:包括目标系列在内的多重比对:包括目标系列在内的多条系列多条系列之间之间相互关系相互关系的比较。的比较。多条序列多条序列之间之间每两条每
16、两条序列之间均进行相互比较。序列之间均进行相互比较。双重序列比较是多重比对的基础,双重序列比较是多重比对的基础,相互之间相互之间进行进行多重比对多重比对,找出它们之间,找出它们之间相互相互的的种系发生关系种系发生关系和和高级结构高级结构的关系。的关系。首先进行双重比对,选择出同源性较高的序列,然后进行多重比较,获得目标序列更多首先进行双重比对,选择出同源性较高的序列,然后进行多重比较,获得目标序列更多的信息。的信息。第十五页,本课件共有56页第二节第二节 蛋白质二级结构的预测蛋白质二级结构的预测l 二级结构预测二级结构预测是研究是研究蛋白质蛋白质 折叠问题折叠问题 的主要内容的主要内容之一,之
17、一,也是获得也是获得新氨基酸序列新氨基酸序列结构信息结构信息的的一般方法。一般方法。蛋白质分子中蛋白质分子中 二级结构二级结构具有具有较强较强的规律性的规律性,每一段每一段相邻的氨基酸相邻的氨基酸具有具有形成形成二级结构的倾向二级结构的倾向,二级结构二级结构预测预测常作为常作为局部结构局部结构预测和预测和三维空间结构三维空间结构预测的预测的基础基础。第十六页,本课件共有56页1、预测方法:、预测方法:有几十种,有几十种,归纳为归纳为3大类大类统计法、基于已有知识的预测方法、混合方法统计法、基于已有知识的预测方法、混合方法2、预测的原则、预测的原则以以aa残基残基为预测单位为预测单位假定蛋白假定
18、蛋白二级结构二级结构主要由主要由临近残基间临近残基间的相互作用决定。的相互作用决定。对对已知结构已知结构蛋白分析、归纳,蛋白分析、归纳,制定制定预测规则预测规则。3、以以Chou&Fasman(20th70)的方法为例进行讨论的方法为例进行讨论思路思路基于单个基于单个aa残基统计的残基统计的经验参数经验参数法法 预测二级结构预测二级结构通过于对大量通过于对大量已知蛋白结构已知蛋白结构进行统计进行统计归纳归纳出出每种每种aa残基残基的二级结构的二级结构倾向因子倾向因子第十七页,本课件共有56页(1)Chou&Fasman预测预测二级结构二级结构参数参数定义定义每个每个aa残基具有残基具有7个参数
19、个参数,依据,依据7个参数,预测二级结构个参数,预测二级结构氨基酸残基的参数的定义氨基酸残基的参数的定义P、P、和、和Pt:分别为形成:分别为形成螺旋、折叠螺旋、折叠和和转角转角的的倾向性倾向性。f(i)、f(i+1)、f(i+2)、f(i+3):相邻相邻四个残基的四个残基的转角参数转角参数。f:每个:每个aa残基在第一、第二、第三和第四位的残基在第一、第二、第三和第四位的频度频度如:如:Pro:30%在第二位,第三位在第二位,第三位 100),即为螺旋核。),即为螺旋核。-螺旋的定义螺旋的定义沿序列寻找沿序列寻找-螺旋核螺旋核,向两端延伸,直至,向两端延伸,直至4个残基个残基P 5,P 均值
20、均值 P均值,则该片段为螺旋均值,则该片段为螺旋螺旋内部螺旋内部不允许不允许Pro出现,出现,Pro终止螺旋的延伸。终止螺旋的延伸。第二十页,本课件共有56页-2、-折叠规则和定义折叠规则和定义-折叠折叠核核,相邻的,相邻的6个残基个残基,至少,至少4个残基倾向个残基倾向形成形成-折叠,(折叠,(4个残个残基的基的P 100),即为折叠),即为折叠核核。沿序列寻找沿序列寻找-折叠核折叠核,向两端延伸,直至,向两端延伸,直至4个残基个残基P 105,且,且 P 均值均值 P均值均值定义该片段为定义该片段为-折叠折叠Glu:中断折叠:中断折叠第二十一页,本课件共有56页-3、转角规则和定义、转角规
21、则和定义转角模型转角模型为为4肽肽组合模型组合模型,要考虑,要考虑每个位置每个位置上残基上残基组合组合的概率的概率,(特定氨基,(特定氨基酸在每个位置上的概率)酸在每个位置上的概率)从第从第i个残基开始,个残基开始,连续连续4个残基个残基的片段,其的片段,其概率相乘概率相乘,根据计算结果判定是,根据计算结果判定是否转角否转角若:若:f(i)f(i+1)f(i+2)f(i+3)7.5 10.5若:若:四肽四肽 Pt 100,且,且 Pt P,Pt P判定为转角结构判定为转角结构第二十二页,本课件共有56页-4、重叠规则、重叠规则若预测的肽段若预测的肽段螺旋区和折叠区重叠,螺旋区和折叠区重叠,按照
22、重叠区域按照重叠区域P 均值和均值和 P均值均值相对大小相对大小进行预测进行预测P 均值均值 P均值,预测为螺旋均值,预测为螺旋P 均值均值 P均值,预测为折叠均值,预测为折叠第二十三页,本课件共有56页本节小结本节小结l重点讲述了重点讲述了Chou&Fasman预测方法和规则预测方法和规则-螺旋规则螺旋规则-折叠规则折叠规则 转角规则转角规则 重叠规则重叠规则l二级结构预测方法和原理二级结构预测方法和原理简单明了简单明了,l二级结构参数的二级结构参数的物理意义明确物理意义明确,l二级结构二级结构成核成核、延伸延伸、终止规则,终止规则,反映了蛋白质反映了蛋白质二级结构形成二级结构形成过程。过程
23、。l该方法的预测准确率在该方法的预测准确率在50%左右左右。第二十四页,本课件共有56页第三节第三节 蛋白质三维结构预测蛋白质三维结构预测一、蛋白质三维结构的理论预测:一、蛋白质三维结构的理论预测:利用计算机,根据利用计算机,根据已有理论已有理论和和已知已知aa序列序列等信息来等信息来预测蛋白质的三级结构。预测蛋白质的三级结构。二、三维结构预测的复杂性二、三维结构预测的复杂性是目前最复杂、最困难的技术?是目前最复杂、最困难的技术?蛋白质蛋白质序列与结构序列与结构之间的关系非常之间的关系非常复杂复杂,已经已经掌握了掌握了一些序列一些序列与与二级结构二级结构之间的关系之间的关系关于关于aa序列序列
24、与与三维结构三维结构之间的关系之间的关系了解较少。了解较少。序列相似的序列相似的蛋白可能折叠成蛋白可能折叠成相似相似的三维结构,的三维结构,序列差异较大序列差异较大的蛋白质的蛋白质也可能也可能折叠成折叠成相似相似的结构,的结构,分子伴侣存在下,蛋白的折叠问题分子伴侣存在下,蛋白的折叠问题更加复杂更加复杂。第二十五页,本课件共有56页三、蛋白质三维结构预测的理论三、蛋白质三维结构预测的理论 三维结构分析表明:三维结构分析表明:三维结构堆积的三维结构堆积的次级作用力次级作用力和和二硫键等二硫键等在维系三维结构具有重要在维系三维结构具有重要的作用,对蛋白质的作用,对蛋白质三维结构预测三维结构预测具有
25、重要作用。具有重要作用。二级结构与三级结构之间的二级结构与三级结构之间的序列模体序列模体(motif)、)、结构域结构域(domain)和和折叠单元折叠单元(fold)对蛋白质)对蛋白质三维结构预测三维结构预测具有重要作用。具有重要作用。四、预测的方法(四、预测的方法(3类)类)1、同源建模(、同源建模(Holology Modeling)2、折叠识别(、折叠识别(Fold Recognition)3、从头计算(、从头计算(Ab Initio)第二十六页,本课件共有56页1、同源建模、同源建模(1)概念)概念:又称又称比较性模拟比较性模拟,利用,利用已知结构已知结构的同源蛋白和蛋白质家族中的蛋
26、白质作为的同源蛋白和蛋白质家族中的蛋白质作为模板,模板,模拟模拟目标蛋白质结构的方法(建立目标蛋白的分子模型)。目标蛋白质结构的方法(建立目标蛋白的分子模型)。(2)预测思路:)预测思路:未知结构蛋白未知结构蛋白寻找已知结构的同源蛋白寻找已知结构的同源蛋白以同源蛋白为模板以同源蛋白为模板建立同源蛋白结构模型建立同源蛋白结构模型移植模型蛋白的结构数据移植模型蛋白的结构数据构建未知蛋白的模型构建未知蛋白的模型(3)特点:)特点:预测速度快预测速度快精度较高精度较高局限性大:已知结构蛋白局限性大:已知结构蛋白数量较少,许多蛋白数量较少,许多蛋白没有没有同源序列同源序列使用使用模型不同模型不同,预测结
27、构,预测结构并不唯一。并不唯一。第二十七页,本课件共有56页(4)预测步骤()预测步骤(6个)个)搜索结构模型的模板搜索结构模型的模板序列比对序列比对建立骨架建立骨架构建目标蛋白侧链构建目标蛋白侧链建立目标蛋白的环区建立目标蛋白的环区优化模型优化模型预测结果预测结果若序列的若序列的等同部分等同部分超过超过60%,非常接近测定结果,非常接近测定结果若序列的等同部分超过若序列的等同部分超过30%,期望期望得到较好的预测结果得到较好的预测结果搜索结构模型的模板:搜索结构模型的模板:假定假定两个同源两个同源蛋白蛋白具有相同骨架具有相同骨架,按同源蛋白按同源蛋白模型模型建立模板建立模板序列比对:序列比对
28、:目标蛋白与模板蛋白残基匹配目标蛋白与模板蛋白残基匹配建立骨架:建立骨架:模板结构的模板结构的原子坐标原子坐标移植到移植到目标蛋白目标蛋白,建立目标蛋白的,建立目标蛋白的骨架骨架构建目标蛋白侧链:构建目标蛋白侧链:移植移植相同残基相同残基的坐标,的坐标,不完全匹不完全匹配配的残基,侧链构象采用的残基,侧链构象采用经验数据预测经验数据预测,建立目标蛋白的环区:建立目标蛋白的环区:经验方法,从已知蛋白质中,寻找经验方法,从已知蛋白质中,寻找最优的环区,拷贝结构数据最优的环区,拷贝结构数据优化模型:优化模型:建立初步模型,对建立初步模型,对不相容不相容的的空间坐标空间坐标进行改进行改进优化进优化如:
29、采用分子力学、分子动力学、模拟退火等方法进行结构优化如:采用分子力学、分子动力学、模拟退火等方法进行结构优化第二十八页,本课件共有56页2、折叠识别(、折叠识别(Fold Recognition)又称穿针引线法(又称穿针引线法(threading):):根据根据结构类型结构类型进行预测进行预测在没有同源蛋白模板情况下,将目标蛋白序列在没有同源蛋白模板情况下,将目标蛋白序列“穿穿”入蛋白质数据库入蛋白质数据库中,中,与已知与已知的各种蛋白质的各种蛋白质 折叠模板折叠模板的的骨架比对骨架比对,由计算机来识别,由计算机来识别目标蛋目标蛋白序列白序列与数据库中与数据库中蛋白质折叠模板是否蛋白质折叠模板
30、是否“匹配匹配”。设计一个评分标准,计算目标蛋白序列设计一个评分标准,计算目标蛋白序列折叠成折叠成各种各种已知模板已知模板的可能性,根据的可能性,根据得法高低判断得法高低判断“匹配程度匹配程度”。适用于大多数蛋白进行结构预测,适用于大多数蛋白进行结构预测,评分系统评分系统设计是设计是决定决定折叠识别方法折叠识别方法预测预测准确度准确度的关键。的关键。第二十九页,本课件共有56页3、从头计算(、从头计算(Ab Initio)也称也称分子动力学分子动力学模拟预测方法。模拟预测方法。源于源于安分森的安分森的“最低自由能最低自由能构象假说构象假说”。与与同源建模同源建模和和折叠识别折叠识别两种方法两种
31、方法相比相比,从头计算方法,从头计算方法不需要模板不需要模板,而是以,而是以自由能自由能作为预测蛋白质折叠类型的作为预测蛋白质折叠类型的基础基础。能量函数能量函数设计和设计和最低自由能最低自由能的的确定确定确定确定是决定从头计算方法预测是决定从头计算方法预测准确度高低准确度高低的的关键关键主要是主要是求解体系求解体系中中每个原子每个原子相关的相关的牛顿运动方程牛顿运动方程和和薛定谔方程薛定谔方程。方法:利用方法:利用有限的有限的实验数据,实验数据,构建构建分子结构模型,研究分子的分子结构模型,研究分子的能量能量与与结构结构动态变化动态变化的关系。的关系。主要应用于主要应用于前两种方法前两种方法
32、的的补充手段补充手段和应用于和应用于结构优化结构优化。第三十页,本课件共有56页第四节第四节 蛋白质结构预测中的主要生物信息资源蛋白质结构预测中的主要生物信息资源一、常用蛋白质一、常用蛋白质序列序列数据库数据库1、PIR 数据库数据库(Protein information resource)2、SWISS-PROT 数据库数据库 3、TrEMBL 数据库数据库4、UniProt 蛋白质数据仓库蛋白质数据仓库二、常见蛋白质二、常见蛋白质结构结构数据库数据库1、蛋白质、蛋白质结构结构数据库数据库PDB(Protein data bank)2、蛋白质、蛋白质结构分类结构分类数据库(数据库(SCOP
33、和和CATH)第三十一页,本课件共有56页蛋白序列数据库蛋白序列数据库种类繁多种类繁多,各有特色。,各有特色。根据实际情况,通常结合几个根据实际情况,通常结合几个不同数据库不同数据库对结果进行比较对结果进行比较以下介绍以下介绍3种种数据库数据库1、PIR 数据库数据库(Protein information resource)网址:网址:http:/www.nbrf.georgetown.edu/pir/1984年美国国家年美国国家 生物医学生物医学 研究基金会(研究基金会(NBRF)创建创建,源于源于1960(Dayhoff)蛋白质结构与结构图册)蛋白质结构与结构图册)1988年成立年成立
34、国家蛋白质信息中心国家蛋白质信息中心(PIR-Interantional)共同收集和维护共同收集和维护PIR国际蛋白序列数据库(国际蛋白序列数据库(PIR-PSD)是一个是一个全面的全面的、经过、经过注释的注释的、非冗余非冗余的蛋白质序列数据库,的蛋白质序列数据库,提供一个蛋白提供一个蛋白序列序列数据库、数据库、相关相关数据库和数据库和辅助工具辅助工具集成系统集成系统 一、常用蛋白质一、常用蛋白质序列序列数据库数据库第三十二页,本课件共有56页lPIR 提供提供3种类型的种类型的检索服务检索服务基于基于文本文本的交互式的交互式查询查询,用户通过用户通过关键词关键词进行数据进行数据查询查询标准序
35、列搜索和比对:标准序列搜索和比对:BLAST、FASTA等工具等工具l高级搜索:高级搜索:结合结合序列相似性序列相似性、注释信息注释信息和蛋白质和蛋白质家族信息家族信息的的高级搜索高级搜索,包,包括按括按注释分类的注释分类的相似性相似性搜索、搜索、结构域搜索结构域搜索等等lPIR包括包括3个子数据库,个子数据库,l蛋白质蛋白质序列序列数据库(数据库(PIR-PSD)l蛋白质蛋白质分类分类数据库(数据库(iProClass)l非冗余蛋白质非冗余蛋白质参考资料参考资料数据库(数据库(PIR-NREF)第三十三页,本课件共有56页2.SWISS-PROT 数据库数据库 http:/www.ebi.a
36、c.uk/swissprot/1986年创建:瑞士年创建:瑞士Geneva大学大学和和欧洲生物信息欧洲生物信息研究所研究所(EBI)瑞士生物信息研究所(瑞士生物信息研究所(SIB)和和(EBI)共同维护管理共同维护管理 第三十四页,本课件共有56页SWISS-PROT数据库数据介绍数据库数据介绍包括包括核心数据核心数据和和和和注释注释两大类两大类l核心数据核心数据:由:由蛋白质序列蛋白质序列(条目)条目)条目)条目)构成,包含构成,包含4大类基本大类基本信息:信息:蛋白质蛋白质序列序列数据、引用数据、引用文献文献信息、信息、分类分类学信息、学信息、注释信息注释信息等等l注释注释:蛋白质:蛋白质
37、功能功能、转录后、转录后修饰修饰、特殊、特殊位点位点和区域、和区域、二级二级结构、结构、四级四级结构、与其它序结构、与其它序列的列的相似性相似性、序列、序列残缺与疾病残缺与疾病的关系、序列的关系、序列变异体变异体和冲突等信息。和冲突等信息。l检索:利用序列检索:利用序列提取系统提取系统(SRS),方便地,方便地检索检索SWISS-PROT和其它和其它EBI的的数据库数据库。l序列提交:序列提交:SWISS-PROT只接受只接受直接测序直接测序获得的蛋白质序列,获得的蛋白质序列,序列提交序列提交可以在其可以在其Web页面上完成。页面上完成。第三十五页,本课件共有56页SWISS-PROT数据库数
38、据库特点特点所有所有序列条目序列条目都经过都经过有经验的有经验的分子生物学家和蛋白质化学家通过计算机供给并分子生物学家和蛋白质化学家通过计算机供给并查阅有关文献资料查阅有关文献资料仔细核实仔细核实。每个条目包含每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源)条目基本信息、分类信息(描述蛋白质的生物来源)、引用文献信息、注释、蛋白质序列等。、引用文献信息、注释、蛋白质序列等。冗余最小:对数据进行冗余最小:对数据进行归并处理归并处理,降低了数据库的,降低了数据库的冗余度冗余度。与其它与其它30多个数据建立多个数据建立了交叉引用,其中包括了交叉引用,其中包括核酸核酸序列库、序列库、蛋白蛋白
39、质序列库质序列库和和蛋白质结构蛋白质结构库等。库等。第三十六页,本课件共有56页3、TrEMBL(欧洲分子生物学实验室欧洲分子生物学实验室)数据库数据库网址:网址:http:/www.ebi.ac.uk/trembl/index.html是是一个计算机一个计算机注释的蛋白数据库,注释的蛋白数据库,是是 SWISS-PROT数据库的数据库的补充补充。数据库蛋白序列数据库蛋白序列不是不是直接实验得到直接实验得到,由由DNA序列序列映射映射获得获得 主要包含主要包含EMBL/Genbank/DDBJ核酸数据库核酸数据库中根据编码序列(中根据编码序列(CDS)翻译)翻译获得蛋白序列获得蛋白序列lTrE
40、MBL由由2部分组成部分组成SP-TrEMBL(SWISS-PROT TrEMBL)序列序列被赋予被赋予SWISS-PROT登录号登录号,最终要收集到最终要收集到SWISS-PROTREM-TrEMBL(Remaining TrEMBL)序列序列没有被赋予没有被赋予SWISS-PROT登录号,登录号,不准备放入不准备放入SWISS-PROT 如:人工合成蛋白序列、申请专利的序列、伪基因对应的序列等如:人工合成蛋白序列、申请专利的序列、伪基因对应的序列等第三十七页,本课件共有56页4、蛋白质数据仓库、蛋白质数据仓库(Univeral Protein Resource UniProt)网址:网址:
41、http:/www.ebi.ac.uk/uniprot/index.html欧洲生物信息研究所欧洲生物信息研究所(EBI)将)将3个蛋白数据库(个蛋白数据库(PIRSwiss-ProtTrEMBL)统一起来,称为)统一起来,称为UniProtUniProt包括包括3部分部分lUniProt Knowledgebase(UniProt)数据库)数据库蛋白质蛋白质序列序列、功能、分类、交叉引用等信息、功能、分类、交叉引用等信息存取中心存取中心lUniProt Non-redundant Reference (UniFef)数据库(非冗余)数据库(非冗余)密切相关蛋白序列密切相关蛋白序列组合到一条记
42、录组合到一条记录中,提高检索速中,提高检索速度,根据序列相似程度分成度,根据序列相似程度分成3个数据库个数据库UniRef100,UniRef90,UniRef50;lUniProt Archive(UniParc)资源库)资源库 档案数据库档案数据库:记录所有蛋白序列历史:记录所有蛋白序列历史第三十八页,本课件共有56页二、常见蛋白质结构数据库二、常见蛋白质结构数据库l随着随着X射线射线晶体晶体衍射分子结构测定而出现的衍射分子结构测定而出现的数据库数据库l蛋白质分子蛋白质分子空间空间结构结构原子坐标原子坐标l包括蛋白质家族、折叠模式、结构域、回环等数据库包括蛋白质家族、折叠模式、结构域、回环
43、等数据库l主要介绍主要介绍2类类数据库数据库1、蛋白质、蛋白质结构结构数据库数据库(PDB)2、蛋白质、蛋白质结构分类结构分类数据库(数据库(SCOP和和CATH)第三十九页,本课件共有56页1、蛋白质结构数据库、蛋白质结构数据库PDB(Protein data bank)20th70S 问世问世1998年年 美国美国国家科学基金委、能源部和卫生研究院资助,成立国家科学基金委、能源部和卫生研究院资助,成立结构生物学合作研结构生物学合作研结构生物学合作研结构生物学合作研究协会究协会究协会究协会,管理管理PDB数据库数据库,至今至今已存放已存放上万套分子的上万套分子的上万套分子的上万套分子的原子坐
44、标原子坐标。蛋白结构来自蛋白结构来自X X射线衍射、核磁共振和理论计算。射线衍射、核磁共振和理论计算。射线衍射、核磁共振和理论计算。射线衍射、核磁共振和理论计算。和核酸序列库一样,和核酸序列库一样,通过网络直接向通过网络直接向PDB提交数据提交数据。大部分为蛋白质(多肽、病毒),此外,大部分为蛋白质(多肽、病毒),此外,蛋白核酸复合物和多糖。蛋白核酸复合物和多糖。数据以数据以文本文件文本文件存放,每个分子有一套存放,每个分子有一套独立的文件独立的文件。数据包括数据包括原子坐标原子坐标、物种来源物种来源、化合物名称化合物名称、结构递交者结构递交者、文献文献等信息。等信息。还有还有分辨率、结构基因
45、、温度系数、蛋白主链数、分子式、金属离子、二分辨率、结构基因、温度系数、蛋白主链数、分子式、金属离子、二级结构信息、二硫键位置级结构信息、二硫键位置等数据。等数据。第四十页,本课件共有56页2、蛋白质结构、蛋白质结构分类分类数据库数据库(SCOP和和CATH)结构结构分类分类依据:折叠类型、拓扑结构、家族和超家族结构、二级结构、超依据:折叠类型、拓扑结构、家族和超家族结构、二级结构、超二级结构等分类信息二级结构等分类信息简单介绍简单介绍2个主要的蛋白分类数据库个主要的蛋白分类数据库(1 1)SCOPSCOP:(S Structural c classification o of p prote
46、in)英国研究委员会英国研究委员会分子生物学分子生物学实验室实验室和和蛋白质工程中心蛋白质工程中心开发的,具有开发的,具有分类、分类、检索和分析系统检索和分析系统的数据库。的数据库。网址:网址:http:/scop.mrc-lmb.cam.ac.uk/scop/将蛋白分为将蛋白分为7大类:大类:、/、+、多结构域蛋白、膜蛋白和细胞表面蛋白、多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白小蛋白在大类基础上,进一步按在大类基础上,进一步按折叠类型、超家族、家族折叠类型、超家族、家族折叠类型、超家族、家族折叠类型、超家族、家族3个层次个层次分类分类第四十一页,本课件共有56页(2 2)CATH:CATH
47、:英国伦敦大学开发与维护英国伦敦大学开发与维护 网址:网址:http:/www.cathdb.info/latest/index.html/分类依据:分类依据:类型类型(Class,C-Level),构架构架(Architecture,A-Level),拓扑结构拓扑结构(Topology,T-Level),同同源性源性(Homology,H-Level),序列序列(Sequence family levels)等层次。等层次。数据库的结构层次:数据库的结构层次:(4个)个)l第一分类层次第一分类层次:、-(/、+)、低二级结构类等)、低二级结构类等4个类型个类型l第二分类层次:第二分类层次:螺
48、旋和折叠形成螺旋和折叠形成超二级结构超二级结构的排列方式的排列方式(分子框架(分子框架如同建筑物如同建筑物的的立柱和横梁一样)立柱和横梁一样)l第三分类层次:第三分类层次:拓扑结构拓扑结构,二级结构的,二级结构的性状性状和二级结构和二级结构之间之间的的联系联系。l第四分类层次:第四分类层次:结构同源性结构同源性(同源性比对后,再用结构比较)(同源性比对后,再用结构比较)第四十二页,本课件共有56页本节小结:本节小结:l3种种蛋白质序列数据库蛋白质序列数据库1、PIR 数据库数据库(Protein information resource)2、SWISS-PROT 数据库数据库 3、TrEMBL
49、 数据库数据库4、UniProt 蛋白质数据仓库蛋白质数据仓库l2类类蛋白质结构数据库蛋白质结构数据库1、蛋白质结构数据库、蛋白质结构数据库PDB(Protein data bank)2、蛋白质结构分类数据库(、蛋白质结构分类数据库(SCOP和和CATH)第四十三页,本课件共有56页第五节第五节 应用生物信息学预测蛋白质结构应用生物信息学预测蛋白质结构(略略)若若cDNA编码一个完整的蛋白质,编码蛋白质结构功能编码一个完整的蛋白质,编码蛋白质结构功能域域怎样?怎样?通过生物信息学方法获得结构功能通过生物信息学方法获得结构功能域域的信息的信息,对研究对研究计划计划的制定的制定提供提供重要的指导信
50、息。重要的指导信息。预测蛋白质结构包括以下预测蛋白质结构包括以下5个方面个方面一、蛋白质序列检索一、蛋白质序列检索二、蛋白质基本性质分析二、蛋白质基本性质分析三、二级结构预测三、二级结构预测四、局部结构四、局部结构域域预测预测五、三维结构预测五、三维结构预测1、跨膜区预测、跨膜区预测2、信号肽及其剪切位点预测、信号肽及其剪切位点预测3、卷曲螺旋预测、卷曲螺旋预测包括氨基酸组成、分子量、等电点、亲水性包括氨基酸组成、分子量、等电点、亲水性和疏水性、信号肽、跨膜结构和结构功能域和疏水性、信号肽、跨膜结构和结构功能域等。等。第四十四页,本课件共有56页以以以以鼠伤寒沙门氏菌鼠伤寒沙门氏菌鼠伤寒沙门氏