《蛋白质的序列分析及结构预测精选PPT.ppt》由会员分享,可在线阅读,更多相关《蛋白质的序列分析及结构预测精选PPT.ppt(139页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于蛋白质的序列分析及结构预测第1页,讲稿共139张,创作于星期三DNA sequenceProtein sequenceProtein structureProtein function第2页,讲稿共139张,创作于星期三一、蛋白质数据库介绍一、蛋白质数据库介绍二、蛋白质序列分析二、蛋白质序列分析三、蛋白质结构预测三、蛋白质结构预测四、应用四、应用 分子设计分子设计第3页,讲稿共139张,创作于星期三一、蛋白质数据库介绍一、蛋白质数据库介绍蛋白质的结构主要分为四级蛋白质的结构主要分为四级,一级结构、二级结构、三级结构以及四一级结构、二级结构、三级结构以及四级结构。依据这种结构层次级结构。依据
2、这种结构层次,将蛋白质数据库分为将蛋白质数据库分为:1.1.蛋白质序列数据库:蛋白质序列数据库:蛋白质序列数据库:蛋白质序列数据库:如如PIR、SWISS-PROT、NCBI,这些数据库的这些数据库的数据主要以蛋白质的序列为主数据主要以蛋白质的序列为主,并赋予相应的注释并赋予相应的注释;2.2.蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:如如PROSITE、Pfam,这些数据库主这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列要收集了蛋白质的保守结构域和功能域的特征序列;3.3.蛋白质结构数据库:蛋白质结构数据库:蛋白质结构数
3、据库:蛋白质结构数据库:如如PDB 等等,这些数据库主要以蛋白质的结构这些数据库主要以蛋白质的结构测量数据为主测量数据为主;4.4.蛋白质分类数据库:蛋白质分类数据库:蛋白质分类数据库:蛋白质分类数据库:如如SCOP、CATH、FSSP 等等,这其中有以序这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。数据库之分。第4页,讲稿共139张,创作于星期三蛋白质数据库蛋白质数据库特征特征:这些数据库种类有差别,但内部是相互联系的.每个数据库都有指针指向其他数据库,而且数据库之间的序列以及相应的结构是共享的,同
4、一种蛋白质依次会出现在不同的数据库.这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息,这些数据库是融序列信息的索取、处理、存储、输出于一身的。第5页,讲稿共139张,创作于星期三1.蛋白质序列数据库蛋白质序列数据库(1)PIR(protein information resource,PIR)和和PSD(protein sequence database,PSD)http:/pir.georgetown.edu/pirwww PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD
5、 的的序列来自于将序列来自于将GenBank/EMBL/DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。表的文献中的序列和用户直接提交的序列。(2)SWISS-PROT/TrEMBL数据库数据库 www.expasy.org/swissprot数据库由蛋白质序列条目构成数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰位点、特殊位点注释中包括蛋白质的功能、转录后修饰位点、特殊位点
6、和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。序列变异体等信息。第6页,讲稿共139张,创作于星期三2.模体以及结构域数据库模体以及结构域数据库模体数据库模体数据库(1)PROSITE 蛋白质家族及结构域数据库蛋白质家族及结构域数据库(www.expasy.org/prosite/)PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况
7、下,也可以通过搜索隐含的功能结构模体(motif)来鉴定,因此是有效的序列分析数据库。PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等,此外PROSITE 还包括由多序列比对构建的序列表谱(profile),能更敏感地发现序列中的信息。第7页,讲稿共139张,创作于星期三PROSITE同时数据库提供了序列分析工具同时数据库提供了序列分析工具:ScanProsite 是用于搜索所提交的序列数据是否包含是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者数据库中的序列模式或者SWISS-PROT 数据库数据库
8、中已提交的序列模式中已提交的序列模式;MotifScan 用于查找未知序列中所有可能的已知结构用于查找未知序列中所有可能的已知结构组件组件,数据库包括数据库包括PROSITE序列表谱、序列表谱、PROSITE 模式、模式、Pfam 收集的隐马尔可夫模式收集的隐马尔可夫模式(HMM)。第8页,讲稿共139张,创作于星期三(2)PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/这个数据库包含1 500 个蛋白质指纹图谱,编码9 136 个单一模体。(3)BLOCKS(www.blocks.fhcrc.org/)BLOC
9、KS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。模体数据库模体数据库第9页,讲稿共139张,创作于星期三蛋白质结构域数据库蛋白质结构域数据库(1)蛋白质家族序列比对以及隐马尔可夫模式数据库蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam(protein families database of alignments and HMMs)Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是:www.sanger.ac.uk/Software/Pfam/index.shtml。(2)蛋白质结构域数据库蛋白质结构域数据库ProDom http:/prodes.toulouse
10、.inra.fr/prodom/doc/prodom.html(3)SMART SMART 是一个简单的结构研究工具,可对可转移的遗传因子进行鉴定和注解,以及分析结构域结构,可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族,对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。http:/smart.embl-heidelberg.de/第10页,讲稿共139张,创作于星期三3.蛋白质结构数据库蛋白质结构数据库PDB(protein data bank,PDB)http:/www.rcsb.org/pdb/PDB 包括了蛋白质、核酸、蛋白质-核酸
11、复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构,并由RCSB 维护和注释。第11页,讲稿共139张,创作于星期三4.蛋白质结构分类数据库蛋白质结构分类数据库(1)CATH 数据库数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html(2)SCOP 蛋白质结构分类数据库蛋白质结构分类数据库(structural classification of protein database,SCOP)scop.mrclmb.cam.ac.uk/scop/index.html第12页,讲稿共13
12、9张,创作于星期三二、蛋白质的序列分析二、蛋白质的序列分析1.蛋白质序列信息的获取蛋白质序列信息的获取 2.蛋白质序列分析蛋白质序列分析 第13页,讲稿共139张,创作于星期三1.蛋白质序列信息的获取蛋白质序列信息的获取(1)直接测序直接测序(2)翻译编码的翻译编码的DNA序列序列 ORF Finder(3)在数据库中搜索)在数据库中搜索运用运用ID 号、入口号、条目号等搜索。号、入口号、条目号等搜索。运用关键词搜索运用关键词搜索其他方式搜索。如可以通过引用序列的文献、序列的其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。作者、序列提交的日期等进行搜索。第14页,
13、讲稿共139张,创作于星期三(1 1)直接测序)直接测序e.g.Protein Sequencing and Identificationby Tandem Mass Spectrometry,即用串联质谱仪测序1.1.蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取第15页,讲稿共139张,创作于星期三串联质谱及其作用串联质谱及其作用 两个或更多的质谱连接在一起,称为串联质谱。最简单的串联质谱(MS|MS)由两个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。第16页,讲稿共139张,创作于星期三 串
14、联质谱仪的组合方式:串联质谱仪的组合方式:(1)磁分析器-静电分析器-磁分析器(2)静电分析器-磁分析器-静电分析器(3)三重四极滤质器质谱仪(4)混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。第17页,讲稿共139张,创作于星期三 优点:优点:可以避免底物分子产生的干扰,大大降低背景噪音。其次,可使分子离子通过与反应气的碰撞来产生断裂。因此能提供更多的结构信息,所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。第18页,讲稿共139张,创作于星期三Masses of Ami
15、no Acid Residues第19页,讲稿共139张,创作于星期三Protein backboneH.-HN-CH-CO-NH-CH-CO-NH-CH-CO-OHRi-1RiRi+1AA residuei-1AA residueiAA residuei+1N-terminusC-terminus第20页,讲稿共139张,创作于星期三Breaking Protein into Peptides and Peptides into Fragment IonsProteases,e.g.trypsin(胰蛋白酶),break protein into peptides.A Tandem Mass
16、 Spectrometer(串联式质谱仪)further breaks the peptides down into fragment ions and measures the mass of each piece.General for sequencing第21页,讲稿共139张,创作于星期三Breaking Protein into Peptides and Peptides into Fragment IonsMass Spectrometer accelerates the fragmented ions;heavier ions accelerate slower than li
17、ghter ones.Mass Spectrometer measure mass/charge ratio of an ion.General for sequencing第22页,讲稿共139张,创作于星期三Peptide FragmentationPeptides tend to fragment along the backbone.Fragments can also loose neutral chemical groups like NH3 and H2O.H.-HN-CH-CO .NH-CH-CO-NH-CH-CO-OHRi-1RiRi+1H+Prefix FragmentSu
18、ffix FragmentCollision Induced Dissociation第23页,讲稿共139张,创作于星期三N-and C-terminal PeptidesN-terminal peptidesC-terminal peptides第24页,讲稿共139张,创作于星期三Terminal peptides and ion typesPeptideMass(D)57 +97 +147+114 =415PeptideMass(D)57 +97 +147+114 18=397without第25页,讲稿共139张,创作于星期三N-and C-terminal PeptidesN-te
19、rminal peptidesC-terminal peptides415 486 30115457 71185332429第26页,讲稿共139张,创作于星期三N-and C-terminal PeptidesN-terminal peptidesC-terminal peptides415 486 30115457 71185332429第27页,讲稿共139张,创作于星期三Peptide Fragmentationy3b2y2y1b3a2a3 HO NH3+|R1 O R2 O R3 O R4|H-N-C-C-N-C-C-N-C-C-N-C-COOH|H H H H H H H b2-H
20、2O y3-H2Ob3-NH3y2-NH3第28页,讲稿共139张,创作于星期三Mass SpectraGVDLKmass057 Da=G 99 Da=VLK DVGThe peaks in the mass spectrum:Prefix Fragments with neutral losses(-H2O,-NH3)Noise and missing peaks.and Suffix Fragments.DH2O第29页,讲稿共139张,创作于星期三Protein Identification with MS/MSGVDLKmass0Intensitymass0MS/MSPeptide I
21、dentification:第30页,讲稿共139张,创作于星期三Tandem Mass-Spectrometry第31页,讲稿共139张,创作于星期三Breaking Proteins into PeptidespeptidesMPSERGTDIMRPAKIDHPLCTo MS/MSMPSERGTDIMRPAKID.protein第32页,讲稿共139张,创作于星期三Mass SpectrometryMatrix-Assisted Laser Desorption/Ionization(MALDI)基质辅助激光解吸质谱基质辅助激光解吸质谱 第33页,讲稿共139张,创作于星期三基质辅助激光解
22、吸飞行时间质谱仪基质辅助激光解吸飞行时间质谱仪 MALDI-TOF-MS MALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。原理:原理:当用一定强度的激光照射样品与基质形成的共结晶薄膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,根据到达检测器的飞行时间不同而被检测,即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z)的不同来进行检测,并测得样品分子的分
23、子量。第34页,讲稿共139张,创作于星期三Tandem Mass SpectrometryScan 1708LCScan 1707MSMS/MSIonSourceMS-1collisioncellMS-2第35页,讲稿共139张,创作于星期三多肽片段指纹图谱多肽片段指纹图谱(PFF)步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定 代表方法:LC-ESI-MS/MS 2D-LC-MS/MS(shotgun)第36页,讲稿共139张,创作于星期三1.1.蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信
24、息的获取(2 2)翻译编码的)翻译编码的DNADNA序列序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框。网址:ncbi.nlm.nih.gov/gorf/gorf.html第37页,讲稿共139张,创作于星期三第38页,讲稿共139张,创作于星期三第39页,讲稿共139张,创作于星期三1.1.蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取蛋白质序列信息的获取(3 3)在数据库中搜索)在数据库中搜索e.g.PIR-PSD database:pir.georgetown.edu/pirwww SWISS-PROT/TrEMBL database www.expas
25、y.org/swissprot第40页,讲稿共139张,创作于星期三目前大部分蛋白质序列是通过目前大部分蛋白质序列是通过DNA DNA 人工翻译过来人工翻译过来的的,实际上很少有人能获得真正的蛋白质实际上很少有人能获得真正的蛋白质,因而实因而实验证据就很难直接获得验证据就很难直接获得,因此对蛋白质序列初始因此对蛋白质序列初始分析是很有价值的。分析是很有价值的。比如,通过一些序列分析工具进行蛋白质理化特比如,通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。性的预测、修饰位点的预测等。2.蛋白质序列分析蛋白质序列分析第41页,讲稿共139张,创作于星期三1.1.蛋白质序列的基本性质
26、分析蛋白质序列的基本性质分析 理化性质分析,疏水性分析,跨膜区分析,信号肽预测,理化性质分析,疏水性分析,跨膜区分析,信号肽预测,CoilCoil区分析,亚细胞定位区分析,亚细胞定位2.2.序列数据库搜索序列数据库搜索 相似性搜索,模体的搜索相似性搜索,模体的搜索3.3.结构域定位结构域定位4.4.空间结构预测空间结构预测 二级结构及三级结构预测,结构预测方法评价二级结构及三级结构预测,结构预测方法评价 蛋白质序列分析主要内容:蛋白质序列分析主要内容:第42页,讲稿共139张,创作于星期三1.蛋白质序列的基本性质分析蛋白质序列的基本性质分析(1 1)理化性质分析)理化性质分析 分子质量、分子式
27、、理论等电点、氨基酸组成、消光系分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。数、稳定性等理化特性。例,利用例,利用ProtParamProtParam工具工具http:/us.expasy.org/tools/protparam.html 第43页,讲稿共139张,创作于星期三理化指理化指标标CLCLCLAPCLAP分子式分子式C C16151615H H24202420N N428428O O535535S S1616C C12111211H H19511951N N319319O O364364S S3 3分子量分子量36904.436904.426899.926
28、899.9理理论论等等电电点点pIpI4.474.476.206.20总总原子数原子数5014501438483848消光系数(消光系数(280nm280nm)754557545559605960半衰期半衰期(小(小时时)哺乳哺乳动动物,物,体外体外30 30 3030酵母,体内酵母,体内20202020大大肠肠杆菌,杆菌,体内体内10101010不不稳稳定性指数定性指数31.7231.7229.5929.59脂肪族指数脂肪族指数63.7363.73105.18105.18总总体体亲亲水性水性-0.542-0.5420.1090.109CLCL和和CLAPCLAP的理化性质预测结果的理化性质预
29、测结果 CL:组织蛋白酶:组织蛋白酶L CLAP:组织蛋白酶:组织蛋白酶L相关蛋白相关蛋白 第44页,讲稿共139张,创作于星期三(2 2)疏水性分析疏水性分析 氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示,蛋白质的疏水性在保持蛋白质三级结构的形之值来表示,蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。成和稳定中起着重要作用。e.g.e.g.利用利用ProtScaleProtScale工具工具http:/web.expasy.org/protscale/http:/web.expasy.org/protscale/利用利
30、用BioEditBioEdit软件分析软件分析第45页,讲稿共139张,创作于星期三海参溶菌酶亲水性海参溶菌酶亲水性/疏水性分析疏水性分析Score 0,表示疏水性;Score 30的序列模拟比较有效,最常用的方法的序列模拟比较有效,最常用的方法 SWISS-MODEL,CPHmodels 串线法串线法/折叠识别法折叠识别法(Threading/Fold recognition)“穿穿”入已知的各种蛋白质折叠骨架内,适入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大于对蛋白质核心结构进行预测,计算量大THREADER,3D-PSSM从头预测法从头预测法(Ab initio/
31、De novo methods)基于分子动力学,寻找能量最低的构象,计基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测算量大,只能做小分子预测HMMSTR/ROSSETA第87页,讲稿共139张,创作于星期三方法一:同源模建方法一:同源模建 comparative modelingcomparative modeling 1.1.同源模建的基础同源模建的基础 蛋白质的三级结构比一级结构更保守。研究表明蛋白质的三级结构比一级结构更保守。研究表明 如果两个蛋白质的同源性达到如果两个蛋白质的同源性达到50%50%,二者,二者90%90%的的CaCa的的RMSRMS 小于小于1 1埃。埃
32、。2.2.原理:原理:序列高度相似的蛋白质具有相似的三维结构。序列高度相似的蛋白质具有相似的三维结构。同源蛋白质之间具有保守的结构内核,差异仅存在同源蛋白质之间具有保守的结构内核,差异仅存在分子表面的回折区。分子表面的回折区。当一个蛋白质的序列与一个已知结构的蛋白质序列当一个蛋白质的序列与一个已知结构的蛋白质序列相似的时候,该蛋白质的结构可以被模建。相似的时候,该蛋白质的结构可以被模建。第88页,讲稿共139张,创作于星期三 3.3.同源模建的前提和条件:同源模建的前提和条件:要模建的目标蛋白必须有一个或多个已知结构的与要模建的目标蛋白必须有一个或多个已知结构的与 之同源(同源性不低于之同源(
33、同源性不低于2525)的蛋白。)的蛋白。数据库:蛋白质结构、序列数据数据库:蛋白质结构、序列数据 计算机:工作站计算机:工作站 分子模拟系统:软件系统分子模拟系统:软件系统 4.4.同源模建的发展历史同源模建的发展历史 19691969年,年,BrowneBrowne利用溶菌酶的结构手工模建了牛乳白蛋白的结构。利用溶菌酶的结构手工模建了牛乳白蛋白的结构。八十年代,八十年代,BlundelBlundel发展了利用多种同源蛋白质进行结构预测的方发展了利用多种同源蛋白质进行结构预测的方法。随着计算机技术的发展、结构测定数据的增加,同源模建技术法。随着计算机技术的发展、结构测定数据的增加,同源模建技术
34、也在快速发展。也在快速发展。第89页,讲稿共139张,创作于星期三5.5.同源模建的主要算法同源模建的主要算法刚体装配模建(刚体装配模建(modeling by rigid body assembly)片段匹配模建(片段匹配模建(modeling by segment matching)空间制约模建(空间制约模建(modeling by satisfaction of spatial restraints)第90页,讲稿共139张,创作于星期三(1 1)刚体装配模建)刚体装配模建 从一些刚体包括核心区、环区和侧链来构造模型,这些刚体都来自从一些刚体包括核心区、环区和侧链来构造模型,这些刚体都来
35、自分解的相关结构(参考蛋白)。模型的装配涉及计算一个框架,这个框分解的相关结构(参考蛋白)。模型的装配涉及计算一个框架,这个框架定义为折叠模式的保守区域的模板原子的平均,并把刚体装进框架。架定义为折叠模式的保守区域的模板原子的平均,并把刚体装进框架。(2 2)片段匹配模建)片段匹配模建 依赖于从模板蛋白的保守原子的相近位置来计算其它原子依赖于从模板蛋白的保守原子的相近位置来计算其它原子的坐标。它可以通过使用蛋白质结构的短片数据库、能量或几的坐标。它可以通过使用蛋白质结构的短片数据库、能量或几何规则、以及这些标准的某些联合来完成。何规则、以及这些标准的某些联合来完成。(3 3)空间制约满足:)空
36、间制约满足:首先从参考蛋白结构中抽取出一些空间制约条件,将这些制约条首先从参考蛋白结构中抽取出一些空间制约条件,将这些制约条件用几率密度函数来表示,然后根据氨基酸类型、等位残基的主链构件用几率密度函数来表示,然后根据氨基酸类型、等位残基的主链构象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因子。模建时将几率密度函数应用到未知结构蛋白质序列上,通过优化子。模建时将几率密度函数应用到未知结构蛋白质序列上,通过优化分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的三维分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的
37、三维结构,整个优化过程通过分子力学和分子动力学模拟来实现结构,整个优化过程通过分子力学和分子动力学模拟来实现 。第91页,讲稿共139张,创作于星期三6.同源建模法分析步骤:同源建模法分析步骤:多序列比对多序列比对与已有晶体结构的蛋白质序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板确定是否有可以使用的模板序列相似度序列相似度30%序列相似度序列相似度30%,结合功能,蛋白质一级序列、二级结构,结合功能,蛋白质一级序列、二级结构或结构域信息或结构域信息构建三维模型构建三维模型三维模型准确性检验三维模型准确性检验Whatcheck 程序程序Ramachandran plot计算检验
38、计算检验手工调整多序列比对,重新拟和,构建新的模型手工调整多序列比对,重新拟和,构建新的模型第92页,讲稿共139张,创作于星期三第93页,讲稿共139张,创作于星期三常用数据库常用数据库数据库数据库网站网站备注备注PDBhttp:/www.rcsb.org/pdb/home/home.do主要的蛋白质三维结构数据库主要的蛋白质三维结构数据库MMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtmlNCBI维维护护的的蛋蛋白白质质结结构构数数据据库库Psdbhttp:/www.psc.edu/deerfiel/PSdb/从从PDB和和NRL
39、-3D数数据据库库中中衍衍生生出出的的数数据据库库,含含二二级级结结构构和和三维结构信息三维结构信息3DinSighthttp:/gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html整整合合了了结结构构、性性质质(氨氨基基酸酸组组成成、热热力力学学参参数数等等)、生生物物学学功功能能(突突变变点点,相相互互作作用用等等)的综合数据库,的综合数据库,FSSPhttp:/www.ebi.ac.uk/dali/fssp/根根据据结结构构比比对对的的蛋蛋白白质质结结构构分分类数据库类数据库SCOPhttp:/scop.mrc-lmb.cam.
40、ac.uk/scop/蛋蛋白白质质结结构构分分类类数数据据库库,将将已已知结构蛋白进行有层次地分类知结构蛋白进行有层次地分类CATHhttp:/www.cathdb.info/latest/index.html另另一一个个有有名名的的蛋蛋白白质质结结构构和和结结构域主要结构分类库构域主要结构分类库MODBASEhttp:/pbio.ucsf.edu/modbase-cgi/index.cgi用用同同源源比比对对法法生生成成的的模模型型结结构构数据库数据库Enzyme Structurehttp:/www.ebi.ac.uk/thornton-srv/databases/enzymes/从从PD
41、B数数据据库库中中整整理理已已知知结结构构的酶蛋白数据库的酶蛋白数据库HSSPhttp:/www.sander.ebi.ac.uk/hssp/根根据据同同源源性性到到处处的的蛋蛋白白质质结结构构数据库数据库第94页,讲稿共139张,创作于星期三模板搜索与比对模板搜索与比对工具工具网站网站备注备注PSI-BLASThttp:/www.ncbi.nlm.nih.gov/BLAST/位位置置特特异异性性叠叠代代BLAST,可可用用来搜索远源家族序列来搜索远源家族序列FASTA3http:/www.ebi.ac.uk/fasta33/位于位于EBI的序列比对工具的序列比对工具SSEARCHhttp:/
42、rs.fr/bin/ssearch-guess.cgi采采用用Smith/Waterman法法来来进进行行序列比对序列比对ClustalWhttp:/www.ebi.ac.uk/Tools/clustalw/index.html多序列比对工具,位于多序列比对工具,位于EBIT-Coffeehttp:/www.ebi.ac.uk/t-coffee/用用多多种种方方法法(如如ClustalW、DIalign等)来构建多序列比对等)来构建多序列比对Multalinhttp:/bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html一个老牌的多序列
43、比对工具一个老牌的多序列比对工具Dalihttp:/www.ebi.ac.uk/dali/三维结构比对网络服务器三维结构比对网络服务器VASThttp:/www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml基基于于向向量量并并列列分分析析算算法法的的三三维维结构比对工具结构比对工具SAM-T99http:/www.soe.ucsc.edu/research/compbio/sam.html用用HMM法法搜搜索索蛋蛋白白质质远远源源同同源序列源序列第95页,讲稿共139张,创作于星期三同源建模法同源建模法工具工具网站网站备注备注SWISS-MODELhtt
44、p:/swissmodel.expasy.org/完完整整建建模模程程序序,采采用用同同源源性性鉴鉴定定来来确确定定模模板板蛋蛋白白,用用户户也也可可以自定义模板进行分析以自定义模板进行分析CPHmodelshttp:/www.cbs.dtu.dk/services/CPHmodels/基基于于神神经经网网络络的的同同源源建建模模工工具具,用用户户只只需需提提交交序序列列,无无高高级级选选项项EsyPred3Dhttp:/www.fundp.ac.be/urbm/bioinfo/esypred/采采用用神神经经网网络络来来提提高高同同源源建建模模准确性的预测工具准确性的预测工具3Djigsaw
45、http:/www.bmm.icnet.uk/servers/3djigsaw/根根据据同同源源已已知知结结构构蛋蛋白白来来建建模模的预测工具的预测工具MODELLERhttp:/www.salilab.org/modeller/一一个个广广泛泛使使用用的的同同源源建建模模软软件件,需要用户对脚本有一定的了解需要用户对脚本有一定的了解第96页,讲稿共139张,创作于星期三串线法串线法工具工具网站网站备注备注3D-PSSMhttp:/www.sbg.bio.ic.ac.uk/3dpssm/index2.html第第一一个个运运用用1D-3D序序列列profile来来预预测测蛋蛋白白质质折折叠叠结
46、结构构的的网网络络服务器服务器Fuguehttp:/www-cryst.bioc.cam.ac.uk/fugue/以以序序列列结结构构比比对对搜搜索索数数据据库库来预测蛋白质折叠来预测蛋白质折叠HHpredhttp:/toolkit.tuebingen.mpg.de/hhpred基基于于HMM-HMM比比对对搜搜索索多多个个数数据据库库来来预预测测给给定定序序列列的的的的折叠结构折叠结构LOOPPhttp:/cbsuapps.tc.cornell.edu/loopp.aspx学学习习、观观察察和和输输出出蛋蛋白白质质模模式式和结构工具和结构工具THREADERhttp:/bioinf.cs.u
47、cl.ac.uk/threader/一一个个老老牌牌的的线线索索分分析析软软件件,对对搜索远源蛋白序列较敏感搜索远源蛋白序列较敏感PROSPECThttp:/compbio.ornl.gov/structure/prospect/index.html蛋蛋白白质质结结构构预预测测和和评评价价工工具具包包,能能以以一一种种非非常常简简单单的的方方式式运运行行,对对于于高高级级用用户户,也也提提供供了了很很多多的可选项的可选项123D+http:/123d.ncifcrf.gov/123D+.html结结合合了了序序列列概概形形,二二级级结结构构信信息息和和接接触触势势能能来来将将待待测测蛋蛋白白“
48、穿入穿入”一系列结构来预测结构一系列结构来预测结构SAM-T02http:/www.soe.ucsc.edu/research/compbio/HMM-apps/T02-query.html基基于于HMM方方法法的的蛋蛋白白质质结结构构预测预测GenThreaderhttp:/bioinf.cs.ucl.ac.uk/psipred/psiform.html使使用用结结构构评评分分和和基基于于神神经经网网络络序列比对来也测蛋白折叠结构序列比对来也测蛋白折叠结构第97页,讲稿共139张,创作于星期三蛋白质三维结构预测蛋白质三维结构预测SWISS-MODEL工具工具http:/www.expasy.
49、ch/swissmod/SWISS-MODEL.html同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测第98页,讲稿共139张,创作于星期三主要参数主要参数/选项选项粘贴粘贴protein.txt中中一条蛋白质序列一条蛋白质序列输入用户输入用户Email(选填)(选填)比对比对e值值参照模板序列数目参照模板序列数目第99页,讲稿共139张,创作于星期三输出结果输出结果下载下载pdbpdb格式文件格式文件第100页,讲稿共139张,创作于星期三与模板序列与模板序列比对结果,比对结果,并显示二级并显示二级结构区域结构区域第101页,讲稿共139张,创作于星期三方法二:折叠识别方法二:折
50、叠识别/穿线方法穿线方法 对蛋白质结构的预测对蛋白质结构的预测背景:背景:序列比对后所击中的相似序列不是完整的而是一段一段的结构域,也可以通过二级结构预测和折叠识别(fold recognition)找到合适的折叠子,再以这些已知结构的折叠子为模板来构建模型。第102页,讲稿共139张,创作于星期三折叠识别折叠识别/穿线方法穿线方法 观察:观察:有限的蛋白质折叠种类(有限的蛋白质折叠种类(1,000?)与与“从头开始从头开始”来预测蛋白质结构不同,我们可以从有限的来预测蛋白质结构不同,我们可以从有限的蛋白质折叠条目中得到正确的结果。蛋白质折叠条目中得到正确的结果。基于序列技巧可以做到这一点,或