《生物信息学在蛋白质工程中的应用课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学在蛋白质工程中的应用课件.ppt(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、蛋白质工程蛋白质工程 主讲教师:曹运长主讲教师:曹运长 博士、副教授博士、副教授 马马 云云 副教授副教授 佘美华佘美华 博士、副教授博士、副教授 授课专业:生物技术、生物科学授课专业:生物技术、生物科学Protein Engineering南华大学生化与分子生物学教研室南华大学生化与分子生物学教研室办公室:第办公室:第3教学楼教学楼315室室版权声明:版权声明:本课件版权所有,未经本课件版权所有,未经允许不得转载他处。允许不得转载他处。第六章第六章 生物信息学在蛋白质工生物信息学在蛋白质工程中的应用程中的应用l l第一节、生物信息学与蛋白质工程第一节、生物信息学与蛋白质工程l l第二节、蛋白
2、质常用数据库第二节、蛋白质常用数据库l l第三节、蛋白质结构预测第三节、蛋白质结构预测n n二十一世纪是生命科学的时代,也是信息时代。二十一世纪是生命科学的时代,也是信息时代。二十一世纪是生命科学的时代,也是信息时代。二十一世纪是生命科学的时代,也是信息时代。n n近年来,随着现代分子生物学的发展,特别是人类基组计划的近年来,随着现代分子生物学的发展,特别是人类基组计划的近年来,随着现代分子生物学的发展,特别是人类基组计划的近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量实施,不断产生出巨量的分子生物学数据,这些数据有着数量实施,不断
3、产生出巨量的分子生物学数据,这些数据有着数量实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存巨大、关系复杂,以至于不利用计算机根本无法实现数据的存巨大、关系复杂,以至于不利用计算机根本无法实现数据的存巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推储和分析。这样,生物信息学最终形成一门独立的学科并被推储和分析。这样,生物信息学最终形成一门独立的学科并被推储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。上了生物科学发展的最前沿。上了生物科学发展的
4、最前沿。上了生物科学发展的最前沿。前前 言言第一节第一节 生物信息学与蛋白质工程生物信息学与蛋白质工程一、生物信息学概述一、生物信息学概述n n定义:它是一个学科领域,包含着对生物信息的定义:它是一个学科领域,包含着对生物信息的定义:它是一个学科领域,包含着对生物信息的定义:它是一个学科领域,包含着对生物信息的获取、加工、存储、分配获取、加工、存储、分配获取、加工、存储、分配获取、加工、存储、分配 、分析和解释的所有方、分析和解释的所有方、分析和解释的所有方、分析和解释的所有方面,并综合应用数学、计算机科学、物理学、化面,并综合应用数学、计算机科学、物理学、化面,并综合应用数学、计算机科学、物
5、理学、化面,并综合应用数学、计算机科学、物理学、化学和生物学等工具,来阐明和理解大量生物数据学和生物学等工具,来阐明和理解大量生物数据学和生物学等工具,来阐明和理解大量生物数据学和生物学等工具,来阐明和理解大量生物数据所包含的生物学意义。所包含的生物学意义。所包含的生物学意义。所包含的生物学意义。(一)生物信息学发展简史(一)生物信息学发展简史基因组时代:基因组时代:基因组时代:基因组时代:主要是主要是主要是主要是基因的寻找、数据与数据之间的比较基因的寻找、数据与数据之间的比较基因的寻找、数据与数据之间的比较基因的寻找、数据与数据之间的比较、网络网络网络网络相互界面(相互界面(相互界面(相互界
6、面(InterfaceInterface););););生物信息学自诞生以来,经历了三个阶段:生物信息学自诞生以来,经历了三个阶段:前基因组时代:前基因组时代:主要是主要是序列分析、数据库的查询序列分析、数据库的查询、计算机操作和、计算机操作和PC的应用;的应用;后基因组时代:后基因组时代:主要是数据的挖掘、表达、数据多样性的分析、主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。相互交叉数据分布的总结与分析。其研究的内容不仅包括基因其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所
7、谓的功能基因组学研究。即所谓的功能基因组学研究。生物信息学的诞生生物信息学的诞生生物信息学的诞生生物信息学的诞生(二)生物信息学的主要研究内容(二)生物信息学的主要研究内容l生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供 l基因组序列信息的提取和分析基因组序列信息的提取和分析 l功能基因组相关信息分析功能基因组相关信息分析 l生物大分子结构模拟和药物设计生物大分子结构模拟和药物设计 l生物信息分析的技术与方法研究生物信息分析的技术与方法研究 计算机辅助药物筛选计算机辅助药物筛选高通量虚拟筛选方法高通量虚拟筛选方法分子数据库,组合化分子数据库,组合化学化合物库学化合物库,靶标生
8、靶标生物大分子的功能分析物大分子的功能分析.蛋白质蛋白质相互蛋白质蛋白质相互作用识别,信号传导系作用识别,信号传导系统、代谢途径的分子模统、代谢途径的分子模拟拟.图像处理、聚图像处理、聚类分析、表达类分析、表达谱和调控网络谱和调控网络分析分析.计算机辅助先导化合计算机辅助先导化合物设计、药物设计物设计、药物设计生物信息学的内容生物信息学的内容 1.1.生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供 包括建立国际基本生物信息库和生物信息传输的包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与国际联网系统;建立生物信息数据质量的评估与检测系统;生
9、物信息的在线服务;生物信息可视检测系统;生物信息的在线服务;生物信息可视化和专家系统。化和专家系统。基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJDDBJEMBLEMBLGenBankGenBankSWISS-PROT SWISS-PROT PDBPDBPIRPIR 生物分子数据的收集与管理生物分子数据的收集与管理2.2.基因组序列信息的提取和分析基因组序列信息的提取和分析 u 基因的发现与鉴定;基因的发现与鉴定;u 基因组中非编码区的信息结构分析,提出理论模型,阐明基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能
10、;该区域的重要生物学功能;u 进行模式生物完整基因组的信息结构分析和比较研究;进行模式生物完整基因组的信息结构分析和比较研究;u 利用生物信息研究遗传密码起源、基因组结构的演化、基利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与因组空间结构与DNADNA折叠的关系以及基因组信息与生物进化关折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。系等生物学的重大问题。数据库搜索及序列比较数据库搜索及序列比较数据库搜索及序列比较数据库搜索及序列比较 搜索同源序列在一定程度上就是通过序列比较寻搜索同源序列在一定程度上就是通过序列比较寻搜索同源序列在一定程度上就是通过序列比较寻搜索同
11、源序列在一定程度上就是通过序列比较寻找相似序列。找相似序列。找相似序列。找相似序列。序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是比对,比对,比对,比对,即将两个序即将两个序即将两个序即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按列的各个字符(代表核苷酸或者氨基酸残基)按列的各个字符(代表核苷酸或者氨基酸残基)按列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果照对应等同或者置换关系进行对比排列,其结果照对应等同或者置换关系进行对比排列,其结果照对应等同或者置换关系进行对比排列,其结果是两个序列共
12、有的排列顺序,这是序列相似程度是两个序列共有的排列顺序,这是序列相似程度是两个序列共有的排列顺序,这是序列相似程度是两个序列共有的排列顺序,这是序列相似程度的一种定性描述。的一种定性描述。的一种定性描述。的一种定性描述。发现同源分子发现同源分子发现同源分子发现同源分子n n下面介绍序列分析的一些基本知识。值得注意的下面介绍序列分析的一些基本知识。值得注意的下面介绍序列分析的一些基本知识。值得注意的下面介绍序列分析的一些基本知识。值得注意的是,在对序列进行分析时,首先应当明确序列的是,在对序列进行分析时,首先应当明确序列的是,在对序列进行分析时,首先应当明确序列的是,在对序列进行分析时,首先应当
13、明确序列的性质性质性质性质,是是是是mRNAmRNAmRNAmRNA序列还是基因组序列?是计算机拼接序列还是基因组序列?是计算机拼接序列还是基因组序列?是计算机拼接序列还是基因组序列?是计算机拼接得到还是经过得到还是经过得到还是经过得到还是经过PCRPCRPCRPCR扩增测序得到?是原核生物还是扩增测序得到?是原核生物还是扩增测序得到?是原核生物还是扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结真核生物?这些决定了分析方法的选择和分析结真核生物?这些决定了分析方法的选择和分析结真核生物?这些决定了分析方法的选择和分析结果的解释。果的解释。果的解释。果的解释。序列分析序列
14、分析序列分析序列分析 核酸核酸蛋白质蛋白质双序列比对双序列比对 多序列比对和进化树多序列比对和进化树 ORF(Open Reading Frame)分析分析 染色体定位染色体定位 基因结构分析基因结构分析 基因上游调控区分析基因上游调控区分析 跨膜区预测跨膜区预测信号肽预测信号肽预测 亚细胞定位预测亚细胞定位预测 核酸序列分析核酸序列分析核酸序列分析核酸序列分析l l双序列比对(双序列比对(双序列比对(双序列比对(pairwisepairwise alignment alignment)l l双序列比对是指用计算机进行序列分析的强大工具,双序列比对是指用计算机进行序列分析的强大工具,双序列比对
15、是指用计算机进行序列分析的强大工具,双序列比对是指用计算机进行序列分析的强大工具,比较两条序列的相似性和寻找相似碱基及氨基酸的比较两条序列的相似性和寻找相似碱基及氨基酸的比较两条序列的相似性和寻找相似碱基及氨基酸的比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置。对应位置。对应位置。对应位置。l lFASTAFASTA(http:/www.ebi.ac.uk/fasta33/http:/www.ebi.ac.uk/fasta33/)和)和)和)和BLASTBLAST(http:/http:/www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov/BLAST/BLA
16、ST/)是目前运用较为广泛的相似性搜索工具。)是目前运用较为广泛的相似性搜索工具。)是目前运用较为广泛的相似性搜索工具。)是目前运用较为广泛的相似性搜索工具。l l一般输入所比较的序列即可一般输入所比较的序列即可一般输入所比较的序列即可一般输入所比较的序列即可 。3.3.功能基因组相关信息分析功能基因组相关信息分析 包括与大规模基因表达谱分析相关的算法、软件包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。及蛋白
17、质功能预测的研究。4.4.生物大分子结构模拟和药物设计生物大分子结构模拟和药物设计 包括包括RNA(RNA(核糖核酸核糖核酸)的结构模拟和反义的结构模拟和反义RNARNA的分子的分子设计;蛋白质空间结构模拟和分子设计;生物活设计;蛋白质空间结构模拟和分子设计;生物活性分子的电子结构计算和设计;纳米生物材料的性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于面受体结构的药物设计;基于DNADNA结构的药物设结构的药物设计等。计等。5.5.生物信息分析的技术与方法研究生物信息分析的技术与方法研究l
18、包括发展有效的能支持大尺度作图与测序需要的软件、数包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具;据库以及若干数据库工具;l改进现有的理论分析方法;改进现有的理论分析方法;l创建一切适用于基因组信息分析的新方法、新技术;创建一切适用于基因组信息分析的新方法、新技术;l建立严格的多序列比较方法;建立严格的多序列比较方法;l发展与应用密码学方法以及其他算法和分析技术,用于解发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索释基因组的信息,探索DNADNA序列及其空间结构信息的新表征;序列及其空间结构信息的新表征;l发展研究基因组完整信息结构和信息网络的
19、研究方法等;发展研究基因组完整信息结构和信息网络的研究方法等;l发展生物大分子空间结构模拟、电子结构模拟和药物设计发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。的新方法与新技术。生物信息学常用的方法和技术生物信息学常用的方法和技术生物信息学常用的方法和技术生物信息学常用的方法和技术 1.1.1.1.数学统计方法数学统计方法数学统计方法数学统计方法2.2.2.2.动态规划方法动态规划方法动态规划方法动态规划方法3.3.3.3.模式识别技术模式识别技术模式识别技术模式识别技术4.4.4.4.数据库技术数据库技术数据库技术数据库技术5.5.5.5.人工神经网络技术人工神经网络技
20、术人工神经网络技术人工神经网络技术6.6.6.6.分子模型化技术分子模型化技术分子模型化技术分子模型化技术7.7.7.7.分子力学和量子力学计算分子力学和量子力学计算分子力学和量子力学计算分子力学和量子力学计算8.8.8.8.分子动力学模拟分子动力学模拟分子动力学模拟分子动力学模拟9.9.9.9.专家系统专家系统专家系统专家系统 10.Internet10.Internet10.Internet10.Internet技术技术技术技术(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望1.1.1.1.国外生物信息学研究现状国外生
21、物信息学研究现状国外生物信息学研究现状国外生物信息学研究现状2.2.2.2.我国生物信息学研究现状我国生物信息学研究现状我国生物信息学研究现状我国生物信息学研究现状3.3.3.3.生物信息学研究目标生物信息学研究目标生物信息学研究目标生物信息学研究目标国外生物信息学研究现状国外生物信息学研究现状国外生物信息学研究现状国外生物信息学研究现状 各国政府和工业界对生物信息学极为重视,投入了大各国政府和工业界对生物信息学极为重视,投入了大各国政府和工业界对生物信息学极为重视,投入了大各国政府和工业界对生物信息学极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国量资金。欧美各国及日本
22、相继成立了生物信息中心,如美国量资金。欧美各国及日本相继成立了生物信息中心,如美国量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(的国家生物技术信息中心(的国家生物技术信息中心(的国家生物技术信息中心(NCBINCBINCBINCBI)、欧洲生物信息学研究所)、欧洲生物信息学研究所)、欧洲生物信息学研究所)、欧洲生物信息学研究所 (EBI)(EBI)(EBI)(EBI)、日本信息生物学中心(、日本信息生物学中心(、日本信息生物学中心(、日本信息生物学中心(CIBCIBCIBCIB)等。)等。)等。)等。NCBINCBINCBINCBI、EBIEBIEBIEBI和和和
23、和CIBCIBCIBCIB相相相相互合作,共同维护着互合作,共同维护着互合作,共同维护着互合作,共同维护着GenBankGenBankGenBankGenBank、EMBLEMBLEMBLEMBL、DDBJDDBJDDBJDDBJ三大基因序列数三大基因序列数三大基因序列数三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库。它们每天通过计算机网络互相交换数据,使得三个数据库。它们每天通过计算机网络互相交换数据,使得三个数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨据库能同时获得最新数据。此外,他们每年召开两个年会讨据
24、库能同时获得最新数据。此外,他们每年召开两个年会讨据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。论合作事宜。论合作事宜。论合作事宜。我国生物信息学研究现状我国生物信息学研究现状我国生物信息学研究现状我国生物信息学研究现状 在我国,生物信息学随着人类基因组研究的展开才刚在我国,生物信息学随着人类基因组研究的展开才刚在我国,生物信息学随着人类基因组研究的展开才刚在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。在政府的支持和科刚起步,但已显露出蓬勃发展的势头。在政府的支持和科刚起步,但已显露出蓬勃发展的势头。在政府的支持和科刚起步,但已显露出蓬勃发展
25、的势头。在政府的支持和科学家的呼吁下,国家级生物医学信息学中心正在筹建之中。学家的呼吁下,国家级生物医学信息学中心正在筹建之中。学家的呼吁下,国家级生物医学信息学中心正在筹建之中。学家的呼吁下,国家级生物医学信息学中心正在筹建之中。各地政府也给予了足够重视,北京市已经成立了北各地政府也给予了足够重视,北京市已经成立了北各地政府也给予了足够重视,北京市已经成立了北各地政府也给予了足够重视,北京市已经成立了北京生物工程学会生物信息学专业委员会(即北方生物信息京生物工程学会生物信息学专业委员会(即北方生物信息京生物工程学会生物信息学专业委员会(即北方生物信息京生物工程学会生物信息学专业委员会(即北方
26、生物信息学研究会),目的在于联合北方地区从事生物信息学的专学研究会),目的在于联合北方地区从事生物信息学的专学研究会),目的在于联合北方地区从事生物信息学的专学研究会),目的在于联合北方地区从事生物信息学的专家,加强合作,促进学科的发展,并为政府决策提供参考家,加强合作,促进学科的发展,并为政府决策提供参考家,加强合作,促进学科的发展,并为政府决策提供参考家,加强合作,促进学科的发展,并为政府决策提供参考意见。意见。意见。意见。国内的一些科研单位国内的一些科研单位国内的一些科研单位国内的一些科研单位清华大学清华大学清华大学清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、在基因调控及基
27、因功能分析、蛋白质二级结构预测方面、在基因调控及基因功能分析、蛋白质二级结构预测方面、在基因调控及基因功能分析、蛋白质二级结构预测方面、天津大学物理系天津大学物理系天津大学物理系天津大学物理系和和和和中科院理论物理所中科院理论物理所中科院理论物理所中科院理论物理所在相关算法方面、在相关算法方面、在相关算法方面、在相关算法方面、中科院中科院中科院中科院生物物理所在生物物理所在生物物理所在生物物理所在基因组大规模测序数据的组装和标识方面、基因组大规模测序数据的组装和标识方面、基因组大规模测序数据的组装和标识方面、基因组大规模测序数据的组装和标识方面、北京北京北京北京大学化学学院物理化学研究所大学化
28、学学院物理化学研究所大学化学学院物理化学研究所大学化学学院物理化学研究所在蛋白质分子设计方面、在蛋白质分子设计方面、在蛋白质分子设计方面、在蛋白质分子设计方面、华大基华大基华大基华大基因组研究中心(因组研究中心(因组研究中心(因组研究中心(中科院遗传所人类基因组研究中心)在大规模中科院遗传所人类基因组研究中心)在大规模中科院遗传所人类基因组研究中心)在大规模中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开测序数据处理自动化流程体系及数据库系统建立方面均已展开测序数据处理自动化流程体系及数据库系统建立方面均已展开测序数据处理自动化流程体系及数据库系统
29、建立方面均已展开相关研究。相关研究。相关研究。相关研究。北京大学北京大学北京大学北京大学已建立了已建立了已建立了已建立了EMBLEMBL中国镜像数据库,将该数中国镜像数据库,将该数中国镜像数据库,将该数中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务据库移植到中国本地,并提供部分的检索服务据库移植到中国本地,并提供部分的检索服务据库移植到中国本地,并提供部分的检索服务httphttp:/www.I 生物信息学的研究目标是揭示生物信息学的研究目标是揭示生物信息学的研究目标是揭示生物信息学的研究目标是揭示“基因组信息基因组信息基因组信息基因组信息结构的复杂性及遗传语言的根本规律结构的
30、复杂性及遗传语言的根本规律结构的复杂性及遗传语言的根本规律结构的复杂性及遗传语言的根本规律”。它是。它是。它是。它是当今乃至下一世纪自然科学和技术科学领域中当今乃至下一世纪自然科学和技术科学领域中当今乃至下一世纪自然科学和技术科学领域中当今乃至下一世纪自然科学和技术科学领域中“基因组基因组基因组基因组”、“信息结构信息结构信息结构信息结构”和和和和“复杂性复杂性复杂性复杂性”这三这三这三这三个重大科学问题的有机结合。个重大科学问题的有机结合。个重大科学问题的有机结合。个重大科学问题的有机结合。二、生物信息学与蛋白质工程二、生物信息学与蛋白质工程n n1.1.1.1.蛋白质序列分析蛋白质序列分析
31、蛋白质序列分析蛋白质序列分析n n2 2 2 2.蛋白质结构预测蛋白质结构预测蛋白质结构预测蛋白质结构预测n n3.3.3.3.蛋白质功能预测蛋白质功能预测蛋白质功能预测蛋白质功能预测n n4.4.4.4.蛋白质分子设计蛋白质分子设计蛋白质分子设计蛋白质分子设计蛋白质结构预测蛋白质结构预测 n n蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定 ,蛋,蛋,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解
32、蛋白质功能的重要途径n n蛋白质结构预测分为蛋白质结构预测分为蛋白质结构预测分为蛋白质结构预测分为:n n二级结构预测二级结构预测二级结构预测二级结构预测n n空间结构预测空间结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠二级结构预测二级结构预测n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:l立体化学方法立体化学方法l图论方法图论方法l统计方法统计方法l最邻近决策方法最邻近决策方法l基于规则的专家系统方法基于规则的专家系统方法l分子动力学方法分子动力学方法l人工神经网络方
33、法人工神经网络方法 n预测准确率超过预测准确率超过70%70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHDPHD系统系统空间结构预测空间结构预测n n在空间结构预测方面,比较成功的理论方法是在空间结构预测方面,比较成功的理论方法是在空间结构预测方面,比较成功的理论方法是在空间结构预测方面,比较成功的理论方法是同源模型法同源模型法同源模型法同源模型法 n n该方法的依据是:相似序列的蛋白质倾向于折该方法的依据是:相似序列的蛋白质倾向于折该方法的依据是:相似序列的蛋白质倾向于折该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构叠成相似的三维空间结构叠成相似的三维空间结
34、构叠成相似的三维空间结构 n n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%10-30%10-30%10-30%的空间结构预测工作的空间结构预测工作的空间结构预测工作的空间结构预测工作 第二节第二节 蛋白质常用数据库蛋白质常用数据库按照来源分类:生物信息学数生物信息学数据库据库一次数据库:数据直接来源于实验获得的一次数据库:数据直接来源于实验获得的原始数据,仅对原始数据进行简单的归类原始数据,仅对原始数据进行简单的归类整理和注释。整理和注释。二次数据库:在一次数据库、实验数据和二次数据库:在
35、一次数据库、实验数据和理论分析的基础上对相关生物学知识和信理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。息进行进一步分析和整理。一、核酸数据库(一)核酸序列数据库(一)核酸序列数据库(一)核酸序列数据库(一)核酸序列数据库 主要有主要有主要有主要有GenBankGenBank 、EMBLEMBL、DDBJ.DDBJ.1.GenBank http:/www.ncbi.nlm.nih.gov GenBank数据库是由美国国立生物技术信息中心数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:数据库的数
36、据来源有三种:1)直接来源于测序工作者提交的序列;直接来源于测序工作者提交的序列;2)与其它数据机构协作交换的数据;与其它数据机构协作交换的数据;3)美国专利局提供的专利数据。美国专利局提供的专利数据。Nucleotide 数据库分为三个子数据库数据库分为三个子数据库:n nEST:EST:EST:EST:表达序列标记数表达序列标记数表达序列标记数表达序列标记数据库据库据库据库n nGSS GSS GSS GSS:基因组测序序列基因组测序序列基因组测序序列基因组测序序列数据库数据库数据库数据库n nCoreNucleotideCoreNucleotideCoreNucleotideCoreNu
37、cleotide :包含包含包含包含所有未被以上两个子数所有未被以上两个子数所有未被以上两个子数所有未被以上两个子数据库收录的核苷酸序列据库收录的核苷酸序列据库收录的核苷酸序列据库收录的核苷酸序列 rasrasGENEGenBank格式 2.EMBL2.EMBL核酸序列数据库核酸序列数据库核酸序列数据库核酸序列数据库 http:/http:/www.ebi.ac.uk/emblwww.ebi.ac.uk/embl/由欧洲生物信息学研究所由欧洲生物信息学研究所由欧洲生物信息学研究所由欧洲生物信息学研究所(EBI)(EBI)维护的核酸序列维护的核酸序列维护的核酸序列维护的核酸序列数据构成,由于与数
38、据构成,由于与数据构成,由于与数据构成,由于与GenbankGenbank和和和和DDBJDDBJ的数据合作的数据合作的数据合作的数据合作交换,它也是一个全面的核酸序列数据库。交换,它也是一个全面的核酸序列数据库。交换,它也是一个全面的核酸序列数据库。交换,它也是一个全面的核酸序列数据库。3.DDBJ3.DDBJ核酸序列数据库核酸序列数据库核酸序列数据库核酸序列数据库 http:/http:/WWW.ddbj.nig.ac.jpWWW.ddbj.nig.ac.jp 创建于创建于创建于创建于19861986年,由日本国家遗传学研究所负责管年,由日本国家遗传学研究所负责管年,由日本国家遗传学研究所
39、负责管年,由日本国家遗传学研究所负责管理。理。理。理。二、蛋白质数据库二、蛋白质数据库 包括蛋白质序列数据库、蛋白质结构数据库、蛋包括蛋白质序列数据库、蛋白质结构数据库、蛋包括蛋白质序列数据库、蛋白质结构数据库、蛋包括蛋白质序列数据库、蛋白质结构数据库、蛋白质结构分类数据库。白质结构分类数据库。白质结构分类数据库。白质结构分类数据库。(一)蛋白质序列数据库(一)蛋白质序列数据库 1.SWISS-PROT 建立于建立于1986年,年,1987年起由日内瓦大学年起由日内瓦大学(University of Geneva)医学生物化学系和医学生物化学系和 EMBL 数据馆数据馆(即现在的欧洲生物即现在
40、的欧洲生物信息研究所信息研究所EBI)共同维护。是欧洲最主要的蛋白序列数据库,共同维护。是欧洲最主要的蛋白序列数据库,世界两大蛋白序列数据库之一。世界两大蛋白序列数据库之一。SWISS-PROT由由EMBL核苷酸核苷酸序列库翻译而来。序列库翻译而来。2.PIR2.PIR PIRPIR国际蛋白质序列数据库国际蛋白质序列数据库国际蛋白质序列数据库国际蛋白质序列数据库(PSD)(PSD)是由蛋白质信息资源是由蛋白质信息资源是由蛋白质信息资源是由蛋白质信息资源(PIR)(PIR)、慕尼黑蛋白质序列信息中心、慕尼黑蛋白质序列信息中心、慕尼黑蛋白质序列信息中心、慕尼黑蛋白质序列信息中心(MIPS)(MIP
41、S)和日本国际蛋和日本国际蛋和日本国际蛋和日本国际蛋白质序列数据库白质序列数据库白质序列数据库白质序列数据库(JIPID)(JIPID)共同维护的国际上最大的公共蛋共同维护的国际上最大的公共蛋共同维护的国际上最大的公共蛋共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余白质序列数据库。这是一个全面的、经过注释的、非冗余白质序列数据库。这是一个全面的、经过注释的、非冗余白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过的蛋白质序列数据库,包含超过的蛋白质序列数据库,包含超过的蛋白质序列数据库,包含超过142,000142,000条蛋白质序列
42、条蛋白质序列条蛋白质序列条蛋白质序列(至至至至9999年年年年9 9月月月月),其中包括来自几十个完整基因组的蛋白质序列。,其中包括来自几十个完整基因组的蛋白质序列。,其中包括来自几十个完整基因组的蛋白质序列。,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过所有序列数据都经过整理,超过所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%99%的序列已按蛋白质家的序列已按蛋白质家的序列已按蛋白质家的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。族分类,一半以上还按蛋白质超家族进行了分类。族分类,一半以上还按蛋白质超家族进行了分类。族分类,一半以上还
43、按蛋白质超家族进行了分类。PSDPSD的的的的注释中还包括对许多序列、结构、基因组和文献数据库的注释中还包括对许多序列、结构、基因组和文献数据库的注释中还包括对许多序列、结构、基因组和文献数据库的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索交叉索引,以及数据库内部条目之间的索引,这些内部索交叉索引,以及数据库内部条目之间的索引,这些内部索交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶底物相互作用、活化和调引帮助用户在包括复合物、酶底物相互作用、活化和调引帮助用户在包括复合物、酶底物相互作用、活化和调引帮助用户
44、在包括复合物、酶底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都控级联和具有共同特征的条目之间方便的检索。每季度都控级联和具有共同特征的条目之间方便的检索。每季度都控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。发行一次完整的数据库,每周可以得到更新部分。发行一次完整的数据库,每周可以得到更新部分。发行一次完整的数据库,每周可以得到更新部分。(三三三三)蛋白质结构数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构数据库1.PDB1.PDB1.PDB1.PDB 蛋白质的基本立体结构数据库为蛋白质的基本立体结构数据库为蛋白质的基本
45、立体结构数据库为蛋白质的基本立体结构数据库为PDB(Protein PDB(Protein PDB(Protein PDB(Protein Data Bank)Data Bank)Data Bank)Data Bank),1971197119711971年建立于美国布鲁海克海文国年建立于美国布鲁海克海文国年建立于美国布鲁海克海文国年建立于美国布鲁海克海文国家实验室。该数据库中收集了通过家实验室。该数据库中收集了通过家实验室。该数据库中收集了通过家实验室。该数据库中收集了通过X X X X射线衍射和核射线衍射和核射线衍射和核射线衍射和核磁共振(磁共振(磁共振(磁共振(NMRNMRNMRNMR)试
46、验测定的蛋白质结构的精确坐标)试验测定的蛋白质结构的精确坐标)试验测定的蛋白质结构的精确坐标)试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质数据。这种数据即蛋白质中的原子坐标是蛋白质数据。这种数据即蛋白质中的原子坐标是蛋白质数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。结构的最细致的层次。结构的最细致的层次。结构的最细致的层次。思考题?思考题?uu(1 1 1 1)简述蛋白质结构数据库的主要种类和特点。)简述蛋白质结构数据库的主要种类和特点。)简述蛋白质结构数据库的主要种类和特点。)简述蛋白质结构数据库的主要种类和特点。uu(2 2 2 2)简述)简述
47、)简述)简述SWISS-PROTSWISS-PROTSWISS-PROTSWISS-PROT数据库的主要特点?数据库的主要特点?数据库的主要特点?数据库的主要特点?uu(3 3 3 3)从核酸序列数据库获取一条核酸序列,如何预测其)从核酸序列数据库获取一条核酸序列,如何预测其)从核酸序列数据库获取一条核酸序列,如何预测其)从核酸序列数据库获取一条核酸序列,如何预测其翻译的蛋白质结构?翻译的蛋白质结构?翻译的蛋白质结构?翻译的蛋白质结构?uu(4 4 4 4)从蛋白质数据库获取几条蛋白质序列,分别用)从蛋白质数据库获取几条蛋白质序列,分别用)从蛋白质数据库获取几条蛋白质序列,分别用)从蛋白质数据库获取几条蛋白质序列,分别用BlastBlastBlastBlast软件和软件和软件和软件和ClustalWClustalWClustalWClustalW软件进行双重和多重比对,分析比对结果。软件进行双重和多重比对,分析比对结果。软件进行双重和多重比对,分析比对结果。软件进行双重和多重比对,分析比对结果。Thanks!