《生物信息处理.ppt》由会员分享,可在线阅读,更多相关《生物信息处理.ppt(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三第三第三第三节节 生物信息生物信息生物信息生物信息处处理理理理生物信息学生物信息学(bioinformatics)v基于数学、生命科学、化学和基于数学、生命科学、化学和计计算机科学的交叉学科算机科学的交叉学科.利利用用计计算机信息算机信息处处理技理技术对术对大量生物大分子作信息大量生物大分子作信息获获取、加取、加工、工、储储存、分存、分类类、检检索与索与统计统计分析,揭示生物大分子的分分析,揭示生物大分子的分子子结结构、功能、同源性和构、功能、同源性和进进化关系化关系.推推动动生命科学的生命科学的发发展,展,为创为创新新药药物的研究和开物的研究和开发发奠定基奠定基础础.序列分析序列分析生物
2、信息学的生物信息学的应用用核酸序列分析指直接从基因组序列中获取信息,同时为核酸序列分析指直接从基因组序列中获取信息,同时为后者提供数据;蛋白质序列分析中,大部分是对同源蛋后者提供数据;蛋白质序列分析中,大部分是对同源蛋白序列进行比对分析,以得到不同蛋白质之间的序列相白序列进行比对分析,以得到不同蛋白质之间的序列相关性,从而推测蛋白质功能等。二者分析方法一致。关性,从而推测蛋白质功能等。二者分析方法一致。生物大分子生物大分子结构预测结构预测虚拟筛选虚拟筛选生物大分子包括生物大分子包括DNA、RNA、蛋白质和脂类。它们的、蛋白质和脂类。它们的结构预测指建立精确的三维构象,这对于生物大分子结构预测指
3、建立精确的三维构象,这对于生物大分子功能的阐明十分重要。而尚无晶体结构数据的生物大功能的阐明十分重要。而尚无晶体结构数据的生物大分子,可采用分子模拟的方法预测大分子的三维结构。分子,可采用分子模拟的方法预测大分子的三维结构。在进行生物活性筛选之前,在计算机上对化合物分子进在进行生物活性筛选之前,在计算机上对化合物分子进预筛选,以降低实际筛选化合物数目,同时提高先导化预筛选,以降低实际筛选化合物数目,同时提高先导化合物发现效率。合物发现效率。药物发现中的生物信息学方法一、核酸和蛋白一、核酸和蛋白质的序列分析的序列分析(一一)单单个序列分析个序列分析 根据根据单单个氨基酸物化性个氨基酸物化性质质推
4、推测测整个蛋白整个蛋白质质的性的性质质,也,也可可对序列序列进行行统计分析,分析,预测二二级结构出构出现可能性可能性.20种氨基酸的疏水参数种氨基酸的疏水参数 根据统计值:Glu经常出现在-螺旋中;Val常在-折叠中发现;Pro通常不出现于-螺旋中和-折叠中而倾向于在回折中(数值(数值=1代表偏好处于平均;代表偏好处于平均;1代表偏好大于平均;代表偏好大于平均;1代表偏好小于平均)代表偏好小于平均)(二二)双重序列比双重序列比较序列比序列比对v序列序列对对比可以用各种矩比可以用各种矩阵阵表达并作相似性打分两个残基越表达并作相似性打分两个残基越相似相似则则打分打分值值越高越高.(三三)多重序列比
5、多重序列比对v多重序列比多重序列比对可更可更多揭示相关蛋白多揭示相关蛋白质序列中的保守区域,序列中的保守区域,进而分析蛋白而分析蛋白质的的结构和功能。可采构和功能。可采用多种用多种统计算法算法进行多重序列比行多重序列比对。二、蛋白二、蛋白质三三维结构构预测蛋白蛋白质二二级结构构预测的意的意义v蛋白蛋白质的二的二级结构有构有螺旋、螺旋、折叠、折叠、转角等。因转角等。因为每一段相邻的氨基酸残基具有形成一定二级结构为每一段相邻的氨基酸残基具有形成一定二级结构的倾向,而且所有蛋白质中约的倾向,而且所有蛋白质中约85%的氨基酸残基处的氨基酸残基处于上述于上述3种基本二级结构状态,所以从序列预测蛋种基本二
6、级结构状态,所以从序列预测蛋白质二级结构是可行的。白质二级结构是可行的。v1、Chou-Fasman方法方法v2、GOR方法方法v3、基于氨基酸疏水性的方法、基于氨基酸疏水性的方法蛋白质二级结构预测的方法蛋白质二级结构预测的方法主要预测方法主要预测方法1、从头预测法(ab initio prediction)v采用理论计算(分子力学、分子动力学、采用理论计算(分子力学、分子动力学、量子化学)方法,直接从分子和原子参量子化学)方法,直接从分子和原子参数计算出蛋白质分子的稳定构象,数计算出蛋白质分子的稳定构象,v理论上最理想的方法,但计算量极大,理论上最理想的方法,但计算量极大,对于实际分子的计算
7、超过能力范围对于实际分子的计算超过能力范围2、穿针引线法v根据已知的蛋白根据已知的蛋白质三三维结构来构来预测可能的三可能的三维结构构基于知基于知识的的预测v可可应用于用于进化非常疏化非常疏远的的结构构预测v未知蛋白序列与折叠未知蛋白序列与折叠库中已知中已知结构的蛋白序列作匹配构的蛋白序列作匹配计算,将序列吻合的三算,将序列吻合的三维结构模构模块串串连起来,得到整起来,得到整个蛋白三个蛋白三维结构构v同源蛋白模建法同源蛋白模建法homologous model buildingv比比较较分子模分子模拟拟法法parative molecular modelingv同源模建同源模建 homology
8、 modelingv同源蛋白法同源蛋白法 protein homologyv根据已知的蛋白根据已知的蛋白质三三维结构来构来预测可能的三可能的三维结构构基于知基于知识的的预测v同源蛋白有着相似的来源、同源蛋白有着相似的来源、相似的相似的结构和生物功能。构和生物功能。通通过比比较蛋白序列的相似蛋白序列的相似性,按同源蛋白的三性,按同源蛋白的三维结构构为模板,构建未知蛋白模板,构建未知蛋白的的结构构v一般要求同源性在一般要求同源性在30%以以上,特上,特别是在是在结合区域同合区域同源性要好源性要好步骤(1 1)根据未知蛋白)根据未知蛋白质的序列,的序列,寻找同源找同源蛋白蛋白(2 2)二重或多重序列
9、)二重或多重序列对比步比步骤(3 3)找出共同的二)找出共同的二级结构区域,构建骨构区域,构建骨架架(4 4)对初始模型作能初始模型作能量量优化化(5 5)判断)判断结构合理性构合理性三、代表性生物信息学数据三、代表性生物信息学数据库(一)核酸数据(一)核酸数据库库vGenBankNIH所属国家生物技所属国家生物技术术信息中心信息中心NCBIvNucleic Acid Database(NDB)由由European Molecular Biology Laboratory(EMBL)创创建,建,现现由英国由英国剑桥剑桥的欧洲生物信息学研究所(的欧洲生物信息学研究所(European Bioin
10、formatics Institute,EBI)维护维护vDNA Data Bank of Japan(DDBJ)日本国立日本国立遗传遗传学研究所的日本信息生物学中心(学研究所的日本信息生物学中心(Center for Information Biology,CIB)开)开发维护发维护v三大三大库库可交互可交互(二)蛋白(二)蛋白质数据数据库vPDB(Protein Data Bank at Brookhaven National Laboratories)美国美国 Research Collaboration for Structural Bioinformatics,RCSB开开发维发维护护的多的多肽肽、酶酶、病毒、碳水化合物和核酸的三、病毒、碳水化合物和核酸的三维维结结构数据构数据