《药物发现的虚拟筛选方法.ppt》由会员分享,可在线阅读,更多相关《药物发现的虚拟筛选方法.ppt(97页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、药物发现的虚拟筛选方法药物发现的虚拟筛选方法讲述内容讲述内容第一节第一节第一节第一节 概述概述概述概述第二节第二节第二节第二节 化学信息处理化学信息处理化学信息处理化学信息处理第三节第三节第三节第三节 生物信息处理生物信息处理生物信息处理生物信息处理第四节第四节第四节第四节 虚拟筛选虚拟筛选虚拟筛选虚拟筛选第一节第一节 概述概述v计算机模拟与化学合成、生物测试的结合构成了后基因组时计算机模拟与化学合成、生物测试的结合构成了后基因组时代新药研究的新策略。从已有的化合物,包括合成化合物和代新药研究的新策略。从已有的化合物,包括合成化合物和天然产物中寻找药物或先导化合物,是药物发现的一个重要天然产物
2、中寻找药物或先导化合物,是药物发现的一个重要途径。到目前为止,人们只是针对大约途径。到目前为止,人们只是针对大约500 种疾病的治疗靶种疾病的治疗靶点,筛选了现已发现的点,筛选了现已发现的2 000 多万种有机化合物中大约多万种有机化合物中大约10%的化合物,但仍然有大量的潜在活性化合物未被发现。的化合物,但仍然有大量的潜在活性化合物未被发现。v随着科学技术的发展,各种先进技术应运而生(随着科学技术的发展,各种先进技术应运而生(X 射线晶射线晶体衍射法、多维核磁共振法、扫描隧道显微技术等),使体衍射法、多维核磁共振法、扫描隧道显微技术等),使得越来越多生物靶标(蛋白质、核酸、多糖等)的空间结得
3、越来越多生物靶标(蛋白质、核酸、多糖等)的空间结构被解析。构被解析。v同时计算机科学的发展又极大地提高了计算和分析的速度同时计算机科学的发展又极大地提高了计算和分析的速度和精度。和精度。v因此,自上世纪因此,自上世纪90 年代起,年代起,合理药物设计合理药物设计就逐渐成为就逐渐成为一种实用技术接融入到药物研发的各个环节。一种实用技术接融入到药物研发的各个环节。一、合理药物设计一、合理药物设计结构生物学兴起结构生物学兴起(2020世纪世纪8080年代中后期)年代中后期)生物大分子的三维结构测定生物大分子的三维结构测定结构确定的生物大分子数目大增结构确定的生物大分子数目大增基于生物大分子三维结构的
4、基于生物大分子三维结构的药物分子设计方法药物分子设计方法药物的化学特性药物的化学特性生物学特性生物学特性合理药物设计合理药物设计成功例子成功例子奈非那韦(奈非那韦(nelfinavirnelfinavir)抗艾滋病药物抗艾滋病药物 HIV-1蛋白酶抑制剂蛋白酶抑制剂依马依马替尼(替尼(imatinibimatinib)治疗慢性骨髓型白血病药物治疗慢性骨髓型白血病药物二、数据库空间二、数据库空间化学空间生物空间大量疾病靶点大量疾病靶点(生物大分子)(生物大分子)大量小分子化合物大量小分子化合物化学信息学化学信息学生物信息学生物信息学化合物数据库合成化合物库天然化合物库组合化合物库药物分子库类药化
5、合物库生物大分子数据库核酸分子库蛋白质分子库v研究对象 化学信息学:小分子 生物信息学:小分子结构单元构成的基因和蛋白质等大分子,本质上都是 化学物质。v计算方法 基于回归的聚类分析;支持向量机;神经网络;遗传算法等。v发挥作用方面 核酸和蛋白质功能和结构;小分子配体和蛋白质受体的相互作用;酶催化 等方面。化学信息学和生物信息学的共同点化学信息学和生物信息学的共同点是相互依存,相互影响,需结合在一起,才能解决大多数的实际问题!生物信息学生物信息学化学信息学化学信息学VS(虚拟筛选)(虚拟筛选)图图图图 药物设计中的化学信息学和生物信息学药物设计中的化学信息学和生物信息学药物设计中的化学信息学和
6、生物信息学药物设计中的化学信息学和生物信息学先导化合物先导化合物先导化合物先导化合物候选药物候选药物候选药物候选药物靶点大分子靶点大分子靶点大分子靶点大分子基因基因基因基因虚拟筛选虚拟筛选v虚拟筛选的时间:虚拟筛选的时间:在化合物组合库合成和/或筛选之前。v虚拟筛选的空间:虚拟筛选的空间:在计算机上进行模拟设计和筛选。v虚拟筛选的方法:虚拟筛选的方法:直接方法:基于分子对接(molecular docking)的虚拟筛选 间接方法:基于药效基团(pharmacophore)的虚拟筛选虚拟筛选(虚拟筛选(virtual screening,VS)v虚虚拟筛选拟筛选技技术术是是药药物物设计设计方法
7、的延伸和推广,广方法的延伸和推广,广义义地地讲讲只要是基于某种提只要是基于某种提问问形式,从形式,从现现有的小分子数据有的小分子数据库库中,搜中,搜寻寻符合条件的化合物都可以称之符合条件的化合物都可以称之为为虚虚拟筛选拟筛选。这这其中包括其中包括基于某些分子特性的数据基于某些分子特性的数据库库搜索、基于分子搜索、基于分子对对接的数据接的数据库库搜索、基于搜索、基于药药效效团团的数据的数据库库搜索等,其目的是从几十乃至上百万个分子中搜索等,其目的是从几十乃至上百万个分子中筛选筛选出新的先出新的先导导化合物。由于化合物。由于实实体的体的药药物物筛选筛选需要构建大需要构建大规规模的化合物模的化合物库
8、库,提取或培养大量,提取或培养大量实验实验必必须须的靶的靶酶酶或者靶或者靶细细胞,并胞,并且需要复且需要复杂杂的的设备设备支持,因而支持,因而进进行行实实体的体的药药物物筛选筛选要投入巨要投入巨额资额资金。而虚金。而虚拟药拟药物物筛选筛选是将是将药药物物筛选筛选的的过过程在程在计计算机上模算机上模拟拟,对对化合物可能的活性作出化合物可能的活性作出预测预测,这样这样就能就能够够集集中目中目标标,大大降低,大大降低实验筛选实验筛选化合物的数量,从而化合物的数量,从而缩缩短研短研发发周期、周期、节约经费节约经费开支。开支。v虽虽然早在然早在20 世世纪纪70 年代虚年代虚拟筛选拟筛选技技术术已已经经
9、得到得到应应用,但由于技用,但由于技术术本身的不成熟,使得本身的不成熟,使得在新在新药药开开发发上仍然主要依靠上仍然主要依靠传统传统的的实验筛选实验筛选。近年来,随着虚。近年来,随着虚拟药拟药物物筛选筛选成功地成功地发现发现了一些有开了一些有开发发价价值值的先的先导导化合物,化合物,这项这项技技术术又重新引起大家的重又重新引起大家的重视视。化学信息学化学信息学v产生的背景 组合化学和高通量筛选,出现了巨大的信息,需要快速收集、存储、分析和处理,随着信息技术向化学领域的渗透,形成了新的交叉学科化学信息学。v研究内容 化合物信息在计算机中的表示 化合物数据库的建立、使用和管理 化合物相似性、多样性
10、及分子类药性分析 化合物定量构效关系化学信息学 Chemoinformatics,chemical informatics,Cheminformatics,chemi-informaticsv利用计算机信息处理技术对化学分子结构和相关信息进行管利用计算机信息处理技术对化学分子结构和相关信息进行管理的一种综合性技术和学科理的一种综合性技术和学科v应用化学信息学可促进化学信息的获取、转化与共享应用化学信息学可促进化学信息的获取、转化与共享一、化学信息的表示方法化学化学分子分子一维结构:一维结构:化合物名称(俗名);线性符号表示法。化合物名称(俗名);线性符号表示法。二维结构:二维结构:原子用元素符
11、号,键用短线,即化合物结构式。为平面结构。原子用元素符号,键用短线,即化合物结构式。为平面结构。三维结构:三维结构:原子的空间位置、相互间距离、键角和二面角等。原子的空间位置、相互间距离、键角和二面角等。分子表面:分子表面:建立在三维结构基础上,能与分子的三维结构一一对应。建立在三维结构基础上,能与分子的三维结构一一对应。一维结构NC(Cc1ccccc1)C(O)=O(SMILES编码)三维结构二维结构分子表面苯丙氨酸分子结构表征层次苯丙氨酸分子结构表征层次(一)一维结构表示(一)一维结构表示线性符号表示法线性符号表示法线性符号表示法线性符号表示法IUPACROSDALSMILESSMILES
12、SLNSLN不十分适合计算机的处理不十分适合计算机的处理主要用于主要用于Beilstein 系统系统Simplified molecularSimplified molecular input line entry system input line entry systemSybyl linear notationSybyl linear notation是是SMILES的改进,除有机的改进,除有机小分子,还表示大分子,小分子,还表示大分子,聚合物和组合库。聚合物和组合库。1986年提出的简化的年提出的简化的分子线性输入系统分子线性输入系统SMILES(简化分子线性输入系统)(简化分子线性输
13、入系统)编码的基本原则编码的基本原则原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。相邻原子依次排放在一起,单键通常省略,双键和三键分别以“=”和“#”表示,芳香键以“:”表示,也可省略。分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。双键“/”表示顺式,“”表示反式。原子顺时针排列用表示,逆时针排列用表示。甲烷 CH4 C乙醇 C2H5OH CCO氰化氢 HCN C#N环已烷 C6H12 C1CCCCC1吡啶 C5H5N n1ccccc1异丁酸 (CH3)2CHCO2H CC(C)C(=O)O反式二溴甲烷 Br/C=C/Br 或BrC=CBr顺式二溴甲烷
14、 BrC=C/Br 或Br/C=CBrL-丙氨酸 NCH(C)C(=O)OD-丙氨酸 NCH(C)C(=O)O举例说明举例说明v苯丙氨酸NC(Cc1ccccc1)C(O)=OC/C=CC=CH(O)C#NSMILESSMILES编码的立体化学信息表示编码的立体化学信息表示SLN编码(编码(Sybyl线性标记法)的规则线性标记法)的规则原子以其元素符号表示,原子以其元素符号表示,氢原子也要显示氢原子也要显示;单键省略,双键、三键单键省略,双键、三键和芳香键和芳香键分别以分别以“=”“#”和和“:”表示;表示;分支也采用括号表示;环也打开,依靠环上一个预先定义好的分支也采用括号表示;环也打开,依靠
15、环上一个预先定义好的具有唯一编号的原具有唯一编号的原子及子及符号来识别符号来识别,如环己烷表示为,如环己烷表示为C15H2CH2CH2CH2CH2CH215;原子和键的属性(如电荷、立体化学性质等)可通过方括号原子和键的属性(如电荷、立体化学性质等)可通过方括号 或尖括号或尖括号在该在该原子后标记出;原子后标记出;对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。(二)二维结构表示(二)二维结构表示1 1、图论基础和图的矩阵表示、图论基础和图的矩阵表示 一个简单的图由顶点(V)和边(E)组成,因此图被定义为一个三
16、元组,为映射函数。在下面一个简单的无向图中,V=1,2,3,4,E=e1,e2,e3,e4,e5,e6。1423e1e2e4e3e5e6 图也可用矩阵表示:设G=为无向图,令mij等于顶点vi与边ej的关联次数,则称(mij)n*m为G的关联矩阵,记为M(G)。M(G)=1 1 1 0 0 00 1 1 1 1 00 0 0 0 1 11 0 0 1 0 11423e1e2e4e3e5e6CCCHCCCCNHCCOOH用图表示苯丙氨酸的结构用图表示苯丙氨酸的结构 2 2、化合物结构的矩阵表示、化合物结构的矩阵表示(1)邻接矩阵(以乙醛为例)邻接矩阵(以乙醛为例)(2)距离矩阵:表示了相应原子之
17、间的距离:几何距离(用)距离矩阵:表示了相应原子之间的距离:几何距离(用表示),表示),拓扑距离(两原子之间连接的键的个数)拓扑距离(两原子之间连接的键的个数)(3)键矩阵:矩阵元素为相连接的两个原子之间的键级。)键矩阵:矩阵元素为相连接的两个原子之间的键级。双键:双键:2,三键:,三键:3。(4)关联矩阵:是一个)关联矩阵:是一个nm的矩阵。的矩阵。顶点(原子)作为列(顶点(原子)作为列(n),边(化学键)作为行(),边(化学键)作为行(m),),如果边在顶点内,则相应的元素置为如果边在顶点内,则相应的元素置为1。3 3、连接表、连接表20世纪80年代开始,成为化合物在计算机中表示的最主要方
18、法。首先对每个原子进行编号并列表然后在另一表格中列出键的信息,键级用整数表示,1表示单键,2表示双键。(三)三维结构表示(三)三维结构表示1 1、直接坐标法、直接坐标法 用迪卡尔坐标直接存储每用迪卡尔坐标直接存储每个原子的三维坐标(个原子的三维坐标(x,y,z)2、内坐标法v每个原子位置以与其他原子间的每个原子位置以与其他原子间的3 3个相对位置关系表示个相对位置关系表示相对距相对距离、键角、二面角离、键角、二面角(四)分子存储格式及其相互转换(四)分子存储格式及其相互转换文件格式扩展名特点Molfile*.molMDL公司提出的分子文件格式,应用最广泛的连接表格式Mol2file*.2mol
19、Tripos公司推出,包含一个或多个化合物。目前药物设计领域最流行的格式Maestro*.maeSchodinger公司推出的一种文件格式,包含一个或多个化合物。SDfile*.sdf结构数据文件,MDLMolfile的扩展,包含一个或多个化合物。RDfile*.rdf反应数据文件,MDLMolfile的扩展,包含一个或多个反应。SMILES*.smi应用最广泛的线性编码和文件格式PDB*.pdb蛋白质数据文件,蛋白质和多聚核苷酸的3D结构信息文件CIF*.cif晶体信息文件格式,用于表示有机分子的3D结构JCAMP*.jdx,*.dx,*.cs原子和分子物理数据,结构和光谱文件格式CML*.
20、cml化学标注语言;XML在化学上的扩展基本存储基本存储分子的元素组成、原子坐标、原子连接关系分子的元素组成、原子坐标、原子连接关系其他存储其他存储分子子结构信息,适用于生物大分子分子子结构信息,适用于生物大分子原子电荷信息,调用时不必再计算原子电荷信息,调用时不必再计算确定特定原子化学环境的原子类型信息确定特定原子化学环境的原子类型信息二、化合物数据库的生产和管理 目前有很多商业化合物数据库可以利用目前有很多商业化合物数据库可以利用 MDL药物数据报告(药物数据报告(MDDR)含有)含有115000个类药性个类药性 化合物。化合物。美国国家癌症研究所(美国国家癌症研究所(NCI)数据库含有)
21、数据库含有250000个个 化合物。化合物。MDL ISIS化学数据库管理系统uISIS系统提供了基于系统提供了基于Oracle 数据库系统的各类化学信息系统的管理和开发工数据库系统的各类化学信息系统的管理和开发工具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。uISIS已应用于全球超过已应用于全球超过80%的化学与制药企业,已成为事实上的化学信息管理的化学与制药企业,已成为事实上的化学信息管理系统的工业标准。系统的工业标准。ISIS(Integrated Scientific Information Mana
22、gement System)MDL的综合性结构和反应管理软件由三个主要由三个主要模块模块组组成:成:(1)化学化学信息管理系统:信息管理系统:ISIS/HOST主服主服务务器器应应用程序,用程序,进进行通行通讯连讯连接,集接,集中数据中数据库库数据并作数据并作处处理理(2)化学化学信息生成和管理软件:信息生成和管理软件:ISIS/BASE用于生成局部数据用于生成局部数据库库及及处处理信息理信息(3)化学化学画图软件:画图软件:ISIS/DRAW用于用于输输入入结结构式和搜构式和搜寻询问寻询问条件条件2D结构输入计算机绘制化学结构式计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会
23、自动变为上下标首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标 软件的模板中收集大量分子片段软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等还可有附加功能,如自动命名、化学计算、光谱分析等三维结构的转化3D结晶结构参数转入3D数据库 软件将2D化学结构迅速地转为3D模型三、分子相似性和多样性分析n分子相似性和多样性分析方法的分子相似性和多样性分析方法的原则原则:结构相似的分子有着相似的性质或活性。:结构相似的分子有着相似的性质或活性。n作用作用:在识别新的具有与已知化合物相同
24、性质或活性的化合物时具有十分重要的作用。:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。数据数据库库的化学多的化学多样样性(性(chemical diversity):数量巨大的、数量巨大的、结结构不同的构不同的贮贮藏和藏和检检索系索系统统适用于先适用于先导导化合物化合物发现发现 数据数据库库的化学相似性(的化学相似性(chemical similarity)适用于先适用于先导导化合物化合物优优化化n评价方法评价方法:通过计算分子的:通过计算分子的描述符描述符,并比较化合物描述符的近似程度。,并比较化合物描述符的近似程度。分子描述符u 概念:概念:在相似性和多样性分析中
25、,需要建立化合物结构和它们生在相似性和多样性分析中,需要建立化合物结构和它们生 物活性或者理化性质的映射,分子描述符就是其中的一种映射。物活性或者理化性质的映射,分子描述符就是其中的一种映射。u 作用:作用:通常一个或多个描述符可以用来描述分子的结构、性质等,通常一个或多个描述符可以用来描述分子的结构、性质等,如如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述 了结构的复杂性。了结构的复杂性。u 描述符的描述符的内容是由两方面决定的内容是由两方面决定的,一是化合物的分子表示,二是计,一是化合物的分子表示,二是计 算描述符的算法。算
26、描述符的算法。分子表示方法描述符示 例0D原子数目氢原子数目,杂原子数目,重原子数目键数目双键数目,三键数目,可旋转键数目相对分子质量相对分子质量,平均相对分子质量分子性质脂水分配系数1D碎片数目伯碳原子数目,叔碳原子数目;手性碳原子数目,羟基数目,羧基数目;氢键供体数目,氢键受体数目2D拓扑描述符Zagreb指数,Wiener指数,Balaban J指数,连接指数,kappa形状指数,2D自关联向量3D几何描述符分子偏心率,回转半径,3D Wiener指数,3D Balaban 指数,WHIM 描述符,GETAWAY 描述符,3D 自关联向量3D表面性质平均分子静电势,疏水势,氢键势3D网络
27、性质比较分子场分析4D3D坐标+构象取样分子描述的分类分子描述的分类分子相似性分析方法分子相似性分析方法v基于定性特征的和基于定量特征的。v对于两个化合物A和B,a是A所具有而B不具有的特征数目 b是B所具有而A不具有的特征数目 c是两者共同的特征数目 d为两者都不具有的特征数目 c和d表示了化合物A和B之间的相似性 a和b表示了化合物A和B之间的多样性 所有的特征数目为n=a+b+c+dv这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目c+d在所有特征数目(c+d)+(a+b)中所占的比例,即(c+d)/(a+b+c+d)。这也被称作为简单匹配系数。v可以看出,A和B均不具有的
28、特征并没有表达任何信息,所以,d可以从上面的方法中删除,得到了Tanimoto相似度计算公式。化学多样性的定量表达Tanimoto系数用化学空用化学空间间中中电电荷和荷和电势电势等描述符比等描述符比较较不同分子的性不同分子的性质质 TC=c/(a+b+c)a为为A中基中基础础片断的描述符的数片断的描述符的数 b为为B中基中基础础片断的描述符的数目片断的描述符的数目 c为为A和和B中共有的基中共有的基础础片断的描述符的数目片断的描述符的数目相同分子相同分子TC=1;分子没有共同描述符;分子没有共同描述符时时TC=0相似性搜寻v根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,
29、即根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即相似相似性搜寻性搜寻。v步骤:步骤:1、目标选择、目标选择 2、描述符选择和编码、描述符选择和编码 3、相似性评价方法选择、相似性评价方法选择 4、搜寻语句的输入、搜寻语句的输入 5、相似性打分、相似性打分四、互联网上的化学信息资源(一)化学搜索引擎(一)化学搜索引擎1、大型通用搜索引擎:、大型通用搜索引擎:Google、百度等。、百度等。2、专门用于搜索化学信息的引擎:、专门用于搜索化学信息的引擎:ChemFinder,MetaXchem.(二)互联网上的化学数据库(二)互联网上的化学数据库1、文献数据库(、文献数据库
30、(CA、Medline)2、化合物数据库(、化合物数据库(Gmelin,CSD)3、综合数据库(、综合数据库(Beilstein、PDB)常用化合物数据库uFCD(Fine Chemicals Directory)MDL 维护。收载约维护。收载约90 000化合物和化合物和20 000化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、CAS登录号、纯度等。可通过结构式或其它任何数据检索登录号、纯度等。可通过结构式或其它任何数据检索uACD(Available Chemicals Directory)MDL维护。维护。
31、FCD数据库加上可大批数据库加上可大批量供货的化学品信息。目前有量供货的化学品信息。目前有25万个化合物万个化合物uCSD(Cambridge Structure Database)20多万个结晶的多万个结晶的3D结构实验数据结构实验数据及相关及相关数据数据常用数据库的网址常用数据库的网址Ensemblehttp:/ PharmaSMhttp:/www.thomsonS全球综合性药学信息马丁代尔药典http:/ Scholarhttp:/www.cas.org/SciFinder/newfeatures.html每天更新的在线数据库,专利文献是特色。ChemFinderhttp:/可采用化合物
32、名称、CAS编号、分子式或者相对分子质量分类检索多个化合物数据库,包括反应数据库。有些数据库检索是收费的。ASINDEXhttp:/ 根据单个氨基酸物化性质推测整个蛋白质的性质,也可对序列进行统计分析,预测二级结构出现可能性.20种氨基酸的疏水参数 根据根据统计值统计值:Glu经经常出常出现现在在-螺旋中;螺旋中;Val常在常在-折折叠中叠中发现发现;Pro通常不出通常不出现现于于-螺旋中和螺旋中和-折叠中而折叠中而倾倾向向于在回折中于在回折中(数值(数值=1代表偏好处于平均;代表偏好处于平均;1代表偏好大于平均;代表偏好大于平均;1代表偏好小于平均)代表偏好小于平均)(二)双重序列比较序列比
33、对v序列对比可以用各种矩阵表达并作相似性打分两个残基越相似则打分值越高.(三)多重序列比对v多重序列比对可更多揭示相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。可采用多种统计算法进行多重序列比对。二、蛋白质三维结构预测蛋白质二级结构预测的意义v蛋白质的二级结构有螺旋、折叠、转角等。因为每一段相邻的氨基酸残基具有形成一定二级结构的倾向,而且所有蛋白质中约85%的氨基酸残基处于上述3种基本二级结构状态,所以从序列预测蛋白质二级结构是可行的。v1、Chou-Fasman方法v2、GOR方法v3、基于氨基酸疏水性的方法蛋白质二级结构预测的方法主要预测方法1、从头预测法、从头预测法(ab in
34、itio prediction)v采用理论计算(分子力学、分子动力学、量子化学)方法,直接从分子和原子参数计算出蛋白质分子的稳定构象,v理论上最理想的方法,但计算量极大,对于实际分子的计算超过能力范围2、穿针引线法、穿针引线法v根据已知的蛋白质三维结构来预测可能的三维结构基于知识的预测v可应用于进化非常疏远的结构预测v未知蛋白序列与折叠库中已知结构的蛋白序列作匹配计算,将序列吻合的三维结构模块串连起来,得到整个蛋白三维结构v同源蛋白模建法homologous model buildingv比较分子模拟法comparative molecular modelingv同源模建 homology m
35、odelingv同源蛋白法 protein homologyv根据已知的蛋白质三维结构来预测可能的三维结构基于知识的预测v同源蛋白有着相似的来源、相似的结构和生物功能。通过比较蛋白序列的相似性,按同源蛋白的三维结构为模板,构建未知蛋白的结构v一般要求同源性在30%以上,特别是在结合区域同源性要好步骤步骤(1)根据未知蛋白质的序列,寻找同源蛋白(2)二重或多重序列对比步骤(3)找出共同的二级结构区域,构建骨架(4)对初始模型作能量优化(5)判断结构合理性三、代表性生物信息学数据库(一)核酸数据库vGenBankNIH所属国家生物技术信息中心NCBIvNucleic Acid Database(N
36、DB)由European Molecular Biology Laboratory(EMBL)创建,现由英国剑桥的欧洲生物信息学研究所(European Bioinformatics Institute,EBI)维护vDNA Data Bank of Japan(DDBJ)日本国立遗传学研究所的日本信息生物学中心(Center for Information Biology,CIB)开发维护v三大库可交互(二)蛋白质数据库vPDB(Protein Data Bank at Brookhaven National Laboratories)美国 Research Collaboration fo
37、r Structural Bioinformatics,RCSB开发维护的多肽、酶、病毒、碳水化合物和核酸的三维结构数据基于药效基团搜索的方法v药效团的概念早在1909 年就由Ehrilich 提出,特指载有活性必须特征原子的分子框架。现在泛指生物活性分子(一般指小分子)中对活性起重要作用的“药效特征元素”的空间排列形式。这些“药效特征元素”可以是某些具体的原子或原子团,比如氧原子、苯环等;也可以指特定的功能结构,如疏水基团、氢键给体、氢键受体等。在得到某类抑制剂的药效团模型后,就可以以药效团作为提问结构进行数据库搜索,从数据库中筛选得到符合该药效团的候选分子,而在这些候选分子中可能包含新的先
38、导化合物。u(1)初筛:其作用是先筛去那些不能与提问结构匹配的分子,减少进入下一个阶段的候选分子数。大多数软件都把在该药效团中出现较多的原子或基团作为约束条件,含有这些基团的则通过初筛,否则被淘汰。u(2)二维子结构匹配:其目的是确定测试分子中药效模式间的连接方式是否符合提问结构,这是一个较为耗时的过程。u(3)三维结构搜索:在通过二维子结构匹配证明其包含药效团以后,就需要验证它在数据库中的构象和药效特征元素是否满足空间限制条件,如果满足则该分子是一个命中结构。基于药效团的搜索一般包含基于药效团的搜索一般包含3 个基本步骤个基本步骤基于药效团的搜索软件vCATALYST 是由美国Accelry
39、s 公司面向药物研究领域的综合性开发软件,由于这一软件为药效团模拟提供了完善的解决方案,使得CATALYST 成为近年来在基于药效团模型的药物开发方面使用最广泛的软件。它能将抽象的药效特征元素与灵活的几何约束条件相结合,尤其在定义药效团模型时,能够表达重要的化学概念。在进行基于药效团模型的数据库搜索时,其一维限制条件与某些数据相联系,如分子量、lgP、pKa 等,从而把搜索限定在某些数值范围内;二维约束支持定义包含子结构或排除子结构,如包含芳香环,不包含羰基等;三维检索时,对每个分子在生理条件下可能采取的各种构象进行搜索。为实现最佳的检索性能,CATALYST 经过了高度优化,即使最抽象的(化
40、学表达)检索也不例外。vUNITY 是另一搜索化学或生物数据库的搜索系统,由美国Tripos 公司开发。包括2D(搜索特殊片段)、相似性、3D(搜索特征的三维结构或药效团)、柔性(允许小分子通过改变键角、二面角等方式符合3D 条件)搜索。UNITY 在进行药效团搜索时,支持3D/Flex 搜索,检索的药效团特征包括给体原子(donor atom)、受体原子(accept atom)、给体位点(donor site)、受体位点(accept site)以及疏水中心(hydrophobic center)等。在对小分子数据库进行药效团搜索时,采用的特征限制条件可以是具体的原子或基团,如上述的给体原
41、子、受体原子、疏水中心;也可以是某些配体将与之发生作用的位点,即给体位点和受体位点等。基于药效基团的结构搜寻基于药效基团的结构搜寻药效基团的获取基于靶点的药效基团基于配体的药效基团1、二维药效基团搜寻、二维药效基团搜寻v以平面的提问结构搜寻化合物结构式二维药效基团搜寻二维子结构搜寻二维相似性搜寻(1)二维子结构搜寻)二维子结构搜寻v搜寻具有与提问结构相同子结构的化合物分子(2)二维相似性搜寻)二维相似性搜寻v搜寻与提问结构某些特征相似的化合物分子2、三维药效基团搜寻、三维药效基团搜寻v搜寻具有与相同作用基团和空间排布的化合物分子例例 新抗生素的寻找新抗生素的寻找例 D2/D3受体选择性拮抗剂药
42、效基团模型多巴胺D2类受体为抗帕金森症和安定类药物的靶点D3/D4受体可能与精神分裂症有关D2受体选择性拮抗剂取代哌嗪/哌啶类 D3受体选择性拮抗剂受体选择性拮抗剂苯酰胺类和四氢萘类苯酰胺类和四氢萘类药效基团模型的建立药效基团模型的建立u挑选26个D2受体选择性和22个D3受体选择性的化合物分别作为训练集,分别产生D2受体D3受体模型 u以Catalyst 将结构式转化为三维构象,用Best conformational analysis进行构象优化u用Catalyst/HypoGen产生药效基团。选择5个结构特征作为药效基团单元:HB Acceptor,HB Donor,HYDPHOBIC,
43、HYDROPHOB aromatic,RING AROMATICu 为D2/D3受体选择性拮抗剂分别产生了10个得分从高到低的Hypothesis药效基团模型的可信度药效基团模型的可信度p对于D2受体和D3受体产生的药效团模型,每个药效基团模型的得分与理想模型的得分差值均大于40,说明数据关联的可能性较大p所建立的D2受体和D3受体药效团模型可用于虚拟筛选未知化合物的活性预测未知化合物的活性预测以未知化合物作为验证集大部分预测值与实验值处于同一个数量级,并反映D2/D3受体的选择性D2(左)和D3(右)受体拮抗剂药效基团MAPPING图例 Muscarinic M3 受体拮抗剂的筛选v过敏性肠
44、道综合症与慢性阻塞性气管病均与受体Muscarinic M3 有关。1999 年,Marriott 等采用基于药效团搜索的方法进行了Muscarinic M3 受体拮抗剂的筛选。他们从文献中选出3 个已知的抑制剂,利用DISCO 程序构建药效团模型,最终有2 个四点模型用于数据库搜索(图)。数据库搜索使用UNITY 程序,数据库为自己课题组所构建,2 个药效团模型筛选得到177 个完全不同的分子,生物活性检测发现其中有3 个分子具有较高的活性。例例对对MC 增生抑制增生抑制剂剂的的筛选筛选v肾小球毛细血管中的血管系膜细胞(mesangial cell,MC)的增生与许多血管疾病的发生有关。20
45、01年,Kurogi 等采用基于药效团的数据库搜索对MC 增生抑制剂进行了筛选,研究组从现有抑制剂出发,药效团识别采用CATALYST,构建了包含7 个药效特征元素的药效团模型。然后CATALYST 搜索了包含47 045 个分子的数据库,得到41 个命中结构,生物活性检测其中4 个化合物具有明显的MC 增生抑制活性。三、三、基于定量构效基于定量构效关系的关系的虚拟筛选虚拟筛选定量构效关系方法及筛选定量构效关系方法及筛选u定量构效关系(quantitative structure-activity relationship,QSAR)研究方法在现代药物设计方法中占有重要的地位,也是应用最为广泛
46、的药物设计方法。其目的是采用数理统计的方法研究和揭示化合物的活性与其分子理化性质之间的定量变化规律。传统的二维定量构效关系方法,如Hansh 法、模式识别Free-Wilson 法、电子拓扑法等早已为大家所熟知。随着QSAR 理论及统计方法的发展,反映更加丰富信息的三维定量构效关系方法如比较分子场分析(CoMFA)方法、距离几何法及分子形状分析方法等都迅速得到了广泛应用。u基于定量构效关系筛选的方法也是最早发展起来的虚拟筛选方法,并已由平面的2D 发展至空间的3D 模式。利用软件(如Tripos 公司的CoMFA 或Accelrys 公司的CATALYST)分析一系列已知化合物的各种性质、理化
47、指标,构建定量构效关系。在构效关系确定之后,即可应用于搜索各类数据库,筛选常使用的有Cerius2 中的Diversity 模块。实实 例例u磺酰脲类除草剂最初开发在20 世纪70 年代,当时由于目标受体ALS 酶的三维结构尚不确定,南开大学李正名教授课题组从配体出发,选定了32 个化合物进行构效关系研究。利用分子模拟与设计软件包SYBYL 中的CoMFA 构建了相应的三维定量构效关系模型。利用此模型以及Cerius2 的Diversity 模块进行数据库的虚拟筛选及活性预测,并挑选出20 个预测活性高的化合物进行合成,取得了较好的结果。四、四、基于基于药药代代动动力学力学的的虚拟筛选虚拟筛选
48、u在传统的药物设计流程中,对于候选化合物最关心的往往是其能否与靶酶的活性位点结合,至于这个化合物能否在肠道溶解、透过细胞膜达到有效部位等问题考虑的并不多。这也直接导致了在过去20 年,世界前50 强制药企业每年平均花费75 亿美元仅开发出21 个上市新药,而真正能上市的药物与候选药物的比例始终保持在1/10,其中原因绝大部分出在药代动力学或安全(化合物毒性)问题上。因此,在药物研制的早期阶段对化合物的药代动力学和毒性进行全面的评价也是十分重要的。u 得到药代动力学模型通常包含3 个步骤:u(1)利用小型化技术(miniaturization)制作一系列体外培养基。u(2)借助计算机虚拟筛选一系
49、列化合物,并对这些培养基进行评价。u(3)对预测模型进行实际检验并修正,从而这些虚拟模型将最终取代真实体内或体外实验,成为筛选的模型。vChris Lipinski 及其合作者通过高通量筛选以及组合化学取样,分析了WDI 中的2 245 个药物。为了查明普通口服药物的共同特性,总结出了著名的Chris Lipinski“5 规则”,包括分子量不能超过500、油水分配系数CLogP 小于5 等。u基于药代动力学筛选较快捷,主要针对整个数据库,通常先于药效团筛选、对接筛选。因此筛选条件应尽量完善,否则很可能剔除潜在先导化合物。除上述“5 规则”之外,可极化表面积(PSA,一般应小于140.2)、在
50、生理条件下油水分配系数、溶解度、在小肠及脑渗透率都应是被考虑的筛选条件,这样才能保证整个虚拟筛选过程准确性、高效性。v除了上述4 种筛选方法外,还有其它数据库搜索技术,如子结构匹配筛选、相似性搜索等,这些技术都已经在一些虚拟筛选实例中得到应用。虚拟药物筛选面临的问题虚拟药物筛选面临的问题u(1)整个化学空间十分庞大,人们对于绝大部分化合物的生物性质还不是很清楚或知之甚少。因此所筛选的数据库通常是依据经验选择自己所了解的库,从而给筛选结果带来很大的局限性。u(2)受体模型经常是一个十分复杂的结构,例如蛋白质、多糖,包含成千上万个原子,而且在正常体液中一般处于流动状态,因此时刻都在改变其构象。假如