《药物生物信息学全文.docx》由会员分享,可在线阅读,更多相关《药物生物信息学全文.docx(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、药物生物信息学-全文附录APPENDIX 药物生物信息学 Pharmaceutical Bioinformatics第一节 治疗药物概述Section 1 Introduction to therapeutic drugs一、疾病和代谢途径的关系人体内DNA、蛋白质、激素、离子等都在进行新陈代谢,但不同物质的稳态浓度(steady-state level)和代谢速度(metabolism rate)差异很大。如肾上腺素作用于肝细胞后很快生成环腺苷酸(cyclic adenosine mononucleotide,cAMP),但cAMP又很快被环核苷酸磷酸二酯酶(cyclic nucleotid
2、e phosphodiesterase,PDE)水解失去活性,故胞内cAMP稳态浓度很低。相反,脂肪组织内的脂肪含量高,其脂肪分解和合成代谢的速度变化也小得多。cAMP对细胞生理活动有很强且快速的调节作用,需对其稳态水平进行精确控制;脂肪作为储备能源物质含量高且其含量不需精确控制。因此,人体生理活动需有效控制各种物质的新陈代谢,其中不同作用的物质其代谢速度和控制精度也不同。体内物质代谢都有对应的代谢途径(metabolic pathway),且常由物质转运载体、(系列)酶、所需原料等组成,每条代谢途径都有关键成分控制其进行速度。体内任何物质的完整代谢途径不可逆,但人体物质代谢可由多组织协同完成
3、,某个组织或细胞可只完成一部分代谢过程。例如,很多细胞都可快速水解cAMP而精确控制胞内cAMP的稳态浓度,但cAMP彻底分解则需血液、肝脏和肾脏等参及。尽管任何物质的合成和分解代谢都对维持其稳态水平有贡献且大部分酶催化反应可逆,但体内任何物质合成和分解的代谢途径有区分,否则其稳态水平将由反应的热力学而不是代谢速度控制。另外,不同器官、组织、细胞功能不同,对不同物质的需求和维持其稳态的贡献也不同;随生长发育或生理节律变化,人体整体或局部对物质的需求也有变化,体内物质的局部稳态水平也应呈现对应的变化。因此,讨论疾病相关代谢途径时,既要将体内任何物质的合成和分解代谢途径、整体和局部对特定物质的需求
4、等分别考虑,又要将它们紧密联系为整体考虑。所讨论物质代谢途径通常只是其完整代谢途径的一部分,有时对特殊物质的代谢途径可简单到只含一种蛋白质和一种小分子物质。另一方面,在细胞内外都有各种物质通过相互作用传递信号调节细胞的生理活动,这些物质及其相互作用组成的系统称为信号通路(signaling pathway),启动信号传递过程的物质可来自胞外或胞内。信号通路中的物质对细胞生理活动有很强的控制作用,故其含量及活性需精确控制。细胞对不同信号通路响应速度相差很大。作用于细胞后产生效应快的大部分胞外信号可诱导胞内产生新的信号分子,例如肾上腺素作用于肝细胞产生的cAMP等,即第二信使(secondary
5、messenger)。信号通路中蛋白质等大分子物质的从头合成受到生物化学机制限制不可能很快,其通常通过化学修饰及其他分子相互作用,如变构效应(allosteric effect)等方式快速调节其活性。作用于细胞后产生效应较慢的信号通路中,小分子物质仍参及对应的代谢途径但含量控制较精密,而此类信号通路中蛋白质等大分子物质的含量也类似于小分子物质主要通过合成和降解进行调节。信号通路涉及细胞外成分时常需膜受体。信号通路本质上仍属于代谢途径,只是其关键成分的活性控制方式更精密,且其生物学意义不是控制信号通路中物质自身的含量而是通过信号传递控制其他代谢途径中物质的含量和细胞的生理活动。多数信号通路下游成
6、分较多,对细胞生理活动影响广泛。也正是因为如此,细胞、组织、器官和个体才需要精确控制信号通路中各种成分的含量和活性,以维持整体的协调性。在疾病发生过程中有的物质启动或促进疾病发生,有的物质阻断或抑制疾病发生,人体疾病发生主要是由生命活动过程中重要物质(包括水)的整体或局部代谢失衡(其中,部分疾病是基因表达缺陷造成的对应代谢功能缺失造成),或对应的信号通路调节失衡所引起。例如,各种原因造成炎症介质(inflammatory mediator)释放过多而引起疼痛、不同原因引起肿瘤基因活跃表达使细胞生长失控、外部物质供应不足造成营养不良、未知原因造成淀粉样蛋白质大量聚集而诱发老年性痴呆(Alzhei
7、mer Disease, AD)、胰岛功能不足导致胰岛素分泌降低造成糖尿病(diabetes)等。尽管有些疾病诱因还不明确,但可相信它们直接或间接诱因还是某个或某些特定物质的代谢失衡。因此,干预体内代谢途径和信号通路以维护体内环境的相对稳定是药物治疗的根本目的。二、代谢途径及信号通路的干预和药物作用模式药物在体内的作用主要是直接或间接地使体内引起病理现象的代谢物或信号传递分子恢复到人体健康所需的稳态,或阻断这些能诱发疾病发生及发展的代谢物或信号传递分子的作用。最常见药物作用模式是其直接调节体内有重要病理或生理作用物质的代谢速度而控制其稳态水平。体内物质局部或整体水平取决于其摄入、合成、生理利用
8、、分解(转化)及排泄等的综合效应。从外部摄入物质主要由生理活动控制;一旦物质被转化成需排泄的形式就会进入缓慢的排泄过程,且通常不能逆转为所需物质。因此,要用药物升高体内缓解或防止疾病进程物质的局部或整体水平(活性),最简单方式是以这类物质作为药物从外部直接补充,或用其他药物升高其局部或整体的内源性合成代谢;如该物质为生理功能不必需,则还可用药物降低其局部或整体分解代谢;如其为生理功能必需而内源性合成代谢不足或缺乏,则其只能作为药物直接从外界补充,如维生素和营养必需氨基酸等。相反,要用药物降低体内特定物质的局部或整体水平(活性),最简单方式是用药物升高局部或整体分解代谢速度,或加速其代谢转化后排
9、泄;如该物质合成代谢不是生理活动所必需,则还可用药物降低其局部或整体合成代谢;如其合成代谢是生理活动所必需且分解代谢不足或缺乏或排泄受限,则只能用其他来源(如微生物)的关键成分作为药物直接从外界补充而辅助完成这类物质的转化(如尿酸和毒品)。另一类药物作用模式是其调节信号通路中所需成分的活性。体内信号通路的作用取决于其必需物质间的相互作用及对被调节代谢通路的作用。要增强某个信号通路的作用,可用药物选择性增加启动信号传递物质的稳态水平,升高第二信使的稳态浓度,促进蛋白质等关键成分的化学修饰调节,或升高其激动物质的稳态水平。要降低某个信号通路的作用,可用药物选择性清除信号传递启动物质,加速第二信使的
10、分解失活,阻止蛋白质等关键成分的必须化学修饰,或促进其激动物质分解及转化。信号通路下游成分比较发散,故药物适宜作用于信号通路的最后环节。另外,人体天生具有免疫系统应对外源或不应暴露的抗原,故疫苗可看作是药物用于启动体内免疫应答的信号传递通路形成记忆,从而升高对应抗体的水平或效应细胞的活力以快速应对抗原的再刺激。显然,用药物控制物质代谢速度可直接调节对应代谢途径关键成分的活性,也可调节对应信号通路而间接调节代谢途径关键成分的活性,但通常直接调节代谢途径的效应常弱于调节对应信号通路的效应。人体器官、组织及细胞(器)中的特殊代谢途径或信号通路是这些器官、组织及细胞分化的基础,药物干预目的是调节这些代
11、谢途径或信号通路中关键成分的量或活性。药物主要选择性作用于特定代谢途径或信号通路的关键成分。这些关键成分包括人体蛋白质、核酸、细胞膜或特殊小分子物质(如尿酸、精氨酸)等,也包括病原微生物的特定关键成分。药物及体内特定代谢途径的某个关键成分发生直接的相互作用而产生所需治疗作用,则这些关键成分称为药物作用靶点(target)。基于这种直接相互作用定义的靶点包括大分子物质和特殊小分子物质。用不同定义标准,相同药物的作用靶点会不同。药物及靶点之间相互作用的高选择性是决定药物安全性的关键基础,这种相互作用的高亲和力是决定药物有效性的重要特征。大多数药物在体内只有一个(类)作用靶点,部分药物有多个(类)作
12、用靶点,也有些临床药物至今未确定其作用靶点。三、小分子化学药物和生物技术药物据药物生物化学性质可分成大分子药物和小分子药物;小分子药物即传统化学药物,分子量多在800Da以内;大分子药物主要为生物技术药物,包括蛋白质、核酸和多糖等。大分子药物又分为人源成分如人胰岛素,外源成分如精氨酸脱亚氨酶,及基因治疗所用载体。临床药物目前主要是小分子化合物,其制备成本较低,基本无免疫原性(immunogenicity),但外源小分子药物在体内代谢和排泄过程是影响其成药性的主要环节。蛋白质等大分子药物代谢分解产物为体内既有物质,其分解和代谢副作用很少,但如何消除其免疫原性和延长体内代谢半衰期是严峻的挑战。哺乳
13、动物可产生针对抗原(antigen)的高选择性抗体(antibody),针对体内特定靶点的治疗性单抗(therapeutic monoclonal antibody)是当前生物技术药物发展的重要方向之一。生物大分子靶点有特殊的空间构象,其表面通常有特殊的裂隙状活性中心,可通过多位点相互作用及特殊的小分子化合物或大分子形状互补的特定位点结合。可及大分子靶点的特定活性中心通过多位点相互作用结合成复合物的这些物质称为配体(ligand)。配体类药物同靶点的作用有很高的特异性和亲和力。针对大分子靶点的药物主要是小分子配体,也有治疗性单抗等大分子药物。小分子靶点相对较少,代表性有内源性物质尿酸、外源性物
14、质如可卡因或重金属离子等。当小分子靶点有非常特殊的化学反应活性,可及小分子药物高选择性直接相互作用而被消除原有活性时,其对应药物也可以是小分子,如1,3-二巯基丙酸络合重金属离子。针对小分子靶点的大分子药物(酶)更常见,因为这种相互作用容易保障高选择性。药物发现是生物医药科学的重要任务之一,在此过程中药物设计和成药性(pharmaceutical properties)预测的关键技术来自生物信息学。调节人体代谢途径的信号通路有复杂网络结构,需从系统生物学角度更全面理解代谢调控和信号通路的网络系统。第二节 药物相关信息资源Section 2 Bioinformatics Resources of
15、 Pharmaceuticals一、综合性药物信息资源DrugBank()为免费药物数据库,覆盖大量药物及其靶标相关信息,有近4800种已上市或在研究中的药物。其中,FDA批准小分子药物约1300种、蛋白质和多肽类生物技术药物123种,营养制品71种,处于实验研究阶段的药物约3200种。每种药物提供近100项信息,包括药物作用靶点及其单核苷酸多态性、药物副反应和文献的网上链接等。DrugBank的特色是其支持多种搜索模式并提供可视化软件,便于检索药物及其靶标的相关信息,并可按每种生理系统疾病治疗药物进行浏览(图17-1)。图17-1 Drugbank检索界面治疗靶点数据库(Therapeuti
16、c Target Database, TTD) ,也是免费数据库,覆盖1894个药物靶点及靶点相关疾病和信号通路,其中已证实靶点348个,试验阶段靶点292个及研究靶点1254个;TTD包含药物和配体5028个,FDA批准药物1514种,临床试验阶段药物1212种,实验研究阶段药物2302种,小分子药物3382种,反义核酸类药物649种。通过TTD中的链接可以方便地检索蛋白功能、氨基酸序列、三维结构信息、配体结合特性、药物结构、治疗应用等信息。可见,TTD也是关于药物的综合性数据库。国内刚建成部分基础条件平台,其中包含医药卫生领域的药学中心数据库,也是关于药物、药物靶点、药物作用等的综合性数据
17、库(drugtarget/default.asp)。二、治疗靶点信息资源NRDB(nonredundant database)由NCBI建立,数据来自Genpept (GenBank CDS自动翻译的数据库)、PDB序列数据库、SWISS-PROT数据库等,是较完全且包含最新信息的蛋白质数据库,也是检索药物靶点的主要信息来源。实际上NRDB中仍有一些冗余信息。另外,NRDB数据库也被作为NCBI提供的BLAST算法搜索服务时检索的默认数据库。潜在药物治疗靶点数据库(potential drug therapeutic database, PDTD)为国内建立的免费药物靶点数据库,收集了已知和潜
18、在药物靶点三维结构数据,是反向对接筛选候选药物靶点软件所用数据库。此数据库目前包括1207个晶体结构数据,涵盖841种不同药物靶点。这些靶点按照治疗应用领域和靶点的生物化学性质分成十多类,支持多种检索方式,并可链接到其他数据库。蛋白质信息学资源(protein-informatics-resource, PIR) /,提供蛋白质序列和功能数据,并链接到UniProtKB等多种数据库;此数据库的特色是提供详细全面的蛋白质功能分类数据,其中包含药物靶点蛋白质的数据。还有很多其他的蛋白质数据库。三、药物副反应靶点信息资源药物副反应靶点( Drug Adverse Reaction Targets,
19、DAR) ,也是免费数据库,包含了已知药物副反应靶点、功能和性质、文献链接等。这些靶点的鉴定及分类主要用支持向量机的药物副反应靶点识别程序完成,其使用了759个副反应相关的靶点结构特征和2280个非药物副反应靶点结构特征进行训练。治疗相关多信号通路数据库(Therapeutically Relevant Multiple Pathways Database, TRMPD)包含来自文献的药物作用信号通路及靶点交叉信息(),也提供对应文献来源、疾病相关情况、针对通路中靶点的配体药物等信息。目前该数据库中包含97个独立的信号通路及11个多信号通路,对应72种疾病和1220种药物,可用信号通路名称或疾
20、病名称等多种方式检索,能获得对应的靶点蛋白序列及基因等各种相关信息,及及其他数据库的链接。细胞色素P450相关代谢数据库(Cytochrome P450-related metabolic information)收集药物代谢干扰的靶点信息(),并提供相关的软件用于预测药物相互作用,是指导联合用药和防止药物相互作用的重要信息来源。四、ADME关联蛋白信息资源吸收、分布、代谢和排泄 (absorption, distribution, metabolism and excretion, ADME) 相关蛋白数据库(Drug ADME Associated Protein Database,ADM
21、E-AP) ,可检索药物ADME信息和相关蛋白功能、结构、相似性和组织分布等,同时提供文献链接,目前覆盖321种相关蛋白。转运蛋白数据库(transporter database, TransportDB),是转运相关膜蛋白的数据库,来自对已测定基因组解析预测所得的细胞质膜蛋白。对具有基因组信息的物种进行了全面的信息加工和收集;对每个物种的转运载体类型和家族提供概括性描述,对每个转运载体列出了被转运的底物类别,并连接蛋白质的序列数据库。五、药物-蛋白互作数据资源生物分子互作动力学数据库(Kinetic data of bio-molecular interaction, KDBI),收集了来自
22、文献的实验测定蛋白质间、蛋白质-RNA间、蛋白质-DNA间、蛋白质-小分子配体间、RNA-配体间、DNA-配体间的结合反应数据。目前,KDBI覆盖63条信号相关的蛋白,19 263项数据记录,10 532个特殊生物分子结合参数和1954项相互作用数据,涉及2635蛋白质-蛋白质复合物、847核酸复合物、1603小分子复合物和超过100条通路信息。蛋白质-配体相互作用数据库(protein-ligand interaction database, PLID)/,是基于网络的免费数据库,其收集了6295配体同从蛋白质结构数据库中提取的蛋白质的复合物结构,还提供配体物理化学性质、量子力学特征描述和蛋
23、白质活性位点接触残基等信息。蛋白质-小分子数据库(protein-small-molecule database, PSMDB),是来自PDB数据库的复合物非冗余数据,可自动更新,收集了更多配体和游离靶蛋白数据。另一个免费数据库CREDO()及此类似,但其可用分子形状的描述符、PDB数据库中配体片段、序列和结构作图等进行检索。PDSP Ki数据库()也收集了多种配体及不同靶蛋白的亲和力数据,可用受体名称、组织来源、配体的名称等进行检索。生物学相互作用通用库 (Biological General Repository for Interaction Datasets, BioGRID),收集来
24、自常见模式生物的蛋白质及基因间的相互作用信息。目前包含来自6个物种的198 000相互作用数据,及来自原始文献的酵母细胞内相互作用数据的完整集合;该库对来自酵母的数据每月更新,并连接有蛋白质间相互作用的可视化显示软件Osprey。此数据库可用于预测同类蛋白质的功能。六、药物毒理学资源药物诱导毒性相关蛋白数据库(Drug-Induced Toxicity Related Proteins, DITOP)收集了及药物相互作用或代谢中间产物造成毒性的相关蛋白质信息;其数据主要来自文献报道,目前包含618个典型的毒性相关蛋白、529个相应的药物、418个对应毒性术语。可以用关键词、化学结构、蛋白质和毒
25、性术语等进行检索。有害物质目录()、危险物质数据库()、毒物文献库()等资源也可供检索。基于药物代谢干扰的数据库已尝试用于临床治疗方案的优化。七、药物基因组资源药物遗传效应数据库(PharmacoGenetic Effect Database, PharmGED) /,专门提供蛋白质靶点的多态性、非编码区突变、剪切变异、表达变异等遗传信息对药物作用效应的影响,已有1825条目,涉及266 个不同蛋白质,414个药物和对应文献。八、候选小分子药物资源Symyx ACD()是商业的药物筛选常用化合物来源数据库,可用结构进行检索,提供分子的三维结构图。NCBI提供了免费的化合物资源PubChem,并
26、包含对应的三个子数据库,提供已知的化合物的结构和基本性质、生物活性、文献链接等信息。在通过网址可以获得主要候选化合物数据库和来源。剑桥结构数据库(Cambridge Structural Database, CSD) /,提供实验测定的小分子结构数据。除了经典的小分子,还收集聚合度低于24个单体的寡核苷酸、小肽的结构数据,同时提供分子间相互作用的信息。九、免疫信息学资源国际免疫遗传信息系统(the international immunogenetics information system,IMGT) ,是一个综合性的免疫信息学数据库,收集了人体和脊椎动物的常见免疫球蛋白、T细胞受体、主要组
27、织相容性抗原复合物(MHC)、多种生物的免疫球蛋白超家族和MHC超家族等免疫系统相关蛋白。此数据库有五个子数据库,包括一个序列数据库、 一个基因组数据库和免疫反应相关蛋白的结构数据库,提供了十多种在线工具和网络资源。该数据库提供了关于免疫相关疾病和抗体的较完整信息和数据,是分析潜在免疫治疗靶点和免疫治疗蛋白质药物的重要信息资源。其他的免疫信息学数据库还有MHCPEP ()、MPID (surya.bic.nus.edu.sg)、SYFPEITHI () 、FIMM (research.i2r.a-star.edu.sg)、MHCBN ()、IEDB ()等。第三节 药物作用靶点发掘Sectio
28、n 3 Mining Drug Targets一、药物靶点概述药物靶点主要是特定物质代谢途径或信号通路的关键成分,包括人体的特定大分子、小分子或病原微生物的特定对应成分。如控制胞内特定离子稳态浓度的离子通道、水解灭活环核苷酸的PDE、控制花生四烯酸(arachidonate)代谢成炎症介质的环加氧酶、激活腺苷酸环化酶生成cAMP的肾上腺素受体。体内的代谢途径交叉连接,有的物质也会参及多个代谢途径;体内的信号通路之间也有交叉连接,有些成分能同时参及不同的信号通路(图17-2)。因此,有效的药物靶点需具备如下特征:对影响疾病病理过程的物质代谢途径或信号通路有控制作用;尽可能位于诱发疾病病理过程物质
29、代谢途径中生成该物质的最终环节,或疾病密切相关信号通路下游及疾病发生物质代谢途径直接交换信息的关联环节;尽可能不参及人体其他组织或细胞生命活动所必需的代谢过程或信号传递过程; 尽可能避开多个代谢途径或信号通路的交叉点。显然,作为一个有效的药物靶点,上述第一个特征是所需具备的必要条件,而后面的三个特征主要是充分条件。小分子靶点的识别过程相对直接,大分子靶点的识别及确认过程就很复杂。图17-2 单个细胞内NF-kB参及信号通路的连接和交叉病原微生物通常有决定其致病能力且人体不需要的代谢途径,人体正常代谢不需要而此代谢途径必需的任何独特性成分都是潜在的药物靶点;如病原细菌或真菌常需合成人体不需要的细
30、胞壁,其细胞壁合成的所有独特性关键酶都是理想的靶点。体内用于启动病理过程的信号通路关键成分都是合适的药物靶点,如费城染色体阳性的慢性髓系白血病中Bcr/Abl激酶是其治疗的理想靶点,其选择性抑制剂伊马替尼(imatinib)是低毒性抗肿瘤药物。体内相同代谢途径在不同细胞中可发挥不同作用,分化的组织器官和细胞含有控制对应物质局部稳态水平的受体亚型或同工酶可作为合适的药物靶点,如环鸟苷酸(cyclic guanidine nucleotide, cGMP)对多数细胞生理活动有重要调节作用,但PDE5是阴茎海绵体cGMP稳态水平的主要控制者而不是其他组织细胞中cGMP稳态水平的主要控制者,因此PDE
31、5同工酶选择性抑制剂seldinafil是疗效显著的药物。人体蛋白质类药物靶点可分成几个主要的家族(表17-1)。表17-1 人体蛋白质中的常用药物靶点靶点类别治疗领域G-protein coupled receptors代谢疾病、心血管系统疾病、炎症Kinase肿瘤、炎症、病毒感染Nuclear Receptor肿瘤、代谢疾病Ion channel中枢神经疾病、疼痛、感染、肿瘤、炎症Phosphodiesterase炎症、心血管疾病、勃起障碍、中枢神经疾病protease炎症、骨组织疾病、肿瘤、病毒感染用生物信息学技术发掘药物靶点是新药发现的基础。随着对疾病认识的积累,发现了大批药物靶点,目
32、前已确认的药物靶点约500个。随着各种高通量测定数据的获得,新的治疗药物靶点不断地被发现,预期人体自身的蛋白质类靶点总数可达到3000个。人类基因组计划的积极推进和各种疾病相关代谢途径、相互作用分子网络、基因表达和蛋白质谱及病原微生物基因组和蛋白组数据的积累,成为发掘药物作用新靶点的基础,奠定了新药发现的重要基础。分析大量数据发掘潜在的药物新靶点主要有两种策略。一种以实验测定疾病及健康个体的相关数据为主进行比较分析推断及疾病发生相关的基因和蛋白质,并推断其功能和作为候选药物新靶点的可能性;另一种分析基因组或蛋白质的序列数据,通过药物靶蛋白的序列特征进行模式识别分类判断候选序列作为潜在药物靶点的
33、可能性。以下简介这两类常用策略。二、分析基因组和基因型数据发掘潜在的候选药物靶点分析基因组数据发掘药物靶点的最直接应用是寻找病原微生物的基因组中及人体细胞代谢不同而对病原微生物的生长和致病必需的基因产物作为候选药物靶点。对于病原微生物生长和致病所需而人体不需的代谢途径,包括该途径的小分子物质,都是理想的药物靶点。即使是人体和病原微生物共同的代谢途径,例如嘧啶核苷酸合成代谢途径,不同的进化层次使得病原细菌对应代谢途径的某些关键酶和人体对应代谢途径的关键酶编码序列也有显著差异,对应的关键酶的活性中心精细结构存在差异。基于这种序列差异和预测的功能域精细三维结构的差异仍然能设计出针对病原菌代谢途径关键
34、酶的高选择性小分子药物。另外,对于某些特殊的微生物,其亚型不同则致病能力显著不同。对于这些病原微生物,分析其基因型数据寻找对应的差异基因是发现新的抗感染药物靶点的有效策略。例如肺炎链球菌的荚膜型和光滑型两种亚型明显致病能力不同,故及荚膜形成相关的基因信息必定是独特数据,对应的编码蛋白都是候选的药物靶点。分析人体基因组数据发掘候选药物靶点的应用难度相对较大。人体基因组太大,需要一定的线索关联以缩小需要测序分析的基因范围。分析不同基因的位点多态性等及疾病发生的内在联系,是寻找潜在的候选靶点的有用策略之一。通过这种策略发现及疾病发生关联的基因如属于人体内常用的药物靶点蛋白家族,则其作为新的药物靶点的
35、可能性就很大。另一种策略是分析功能基因组,解析新基因的功能并考察其是否属于目前常用的药物靶点蛋白家族(表17-1)。其中分析酵母基因组和对应基因功能是用实验验证新基因潜在功能的有效策略。目前,关于酵母的信息资源相对齐全,其基因组、蛋白质组、蛋白质相互作用网络、蛋白质定位、缺失突变表型等都有对应数据库,且新的数据还在增加。通过转入基因考察功能的增强、敲除基因和功能的缺失、小分子RNA干扰目标基因表达,都是验证基因功能的有效策略。人体基因组中及酵母基因组中进化同源的蛋白质有类似的功能,这可用于预测人体新基因的潜在功能及是否可作为潜在的药物靶点。这种策略是疾病相关功能基因组学的重要工作之一。三、分析
36、表达谱数据发掘潜在的药物靶点发掘基因表达谱中随着疾病进程表达显著变化的基因,是寻找潜在药物靶点的常用策略。而比较疾病及健康个体表达谱,寻找编码常见药物靶点蛋白质的基因表达差异及疾病发生的关联,是快速发现潜在药物靶点的有效策略。另一方面,对表达标签和蛋白质组学数据的比较分析,尤其和药物蛋白质组学技术联合应用,能快速获得有价值的信息。用未知靶点但明确有效的天然产物作用于疾病的动物或细胞模型,通过蛋白质组学技术分析药物作用下发生改变的蛋白质,这些蛋白质通常及药物的治疗作用明确相关,也及此类药物靶点参及的疾病发生机制有关。应用这种策略的典型代表,如从近海生长的海绵中分离的天然产物Bengamide在体
37、内外都有明显抗肿瘤作用。将此天然产物修饰成药效更强的衍生物LAF389作用于小细胞肺癌细胞系H1299,发现了二十多个表达有差异的蛋白质,并用蛋白质的肽质量指纹图谱对这些蛋白质进行了鉴定;进一步分析发现LAF389阻断了一种特殊蛋白的N-端脱甲硫氨酸,并最终证实LAF389是甲硫氨酸氨肽酶(methionine aminopeptidase, MetAP)的强效抑制剂,且获得了其复合物的晶体结构(1QZY.pdb)(图17-3)。此策略提供了两个重要信息,即MetAP参及的代谢途径中,需要MetAP脱甲硫氨酸的对应目标蛋白底物(其地位相当于代谢途径中的小分子物质)和MetAP本身都是潜在的抗肿
38、瘤药物靶点。图17-3 甲硫氨酸氨肽酶和Bengamide衍生物的复合物中间的配体显示为树枝状,绿色为C原子,红色为氧原子,蓝色为氮原子四、分析序列数据发掘药物靶点分析序列信息判断对应蛋白质是否为潜在药物靶点的策略集中分析已知药物靶点的序列特征,通过机器学习等方法从中发掘规律并形成判断方法,用于分类或判断候选序列是否为靶点。这属于典型的生物信息学策略,各种模式识别的方法都可用于发掘靶点的序列特征用于建立对应的判断方法。一个代表性的应用是从已知药物靶蛋白质的氨基酸序列中提取氨基酸残基组成、氨基酸残基的理化性质(包括疏水性、极性、电荷、溶剂可及性等,详见第十章和本章第四节)等信息,用支持向量机模型
39、,用特定核函数(线性、多项式或径向基本函数RBF)和已知靶蛋白数据为训练集,所建立判断分类方法的正确率接近80%。经过优化训练数据集和核函数后,盲法测试的特异性、灵敏度和正确率都能达到80%以上,用这种策略预测潜在的人体靶蛋白有一千多个。五、反向对接分析配体作用位点寻找靶点基于分子对接寻找候选配体的方法,可用已知体内和体外活性配体,从已知蛋白质晶体结构的数据库中搜索对应的潜在靶蛋白,这是一种新的靶点发现策略。这种策略对发掘有明确药理活性天然产物的作用靶点具有重要价值。此策略目前已有对应的在线免费服务器和程序可用(),并有对应的潜在治疗性靶点的数据库。这对很多未知靶点却有明确治疗价值的配体药物靶
40、点发掘和基于靶点结构的配体结构优化策略是一个很好的方向。六、识别及证实靶点的实验设计策略从大量数据中发掘出来的候选大分子靶点还需用实验多方面验证。前面已提到有效药物靶点所需要的基本特征。体内蛋白质种类非常多,药物只有选择性作用于靶点才能有所需治疗作用和尽可能少的副作用。通常要确认一个有效的药物靶点可用针对该靶点的已有工具药物或临床药物,但对用生物信息学策略发现的候选新靶点通常没有这类工具配体,只能多角度反复交叉验证候选新靶点的有效性。小分子药物的作用通常没有组织选择性而大分子药物主要在循环体系发挥作用,故一个靶点在体内如分布很广或参及其他组织的很多必需代谢过程就难以成为有效的药物靶点。同时,验
41、证候选大分子靶点的有效性一般需要确认下特征:候选靶点的功能及动物模型中疾病发生的病理学过程存在必然联系;细胞模型中表达的靶点功能及疾病发生的细胞病理学过程存在必然联系;在疾病动物模型中,(工具)配体达到有效浓度时能及靶点发生明确相互作用;靶点和药物间离体的相互作用数据可预测动物模型体内的(工具)配体及靶点相互作用;体内靶点含量或活性及病理学过程有明确联系。在验证这些特征时,还需同时考虑所用动物模型是否能够真实模拟人体疾病、存在种属差异性时如何进行替代验证、不同靶点应用于发现小分子及大分子药物的适用性差异等问题。(一)分析动物疾病模型考察候选靶点及病理学过程的联系从疾病发生病理学角度确认药物靶点
42、的有效性,需测定靶点功能增强、正常及抑制等情况下疾病病理过程的变化。实现此目的一般需建立疾病的动物模型并改变其靶点的功能,可用公认的对靶点功能有调节作用的工具配体(药物)来探索这种关联性。另外,对大分子靶点,通过基因转染、小分子RNA干扰、核酶等增强或降低靶点的功能考察疾病发生的变化;对小分子靶点,也可直接从外部补充以观察疾病发生过程的变化。在分析这些结果时还需考虑动物模型及不同类型工具药物的有效性差异。(二)检测细胞模型中表达的靶点考察及疾病发生的细胞病理学过程的关联性从细胞和分子水平考察疾病发生过程的共性,考察细胞模型中靶点功能的调节对细胞病理学过程的影响。在细胞模型上更容易通过上述技术改
43、变靶点的功能,同时考察同病理相关的物质的变化。尤其在细胞模型中有对应的分子实时显影等技术证实靶点及工具药物之间的直接作用。(三)考察在疾病动物模型中(工具)药物达到有效浓度时及靶点的相互作用在活体内测定靶点及(工具)药物相互作用是证实靶点有效性和药物作用机制的最直接证据,但限于技术这类数据在药物靶点研究的前期积累很少。通过标记药物和靶点进行活体成像是考察活体内靶点及药物作用的有效证据之一,这类方法提供的数据主要是来自共定位。(四)靶点和(工具)药物间离体的相互作用及其是否可用于预测动物模型及人体内的相互作用各种技术可用于考察离体(工具)药物及靶点的离体相互作用;建立药物作用动态过程的数学模型,
44、可用于模拟(工具)药物在疾病动物模型体内的作用,并及实验测定的疾病动物模型体内的工具药物作用动态变化比较,考察离体的数据用于预测体内作用的有效性。在这些过程中需考虑到小分子药物对预期靶点的分布一般没有严格要求,但大分子药物主要在血液循环系统发挥作用而很难进入细胞内,除非采用特殊的制剂及给药策略,否则大分子药物要求靶点暴露于循环系统。(五)人体内靶点含量或活性变化及其及病理学过程的联系对于大分子靶点,应用荧光实时定量PCR、western blotting等技术监测病理变化过程中靶点的含量和活性的变化;对于小分子靶点,应用高效液相层析及MS联用等技术,可监测疾病发生的病理过程中靶点的含量变化。分
45、析疾病发生过程中靶点的含量或活性对控制疾病进程的重要物质含量变化的响应、病理生理紊乱程度的响应,可探索在人体疾病发生发展过程中靶点的作用。第四节 小分子药物的成药性及其预测Section 4 Pharmaceutical Properties of Organic Drugs and Their Prediction一、概述广义的小分子药物指分子量小于800Da且在人体内能发挥明确药理学作用的化合物,这是目前临床应用最广的药物,有数千种。狭义的小分子药物不包括广义小分子药物中的多肽和寡核苷酸药物。绝大多数小分子药物能在体内预期部位发挥药理学作用,且基本无免疫原性。这些小分子药物主要是配体,小分
46、子配体同大分子靶点的相互作用是治疗作用的基础,故小分子配体药物及大分子靶点的相互作用强度,即配体的亲和力(affinity),是小分子药物成药性的关键指标之一。另外,绝大多数小分子药物本身基本无免疫原性。但除了氨基酸、糖、维生素、激素等人体内本来就有的生理活性和药理活性物质,绝大多数小分子药物为非营养物质,在体内需经过生物转化(biotranformation)进行代谢并最终排泄,在这个复杂的过程中可能代谢产生新的生物活性物质而影响人体的生理活动,这也是影响小分子药物成药特性的关键环节之一。同时,小分子药物的生物利用度也是决定其特定制剂形式要求和成药性的关键指标。因此,据候选药物结构特征预测其
47、成药性,是利用生物信息学技术高效率和低成本发现具有明确药用价值候选小分子新药的重要应用。二、结构特征和性质描述用信息学技术分析小分子药物的作用规律需发掘其结构特征、性质及其药理学、毒理学特征间的联系;对配体(ligand)类药物基于各种策略进行虚拟筛选,也需描述分子结构特征;用先导配体(lead ligand)通过反对接搜索潜在药物靶点也需要描述小分子化合物的结构特点。因此,描述小分子化学物的结构特征和性质是药物生物信息学的必要基础。(一)小分子化合物的结构描述和模型化按IUPAC规则对化合物命名可反映化合物结构特征,但要包含足够信息则名称很长且过于复杂,唯一性也不够。化合物结构曾用过碎片码、
48、线性码和拓扑码等编码,但仍难保障唯一性,且碎片码和线性码在检索子结构不方便。连接表(connection list)是目前用计算机表示、记录和检索化合物结构最常用的信息化手段,其可包含分子结构的二维和三维信息。连接表是用文本记录分子中所有原子、化学键及其空间关系的列表。连接表不需考虑不同分子的唯一性问题,原子的序号也不影响分子结构。但连接表在应用中有多种文件格式,不同分子结构模型可视化软件有自己的特殊格式,SMD、MOL和MOL2等是通用性的结构文件格式(图17-4),记录了所含原子属性和化学键性质等信息。用于记录蛋白质结构的文件格式也可用于记录小分子结构,其记录内容也属于连接表,系统带有根据
49、原子间化学键长确定化学键类型的定义词典,所记录的化学键类型由计算所得键长确定,但一般免费软件不能生成这种格式的小分子结构文件。 图17-4 甲醇的结构模型(a)和其连接表(b),用MOL格式记录的结构文件(c).有多种小分子化合物模型可视化系统可用鼠标描绘分子结构模型,其中不少是免费的,如ISIS-Draw ()和ACD ()等。通常小分子化合物的结构模型可视化系统大多可对小分子三维构象进行初步真空优化,这是建立三维定量构效关系模型的基础。一些基于网络和java语言的插件也可编辑分子结构。这些软件通常可直观显示分子的表面性质,包括范德华表面、溶剂以及表面、溶剂排斥表面等性质。(二)小分子化合物的疏水性疏水相互作用(hydrophobic in