基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf

上传人:1890****070 文档编号:109950 上传时间:2018-05-13 格式:PDF 页数:56 大小:6.99MB
返回 下载 相关 举报
基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf_第1页
第1页 / 共56页
亲,该文档总共56页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf》由会员分享,可在线阅读,更多相关《基于多序列特征提取的蛋白质相互作用预测-杜明宇.pdf(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、分类号学校代码!Q烈易莓弄冲被学号2Q!Z业Q3密级夫晕硕士学位论文基于多序列特征提取的蛋白质相互作用预测学位申请人:学科专业:指导教师:答辩日期:杜明宇软件工程张晓龙教授2017年5月14日万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringPredicting Protein-protein Interactions fromProtein Sequence Based on Multiple FeatureExtracti

2、onsMaster Candidate:Major:Supervisor:Mingyu DuSoftware EngineeringProfXiaolong ZhangWuhan University of Science and TechnologyWuhan,Hubei 430081,PRChinaMay,2017万方数据武汉科技大学研究生学位论文刨新性声明本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果口除了文中已经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文

3、中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:趣塑叠 日期: 趁l 2:包圣研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名:趋鲺叠指导教师签名:蚴 1 1日 期: 勉l L垒:1万方数据摘要蛋白质在生命活动过程中扮演着重要的角色

4、,其功能的执行是通过蛋白质蛋白质之间的相互作用表现出来的,蛋白质蛋白质相互作用(PPIs)的研究一直是蛋白质组学的研究重点。传统的生物实验方法,由于一次只能对少量的蛋白质对进行验证,已经不能满足日益增长的实验需求。计算方法是用于预测PPIs的有效方法,已经成为研究人员的首选。本文基于蛋白质的序列,构建有效的预测蛋白质相互作用的方法。首先,准确地提取序列中蕴含的特征,区别存在相互作用的蛋白质对和不存在相互作用的蛋白质对。本文选取了氨基酸组成、氨基酸理化性质组成和自协方差3种蛋白质序列特征提取方法,并对其进行了实验对比研究,仅仅使用单一的特征提取方法,对蛋白质对的识别具有一定的特异性,预测精度也有

5、待提高。然后基于支持向量机分别构建3个互相独立且与序列编码方法一一对应的基分类器,最后使用了集成学习理论中的Stacking方法融合3个基分类器从而间接的融合多种蛋白质序列特征提取方法。在9952对酿酒酵母蛋白质数据集上进行实验,本文提出的方法取得了8674的预测精度,优于现有方法的平均水平,同时有效地降低了单一特征提取方法的特异性;在独立测试集上,该方法同样具有优秀的表现。实验结果表明,本文提出的方法有效地提高了蛋白质相互作用预测的准确率。关罐词:蛋白质蛋白质相互作用;蛋白质序列;特征提取;支持向量机;分类器融合万方数据AbstractProtein plays an important r

6、ole in almost all life activities and its function ismanifested by protein-protein interactions(PPIs),SO the study of PPIs has always beena key part of proteomicsThe traditional experimental method Can no longer meet thegrowing demand of the related research because only a small amount of protein pa

7、irsCan be verified at one experimentComputational methods have become the firstchoice for PPIs predictionIn this thesis,we constructed a more effective method to predict proteinproteininteractions based on the sequence information of proteinsFirst of all,we accuratelyextracted the information contai

8、ned in protein sequences,SO that the interacting proteinpairs and the non-interacting protein pairs Can be effectively distinguishedAmong avariety of protein sequence feature extraction methods,we selected threerepresentative methods and ran the experimental comparison on themThe resuItsshow that us

9、ing single feature extraction have certain limitations and the accuracv canbe improvedThen,based on the support vector machines,three independent classifierswere constructed which are corresponding to each sequence coding methodAt lasttheStacking method in integrated learning theory Was used as the

10、classifier fusion strategyto indirectly fuse these protein sequence feature extraction methodsTest九mon thedata set of 9952 Saccharomyces cerevisiae protein pairs suggests that thepredictionaccuracy托ached 8674and it effectively reduced the phenomenon ofhigh specificityOn the independent test set,this

11、 method is also superior to theexisting methods,suggesting that OUr method significantly improved the accuracy of prediction of PPIsKeywords:protein。protein interacti。ns;protein sequence;feature extracti。n;supp。rtvector machine;classifier fusion万方数据目 录摘 要IAbstractII第1章绪论111研究背景及意义112蛋白质相关概念2121蛋白质21

12、22蛋白质蛋白质相互作用613国内外研究现状及相关方法7131酵母双杂交筛选法7132亲和纯化、质谱联合法7133基于文本挖掘9134基于机器学习914本文结构9第2章蛋白质相互作用预测的分类算法1121常用机器学习算法1 1211决策树11212朴素贝叶斯11213支持向量机1222集成学习12221学习器生成13222结合策略1423模型评估与选择16231评估方法17232性能度量1 824本章小结20第3章基于多序列特征提取预测蛋白质相互作用2l31蛋白质相互作用预测过程2132数据集构建21321数据库简介2l322正集选取22万方数据323负集构造2333蛋白质序列特征提取2533

13、1氨基酸组成25332氨基酸理化性质组成25333自协方差2634特征融合29341特征融合方法29342集成模型2935本章小结3 1第4章实验结果与分析一3241实验数据集3242评价标准3243实验结果分析一33431不同负集构造方法的比较33432不同算法的比较34433不同核函数的比较34434不同参数的比较3544整体实验结果分析36441预测结果36442与其他方法的对比37443独立测试集表现3845本章小结39第5章总结与展望40致谢42参考文献43附录1攻读硕士学位期间发表的论文48附录2攻读硕士学位期间参加的科研项目49IV万方数据武汉科技大学硕士学位论文第1章绪论11研

14、究背景及意义20世纪90年代,一项横跨多个国家、多个学科及多个领域的国际科学研究项目在美国犹他州被首次提出【l】,旨在完整地测定构成人类DNA的核苷酸碱基对序列,进而绘制出人类基因组的图谱,破解人类遗传信息的奥秘,该项目被称为人类基因组计划(Human Genome Project,HGP)【21。人类基因组计划的初步粗略草案于2000年6月对外公开,随后于2003年4月14日人类基因组的最终测序图谱正式被发表。人类基因组计划的完成被认为是人类探索自身生命奥秘之路上的又一个里程碑。人类基因组中蕴含的信息对许多领域有着非同寻常的意义,鉴于DNA在分子生物学中的己确立的重要性及其在细胞生命活动过程

15、中的扮演的核心角色,人类基因组数据中蕴含的更深层次的信息可以帮助人类从根源上了解疾病的产生及其作用机理,并对药物的开发研制和新的治疗方式的的研究探索起到一定的指导作用,从而推动医学及其相关应用科学的进步与发展【31。直到目前为止,基因组数据的解释和分析工作仍处于初始阶段。但是人类基因组计划的完成已经在各领域取得了很具体的实际成果,例如:许多公司,开始提供可以显示多种疾病倾向的便捷基因测试;同样被认为从基因组信息中受益的还有对癌症、阿尔茨海默病的病因的研究;此外,还包括对特定病毒做基因敲除后定点治疗的新型疗法、不同种类的癌症的突变种的识别以及药物的设计等等【4-5】。随着人类基因组计划的完成和后

16、续工作的稳步推进,生命科学的研究进入后基因组时代。在后基因组时代,基因组学(Genomics)的研究重点从以全基因组测序为目标的结构基因组学转向以基因功能鉴定为目标的功能基因组学。功能基因组学是分子生物学的一个子领域,试图利用基因组项目(如基因组测序项目)产生的大量数据来描述基因或是蛋白质的功能和相互作用【6】,但是从基因到蛋白质,中途涉及到DNA到mRNA的转录、mRNA到蛋白质翻译和蛋白质的翻译后修饰等复杂且不确定的过程(遵循生物学的中心法则,见图11),可能出现同一个基因转录出的mRNA通过选择性剪接或可选的翻译后修饰产生多种蛋白质的情况。由于基因表达方式的错综复杂,直接从基因或是mRN

17、A的水平来解决有关蛋白质的一些问题,是几乎无法实现的。同时,相关实验表明人类的大部分疾病】万方数据武汉科技大学硕士学位论文并不涉及到基因层面,并不是因为基因的改变而引起的。蛋白质作为基因信息的表达者和生理功能的直接执行者,继续开展对蛋白质的研究仍具有很重要的意义。oA丢图11中心法则“:嚣豫舟e锥峨一蛋白质于是,上世纪90年代末期,诞生了对蛋白质的结构和功能进行大规模研究的一门新兴学科一蛋白质组学(Proteomics)【71。不同于传统蛋白质研究针对的是单个蛋白质,蛋白质组学研究的是由生物体或系统产生或修饰的整个蛋白质组,其最早概念由Marc Wilkins博士在1994年在校期间提出【8】

18、8。不同于有机体的或多或少是恒定的基因组,蛋白质组会随着时间、细胞或生物体经历的不同需求或是压力而变化,因此相对于基因组学来说,蛋白质组是一个动态的概念,主要是在细胞的整体蛋白质水平上运用质谱法(Mass Spectrometry)、蛋白质芯片(Proteinchips)和反相蛋白质微阵列(Reversephased protein microarrays)等蛋白功能分析技术对蛋白质进行高通量的平行分离和分析,在宏观水平上探索蛋白质组内部的相互关系,研究其功能机理和作用模式,从而得到对疾病过程、细胞生理病理过程的更加全面而深入的认识,进而揭示生命活动的基本规律,为临床诊断、药物筛选、新药开发和

19、个性医疗等诸多应用领域提供理论依据。可以认为,蛋白质组学研究的是后基因时代中生命科学研究的核心内容之一【91。12蛋白质相关概念121蛋白质1)基本含义蛋白质是生物体内的一种有机大分子,由一个或者多个氨基酸残基的长链组成,是生命体的必要组成成分。蛋白质扮演着生物体内功能的执行者的角色,参与了生物体内绝大多数的生命活动,包括催化代谢反应、DNA复制、刺激响应、分子运输等【10】。2)基本组成氨基酸是蛋白质大分子的基本组成单位,是生物学上非常重要的有机化合物,万方数据武汉科技大学硕士学位论文之一,包含一个碳(C)原子、一个氢(H)原子、一个氨基(Amino,化学式-NH:)、一个羧基(Carbox

20、ylic acid,化学式:COOH)和每种氨基酸特有的R基团侧链【111。具体结构如图12所示。HHH图12非电离状:态的q专基藏的结构在生物化学中,氨基和羧基直接连接到第一碳原子(也被称为0【碳原子)的氨基酸具有特别的重要性,被称为a氨基酸,通常我们说的氨基酸指的就是仅氨基酸【12】。按照R基团的不同,氨基酸被分为22种。其中20种氨基酸由遗传密码中的三联密码子直接编码,被称为“标准”氨基酸(见表11)。另外两种氨基酸是硒代半胱氨酸(Selenocysteine)(存在于许多非真核生物以及大多数真核生物,但不直接由DNA编码)和吡咯赖氨酸(Pyrrolysine)(仅在一些古细菌和一种细菌

21、中发现)131,在本文中不做其相关研究。表11=十种标准氨基酸英文名称 三字母缩写 单字母缩写 中文译名Alanine Ala A 丙氨酸Cysteine Cys C 半胱氨酸Aspartic acid Asp D 天冬氨酸Gl-atamic acid Glu E 谷氨酸Phenylalanine Phe F 苯丙氨酸Glycine Gly G 甘氨酸Histidine His H 组氨酸Isoleucine Ile I 异亮氨酸Lysine Lys K 赖氨酸Leucine Leu L 亮氨酸万方数据武汉科技大学硕士学位论文Methionine Met M 甲硫氨酸Asparagine As

22、n N 天冬酰胺Proline Pro P 脯氨酸Glutamine Gln Q 谷氨酰胺Arginine A玛 R 精氨酸Serine Ser S 丝氨酸1f1_1reonine nlr T 苏氨酸V-aline V址 V 缬氨酸Tryptophan Trp W 色氨酸Tyrosine Tyr Y 酪氨酸蛋白质由若干个氨基酸经历“脱水缩合”反应(如图13)形成,其中每两个相邻氨基酸发生一次反应失去一个水分子,形成一个肽键,使得余下的氨基酸残基彼此连接,被称为多肽链【14】。Amino acid1 Amino acid2)为了执行它们的生物学功能,此时的蛋白质会进一步通过氢键(Hydrogen

23、bonding)、范德华力(Van der Waalsforces)等非共价相互力折叠成一个或多个特定空间构象。3)蛋白质的结构蛋白质的结构指的是蛋白质分子中的各个原子在三维空间的排列构象,通常被分为以下4类。一级结构(Primary structure):一级结构是指多肽链中呈线性排列的氨基酸序列。蛋白质的一级结构由对应于该蛋白质的基因决定,通过在蛋白质形成过程中产生的共价键如肽键保持在一起。蛋白质的序列是该蛋白质所独有的,并且决d万方数据武汉科技大学硕士学位论文定了其结构和功能。二级结构(Secondary s觚胝):二级结构是指多肽主链上的高度规则的局部亚结构。两种主要的二级结构有0【螺

24、旋(Alphahelix)和p折叠(Beta sheet),在1951年由Linus Pauling和其同事一起提出【15】。这些二级结构由肽链主链上氨基酸残基之间的氢键的作用而产生,具有规则的几何形状。三级结构(Teaiary structure):三级结构是指由单个和多个氨基酸组成的蛋白质大分子的三维空间结构。蛋白质的三级结构是在其二级结构的基础上,进行进一步的折叠,形成更为复杂的空间结构,例如a螺旋和p折叠可以被折叠成紧密的球状结构。I A Arg蕊麓。;瞄I毛)-$heet(3 strands)紫图14蛋白质韵四级结构四级结构(Quatemary structure):四级结构指的是多

25、个具有三级结构的蛋白质分子(多肽链)构成的聚合体的结构,这些聚合体通常作为单个蛋白质复合物执行一定的功能。4)蛋白质的功能在细胞内,蛋白质作为功能的主要执行者,承担着表达隐藏在特定基因中的信息的责任【161。不同的蛋白质对应着不同的基因,因为这些基因的核苷酸序列的不同,导致了其表达出的蛋白质的氨基酸序列也不尽相同,从而使不同的蛋白质折叠成特定的三维结构,执行着不同的功能。蛋白质之所以能够表现出多种多样的功能,是因为它们能够与其它分子有目的性且紧密的结合。当然,蛋白质与蛋麟霪熏蕤麟凌麟蒸霪麟鐾万方数据武汉科技大学硕士学位论文白质之间也能相互结合,即蛋白质蛋白质相互作用来调节酶活性,控制细胞周期的

26、进展,执行高分子蛋白复合物的装配,执行常见的生物学功能进行许多密切相关的反应等。蛋白质在细胞中最广为人知的作用是作为催化化学反应的酶。酶通常是高度特异性的,仅加速一个或几个化学反应。酶参与涉及新陈代谢的大多数反应,即便是在DNA复制、DNA修复和转录等过程中操作DNA。通过酶来催化的反应,速率的提升通常是非常显著的,例如在乳清酸脱羧酶(Orotate decarboxylase)存在的情况下某些反应的速率是没有催化反应时的1017倍【171。许多蛋白质也参与着细胞信号的产生和传导过程,例如胰岛素(Insulin)是可以在细胞外将其信号传递到远处组织中的其他细胞中。有一些特殊的蛋白质,是适应性免

27、疫系统中重要的组成成分,被称为抗体(Antibody)。抗体能够结合抗原(Antigen)或身体中的外来物质,并针对性的进行摧毁。许多配体转运蛋白能够结合特定的小生物分子并将其运输到多细胞生物体内的其它位置,例如血红蛋白可以将氧从肺部运输到其他器官和组织中(所有脊椎动物)。跨膜蛋白还可以用作改变细胞膜对小分子和离子的渗透性的配体转运蛋白【18】。蛋白质还有一个非常重要的作用,即作为结构蛋白质构造生物体本身。大多数结构蛋白质是纤维蛋白,比如胶原蛋白和弹性蛋白是结缔组织(例如软骨)的关键组成成分,角蛋白存在于毛发、指甲、羽毛等硬或丝状结构中。其他一些蛋白质是能够产生机械力的运动蛋白,例如肌球蛋白、

28、驱动蛋白和动力蛋白等。这些蛋白质对于单细胞生物体和许多多细胞生物的精子的细胞运动性至关重要,同时也是肌肉收缩力的来源,并在细胞内部运输中起到了重要作用。122蛋白质蛋白质相互作用蛋白质蛋白质相互作用(Protein-protein interactions,PPIs)是指两个或多个蛋白质分子之间建立的高特异性的物理接触,是通过疏水作用(Hydrophobiceffect)或是静电作用(Electrostatic forces)产生的一种生物化学现象,大部分发生在处于特定生物化学环境下的细胞或是活生物体内191。已经有不少研究人员在多个领域对PPIs进行了深入的研究,例如生物化学、量子化学、分子

29、动力学等领域【201,产生了很多有价值的信息,如何利用这些现有的数据挖掘出有用的规律,这也是PPIs的一个研究热点。万方数据武汉科技大学硕士学位论文13国内外研究现状及相关方法目前,有许多方法可以用来检测两个蛋白质之间是否存在相互作用【211。每种方法都有自己的优点和缺点,特别是在灵敏度和特异性两方面:高灵敏度意味着在现实中发生的许多相互作用能够被检测到,而高特异性表明被检测到的大多数相互作用正在现实中发生。最常规和最广泛使用的高通量方法是酵母双杂交筛选和与质谱联用的亲和纯化。下面对其做更为详细的介绍。131酵母双杂交筛选法酵母双杂交筛选法(Twohybrid screening)于1989年

30、由Fields和Song两位研究人员首次提出【22】。主要过程如图15所示,首先用两种质粒(细胞内能够自主复制的小型环状DNA链)转染(Transfection)酵母细胞,得到一个“诱饵”和一个“猎物”;如果“诱饵”和“猎物”发生相互作用,则会形成具有特定功能的转录因子(Transcription factor),进而引发报告基因(Reporter gene)的转录现象;因此,可以通过报道基因表达产物(即某些蛋白质)的是否存在来推断蛋白质之间的是否发生了相互作用23-24】。尽管酵母双杂交筛选法在检测PPIs的问题上的有效性已经得到证实,但是它依然存在着一些局限性:特异性相对较低;使用酵母作为

31、主要宿主系统,在研究其他生物模型时,会成为一个问题;在纯化步骤期间常会损失一些“瞬时”PPIs导致被检测出的PPIs的数量通常较低【251。B。b A。Q图15酵母双杂交筛选法的过程132亲和纯化、质谱联合法亲和纯化、质谱联合法是在纯化目标蛋白质和与其发生相互作用的亲和蛋白7万方数据武汉科技大学硕士学位论文27-281。首先对蛋白质的亲和纯化和质谱两个概念做出解释。由于亲和层析(Affmity艾f意可目0搬?氘撇0一加入洗瞪液,得到纯化后的蛋白质目质谱(Mass spectrometry)是使用电场或者磁场对带电粒子(带电的原子、分子、分子碎片和离子等)按照其质荷比对其进行分类的分析技术,简单

32、的来说,就是测定样品的质量。在典型的质谱流程中,样品被电子轰击等方法电离化,即带上电荷变成带电粒子,根据不同粒子的质荷比不同,经过同一电场或者磁场时的偏移量不同,不同的粒子便可以相互分离开来。质谱技术中进行多轮质谱分析8万方数据武汉科技大学硕士学位论文的方法被称为串联质谱(Tandem mass spectrometry),其重要应用之一便是蛋白质鉴定。133基于文本挖掘生物学的研究产生了大量的实验数据,这些数据存储在对外公开的数据库中,同时也记录在相关文献上。于是,基于文本挖掘技术(Text mining)从这些文本数据中预测PPIs已经成为研究PPIs的重要的手段之一【291。普通的文本挖

33、掘方法可以分为两个主要步骤:信息检索,找到摘要中包含任一或两个蛋白质复合物的名称的文献等文本数据;信息提取,在相关的文本语境中搜索共存的句子、摘要或是段落。更为复杂的文本挖掘方法使用高级词典并且自然语言处理(NaturalLanguage Processing,NLP)生成网络以预测蛋白质相互作用【301。134基于机器学习目前,蛋白质相互作用的研究方法主要分为两大类:实验方法和计算方法。传统的实验方法费时费力,并且存在一些其他不可避免的缺陷,所以有些研究人员将目光转向计算方法,也已经提出过许多能有效的预测蛋白质蛋白质相互作用计算方法:有基于基因组信息的方法【31】;也有利用蛋白质的结构信息和

34、保守序列信息的方法【32】;还有通过研究己知的蛋白质的结构域的方法来预测蛋白质相互作用【33】。但是,这些方法所需要的相应的蛋白质相关信息并不易取得,因此适用性并不普遍。基于序列的蛋白质相互作用预测方法,只涉及到蛋白质的序列信息,相较于其他方法需要的数据源更容易得到,发展迅速。Shen等人【34】在2007年提出三联体组合信息编码方法对蛋白质序列进行特征表示,达到了839的预测准确率;Guo等人【35】进一步考虑到蛋白质序列内部存在更为复杂的相互作用,提出自协方差编码方式,使用基于高斯核函数的支持向量机(SVM)作为分类器,预测酿酒酵母蛋白质对的相互作用,得到8809的准确率;Zhou等人36

35、】提出了通过局部描述符来表示蛋白质序列,并结合支持向量机,预测蛋白质之间的相互作用。14本文结构本文由六个章节组成,具体内容如下:第一章是绪论。首先介绍了蛋白质蛋白质相互作用的研究背景及其意义,然后给出了蛋白质相关的概念,接着介绍了该研究方向的国内外研究现状和相关方9万方数据武汉科技大学硕士学位论文法,最后介绍了本文的主要结构。第二章主要是蛋白质相互作用预测的分类算法。首先对该领域常用的机器学习算法做出了简单的介绍,然后介绍了集成学习的相关理论,同时也给出了本文用到的模型评估与选择的方法和性能度量。第三章提出了一种新的集成多序列特征提出的方法来预测蛋白质相互作用。首先介绍了实验数据涉及到的生物

36、学方向数据库,详细的描述了正样本数据的选取和负样本数据的构造,然后介绍了蛋白质序列特征提取方法,最后描述了特征融合的过程和具体的集成模型。第四章是实验结果与分析。首先介绍了实验中用到的数据集和对实验结果进行衡量的评价标准,然后对影响实验结果的多种因素进行了实验比较,最后将本实验结果与其他人的方法进行了比较,并在独立测试集上进行了验证。第五章首先是对全文的研究内容作出了总结,分析了文章的创新点和不足之处,最后在此基础上进行了展望。10万方数据武汉科技大学硕士学位论文第2章蛋白质相互作用预测的分类算法21常用机器学习算法211决策树决策树是一种树形结构的分类预测模型,其中“树内部的节点代表对属性的

37、“测试”;相应的,其分支表示该“测试”的类别输出;叶子节点则表示最后的类别标签。从根节点到叶子节点的路径对于某个元组在该决策树上按照固定的分类规则的整个分类过程【37】。一个典型的决策树如图21所示,将代表一个乘客的元组输入决策树,首先测试该乘客的属性“性别”,若是男性,则输出生存,若不是,则进行属性“年龄”的测试,如此向下迭代判断,最终每位乘客都能被预测出是否生存。由于决策树的构造不需要预先设置相应的参数,且相对于其他机器学习方法更加简单、快速,同时也具有较好的预测准确率,已经成为最为广泛流行的归纳推理算法之一,成功的应用于制造、金融、商业等多个应用领域。么005 2图21判断泰坦尼克号乘客

38、是否生存的决策树212朴素贝叶斯朴素贝叶斯分类器是基于贝叶斯定理的简单概率分类器之一【381。假定各个属性之间对类别的影响是相互独立的,朴素贝叶斯分类器关注每个特征独立的贡献元组属于特定类别的概率,而不考虑各个属性之间任何可能的相关性。尽管其天7一 嚣竹2卿g赢么O万方数据武汉科技大学硕士学位论文真的设计和过于简单的假设,朴素贝叶斯分类器在很多复杂的现实情况下仍然表现的十分优秀【391,且只需要少量的训练数据来估计分类所需要的参数。朴素贝叶斯主要被用于文本分类,比如垃圾邮件的鉴别等,目前仍然是该领域较为流行的方法。213支持向量机支持向量机(Support vector machine,SVM

39、)是机器学习中监督学习模型的一种【401,既可以解决分类问题,也可以完成回归任务。对于线性可分的数据,支持向量机将数据映射到合适的特征空间,并在其中寻找一个最优划分超平面,将不同的类别划分开来;对于数据线性不可分的情况,SVM使用一种被称为“核函数”的非线性映射方法,将原始数据变换到更高维的特征空间,使其可分,进而找到其最优划分超平面。图22给出了超平面划分数据的实例,Hl对类别错误划分;H2成功划分类别,但间隔较小;H3也成功划分了类别,且具有最大划分间隔,即是最优划分超平。支持向量机最初被设计用来完成二分类问题,现己能完成多分类问题。支持向量机算法已经广泛应用于生物和其他科学领域,并显示出

40、卓越的性能。司舂i |W、兰。o o、iX1图22划分数据的多个划分超平面22集成学习集成学习是使用多个学习器,并基于某种规则将其整体化的一种机器学习算法。图23显示出集成学习的一般结构:先产生一组“基学习器”(individuallearner),再用某种策略将它们集合起来,作为一个整体来完成特定的学习任务。万方数据武汉科技大学硕士学位论文图23集成学习示意图输出集成学习将多个学习器结合,通常得到的整体模型比单一学习器的泛化性能会更加优越【421。在一般经验中,如果把好坏不等的定西掺到一起,那么通常结果是会比最坏的要好一些,比最好的要坏一些。研究表明,要获得好的集成学习多分类器模型,基学习器

41、要“好而不同”,即基学习器要有一定的“准确性”,预测性能不能太差,且各个基学习器之间要存在“多样性”(diversity),即互相具有一定的差异【431。在具体的学习任务中,由于基学习器是为解决同一个问题训练出来的,它们不是相互独立的,其“准确性”和“多样性”存在冲突;同时,当学习器的准确性很高之后,要增加学习器之间的多样性就需要牺牲其准确性。如何平衡基学习器之间的“多样性”和“准确性”,构建并结合“好而不同”的个体分类器,一直是集成学习的研究重点。221学习器生成按照基学习器的生成方式分类,集成学习方法可以分为两大类:如果基学习器之间存在着依赖关系,必须按照一定的规则迭代生成,代表的有Boo

42、sting算法【删;如果基学习器间不存在依赖关系,可以互相独立的生成,代表的有Bagging算法【451。Boosting算法首先从初始训练集中抽样,训练出一个基学习器,根据基学习器在训练集上的表现对训练样本的分布进行调整,使得上一个基学习器预测错误的样本在下一轮训练中受到更多的关注,然后基于这些被调整后的样本来继续训练下一个基学习器;如此迭代,直到基学习器数目达到预先设定的数值T,最后将这T个基学习器进行加权结合。在大多数情况下,Boosting方法己被证明可以产生比Bagging方法更好的准确性,但它也往往有着更大的可能过拟合训练数据万方数据武汉科技大学硕士学位论文的风险。Bagging是

43、并行式集成学习方法重最为著名的代表,由于其相对于Boosting算法来说相对简单、易于实现,成为在在集成学习中首选的的分类器生成策略。Bagging算法的大概步骤:给定包含m个样本的数据集,基于自助采样法,可采样出T份含m个训练样本的采样集,基于每个采样集相互独立的训练出对应的基学习器,再将这些基学习器按照一定结合策略进行结合。通常情况下,在分类问题上Bagging算法使用简单投票法作为其分类器结合策略,在回归问题上则使用简单平均法作为其分类器结合策略。222结合策略当集成学习中各个基学习器生成后,下一步考虑的便是如何将这些基学习器按照一定的结合策略集成起来。在寻找好的结合策略之前,已经有相关

44、学者对于学习器的结合可能带来的好处做了相应的研究【46】:首先,从单纯的统计学角度来看,一个特定的学习任务的假设空间往往会很大,可能出现多个假设在训练集上拥有同等表现的情况,在这种情况下使用单一的学习器很有可能因为错误的选择导致学习器在真实情况下泛化性能不佳,训练出多个学习器则会降低这种风险;其次,从算法的层面来看,学习算法通常会出现陷入局部极小的问题,甚至该局部极小点恰好对应的泛化性能可能很不理想,通过多次运算后再结合,可以降低这种情况发生的可能性;最后,某些学习任务的真实假设可能不在当前的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,使得相应的假设空间有所扩大,有可能得到更好的近似,图24给出了其直观示意图。下面简单介绍一下最常用的的三种结合策略。蝥 彳一、。k (b)计算的原因图24学习器结合可能带来的三

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁