《基于机器学习算法在数据分类中的应用研究-杨志辉.pdf》由会员分享,可在线阅读,更多相关《基于机器学习算法在数据分类中的应用研究-杨志辉.pdf(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、单位代码:101lO学 号:S14(18034基于机器学习算法在数据分类中的应用研究硕士研究生 扬塞耀指导教师 胡红莲学科专业 数堂 。一2017年6月1日警大M4阳让必节号璞万方数据图书分类号 Q2壁 密级 韭蜜UDC 510硕士学位论文基于机器学习算法在数据分类中的应用研究指导教师(姓名、职称) 塑红莲副夔授申请学位级别 堡堂亟专业名称 熬 堂论文提交日期盟年堕月02日论文答辩日期盟年堕月25日学位授予日期年一月一日论文评阅人 受邋亚垒逢 型副盘缝答辩委员会主席 圭盈当2017年6月1日万方数据原创性声明本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除
2、文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名血查型弛 EtI莓I: 卫12:查:三关于学位论文使用权的说明本人完全了解中北大学有关保管、使用学位论文的规定,其中包括:学校有权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签 名: 莹奎堡 日期: 銎12
3、:鱼:兰导师签名: 垡丝盏 13 1111: 垫!I:垒:三万方数据中北大学学位论文基于机器学习算法在数据分类中的应用研究摘要现实中的很多实际问题都可以转化为数据信息处理中的数据分类问题,例如气象预报、商品推荐、生物信息、网络检测等,而数据信息处理都是以机器学习为基础进行研究的。随着科学技术的发展,机器学习算法的应用领域也变得十分广泛。本文主要介绍了两种机器学习算法:粒子群算法优化支持向量机和卷积神经网络。其中研究了粒子群算法优化支持向量机在树叶分类和癌症基因分类中的预测,卷积神经网络在图像分类中的应用。(1)基于各种树叶的特征构建一个数据预处理模型:先对各种数据进行归一化处理,采用主成分分析
4、方法从16个特征中提取出3个主成分,再建立粒子群算法优化后的支持向量机,用支持向量机对树叶数据进行分类预测。实验结果表明,相对于遗传算法和网格搜索法寻到的最优参数相比,粒子群算法优化支持向量机具有最高的准确率,高达941,高于其他两种分类方法。(2)将粒子群优化的支持向量机模型应用到癌症基因分类中,通过选取多组不同的实验数据对癌症手术后病人的复发和不复发的基因样本进行预测分类。对于三种不同分类方法对于癌症基因分类的不同分类效果,综合实验结果,粒子群优化支持向量机在三种分类方法中达到最好的分类效果。(3)将卷积神经网络应用到图像处理上,通过优化卷积神经网络卷积层和池化层中的滤波器函数,达到了优化
5、性能的作用,再构造一定结构的卷积神经网络,然后将该模型对图像数据集进行分类处理,在对图像进行最后达到预期的分类结果。关键词:树叶分类;支持向量机;粒子群算法;主成分分析法;癌症分类;卷积神经网络万方数据中北大学学位论文万方数据中北大学学位论文Research on Application of Machine Learning Algorithm inData ClassificationAbstractMany practical problems in reality Can be transformed into data classification indata informatio
6、n processing,such as weather forecast,commodity recommendation,biological information,network detection,and data processing are based on machinelearningThe development of science and technology,machine learning algorithmapplications Can also be very broadThis paper mainly introduces two machinelearn
7、ing algorithms:particle swarlYI optimization algorithm to support vectormachines and convolution neural networks(1)Based on the characteristics of various leaves,a data preprocessing model isconstructed:the first part of the paper is used to solve the problem of geneticclassificationThe principal co
8、mponent analysis method WaS used to extract the threeprincipal components from the 1 6 features,and then the support vector machine(SVM)Was optimized by particle swaHn optimizationThe support vector machinewas used to predict the leaf dataThe experimental results show that the particleswarm optimiza
9、tion algorithm is highly accurate and up to 941which is higherthan the other two classification methods,compared with the genetic algorithm andthe grid search method(2)The particle swarm optimization model of support vector machine wasapplied to the classification of cancer genesBy selecting several
10、 differentexperimental data,the different classification effects of three different classificationmethods on cancer gene classification were analyzedAs a result,the particle swarmoptimization support vector machine achieves the best classification effect in the threeclassification methods(3)The conv
11、olution neural network is applied to the image processing,and byoptimizing the convolution of the convolutional neural network and the filter in thepooling layer Function,to optimize the performance of the role,and the number ofparameters to a minimum,and then construct a certain structure of the co
12、nvolution万方数据中北大学学位论文(4)neural network,and then the model of the image data set classificationprocessing,the final image to achieve the desired classification resultsKey words:leaf classification;support vector machine;particle swarmoptimization;principal component analysis;cancer classification;con
13、volution neuralnetwork万方数据中北大学学位论文目 录1绪论111研究背景及意义112国内外研究现状3121支持向量机研究现状3122卷积神经网络研究现状413本文的主要工作与创新点。614本文的结构安排62主成分分析和支持向量机的原理和方法921主成分分析9211主成分分析简介9212主成分分析模型lO213主成分分析基本步骤。1l22支持向量机13221支持向量机介绍13222支持向量机模型1423本章小结163粒子群算法1731粒子群算法。17311粒子群算法介绍17312粒子群算法模型。17313粒子群算法流程。1832粒子群算法优化支持向量机1933本章小结194
14、 PSOSVM模型在树叶分类中的应用2041实验阐述。2042树叶数据介绍。20万方数据中北大学学位论文43属性描述2244实验流程2345实验结果分析24451主成分分析结果24452 PSOSVM实验结果2646本章小结275 PSOSVM模型在癌症基因表达分类中的研究2851实验数据简述2852模型设计。2853三种分类结果的分析比较3054本章小结。316卷积神经网络在图像分类处理中的研究3261卷积神经网络简述3262卷积神经网络的特点与结构32621卷积神经网络的特点33622卷积神经网络的结构336221神经元结构336222卷积层346223池化层35623权值修正3563卷积
15、神经网络在图像分类上的应用36631数据库描述。37632卷积神经网络结构以及参数设置37633实验结果及分析3864本章小结397总结与展望。4071本文研究的主要内容4072本文的不足与展望40IT万方数据中北大学学位论文参考文献攻读硕士学位期间发表的学术论文目录致谢llI万方数据中北大学学位论文IV万方数据中北大学学位论文11研究背景及意义1绪论随着科学技术的发展,机器学习技术也迅速回到人们的视野当中来,机器学习技术为现代社会的许多方面提供了方便:从网络搜索到社交网络上的内容过滤n1,和电子商务网站上的推荐,并且它越来越多地应用在诸如相机和智能手机的消费产品中。机器学习系统用于识别图像中
16、的对象,将语音转换为文本雎3,匹配新闻项目3,具有用户兴趣的帖子或产品,并选择相关的搜索结果。并且这些被称为深度学习的一类机器学习技术,被越来越多地科技单位所推崇,其研究价值可见一斑。机器学习算法的成功通常取决于数据表示,这是因为不同的表示可以或多或少地隐藏数据背后的不同的解释因子。本文主要研究了两种机器学习算法,一种是支持向量机模型,另一个是卷积神经网络模型。从应用方面考虑,本文主要研究了三方面的应用,首先是粒子群算法优化支持向量机在树叶图像中的应用,其次是该模型在癌症基因识别中的应用,最后是卷积神经网络在图像识别中的应用。从研究背景来看,植物作为生物圈的重要组成部分,和人类有着密不可分的关
17、系,从为生物界提供氧气,到装饰大地,固定土壤等都对人们生活的方方面面都起着不可忽视的作用。植物分类学作为植物研究的基础性学科,主要研究整个植物界的不同类群的起源,亲缘关系,以及进化发展规律H1。树叶作为植物的重要器官之一,在植物的研究中起着至关重要的作用,它可以提供植物的很多信息,从树叶的各个特征来识别植物的种类。不同的树叶在纹理,轮廓,颜色,叶脉形状等物理特征上都不尽相同。以此为基础,我们可以直观的以树叶所具有的一些特征为研究对象来分辨识别植物的种类。图卜1是一片鸡爪槭树叶,是本文实验部分所识别的一类树叶。万方数据中北大学学位论文图1-1鸡爪槭树叶在过去,植物的识别工作主要由人力完成,通过研
18、究人员的肉眼观察树叶来鉴别植物的种类,这种工作不仅效率低,时间利用率低,而且对于人力也很是浪费。机器学习的主要工作就是分类预测学习,并且随着科学技术的发展,支持向量机作为机器学习的一种计算方法也应运而生,在实行这项分类工作中,可以通过使用支持向量机来有效的提高工作效率,减少在人工识别中所发生错误的概率。另一项机器学习技术一卷积神经网络,作为深度学习的一个分支,是由多个处理层组成的计算模型瞄3,来学习具有多级抽象的数据,从中提取出各个数据的特征和规律。这些方法已经显着地改进了语音识别畸1,视觉对象识别,对象检测以及许多其它领域(例如药物发现和基因组学)中的技术。卷积神经网络通过使万方数据中北大学
19、学位论文用反向传播算法来指示机器应该如何改变其内部参数来发现大数据集中的复杂结构,而内部参数则通过上一层申的计算来表示下_居中的各级参数。深层卷积网络在处理图像,视频,语音和音频等方面都给人们带来革命性突破口3。12国内外研究现状12。1支持向量机研究现状支持向量机(support vectors machine)是一种监督学习方法,主要用于分析数据、识别模式,对数据的分类分析和回归分析。原始的支持向量机算法是由VladimirVapnik发明的,而当前的标准化是由CorirmaCortes和VladimirVapnik提出的【8】。在机器学习中,支持向量机是具有相关学习算法的监督学习模型,其
20、主要用于对数据的分类分析和回归分析。1 996年,Vladimir Vapnik,Harris Dmcker,Chris Burges,Linda Kaufman和Alex Smola提出了一个用于回归分析的方法,这种方法被称为支持向量回归(S乇)9】。支持向量分类产生的模型准确度,取决于训练数据的子集,因为用于构建模型的成本函数忽略掉位于边缘之外的训练点。 类似地,由支持向量回归产生的分类模型仅依赖于训练集的子集,因为用于构建模型的成本函数忽略接近模型预测的任何训练数据。 此外,还有在Suykens和Vandewalle提出的称为最小二乘支持向量机(LSsVM)的支持向量机的最小二乘版本。支
21、持向量机作为在神经网络之后一大机器学习算法,克服了神经网络模型的许多缺陷,具有很高的实用意义。到20世纪90年代,支持向量机在投入实际应用中,解决了许多问题,表现出很强的泛化能力。相比与支持向量机理论的发展,支持向量机的应用发展要落后一些,由于理论发展缺乏应用于实际,故实际中支持向量机的优势不是很明显,主要约束于支持向量机较低的运算效率。由于支持向量机对时间的需求比较大,训练时间比较长,而且训练样本的数量对支持向量机的影响较大,所以在现实应用中支持向量机应用效率很低口。现阶段,针对支持向量机的各类优化算法也相继提出,其主要侧重点有以下几个角度:改进训练参数,提高训练速度,应用不同的核函数。现阶
22、段,在国内方面,随着支持向量机的不断发展,已经投入到了许多领域,包括在音频识别方面的韩纪庆、李海峰、郑铁然提出的基于HMMSvM两级结构的万方数据中北大学学位论文汉语易混淆语音识别“,朱文静发表的人工鱼群算法优化的SVd在语音识别中的应用“引;在数据挖掘方面,张兴旺提出的基于SVM的分类挖掘算法及其应用“,张金会发表的基于支持向量机的智能数据挖掘算法研究n“,初光磊发表的SVM在数据挖掘中的应用“引。在国外方面,近年来,基于机器学习算法,对模型精度提高的问题非常重视。因此,研究了多个支持向量机的关联机制和创建分类器集合,用以提高应用任务解决方案的可行度。支持向量机集合的学习是基于单个支持向量机
23、的最终集合的训练过程,然后将其单独的最优解组合,以决定所得到的分类。Hugo Hidalgo提出确定地球的层状结构需求的各种逆问题的解决方案n胡:在低感应数字电磁探测的情况下,用于测量可被表示为一个线性函数的电导率分布。在这项工作中,用支持向量机技术来呈现电磁数据。Mahesh Pa提出结合CPT和SPT场数据集一起使用的支持向量机n引,其主要用于基于不同的输入参数预测液化的组合的发生概率。Huzefa Rangwala提出基于支持向量机监督学习检测蛋白质远程同源性算法n 71,这是计算生物学的中心问题,是目前最有效的方法用于远程检测的同源性方法之一。122卷积神经网络研究现状卷积神经网络作为
24、一种典型的深度学习,其是一种数据处理方法,其允许给机器馈送原始数据并且自动发现检测或分类所需的表示。卷积神经网络方法是通过组合简单但非线性的模块,获得具有多级表示的学习方法,每个模块将一层网络(从原始输入开始)连接到更高,稍微更高级别的网络类型。通过足够多的这样的连接的组合,可以学习非常复杂的规律。在国外方面,卷积神经网络在解决已经抵抗人工智能通信多年的最佳尝试的问题方面取得了重大进展。除了拍摄图像识别和语音识别中的记录之外,它还在预测潜在药物分子的活性n 8。,分析粒子加速器数据,重建脑回路,以及预测非突变的影响n引,并且击败其他机器学习技术编码DNA对基因表达和疾病的预测准确度。并且,卷积
25、神经网络已经完成自然语言理解中的各种任务,特别是主题分类,情感分析,问题回答和语言翻译心,对自然语言产生了非常有前途的结果。从最开始的LeCun所研究额辨别手写字符识别晗“,由于其极高的准确度,曾4万方数据中北大学学位论文一度广泛地应用到了美国支票市场。卷积神经网络因为其初始输入可以直接是图像,从而不需要对图像进行转化,并且识别效果非常好。另外,卷积神经网络在其他方面也广泛应用,自21世纪初以来,卷积神经网络已经成功应用于图像中对象和区域的检测,分割和识别。 这些都是标记数据相对冗余的任务,例如交通标志识别,特别是用于连锁组织的生物图像的分割,以及在自然图像中检测面部,文本,行人和人体【22】
26、。 卷积神经网络最近的一个实际成功是面部识别晗。2016年3月15日下午,在众多科学家见证下,谷歌旗下“DeepMind”公司由戴维西尔弗、艾佳黄和戴密斯哈萨比斯发明的围棋人工智能AlphaGo在赢三局输一局的情况下,与韩国著名棋手李世石进行了前所未有的最后一场比赛。在经过数个小时的对弈,AlphaGo成功战胜李世石,获得了比赛胜利,以4:1的比分战胜李世石。AlphaGo利用价值网络来根据自我评估确定棋盘的位置引,再用策略方法来选择所要下棋的整体步法,这两种网络模型都是深层学习模型,AlphaGo所取得的成果是依靠卷积神经网络而来的人工智能的又一次巨大突破,这也充分证明了卷积神经网络所具有的
27、很强大的学习潜力。图卜2“DeepMind”公司旗下的人工智能AlphaGo在国内方面,卷积神经网络也应用到了多种领域。赵志宏, 杨绍普, 马增强等人将卷积神经网络LeNet一5应用到车牌的识别上3,相比传统的识别算法,准确度有所提高。徐姗姗,刘应安,徐异将卷积神经网络应用到木材缺陷识别嘶:中,通过渐近式学-3成功缩短训练网络所需要的时间。在人脸识别方面,顾佳玲,万方数据中北大学学位论文彭宏京将增长式卷积神经网络应用到人脸检测中,也达到了很高的识别率瞳7。2 8I。13本文的主要工作与创新点本文主要研究了机器学习中的两种主要算法:支持向量机和卷积神经网络。在此基础上研究了两种支持向量机的优化算
28、法:粒子群算法和遗传算法。本文主要通过研究这几种算法,构造数据处理模型,通过粒子群算法优化后的支持向量机模型对树叶数据进行分类处理,以及对癌症基因表达数据预测,最后用卷积神经网络对图像进行分类。首先提出一种树叶分类方法,主要通过提取树叶的各种特征,构建一种机器学习模型对树叶进行分类操作。对树叶的研究主要是做出两方面的工作,一方面基于各种树叶的特征构建一个预处理数据模型,前期先对各种数据进行归一化处理,降低数据维度,简化运算难度,后期建立粒子群算法优化后的支持向量机。另一方面,将树叶特征输入支持向量机进行训练和预测,得到准确率。最后对比遗传算法优化后的支持向量机和粒子群算法优化后的支持向量机,得
29、到最优结果。然后将模型应用到癌症基因分类中,研究主要集中在对于三种不同分类方法对于癌症基因分类的不同分类效果,通过选取多组不同的实验数据对癌症手术后病人的复发和不复发的基因样本进行预测分类,综合实验结果,粒子群优化支持向量机在三种分类方法中达到最好的分类效果。最后卷积神经网络为模型,该卷积神经网络卷积层和池化层中的滤波器大小都经过优化,达到了性能最优化,再将该模型对图像数据集进行分类处理,最后达到很好的分类结果。本文主要有以下几点创新:(1)在前人提出的粒子群优化支持向量机模型基础上,对现有树叶数据集进行分类;(2)利用提出的模型,对癌症基因进行预测,达到较高的准确度;(3)在卷积神经网络的优
30、化上,对比三种不同的池化函数对卷积神经网络的分类效果,选出最优方法。14本文的结构安排万方数据中北大学学位论文本文总体研究了两种针对数据处理的机器学习模型,以将粒子群优化支持向量机模型应用到对树叶数据的分类和癌症基因表达为研究课题一,以将优化的卷积神经网络对图像数据集的分类为研究课题二。全文共划分为七章,各章的主要结构安排如下:第一章:绪论。主要讨论了本论文的研究背景和意义,并详细阐述分析了两种机器学习算法在国内外的研究现状,概括了论文的主要研究内容并列出论文的结构安排。第二章:主成分分析和支持向量机的原理和方法。主要介绍了本文的研究使用到的理论基础,即PCA和SVM算法的原理和基本思想,同时
31、详细阐述了两种方法的网络结构及算法步骤,并具体说明这两种方法的主要的应用领域。因此,根据以上几种方法所介绍的基本原理和算法的特点,对下文的研究奠定了一定的理论基础。第三章:粒子群算法与遗传算法优化支持向量机。本章主要针对支持向量机的两种优化方法,粒子群算法和遗传算法,做出原理解释和理论阐述,通过研究两种不同方法从整体思想到具体实现过程,给后期建立实验模型,解决实际问题打下基础。第四章:粒子群算法优化支持向量机在树叶分类中的应用。本章以对树叶进行分类预测作为背景,综合树叶的形态特征和纹理特征,对树叶进行分类预测,使用的主要方法是,通过主成分分析和粒子群算法优化支持向量机建立数据处理模型,分类精确
32、度为941176,说明该方法可以对树叶进行高精度的预测,优于其他的分类算法。第五章:粒子群算法优化支持向量机模型在癌症基因表达分类中的研究。采用BP、遗传算法优化支持向量机、粒子群算法优化支持向量机三种方法对膀胱癌II期肿瘤患者复发进行分类识别,将BP、遗传算法优化支持向量机、粒子群算法优化支持向量机三种方法在膀胱癌II期肿瘤患者基因表达数据的复发率的预测结果进行对比结果表明,粒子群算法优化支持向量机方法的分类效果较优于其它两种方法。第六章:卷积神经网络的优化及在图像识别中的应用。本章主要详细介绍了另一类机器学习算法一卷积神经网络。首先详述了卷积神经网络的理论基础,包万方数据中北大学学位论文括
33、卷积神经网络的特点、结构和误差反向传播来对权值的修正,然后构建了一个卷积神经网络模型,通过改变不同的池化函数来观察最后的分类结果,最后得出结论,最大池化函数具有最佳的分类效果。第七章:总结和展望。对本文所研究的两种机器学习算法进行总结,提出在对数据进行训练的过程中,数据处理耗时相对较长,需要开发寻找一个优化支持向量机的算法,同时兼顾很高的准确度和相对较短的训练时间。万方数据中北大学学位论文2主成分分析和支持向量机的原理和方法21主成分分析211主成分分析简介主成分分析(PCA)的思想最早是由皮尔森在1901年提出的。但是,其早期主要思想是基于物理学家和数学家所开发出来的方法,即提取特征向量分析
34、的方法。事实上,一些学校的数学教学大纲早期就教授了与现代化学相关的矩阵的想法。早期的物理学方法的描述是由Cauchy在1829年提出的29。据称,化学文献中对PCA最早的非特异性引用是在1878年,论文的作者几乎肯定没有意识到其理论所具有的这种潜力,只是主要处理一个简单的线性校准问题。在20世纪30年代和20世纪40年代Hotelling发表一篇论文,主要在心理测量时使用多变量方法,其主要思想如下图21所示,将包含语言和数字能力通过一种方法简化为少数几个心理学因素作用的结果30】。如BweH to qs由n5People迅扩图21原始PCA降维图Fact01$+在过去的几十年里,一些生物学家,
35、地质学家和化学家,都开始关注这种方法。在化学界内,PCA的第一个主要应用在20世纪70年代被提出的,并且现在是许多现代化学计量学方法的基础。随后由一名数学家应用到数学中,并渐渐被广泛应用开来31。万方数据中北大学学位论文PCA的具体思想可由下图22表示。图22 PCA降维不意图原来的原始坐标系通过变换,过渡成U,和“:,极大程度地反映了原始数据的信息。主成分分析作为一种数据降维算法,能够极大提升无监督特征学习速度。主成分分析算法能够将维度降低,克服某种单一的指标不能反映数据信息,大量指标虽然能反映充分多的原始信息但是容易造成信息冗余。主成分分析算法就是将复杂的原始信息转化成为少量的数据信息,而
36、且,这些少量的数据信息还能够最大程度的反映原始数据的数据信息。212主成分分析模型设x为数据矩阵,它的每一行表示一个观测值,每一列表示一个变量指标,其中变量五,五,巧有P个。则这些变量的线性组合如式(21)所示。万方数据中北大学学位论文2a11五+q2j,2+qp义0K=口:,五+口丝五+响:,_ (21)匕=口p1墨+口,2五+口即乃其中,得到P指个综合指标X,艺,匕,则上述矩阵变换需满足以下条件:单位向量为所有的系数向量aj=(c7il口一,口驷),即q=1,满足萄+,(f=1,2,p);Z与弓(ij;i,J=1,2,p)之间没有关系;墨是五,五,x,是的所有线性组合(满足条件(1)中的方
37、差最大,E与X互不相关,在与墨,五,x,的所有线性组合中,K是最大的主成份;匕与墨,墨,巧一。互不相关,在与X1,五,以所有线性组合中,巧是最大的主成份。由以上条件我们依次求出第一主成分。第二主成分,第m主成分;若选前m个主成分来替代原始的p个自变量(m0,其中相对应的单位特征向量为q,q,ap,则第f个主成分为=班,第i个主成分的方差为丑,i=l,2,P;Step3:最后计算其中每个主成分的方差贡献率:A舻i,待1,22,p(22)乃一-1。p 每个主成分方差贡献率的大小反映着该成分包含原始信息量的大小。主成分对信患量大小的表示是依次减弱的。最后再对前M个主成分的方差累计方差贡万方数据中北大
38、学学位论文献率进行计算:4矿。=等一,聊1,i=1,对于很多实际问题,数据不一定完全线性可分,因此在式25的基础上引入松弛变量和惩罚系数41,经过Lagrange变换后可转化为以下优化问题:max一去叩J彬,#_i=l ij=ist0口fC (26)a,Y;=o (i=1,卅)通过上式求解得出ai,再由w=aiY,x,求出w。对于这个优化问题中,其中有一部分口,不为0,则所对应的训练集样本即为支持向量。通过未知类别属性的向量,我们可以采用以下判决函数进行判别:s(D=s盟(wex+b)=s印(喜口珙k工)+6 (27)对于线性不可分的样本数据集,采用了一个非线性映射将原始输入数据在多维特征空间
39、上有映射,使得在特征空间上构造最优分类超平面一:。在多维的特征空间中,即便维数较高,我们可以只需考虑运算多维空间中点积的运算。因此,在对多维空间映射函数不必进行明确运算,只需将核函数Kk,x)=(中b),G)代入26式,即是非线性支持向量机的判决函数,判决函数如下:,月 、厂(x)=sgnla,YiK(xi,x)+6 (28)万方数据中北大学学位论文23本章小结本章主要介绍了本文的研究使用到的理论基础,即PCA和支持向量机算法的原理和基本思想,同时详细阐述了两种方法的网络结构及算法步骤,并具体说明这两种方法的主要的应用领域。因此,根据以上几种方法所介绍的基本原理和算法的特点,对下文的研究奠定了
40、一定的理论基础。万方数据中北大学学位论文31粒子群算法311粒子群算法介绍3粒子群算法通过对神经科学,认知心理学,社会学和行为科学的研究,群体智能的概念作为一种创新的集体和分布式智能范式,来解决实际问题。1989年粒子群算法被引入计算和人工智能领域,其大多应用在优化领域。群算法的概念灵感来自社会动物,如鸟,鱼,蚂蚁,蜜蜂和白蚁的集体行为(43】。群体是一群同质的,简单的个体组合,执行相当普通的任务,并且它们和它们的环境相互作用,没有中央控制:集体行为作为自组织和局部相互作用的结果而出现。实际上,虽然这些群体个体相对不复杂,并且自身能力有限,但是通过信息共享的行为和交互模式提供了实现解决问题的最
41、终目标的能力。因此,基于群体的算法最近已经成为一族由自然启发的算法,其有低成本,快速等的优点。自然启发的基于群体的算法由于其优越性,优于多年来广泛使用的方法,例如遗传算法或模拟退火。粒子群优化的灵感来自在鸟群和鱼群中观察到的信息循环和社会行为,它是一种全局优化算法,特别适合于解决一些特殊问题,其中最优解是多维空间中的一个点。因为每个粒子的运动不仅受其自己的记忆的影响,而且还指向由其他代理找到的最佳位置,它们是粒子或整个群的子集441。PSO算法已经在计算机科学和应用数学的许多领域中发现了广泛的应用,例如神经网络权重的计算,时间序列分析等等。312粒子群算法模型粒子群优化算法是基于群体性活动的一
42、种智能寻优算法,它源于鸟群捕食行为的研究。PSO算法是根据对环境的适应度将群体中的个体移动到好的区域,它将每个个体看作是D维搜索空间中的一个没有体积的粒子(点),在搜索空间中以一定的速度飞行,这个速度根据它本身的飞行经验和同伴的飞行经验来动态调整。第i个粒子表示为五=(葺1,薯2嘞) (31)万方数据中北大学学位论文它经历过的最好位置(有最好的适应度值)记为P=(只,只:砌) (32)也称为,。在群体所有粒子经历过的最好位置的索引号用符号g表示,即名,也称为g胁。粒子i的速度表示为=(v。,v:) (33)对每一代,粒子的速度中第d维(1dD)根据如下方程进行变化:2W。+clrandl0。(
43、Pid一勃)+c2。朋,z畋()(踟一嘞) (34)群体中粒子的位置更新方程如下嘞2x,d+ (35)其中w为惯性权重,cl和c2为加速常数,randl()7阳rand2()为两个在o,1范围里变化的随机值45】。其行为概念图如31所示,通过赋予每个粒子不同的方向和速度来寻找全局最优解,即Global Best Solution。“ fjlt、h:1|feslS;1l!iot313粒子群算法流程算法的流程如下46:J6 I)PSO行为概念图万方数据中北大学学位论文初始化粒子群,包括群体规模N,每个粒子的位置,和速度五计算每个粒子的适应度值Ff珥一对每个粒子,用它的适应度值R【i和个体极值,比较
44、,如果Ff气f】,则用凡1f】替换掉;对每个粒子,用它的适应度值只1n和全局极值,比较,如果Ff钿g妇,则用FtE】替换掉岛。,;粒子群算法优化支持向量机粒子群算法优化支持向量机主要是通过粒子群算法中初始粒子位置确定支持向量机t贝,r化参数C和核参数艿,以此初始化构建支持向量机,通过支持向量机对数据集进行处理,通过公式(34)和公式(35)对粒子群的位置,速度,和当前粒子的最佳位置进行更新,更新后再将这些参数回归到粒子群算法中,再次优化持向量机正则化参数C和核参数万,这样就又构成了新的支持向量机,如此循环往复,直到达到迭代回合数或寻找到最优参数,从而输出支持向量机。33本章小结本章主要针对支持向量机的两种优化方法,粒子群算法和遗传算法,做出原理解释和理论阐述,研究两种不同方法从整体思想到具体实现过程,并且分别构建了粒子群算法优化支持向量机模型(PSO