《基于特征选择的数据降维算法研究-余大龙.pdf》由会员分享,可在线阅读,更多相关《基于特征选择的数据降维算法研究-余大龙.pdf(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、害氆吠孽硕士学位论文密 级保密期限基于特征选择的数据降维算法研究Research on Data Dimension Reduction AlgorithmBased on Feature Selection学 号姓 名学位类别学科专业(工程领域)指导教师完成时间答辩委员会主席签名P14201102余大龙工学硕士信号与信息处理唐俊教授2017年5月万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与
2、我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: A呔砬 签字日期: 矽,7年 岁月 秽日学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名: A呔砬 导师签名:秀发签字日期:矽,、7年 夕月 秽 日 签字曰期:矽,、7年岁月 矽 日万方数据摘要计算机技术的飞速发展使
3、得我们所获得的信息呈现爆炸式的增长,有调查显示,人类近半个世纪以来获得的数据量是以往漫长人类历史上获得数据的总和,我们正处在大数据的包围之中。这些数据通常都是高维的,数据维度的膨胀为后续的计算任务带来了巨大的负担,将会导致维数灾难。为了有效地从这些数据中获得有价值的信息,特征选择和数据降维等一系列机器学习算法便应运而生,并且逐渐成为研究热点之一。数据降维方法的基本思路:在输入空间中对样本数据进行某种变换操作,将高维样本数据映射到低维空间中,最终在低维度空间得到关于原数据空间的低维表示。目前,数据降维己成为机器学习、数据挖掘、人工智能以及计算机视觉中的重要方法。本文在ReliefF特征选择算法的
4、基础上,融合了两种不同的数据降维算法和子模优化的性质,研究了基于特征选择的数据降维算法在文本和图像特征选取中的应用。本论文研究的主要内容和创新点:(1)提出了基于PCAICA和ReliefF相结合的用于人脸图像特征选取的方法。考虑到PCA算法不能保留人脸图像的高阶信息的缺点,本文在对人脸图像处理中,先使用ReliefF算法进行最优特征子集选择,经过PCA降维,再应用ICA对降维之后的数据进行处理,并将两次数据降维算法操作后的图像特征集合送入到分类器进行训练,最终的实验结果证明选取的特征子集用于图像的分类效果比ASU上提供的特征选择算法提取的特征子集效果较好。(2)提出了基于子模优化的特征选择方
5、法用于文本特征选取。首先将文本特征集进行预处理,然后利用子模函数最大化求解的性质,通过贪心算法选出最终的特征子集用来做分类训练,最终的实验结果证明该特征子集用于文本特征提取效果比ASU上提供的特征选择算法提取的特征子集效果较好。关键词:特征选择;ReliefF算法;子模优化;图像分类万方数据AbstractThe rapid development of computer technology has led to an explosive growth ininformation we obtainA survey shows that the amount of data acquired
6、 by humansover the past half century is the SUlTI of the data obtained in the past long history ofhuman beingsWe are surrounded by big dataThese data are usuallyK曲一dimensional,the expansion of data dimensionality has brought a huge burden forthe subsequent calculation task,leading to curse of dimens
7、ionalityTo obtain valuableinformation from data,feature selection and data dimensionality reduction become oneof the hotspotsThe basic idea of data dimensionality reduction methods is totransform high-dimensional samples in input space into low-dimensional space,andfinally get the low-dimensional re
8、presentation of original data in the low-dimensionalspaceAt present,data dimensionality reduction has become an important method inmachine learning,data mining,artificial intelligence and computer visionBased on the ReliefF feature selection algorithm,this thesis combines twodi艉rent data reduction a
9、lgorithms and the properties of submodular optimization,andstudies the application of featurebased data dimension reduction algorithm in text andimage feature selection刀始main content and innovation of this thesis:(1)The method of feature selection based on PCA-ICA and ReliefF for faceimage feature s
10、election is proposedConsidering the shortcomings of PCA algorithmCall not preserve the highorder information of face images,in face image processing,the RetiefF algorithm is firstly used to select the optimal feature subsetAfter PCA isreduced,ICA is used to process the data after dimensionality redu
11、ctionAnd the imagefeature set after the operation of the two data reduction algorithm is sent to theclassifier for trainingThe final experimental results show that the selected imagefeature subset used for the classification is better than the feature selection algorithmprovided on the ASU(2)A featu
12、re selection method based on submodular optimization is proposed fortext feature selectionFirstly,the text feature set is preprocessed,and then theproperties of the solution are maximized by the submodular functionThe final featuresubset is selected by the greedy algorithmThe final experimental resu
13、lt proves that thefeature subset used for text feature extraction is better than the feature subset extracted万方数据by the feature selection algorithm provided on the ASUKeywords:Feature Selection;ReliefF Algorithm;Submodular Optimization;ImageclassificationIII万方数据目录第一章绪论l11研究背景及意义112数据降维的含义2121降维技术概述2
14、122降维算法分类3123降维中的特征选择413本文研究的内容和组织结构5第二章特征选择和数据降维算法721特征选择的概念72。11特征选择的概述7212特征的相关性822特征选择算法。9221过滤法(Filter Methods)10222封装法(Wrapper Methods)10223嵌入法(Embedded Methods)1123数据降维算法13231主成分分析(PCA)13232独立成分分析(ICA)1424本章小结15第三章基于改进的特征选择算法的图像特征提取。1631引言1632 PCA和ICA在人脸图像分类中的应用1733 ReliefF特征选择算法1 834系统组成2034
15、1基于PCAICA改进的特征选择算法21341 SVM分类器2235实验与分析24351实验数据集24352实验结果及分析2535本章小结29第四章基于子模优化的文本特征选取304。1引言30lV万方数据42子模函数3 1421子模函数的定义一31422子模函数的优化3 143文本特征提取。32431文本特征的表示32432图的邻接矩阵33433子模方法的特征提取3444实验与分析36441实验数据集36442基于ReliefF算法的数据预处理36443实验步骤。38444实验结果与分析3845本章小结41第五章总结与展望4251论文总结4252研究展望43参考文献44致谢49攻读硕士研究生期
16、间参与的科研项目50V万方数据安徽大学硕士学位论文 绪论11研究背景及意义第一章绪论近半个世纪以来,计算机和智能化设备的快速发展,给人们的生活带来了极大丰富。与此同时,随着现代化采集技术日趋成熟,人们获取和收集数据的能力得到了极大的提高。大量的数据使人们更加清晰的认识我们所处的客观世界,但也给数据处理带来了更多的难题。在模式识别、文档检测、图像处理、机器学习、农业大数据等领域大量数据被产生,这些丰富的数据为技术的再发展提供了支撑,但数据维度增加将会导致“维数灾难”问题。“维数灾难是指在给定精度下,要准确的对某些变量的函数进行估计,所需样本会随着样本维数的增加而呈现指数形式增长【21。下面简单给
17、出机器学习中在图像和文本处理中所遇到的高维数据的例子:a)图像处理:随着计算机技术的发展,我们获取的图像的分辨率越来越高,大量的图像数据存储和处理给我们带来了难题。例如,我们对一个256*256大小的图像进行处理,若将单幅图像比作图像处理中的一个点,那么该点的维度就高达65536维,随着图像分辨率的增大,我们获得的图像维度将会更大。如若对成千上万张这样的图片进行处理,对计算机的硬件存储和运行速度提出了更高的要求,同时目前算法性能将会下降。b)文本数据:在信息检索领域,一般文档中的信息被表示成向量空间中的一个特征词向量【3】,特征词向量中的每个元素通过一种打分机制,通过获得分数的高低来决定元素对
18、文档的贡献率。在现实世界中,我们每天都产生大量的文本数据用来记录生产与生活,对于一个普通中等程度的文档集表示文档特征词的向量就高达数十万,也就是说,用来表示的向量维度就达到了几十万维度。这种高维度数据对我们来说并非是有意义的,而且主流的机器学习方法也是无法有效处理如此高维的数据。高维度的数据给机器学习和模式识别以及相关领域研究带来了巨大的挑战,如何有效对这些高维数据进行利用处理依旧是一大难题。“信息丰富,知识匮乏”【4】正是我们目前所面临的问题,我们有大量的数据,而我们却很难有效的从中提取关键的信息。因此,如何对丰富的数据资源进行有效的分析,在保持数据信息万方数据安徽大学硕士学位论文 基于特征
19、选择的数据降维算法研究足够完整的前提下从海量数据集中提取有效而又合理的约简数据已经成为目前研究人员亟待解决的问题。高维数据通常具有稀疏性,由实验经验我们可知并非所有的高维数据属性都是重要的,有意义的,数据降维方法便应运而生。低维数据与高维数据相比,在某些方面具有不同的特性。因此,在对高维数据进行处理之前,我们需要采用降维方法对高维度的数据进行降维,获得空间上较低的数据维度,然后基于低维度空间再对数据进行处理,从而可以有效的提高实验效率。在降低数据维度的同时,保证其中包含的主要信息是相似的(即保证有效信息最大化)。数据降维的意义包括以下几个方面:获取原数据的本质特征,去除无用噪声,降低了数据维度
20、从而克服维数灾难,对存储空间更能进行有效的应用。目前,数据降维算法主要应用在文档分类【5】,图像处理,人脸检澳jt6j,数据挖掘,基因序列检测,工业检测等领域。许多学者和研究人员在SCI和著名的期刊上发布了很多种关于数据降维方法的应用12,13171。12数据降维的含义121降维技术概述 一在机器学习和模式识别中,我们经常对大量的数据进行处理。由上节概述可知,目前这些数据都是高维度数据。如果我们不经过任何操作直接对这些数据进行处理,我们将会面临维数灾难(Curse of Dimensionality)和“集中现象【7】”(Concentration Phenomenon),“集中现象”揭露了样
21、本数据点之间距离的度量可区分性随着样本数据维度的增加反而减弱。如果直接对这些高维数据进行处理,因为这些复杂的维度信息并没有反映出数据的本质特征,我们就不会得到理想的实验效果。图1-1是采自维基百科中关于维数灾难的含义。根据图示,我们可知,随着特征维度的增加,实验最终的分类精度反而会大幅度降低。因此,首先对高维数据进行降维处理就显得尤为必要。先对高维数据进行降维处理,然后再在低维度上对数据进行操作。2万方数据安徽大学硕士学位论文 绪论O厂I:Optimal number of features图1-1维数灾难的定义(图像来自维基百科)Fig11 Meaning ofCurse ofDimensi
22、onality(Image from Wikipedia)如何从高维数据中发现存在于其中的对我们有用的关键信息给人们提出了挑战。降维的意义也即是通过寻求数据的低维表示,能够尽可能的发现隐藏在高维数据中的规律和特征之间的相互关联信息,使我们更好的理解数据。数据降维具有以下意义【8】:a)进行数据压缩,减少数据存储所需空间;b)去除特征中噪声的影响;C)从数据中提取特征以便于看清数据的分布;d)维度减少同时带来的是计算量的减少,从而减少计算所需时间;e)去除了不必要的冗余特征,提高模型性能。数据降维技术最经典的应用是在模式识别和机器学习问题中,进行关键信息的特征选择对于获得更好的分类和回归效果是有
23、提高的。在对高维度的文本和图像数据处理过程中,对数据进行预处理降维是很有效的步骤,进行降维处理可以对高维数据进行空间压缩,从中提取有效的关键特征,从而去除冗余特征和减小噪声对实验结果的影响,如论文【6】中应用数据降维对人脸识别的效果就非常好。122降维算法分类数据降维是根据数据统计等信息寻找合适的几何表征,用低维度来表示数据。近年来,有众多的数据降维算法被提出【ll】【18271,为了方便研究,我们将这些降维算法按不同的分类标准进行分类。从变量的使用类型我们将其分为线性降维算法心。互博差D啊塞-霉l|一蚺伪墙一。万方数据安徽大学硕士学位论文 基于特征选择的数据降维算法研究和非线性降维算法;从数
24、据样本中类别信息存在与否,我们将其分为监督降维方法和非监督降维方法,在降维的同时使信息的损失最小是非监督降维方法的目标;从几何结构信息的保留程度我们将其分为局部降维方法和全局降维方法。本文采用是按变量的使用类型来对数据降维算法进行研究,即将数据降维算法分为线性降维和非线性降维两种。其中线性降维方法主要包括主成分分析(Principal Component Analysis,PCA)t91、独立成分分析(Independent ComponentsAnalysis)、线性判别分析(Linear Discriminant Analysis,LDA)【10】、局部保留投影(Local Preserv
25、ing Projection,LPP)“】、局部特征分析(LFA);非线性降维包括两种,一类是基于核的,如核主成分分析(IOCA)、基于核函数独立成分(KICA);另一类是流行学习相关方法,其思路是从高维采样数据中恢复出低维流行结构,即从高维空间中找出低维流行,并求出相应的嵌入映射,其主要方法包括:等距映射(Isomap)、局部线性嵌入(LLE)、拉普拉斯特征映射(LE)、大方差展开(MaximumVariance Unfolding,MV)等。具体的数据降维算法分类方法如下图12所示:基于核核主成分分析PCA非线性数据降维 ,等距映射l基于流行 s。MAP学习l、大方差展开MVU图1-2数据
26、降维算法分类Fig1-2 The classification of Dimensionality reduction methods123降维中的特征选择在模式识别和数据挖掘过程中,高维数据的处理是很让人头疼的问题。尤其是在文本处理、图像处理以及医学癌症基因检测中,过高的维度使很多模型无法正常工作或效率变低,所以降维是数据预处理过程中一项必要手段。降维大致可以分为两种:一种是从原始数据维度中提取出新的维度,即特征提取FeatureExtraction),对已有的特征集合进行高维映射到低维变换得到,其主要方法有主成4万方数据安徽大学硕士学位论文 绪论分分析或独立主元分析。另一种是从原始数据维度
27、中挑选出一些分类性能良好且较具代表性的特征子集,也称为特征选择(Feature Selection)【12】。特征选择算法本质上是继承了OccamS Razor的思想,即从一组特征中选出一些使模型的预测和分类能力更优且包含关键信息的特征,。特征选择能从特征集合中剔除冗余(Redundant)或者不相关(Irrelevant)的特征,进而降低了数据维度,达到优化运行时间的目槲。特征选择主要有两大优势:a)减少特征数量,对数据进行降维,避免过度拟合,使模型的泛化能力更强;b)易lj除不相关的特征,增强对特征和特征值之间的理解,使模型学习速度更快,效率更高。13本文研究的内容和组织结构本文使用结合特
28、征选择与数据降维算法的方法对图像特征进行提取,引入子模优化的性质来提取文本特征,详细的分析了不同的方法及其主要操作步骤,最后通过实验来验证算法的有效性,对实验结果进行分析与论证讨论,并指出了论文方法中不完善的地方以及今后科研努力的方向。本文的组织结构总共分为五个章节,具体安排如下:第一章:绪论本章简单扼要的介绍了大数据背景下数据降维的意义以及数据降维算法分类,介绍了降维中特征选择的优势和特点。第二章:特征选择和数据降维算法简介本章首先介绍了特征选择算法概念。对传统的特征选择算法进行了系统的介绍,列出了不同分类算法的优缺点并简单做了对比。介绍了经典的数据降维中主成分分析(PCA)算法和独立元分析
29、(ICA)算法,并对算法做了总结。第三章:改进的特征选择算法在图像处理中的应用本章提出了改进的特征选择算法应用于图像处理中。在分析了图像特征的特点和两种数据降维算法在图像的应用之后,结合ReliefF特征选择的方法,提出在ICA算法对图像处理之前先进行PCA降维。实验中采用SVM分类器进行分类实验,对比实验结果表明,本文提出的算法在图像特征数据集上得到的最终特征子集能够很好的表征图像属性,实现了较高的分类准确度。万方数据安徽大学硕士学位论文 基于特征选择的数据降维算法研究第四章:基于子模优化的文本特征提取本章将子模优化理论引入到文本特征提取中。分析了子模优化具有的一系列优良性质,并简单介绍了无
30、向图的生成。文中对文本特征的提取主要分为两个步骤,首先通过RelietF算法对文本特征进行预处理,去除不相干特征干扰,再利用子模函数最大化的性质,使用贪心算法求得最优解,子模优化选出最终的最优特征子集送入分类器进行训练。实验中采用SVM分类器进行分类实验,最后实验结果显示本章提出的算法具有一定的分类精度的提高,验证了提出算法的有效性。第五章:总结与展望本章对本文所做的研究工作内容进行了总结,分析了本文提出算法在图像和文本中的应用的优势和不足,并对未来的科研工作方向进行了展望。6万方数据安徽大学硕士学位论文 特征选择和数据降维算法第二章特征选择和数据降维算法特征选择(Feature Select
31、ion)是数据降维中常用的手段,它与特征提取(FeatureExtraction)两者是构成数据降维的两种主要方式,特征选择是机器学习与模式识别领域的研究热点之一。特征选择即是寻找最具代表的特征子集的过程,特征选择有利于降低数据空间复杂度从而使得计算机处理时间减少,还可以提高学习模型的准确性和普适性。本章简单的介绍了几种常用特征选择方法以及常见的几种数据降维方法。21特征选择的概念特征选择(Feature Selection)也称特征子集选择(Feature Subset Selection)或属性选择(Attribute Selection),指从全部特征中选取一个特征子集,为后续算法提供更
32、优的模型13】。特征选择简单的来说,就是在依据某些评估准则下,从样本特征集合中选取合适的子集或者对原有变量集合进行某些操作使生成新的特征加入到最优特征子集合中。211特征选择的概述特征选择实质上是一个组合优化的问题,其基本思想是通过选取一组最优特征子集来达到维数约简的目的,即从维度为D的特征集合中选出_组维度为d(JD)最优特征【11。由于多个不同特征之间存在一定的相互关系,要想从在D维特征中选出d维特征来表征数据,根据概率论知识我们可知,有Num:c:型一种可能的组合。在实际应用中,我们当然不可能把所有的 “ (Dd)!奉d!组合特征算出来比较优劣,这种计算量并不是我们所能接受的。例如,在图
33、像处理中,对于一幅256x256图像,如若想用低维度的特征来表征图片,计算量是相当大的。因此,寻找有效的特征选择算法就显得尤为必要了。特征选择算法的目的是选出一些最优特征子集,这些特征子集构建的分类模型在可理解性,计算效率能力和鲁棒性方面较不进行特征选择之前具有很好的提高。由于很多不相干特征带来的影响,学习模型经常过拟合,可理解性低,特征7万方数据安徽大学硕士学位论文 基于特征选择的数据降维算法研究选择算法是一个有效的手段用来获取高相关性特征用于数据降维。Dash和Liull4l提出了一个基本的特征选择框架,如下图21所示,它主要包括四个部分:原图21特征选择算法基本流程Fig,2-1 The
34、 basic flow of feature selection特征选择的四部分内容分别包括:(a)“子集生成”的过程表示的是特征子集的搜索策略,产生的候选特征子集被送入到到评价函数:(b)“评价函数”是通过某种评价准则对输入其中的特征子集进行评判,含有既定的评判标准用以对特征子集进行更新;(c)“停止准则一般与评价函数相关,通常情况下是一个阂值,停止搜索的条件是评价函数值满足阈值;(d)“结果验证”验证最终获得的特征子集是否有效性。特征选择可以看作是一个搜索过程,在搜索过程中的每一个状态都可以看成是一个可能的特征子集。目前,国际上进行特征选择算法的研究重点主要在选择优化特征集合的两种不同思路
35、上。要确定优化的特征子集,依据不同的思路可以将特征选择算法分为两类:一、依据不同的搜索的策略划分特征选择算法。二、依据不同特征评价准则来划分特征选择算法。本文采用的是基于特征评价准则进行对特征选择算法进行分类。212特征的相关性特征选择算法是探讨自变量X和应变量Y之间的相关关系以及自变量X自身内部变量之间的关系【1 51。(a)X与Y之间的关系表明了一种正相关关系,即相关度越高,包含的有用信息就越多。(b)自变量X内部的关系即是内部特征之间的相关性,即冗余度的表示。特征选择算法的目的即是去除相关度高的特征,用低维的8万方数据安徽大学硕士学位论文 特征选择和数据降维算法特征也可以有效的表征数据。
36、,关于特征选择中的相关性的定义,本文采用Kohavi在论文【16】中提出的。令F为全体特征集合,E为其中第i个特征,墨=F一Z)。C为类标签集合,并且令P为给定特征集的类标签C的条件概率,统计特征之间的相关性定义如下:定义1相关性(Relevance)特征F的相关性特征当且仅当j墨,P(C I G,S)P(C l) (2-1)当特征只满足上式子21时候,则称特征E是相关的;在其他情况下,特征F被认为是不相关的。从定义我们可以看出,被认为是相关的特征有两方面因素:a)特征E和类标签紧密相关;b)特征曩和其他特征在一起形成特征子集,特征子集和类标签紧密相关。定义2冗余性(Redundancy)冗余
37、特征F的定义如下式:裂篙P(鬻c S嚣P(C p2,j篷, l(,) S)、 。根据定义我们可以得知,对于特征F被认定为冗余特征是因为存在另外其他相关的特征,这些相关特征与特征F在预测结果精度方面具有相似性。许多研究学者提出从特征列表中去除冗余特征【17】【181,他们将特征分为强相关性与弱相关性,因为这样可以提高预测精度。但是其他研究学者注意到去除冗余特征同时可能也去除了潜在的相关特征。因此,他们建议通过测量特征相关性来找到替代特征,或者将具有相似模式的特征组合成特征簇【19】来提高实验预测精度。22特征选择算法使用不同策略设计的评价函数将特征选择算法大致可以分为三类【20】:过滤模型(Fi
38、lter Model),封装模犁_(Wrapper Model)21】和嵌入模型(Embedded Methods)。过滤模型依赖于一般的数据特征并且在不涉及任何学习算法的情况下特征评估。然而,封装模型需要预先设定好学习算法,并且使用算法性能作为评估标准来选择9万方数据安徽大学硕士学位论文 基于特征选择的数据降维算法研究特征。具有嵌入模型的算法,例如C451221和LARSl231, 结合变量选择作为训练过程的一部分,并且从目标分析中获得与特征相关性的学习模型。221过滤法(Filter Methods)基于过滤模式的特征选择算法使用类别间相互独立的判别准则,不考虑特征之间的相关性,通过某种准
39、则选出最优特征子集用于学习算法的输入。基于过滤模式特征选择算法过程如图22所示,特征的评估过程和学习算法之间是相互独立的。常用的几种方法有采用Fisher Score准则【24】的简单相关系数,或采用互信息【25】或者显著性检测(Fscore,z2统计)。其中比较经典的评估算法是Relieft261算法,其算法思想是为每一个特征根据其相关程度赋予“参数权重”,在进行特征选择时,优先选择权重值较高的特征111。目前,过滤式特征选择方法也提出了考虑特征之间的相关性的研究,如许多学者提出的多变量的滤波方法271,以及近年来提出的mRmR(最小化冗余度一最大化相关性)特征选择方案,这种选择方法用最大相
40、关和最小冗余度的标准来进行特征子集选择,使得到的最优特征子集有较强的泛化能力。图2-2 Filter特征选择算法流程Fig2-2 The flow of Filter feature selection algorithm过滤式特征选择方法最大的优势是能够快速的排除非关键性的噪声特征影响,搜索最优特征子集的范围相对减小,对高维数据的处理,计算简单且效率较高,能快速的评价特征的优劣。222封装法(Wrapper Methods)基于封装模式的特征选择算法主要思路是将特征选择和学习算法结合在一起。该模式中特征子集的选择被看作是一个搜索寻优的问题,特征子集的优劣判定直接由分类器决定,在训练学习过程中
41、表现优异的特征子集会被优先选中。基于封装模式特征选择算法过程如图23所示,算法性能和所使用的分类器10万方数据安徽大学硕士学位论文 特征选择和数据降维算法模式有直接关系。它在筛选特征的过程当中用所选特征来训练分类器,来选择最终的特征子集。目前,关于Wrapper方法的研究有很多应用。如顺序前向搜索方法【28】,进化搜索方法【291,神经网络与线性判别分析相结合的GA-Fisher方法【30】,和在基因检测中应用于癌症研究的SVMRFE(Support Vector Machine RecursiveFeature Elimination)。初始特征集上审问棺京L特征孑:=-集:攀最佳特征子集否
42、图2-3 Wrapper特征选择算法流程Fig2-3 The Flow ofwrapper feature selection algorithm封装式特征选择方法将特征子集的选择和特定的学习算法相结合,对其中的每一种子集都需要通过某种打分机制进行评判,因此,算法复杂度较高。但该方法选出规模相对较小的优化特征子集,有利于关键特征的辨识,分类精度较过滤式方法有所提高。但它的缺点是提高算法复杂度同时也增加了时间复杂度,且最终选出特征子集的优劣和分类模型有很大关系。223嵌入法(Embedded Methods)基于嵌入模式的特征选择算法主要是结合学习算法和特征选择算法在模型既定的情况下学习出较好的
43、属性,从而有利于提高模型的准确性。基于嵌入模式特征选择算法过程如图24所示,算法的设计结合了过滤模式和封装模式的优势,但算法的复杂度也较前两者高。最典型的嵌入方法包括决策树算法和人工神经网络,其中决策树算法包括C45、ID3以及CART三种常用算法。万方数据安徽大学硕士学位论文 基于特征选择的数据降维算法研究图24 Embedded特征选择算法流程Fig。24 The flow of Embedded feature selection algorithm嵌入式特征选择方法中,将特征选择过程嵌入到分类学习算法中,在分类器中将特征子集搜索和评价同时进行。Embedded算法能够获得最优的特征子集
44、,但复杂的算法设计导致算法的时间复杂度较前两种模式高,且最终选出特征子集的优劣和分类模型也有很大关系。不同特征选择的分类方法和算法特点总结如表格21所示。特征选择方法的目标是寻找最优特征子集,去除不相干特征,用较低特征维度表征高维数据固有特征,达到提高模型精度,提高学习算法的性能,减少算法计算运行时间的目的。表格2-1特征选择方法的分类Tah 21 The classifjcation of Feature Selection评价函数 模型特点 包含算法过滤模型(FilteO封装模型(Wrapper)Fisher Score快速,与分类器独立,可扩 ReliefF展,运行速度快 卡方统J;t-(Chi-square Score)Information Gain将特征选择过程纳入到学习算法中,和分类器相关,依 遗传算法赖特征模型和具体的机器学习算法与分类器交互,较强的计算 SBMLR,Blogreg嵌入模型 复杂能力,但分类器依赖特