支持向量机原理(共9页).docx
《支持向量机原理(共9页).docx》由会员分享,可在线阅读,更多相关《支持向量机原理(共9页).docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第3章 支持向量机基础By Dean 支持向量机(Support Vector Machies)是由Vapnik等人于1995年提出来的。之后随着统计理论的发展,支持向量机也逐渐受到了各领域研究者的关注,在很短的时间就得到很广泛的应用。支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,利用有限的样本所提供的信息对模型的复杂性和学习能力两者进行了寻求最佳的折衷,以获得最好的泛化能力。SVM的基本思想是把训练数据非线性的映射到一个更高维的特征空间(Hilbert空间)中,在这个高维的特征空间中寻找到一个超平面使得正例和反例两者间的隔离边缘被最大化。S
2、VM的出现有效的解决了传统的神经网络结果选择问题、局部极小值、过拟合等问题。并且在小样本、非线性、数据高维等机器学习问题中表现出很多令人注目的性质,被广泛地应用在模式识别,数据挖掘等领域(张学工 2000;崔伟东2001)。支持向量机可以用于分类和回归问题,本章着重介绍分类相关的知识。3.1 SVM的基本思想3.1.1最优分类面SVM是由线性可分情况的最优分类面发展而来的,用于两类问题的分类。下面用一个二维两类问题来说明SVM基本思想(白鹏 等,2008)。图3.1 最优超平面示意图C1和C2代表两类数据样本,各样本在二维中显示如图3.1, 图中的直线P0,P1就是分类函数。如果一个线性函数就
3、完全可以把两类所有样本分开,那么就称这些数据是线性可分的;否则称非线性可分。假设两类线性可分的训练数据样本x1,y1,x2,y2,xN,yN, xiRd(d代表样本xi的长度), yi+1,-1, i=1,2,N. 其线性判别函数的一般表达式是fx=w*x+b, 该函数对应的分类面方程是:w*x+b=0 (3-1)线性判别函数的值一般是连续的实数,而分类问题需要输出的是离散值。例如利用数值-1表示类别C1,而用数值+1表示类别C2.所有的样本都只能用数值-1和+1表示。这时我们可以通过设置一个阀值,通过判断判别函数的值是大于或者小于这个阀值来判断属于某一类。若我们取这个阀值为0,即当f(x)0
4、时,判别样本为类别C1(即-1);当f(x)0时,判别样本为类别C2(即+1).现在将判别函数进行归一化,使两类所有样本都满足f(x)1,这时离分类面近的样本都有f(x)=1。若要对所有样本正确分类需满足,yiw*x+b-10, i=1,N (3-2)这时分类间隔为2w. 寻求最优的分类面即使得分类间隔最大化。可以发现间隔最大等价于12w2最小。因此最优化分类面问题可以表示成如下的约束优化问题,如下:Min w=12w2 (3-3)约束条件为:yiw*x+b-10, i=1,N (3-4)定义如下Lagrange函数:Lw,b,=12w2-i=1Niyiw*xi+b-1 (3-5)式中,i0为
5、Lagrange乘子。为了求得函数式(3-5)的最小值,我们对w,b,分别求导有:Lw=0 w=i=1Niyixi Lb=0 i=1Niyi=0 L=0 iyiw*xi+b-1=0 (3-6)由式(3-6)和(3-2)可将上述的最优化分类面的求解问题转化为一个凸二次规划寻优的对偶问题,如下:Max i=1Ni-12i=1Nj=1Nijyiyj(xi,xj) (3-7)约束条件为:i0i=1Niyi=0 (3-8)这个二次函数寻优的问题存在唯一解,若i*为最优解,则:w*=i=1Ni*yixi (3-9)其中i*不为0对应的即为支持向量(Support Vector). 并且最优分类面的权系数向
6、量是支持向量的线性组合。分类阀值b*可由(3-6)式求得,b*=-12w*, xr+xs (3-10)式中xr,xs分别是两类中任意支持向量,r,s0,yr=-1,ys=1.由于除了支持向量外,非支持向量所对应的i=0,所以最优分类面函数可简写为:fx=sgnsvi*yixi,x+b* (3-11)此时SVM最一般的表达式已经被求得。3.1.2广义的最优分类面但当有少数样本使得原来线性可分的问题变成不可分问题,从而影响了分类器的性能。有时这少数的样本也是噪声,或是奇异值点,是我们在人工对数据分类错分的,为了忽略这些点对分类器的影响,和在经验风险和泛化性能之间求得平衡,松弛因子被引入。它容许错分
7、样本的存在,这时分类面满足:yiw*x+b1-i, i=1,N (3-12)当0i1时,样本xi可以正确分类;当i1时,样本xi会被错分。由于松弛因子的引入,式(3-3)的目标函数被改写为:w,=12w2+Ci=1Ni (3-13)式中C是惩罚因子(一个正常数). 此时,式目标函数凸二次规划寻优的对偶问题约束条件(3-8)可被变换为如为: 0iCi=1Niyi=0 (3-14)3.2核函数3.2.1核函数变换基本思想对于非线性分类问题,在原始空间中最优化分类面也许不能得到令人满意的分类结果。针对这种情况,一个解决的思想是把原始空间中的非线性样本数据投影到某个更高维的空间中,在高维的空间中寻找一
8、个最优超平面能线性地将样本数据分开,但是这种变化可能非常复杂。支持向量机利用核函数巧妙地解决了这个问题。核函数变换的基本思想是将一个n维空间中矢量x映射到更高维的特征空间中去,然后在高维空间中进行线性地分类。核函数变换的基本原理示意图如图3.2所示。由(3-7)、(3-11)可看出,都只涉及训练样本之间的点积运算xi,xj。假设存在一个非线性映射将Rn空间的样本映射到更高维的H空间中,即:RnH在特征空间H中构造最优分类面时,计算的过程中仅使用了空间中的点积xi,xj,而没有用到单独的xi。如果存在一个“核函数”K,且Kxi,xj=xi,xj,那么在训练算法是,我们将仅仅需要使用核函数K,且不
9、需要知道具体的是什么。这样在高维空间中只需要进行点积运算,且这种运算是用原来空间中的函数实现的。根据泛函的相关理论,只要核函数Kxi,xj满足Mercer条件,它就可以对应某一变换空间的点积,这样就能德奥原输入空间中对应的非线性算法。图3.2 核函数变换示意图3.2常见核函数核函数作为支持向量机理论的重要的组成部分引起了很多研究者的兴趣。常用的满足Mercer条件的核函数有线性函数,多项式函数,径向基函数,Sigmoid函数等,选择不同的核函数可以构造不同的支持向量机(张浩然 2002)。下面对这四种常见的核函数进行简单地介绍.(1) 线性函数Kx,xi=x,xi(2) 多项式函数Kx,xi=
10、x,xi+1d(3) 径向基函数Kx,xi=exp-x-xi22(4) Sigmoid函数Kx,xi=tanhvx,xi+a由这四种核函数可以构造出线性SVM、多项式SVM、RBF SVM和感知SVM。满足Mercer条件核函数很多,这样又带来另外一个问题,即SVM的核函数如何选择。目前没有明确的标准来指导核函数的选择。在模型不确定的情况下,RBF核函数是一个不错的选择。3.3 SVM参数优化问题在实际应用的过程中,选择合适的支持向量机的参数是一项艰巨而又重要的一步,它会影响分类器的泛化能力和分类性能。参数选择实际上是一个优化搜索的过程,搜索空间中的每一个点都有可能是最佳模型的潜在解,并可由推
11、广能力估计值做出相应的评估。所以,参数优化求解的过程在本质上是泛化误差最小化的求解问题。3.3.1常见SVM的寻优方法一般情况下,人们会使用简单并且直观的方法(如网格划分),通过大量的实验比较获得较优的参数。这种方法可以找到在交叉验证意义下的最高的分类准确率,但是当想在更大的范围内寻找最佳的参数和时,这会有很大的计算量。Chapelle 等人采用了一种梯度下降(gradient descend, GD)的方法(Chapelle 2002)来对参数进行选择,这种方法虽然在计算时间上获得有效改善。但是梯度下降方法是一种线性的搜索方法,并且对初始点要求比较高,所有在寻优的过程中容易陷入局部最优。遗传
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 支持 向量 原理
限制150内