《机器学习斯坦福大学讲义.docx》由会员分享,可在线阅读,更多相关《机器学习斯坦福大学讲义.docx(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机器学习一斯坦福大学讲义第一课机器学习的动机与应用工具:需正版:Matlab.免费:Octave定义(Arthur Samuel 1959):在不直接针对问题进行编程的情况下,赋予计算机学习能力的研究领域。例:Arthur的下棋程序,计算走每一步获胜的概率,最终打败程序作者本人.(感觉使用决策树思想)定义2(Tom Mitchell 1998):一个合理的学习问题应该这样定义:对一个计算机程序来说,给它一个任务T和一个性能测量方法P,如果在经验E的影响下,P对T的测量结果得到了改进,那么就说改程序从E中学习了。如上例:E:程序不断和自己下棋的经历,T:下棋,P:和人类选手对弈的胜率课程的四大部
2、分:1、有监督学习(1) 回归问题例:收集某地房屋价格统计、房屋大小和价格对应情况:画出一条拟合曲线,就可以通过房屋大小估计价格。- 有监督学习即给出一个数据集(正确的房屋价格及对应大小)- 此例为回归问题。回归意味着需要预测的变量是连续的(2) 分类问题分类问题中需要处理的变量是离散的例:判断肿瘤是恶性还是两性收集肿瘤大小和恶性/良性数据,大小为横轴,是否是恶性为纵轴(只有0,1)画图- 肿瘤可能由多个因素导致,引入年龄,大小为横轴,年龄为纵轴,恶性以叉表示,良性以圆圈表示画图,分析患肿瘤的区域- 还可引入更多属性,画在多维空间中- 无限维空间如何处理?将无限维映射到内存的算法?2,学习理论
3、学习理论即解释学习型算法有效的原因(学习算法的理论基础)寻找什么样的算法能很好地近似不同的函数,训练集的规模是否合适3、无监督学习例:如上述肿瘤例子,图中的点不知道正确答案,而是由你从中找去一定的结构,即聚类。应用于生物基因工程,图像处理,计算机视觉等领域例:鸡尾酒会问题在嘈杂的鸡尾酒会中,将你感兴趣的声音提取出来运用两个不同位置的麦克分开来自不同位置的声音还能应用于文本处理等领域使用ICA算法,Matlab 一行代码即可解决4、强化学习通过决策产生的结论或对或错,故产生一系列的决策。例:对一个模型飞机编写一个起飞程序,飞机在程序做了一连串错误决策是才会坠毁,只要做出连续的整体还不错的决策,即
4、可保持飞机正常飞行强化学习的基本概念:回报函数(正反馈及负反馈),程序做出正确决策时给出正反馈,反之亦然。程序不断做出决策,在不断尝试获得尽量多的正反馈时,逐渐学习并做出正确决策关键在于要定义什么是正确决策,什么是错误决策,再设计算法获取尽量多的正反馈第二课监督学习应用与梯度下降本课内容:1、线性回归2、梯度下降3、正规方程组(复习)监督学习:告诉算法每个样本的正确答案,学习后的算法对新的输入也能输入正确的答案1、线性回归例:Alvin汽车,先让人开车,Alvin摄像头观看(训练),而后实现自动驾驶。本质是一个回归问题,汽车尝试预测行驶方向。例:上一节课的房屋大小与价格数据集Living ar
5、ea (feet2)Price (1000$s)2104Ilin1C00330240036914162323000540引入通用符号:m =训练样本数乂=输入变量(特征)丫=输出变量(目标变量)(x,y)-一个样本第i个训练样本本例中:m:数据个数,X:房屋大小,y:价格监督学习过程:1) 将训练样本提供给学习算法2) 算法生成一个输出函数(一般用h表示,成为假设)3) 这个函数接收输入,输出结果。(本例中为,接收房屋面积,输出房价)将x映射到y如下图所示:TrainingsetILearning algoritliin4(Ixvmg ma ofxa h -a predicted y(pred
6、icted pnc) of bouse)对假设进行线性表示:Mx)=鱼+%通常来说,回归问题有多个输入特征。如上例中,我们还已知房屋的卧室数,即有个第二个特征。即x塞示大小,小表示卧室数,则可将假设写成:坨=%+ati +%工2 oh (工)= OtXi =91 x为了将公式写整洁,定义Co =1,则h可写成:i=On =特征数目,6参数。选择e的目的,是使h(x)与y的平方差尽量小。又由于有m个训练样本,需要计算每个样本的平方差,最后为了简化结果乘以1/2,即:我们要做的就是求:min(J(4)求min。)方法:梯度下降和正规方程组2、梯度下降梯度下降是一种搜索算法,基本思想:先给出参数向量
7、一个初始值,比如0向量;不断改变,使得J(6)不断缩小。改变的方法:梯度下降如图所示,水平坐标轴表示名和”,垂直坐标表示J(6)一开始选择0向量作为初始值,假设该三维图为一个三维地表,。向量的点位于一座“山”上。梯度下降的方法是,你环视一周,寻找下降最快的路径,即为梯度的方向,每次下降一小步,再环视四周,继续下降,以此类推。结果到达一个局部最小值,如下图:当然,若初始点不同,则结果可能为另一个完全不同的局部最小值,如下:表明梯度下降的结果依赖于参数初始值。梯度下降算法的数学表示:d ,、6:= Gj:=为赋值运算符,即表示程序中的的赋值语句。每一次将仇减去3对/(,)求偏导的结果,即沿最陡峭的
8、“山坡”下降将偏导数展开分析:套咐=磊面付5=2-1(/(工)-y)-9(2(0-y)=(h0(x)- y)xj%:=%+ a仅一版(才)婢).代入上式:J3a:学习速度,即决定你下山时每步迈多大。设的过小,收敛时间长,设的过大,可能会超过最小值(1)批梯度下降算法:上述为处理一个训练样本的公式,将其派生成包含m个训练样本的算法,循环下式直至收敛:%:=%+ a仅法(1)可)复杂度分析:对于每个师的每次迭代,即上式所示,时间为0(m)每次迭代(走一步)需要计算n个特征的梯度值,复杂度为。(mn)一般来说,这种二次函数的/()的三维图形为一个碗状,有”个唯一的全局最小值。其等高线为一个套一个的椭
9、圆形,运用梯度下降会快速收敛到圆心.梯度下降性质:接近收敛时,每次的步子会越来越小。其原因是每次减去a乘以梯度,但是梯度会越来越小,所以步子会越来越小。下图为使用梯度下降拟合的上例房屋大小和价格的曲线检测是否收敛的方法:1) 检测两次迭代仇的改变量,若不再变化,则判定收敛2) 更常用的方法:检验/(6),若不再变化,判定收敛批梯度下降算法的优点是能找到局部最优解,但是若训练样本m很大的话,其每次迭代都要计算所有样本的偏导数的和,时间过慢,于是采用下述另一种梯度下降方法。(2)随机梯度下降算法(增量梯度下降算法):Loop for i=l to m,0j :=%+a () x(j(for eve
10、ry j).)每次计算可不需要再遍历所有数据,而是只需计算样本i即可。即批梯度下降中,走一步为考虑m个样本;随机梯度下降中,走一步只考虑1个样本。每次迭代复杂度为0(n)。当m个样本用完时,继续循环到第1个样本。上述使用了迭代的方法求最小值,实际上对于这类特定的最小二乘回归问题,或者普通最小二乘问题,存在其他方法给出最小值,接下来这种方法可以给出参数向量的解析表达式,如此一来就不需要迭代求解了。3、正规方程组给定一个函数J, J是一个关于参数数组的函数,定义J的梯度关于的导数,它自己也是一个向量。向量大小为n+1维(从0到n),如下:也两%/=:e/?n+1dj腐J所以,梯度下降算法可写成:更
11、普遍的讲,对于一个函数f, f的功能是将一个m*n的矩阵映射到实数空间上,即:f : Rmxn i R假设输入为m*n大小的矩阵A,定义f关于矩阵A的导数为:r _z_dAwV=i-DAml导数本身也是个矩阵,包含了f关于A的每个元素的偏导数。如果A是一个方阵,即n*n的矩阵,则将A的迹定义为A的对角元素之和,即:ntrA =4 t=itrA即为tr(A)的简化。一些关于迹运算符和导数的定理:1) trAB = trBA2) trABC = trCAB = trBCA3) %trAB = BT4) trA = trAT5) 若2匕 tra = a6)匕 trABHC = CAB + CTABT
12、有了上述性质,可以开始推导了:定义矩阵X,称为设计矩阵,包含了训练集中所有输入的矩阵,第i行为第i组输入数据,即:(工)7一(工)T一(的/_则由于/(工)=(工)的,所以可得:(Hd(工)_ y7_2则有:又因为对于向量z,有Z 2=24,1 1工(xe - yfiXO - y=2*二1=J由上述最后一个性质可得:1万 trABC = BTTCT + BATC通过上述6个性质,推导:=0(XO-y)T(XO-y)=(elxTxe -铲x%-/xe + fy)=tr (OTXTX0- OTXTy - fXG +=(treTXTXe-2tryrX0)=1(XrXO + xlxe -2XTy)=x
13、Txe -倒数第三行中,运用最后一个性质将“/置为0,则有:XrX0= XTy称为正规方程组可得:e =第三课欠拟合与过拟合概念本次课程大纲:1、局部加权回归:线性回归的变化版本2、概率解释:另一种可能的对于线性回归的解释3、Logistic回归:基于2的一个分类算法4、感知器算法:对于3的延伸,简要讲复习:(”卜)-第i个训练样本令7。=1,以参数向量为条件,对于输入x,输出为:h(x)仇勺=9T ,i=0n为特征数量定义成本函数J,定义为:咐=若(Im为训练样本通过正规方程组推导的结论:0=XTX)lXTy.1、过拟合与欠拟合通常,你选择交给学习算法处理的特征的方式对算法的工作过程有很大影
14、响。例:上次课的例子中,用X1表示房间大小。通过线性回归,在横轴为房间大小,纵轴为价格的图中,画出拟合曲线。回归的曲线方程为:8。+8逐若定义特征集合为:xl表示房子大小,x2表示房子大小的平方,使用相同的算法,拟合得到一个二次函数,在图中即为一个抛物线,即:0o+0ixi +02Xi:以此类推,若训练集有7个数据,则可拟合出最高6次的多项式,可以找到一条完美的曲线,该曲线经过每个数据点。但是这样的模型又过于复杂,拟合结果仅仅反映了所给的特定数据的特质,不具有通过房屋大小来估计房价的普遍性。而线性回归的结果可能无法捕获所有训练集的信息。所以,对于一个监督学习模型来说,过小的特征集合使得模型过于
15、简单,过大的特征集合使得模型过于复杂。对于特征集过小的情况,称之为欠拟合(underfitting);对于特征集过大的情况,称之为过拟合(overfitting)解决此类学习问题的方法:1) 特征选择算法:一类自动化算法,在这类回归问题中选择用到的特征2) 非参数学习算法:缓解对于选取特征的需求,引出局部加权回归参数学习算法(parametric learning algorithm)定义:参数学习算法是一类有固定数目参数,以用来进行数据拟合的算法。设该固定的参数集合为立线性回归即使参数学习算法的一个例子非参数学习算法(Non-parametric learning algorithm)定义:
16、一个参数数量会随m (训练集大小)增长的算法。通常定义为参数数量虽m线性增长。换句话说,就是算法所需要的东西会随着训练集合线性增长,算法的维持是基于整个训练集合的,即使是在学习以后。2、局部加权回归(Locally Weighted Regression)一种特定的非参数学习算法。也称作Loess。算法思想:假设对于一个确定的查询点X,在X处对你的假设h(x)求值。对于线性回归,步骤如下:1)拟合出e,使i(y-尹工)2最小2)返回对于局部加权回归,当要处理X时:1) 检查数据集合,并且只考虑位于X周围的固定区域内的数据点2) 对这个区域内的点做线性回归,拟合出一条直线3) 根据这条拟合直线对
17、x的输出,作为算法返回的结果用数学语言描述即:D拟“,使(严一心产最小2) w为权值,有很多可能的选择,比如:- 其意义在于,所选取的x(i)越接近X,相应的w(i)越接近1; x(i)越远离x, w(i)越接近Oo直观的说,就是离得近的点权值大,离得远的点权值小。这个衰减函数比较具有普遍意义,虽然它的曲线是钟形的,但不是高斯分布。- 被称作波长函数,它控制了权值随距离下降的速率。它越小,钟形越窄,w衰减的很快;它越大,衰减的就越慢。3)返回总结:对于局部加权回归,每进行一次预测,都要重新拟合一条曲线。但如果沿着X轴对每个点都进行同样的操作,你会得到对于这个数据集的局部加权回归预测结果,追踪到
18、一条非线性曲线。- 局部加权回归的问题:由于每次进行预测都要根据训练集拟合曲线,若训练集太大,每次进行预测的用到的训练集就会变得很大,有方法可以让局部加权回归对于大型数据集更高效,详情参见Andrew Moore 的关于KD-tree的工作。3、概率解释概率解释所解决的问题:在线性回归中,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正y 值之间面积的平方最小化?我们提供一组假设,证明在这组假设下最小二乘是有意义的,但是这组假设不唯一,还有其他很多方法可以证明其有意义。(1)假设1:假设输入与输出为线性函数关系,表示为:=工+”其中,为误差项,这个参数可以理解为对未建模效应的捕获
19、,如果还有其他特征,这个误差项表示了一种我们没有捕获的特征,或者看成一种随机的噪声。假设服从某个概率分布,如高斯分布(正态分布):)研0.。2),表示一个均值是0,方差是的高斯分布。高斯分布的概率密度函数:v 27ro 2。)根据上述两式可得:”忖)洌二会呻(一吟炉)V27ra 2 a-/即,在给定了特征与参数之后,输出是一个服从高斯分布的随机变量,可描述为:y(|工;6(尹工,02)*为什么选取高斯分布?1) 便于数学处理2) 对绝大多数问题,如果使用了线性回归模型,然后测量误差分布,通常会发现误差是高斯分布的。3) 中心极限定律:若干独立的随机变量之和趋向于服从高斯分布。若误差有多个因素导
20、致,这些因素造成的效应的总和接近服从高斯分布。注意:e并不是一个随机变量,而是一个尝试估计的值,就是说它本身是一个常量,只不过我们不知道它的值,所以上式中用分号表示。分号应读作“以作为参数”,上式读作“给定x(i)以为参数的y(i)的概率服从高斯分布”。假设每个为 IID (independently and identically distributed)独立同分布即误差项彼此之间是独立的,并且他们服从均值和方差相同的高斯分布(2) 假设2:设e的似然性为(即给定x(i)以为参数的州的概率=L(优工=p、:6)由于只“是独立同分布,所以上式可写成所有分布的乘积:(3) 假设3:极大似然估计:
21、选取e使似然性L(e)最大化(数据出现的可能性尽可能大)定义对数似然函数为K8):的)= y/2rcr o22父-上式两个加项,前一项为常数。所以,使似然函数最大,就是使后一项最小,即:1尸工(严一心产i=l这一项就是之前的(e),由此得证,即之前的最小二乘法计算参数,实际上是假设了误差项满足高斯分布,且独立同分布的情况,使似然最大化来计算参数。注意:高斯分布的方差对最终结果没有影响,由于方差一定为正数,所以无论取什么值,最后结果都相同。这个性质会在下节课讲到。4、Logistic 回归这是我们要学习的第一个分类算法。之前的回归问题尝试预测的变量y是连续变量,在这个分类算法中,变量y是离散的,
22、y只取。1两个值。一般这种离散二值分类问题用线性回归效果不好。比如x3, Y=l,那么当x3的样本占得比例很大是,线性回归的直线斜率就会越来越小,y=0.5时对应的x判决点就会比3大,造成预测错误。若y取值。1,首先改变假设的形式,使假设得到的值总在0禺之间,即:h(x)U,l所以,选取如下函数:,、,T、1h 如=9(0tx)=其中:g(?)=1 +e-zg函数一般被称为logistic函数,图像如下:z很小时,g(z)趋于0, z很大时,g(z)趋于1, z=0时,g(z)=0.5对假设的概率解释:假设给定X以为参数的y=l和y=0的概率:P(y=lx0)= h0(x)P(y =0| x;
23、0)=1 he(x)的E P h=SG)0一加(工)”可以简与成:参数的似然性:附=p(yX;e) m=Hp”工网 i=lm=n (原则严(/(叫产”=i求对数似然性:幽=10gL m=2bgM工)+(1 y)log(i 力(工) S=1为了使似然性最大化,类似于线性回归使用梯度下降的方法,求对数似然性对e的偏导,即:0=0+。招。)因为求最大值,此时为梯度上升。偏导数展开:却=(,薪jTi)广嬴0Q心=(y(i - g7)-(i -!/)g(。)叼=(y - ho(x)xj则:4:=%+ a (严-砧)c?即类似上节课的随机梯度上升算法,形式上和线性回归是相同的,只是符号相反,八式x)为 l
24、ogistic函数,但实质上和线性回归是不同的学习算法。5、感知器算法在logistic方法中,g会生成0,1)之间的小数,但如何是g只生成0或1?所以,感知器算法将g定义如下:、(1 ifz0g=0 if z v 0同样令瓦)(工)= g(e ),和logistic回归的梯度上升算法类似,学习规则如下:%:=%+ a (y一 M(工)工,尽管看起来和之前的学习算法类似,但感知器算法是一种非常简便的学习算法,临界值和输出只能是。或1,是比logistic更简单的算法。后续讲到学习理论是,会将其作为基本的构造步骤。第四课牛顿方法本次课程大纲:1、牛顿方法:对Logistic模型进行拟合2、指数分
25、布族3、广义线性模型(GLM):联系Logistic回归和最小二乘模型复习:Logistic回归:分类算法假设给定x以为参数的y=l和y=0的概率:P(y=|= h0(x)P(y =0| x;0)=1- h0(x)赤1+求对数似然性:绚)=log L(0)m= X log/i(x(,)+(1 y)log(l f二l对其求偏导数,应用梯度上升方法,求得:%:=4+(严一加(工)本次课程介绍的牛顿方法是一种比梯度上升快很多的方法,用于拟合Logistic回归1、牛顿方法假设有函数限),需要找使f=0的e 步骤:1) 给出一个的初始值2) 对眼求导,求导数为o时e的值(就是求f(e)切线与x轴交点)
26、3) 重复步骤2因为该点的导数值即为切线斜率,而斜率=该点y轴的值/该点X轴的变化值,所以e每次的变化值:*使用这个方法需要f满足一定条件,适用于Logistic回归和广义线性模型*一般初始化为0应用于Logistic回归:求对数似然的最大值,即求(8)为。时的句根据上述推论,更新规则如下:牛顿方法的收敛速度:二次收敛每次迭代使解的有效数字的数目加倍:假设当前误差是0.1,一次迭代后,误差为0.001,再一次迭代,误差为0.0000001。该性质当解距离最优质的足够近才会发现。牛顿方法的一般化:e是一个向量而不是一个数字,一般化的公式为:0:=0-4(g)是目标函数的梯度,H为Hessian矩
27、阵,规模是n*n, n为特征的数量,它的每个元素表示一个二阶导数:必L丽丽上述公式的意义就是,用一个一阶导数的向量乘以一个二阶导数矩阵的逆优点:若特征数和样本数合理,牛顿方法的迭代次数比梯度上升要少得多缺点:每次迭代都要重新计算Hessian矩阵,如果特征很多,则H矩阵计算代价很大2、指数分布族回顾学过的两种算法:对于 P(y|x;e):若y属于实数,满足高斯分布,得到基于最小二乘法的线性回归;若丫取0,1,满足伯努利分布,得到Logistic回归。问题:如Logistic回归中,为何选择sigmoid函数? sigmoid函数是最自然的默认选择。接下来,会以这两个算法为例,说明它们都是广义线
28、性模型的特例。考虑上述两个分布,伯努利分布和高斯分布:1) 伯努利分布设有一组只能取0或1的数据,用伯努利随机变量对其建模:切方 Bernoulli(j)f则P(y = l;(p)=巴改变参数年,y=i这一事件就会有不同概率,会得到一类概率分布(而非固定的)。2) 高斯分布引工冶八乂”改变参数口,也会得到不同的高斯分布,即一类概率分布。上述这些分布都是一类分布的特例,这类分布称为指数分布族.指数分布族的定义:若一类概率分布可以写成如下形式,那么它就属于指数分布族:P(y;)= b(g)exp(/r(y) a()n-自然参数,通常是一个实数T(y)-充分统计量,通常,T(y)=y,实际上是一个概
29、率分布的充分统计量(统计学知识)对于给定的a, b, T三个函数,上式定义了一个以n为参数的概率分布集合,即改变f可以得到不同的概率分布。证明伯努利分布是指数分布族:Ber(P).P(y =1;p)=p可知:p(y;。)exp(y logd +(1-y) log(l -)y + log(l-0)由上式可见,n=log(p/(l(p),可解出:cp=l/(l+exp(-r),发现得到logistic函数(之后讨论其原因),则:Ty)= y丽)=-log(l -0)=log(l 4- e。)帅)=1证明高斯分布是指数分布族:引工;人广(,02),设方差为1(方差并不影响结果,仅仅是变量y的比例因子
30、)这种情况下高斯密度函数为:by)=(l/27r)exp(-j/2/2)*指数分布族包括:高斯分布(正态分布),多元正态分布;伯努利分布(01问题建模),多项式分布(对k个结果的事件建模):泊松分布(对计数过程建模);伽马分布,指数分布(对实数的间隔问题建模);B分布,Dirichlet分布(对小数建模);Wishart分布(协方差矩阵的分布).3、广义线性模型GLM选定了一个指数分布族后,怎样来推导出一个GLM呢?假设:y |上:ExponcntialFamilyS),即假设试图预测的变量y在给定x,以e作为参数的条件概率,属于以n作为自然参数的指数分布族例:若要统计网站点击量y,用泊松分布
31、建模(2)给定X,目标是求出以x为条件的T(y)的期望ET(y)|x,即让学习算法输出h(x)= ET(y)|x即自然参数和输入特征x之间线性相关,关系由e决定。仅当n是实数时才有意义。若n是一个向量,仍=9ix 推导伯努利分布的GLM:yi0 ExponentialFamily(7/),伯努利分布属于指数分布族对给定的X,0,学习算法进行一次预测的输出:ho(x)= Eyx-,0=6=1/(1+ef)=1/(1+0-叼得到logistic回归算法。正则响应函数:g(n)= Ey;n,将自然参数n和y的期望联系起来正则关联函数:g1推导多项式分布的GLM:多项式分布是在k个可能取值上的分布,即
32、yl,,k,如将收到的邮件分成k类,诊断某病人为k种病中的一种等问题。(1)将多项式分布写成指数分布族的形式:设多项式分布的参数:1且2二1,5表示第i个取值的概率分布,最后一个参数可以由前k-1个推导出,所以只将前k-1个01,以T视为参数。多项式分布是少数几个T(y)!=y的分布,丁叶化)都定义成一个k-l维的列向量,表示为:丁。)=100,丁=0-10,T(3)=.0.01-000,丁的=00000010这样定义T(y)是为了将多项式分布写成指数分布族形式。*定义符号:指示函数,1JlTrue=1, lFalse=0,即大括号内命题为真,值为1,;否则为0。例:12=3=0,11+1=2
33、=1用T(y)i表示T(y)的第i个元素,则T(y)i = ly=i根据参数p的意义(pi表示第i个取值的概率分布),可推出:p(y;。)=而V=i婢曰然y=*朴E/7.就3 lg(小理(加碗-E匕|(7Lexp(T(y)i log(01)+(T(!/)2log(内)+(1:二;(丁5) log(Q)cxp(T(y)i log(%/以)+(T(y)2 bg(曲/娟+log(a-i/M + bg(c)My)exp(7,T(y)- a()可得:log(珈/如 log(如 AMn =;10gsi/Ma(q)= Tog(以)咐)=I.证明多项式分布式指数分布族。再用n表示(p:/=IogOkMe”史k
34、 6。人 e”6=1i=l(2)根据上述假设(3)中自然参数和输入x的线性关系,可求得:(3)根据上述假设(2)中的输出h(x)= ET(y)|x,可求得:he(x)= ET(y)|x;01=1ly = A:-1010252)=1 exp(i)OXp(T)称这种回归算法为softmax回归,是logistic回归的推广。Softmax回归的训练方法和logistic相似,通过极大似然估计找到参数6,其对数似然性为:mW = Ebgp(y3;e)再通过梯度上升或牛顿方法找对数似然性的最大值,即可求出参数e第五课生成学习算法本次课程大纲:1、生成学习算法2、高斯判别分析(GDA, Gaussian
35、 Discriminant Analysis)- 高斯分布(简要)- 对比生成学习算法&判别学习算法(简要)3、朴素贝叶斯4、Laplace 平滑复习:分类算法:给出一个训练集,若使用logistic回归算法,其工作方式是观察这组数据,尝试找到一条直线将图中不同的类分开,如下图。之前讲的都是判别学习算法,本课介绍一种不同的算法:生成学习算法。1、生成学习算法例:对恶性肿瘤和良性肿瘤的分类除了寻找一个将两类数据区分的直线外,还可以用如下方法:1) 遍历训练集,找到所有恶性肿瘤样本,直接对恶性肿瘤的特征建模:同理,对良性肿瘤建模。2) 对一个新的样本分类时,即有一个新的病人时,要判断其是恶性还是良
36、性,用该样本分别匹配恶性肿瘤模型和良性肿瘤模型,看哪个模型匹配的更好,预测属于恶性还是良性。这种方法就是生成学习算法。两种学习算法的定义:1) 判别学习算法:- 直接学习p(y|x),即给定输入特征,输出所属的类- 或学习得到一个假设hB(x),直接输出0或12) 生成学习算法:对p(x|y)进行建模,p(x|y)表示在给定所属的类的情况下,显示某种特征的概率。处于技术上的考虑,也会对p(y)进行建模。p(x|y)中的x表示一个生成模型对样本特征建立概率模型,y表示在给定样本所属类的条件下例:在上例中,假定一个肿瘤情况y为恶性和良性,生成模型会对该条件下的肿瘤症状x的概率分布进行建模-对 p(
37、x|y)和 p(y)建模后,根据贝叶斯公式 p(y|x)= p(xy)/p(x)= p(x|y)p(y)/p(x),可以计算:p(y=l|x)= p(x|y=l)p(y=l)/p(x),其中,p(x)= p(x|y=O)p(y=O)+ p(x|y=l)p(y=l)2、高斯判别分析GDAGDA是一种生成学习算法。GDA的假设条件:1) 假设输入特征XGRn,并且是连续值。2) 假设p(x|y)满足高斯分布- 高斯分布基础知识:设随机变量z满足多元高斯分布,zN(p,E),均值向量为P,协方差矩阵为Z。其概率密度函数为:以工;出 E)=.XP (W (工一(工一)多元高斯分布为一元高斯分布的推广,
38、也是钟形曲线,z是一个高维向量。多元高斯分布注意两个参数即可:- 均值向量p- 协方差矩阵 z= E(Z-EZ)(Z-EZ)t=E(x-m)(x-p)t多元高斯分布图:左图:p=0, Z=I (单位矩阵)中图:尸0, X=0.6l,图形变陡峭右图:口=0, E=2I,图形变扁平三图中M=0,10.50.51;工=10.80.81J可见增加矩阵对角元素的值,即变量间增加相关性,高斯曲面会沿zl=z2 (两个水平轴)方向趋于扁平。其水平面投影图如下:即增加2对角线的元素,图形会沿45角,偏转成一个椭圆形状。若Z对角线元素为负,图形如下:1-0.5-0.511-0.8-0.813 0.80.8 1不
39、同p的图形如下:M分别为:-0.50-1-1.5y决定分布曲线中心的位置。GDA拟合:给出训练样本如下图所示:观察正样本(图中的x),拟合正样本的高斯分布,如图中左下方的圆,表示p(x|y=l)观察负样本(图中的圈),拟合负样本的高斯分布,如图中右上方的圆,表示p(x|y=O)通过这两个高斯分布的密度函数,定义出两个类别的分隔器,即图中的直线这条分隔器宜线比之前的logistic拟合的直线要复杂GDA模型:y z Bernoulli()xy 0 z E)xy =1 z写出其概率分布:p(y)=/P(h=0)=加二Z0exp (一,(1谢(工一闲P(l|y=l)=(27T)n/;E 1/2 ex
40、p (J(工一出)1(丁一”)参数包括(P,po, pl,3对数似然性为:m= logjjp(工,严:d=lm=log JJp(yl/;oM,Z)P(0).i=l由于第一个等式为xy的联合概率,将这个模型命名为联合似然性(Joint likelihood) o*对比logistic回归中的对数似然性:m1(0)= log J! p(yw |xw;0)由于计算的是y在x条件下的概率,将此模型命名为条件似然性(conditional likelihood)通过对上面对数似然性求极大似然估计,参数的结果为:1二。严=1,=1-;小*=0_21-=1工1工s =工-)(工一W)74=1 p(y=l|x
41、)是logistic函数该推论在反方向不成立。推论2:x|y=l Poisson(Xl), x|y=0 Poisson(XO)= p(y=l|x)是 logistic 函数x|y=l Poisson(入1)表示x|y=l服从参数为XI泊松分布推论3:x|y=l ExpFamily(rl), x|y=0 ExpFamily (r0)= p(y=l|x)是 logistic 函数推论2的推广,即x|y的分布属于指数分布族,均可推出结论。显示了 logistic回归在建模假设选择方面的鲁棒性。优点:推论1反方向不成立,因为x|y服从高斯分布这个假设更强,GDA模型做出了一个更强的假设,所以,若x|y服从或近似服从高斯分布,那么GDA会比logistic回归更好,因为它利用了更多关于数据的信息,即算法知道数据服从高斯分布。缺点:如果不确定x|y的分布情况,那么判别算法logistic回归性能更好。例如,预先假设数据服从高斯分布,但是实际上数据服从泊松分布,根据推论2, logistic回归仍能获得不错的效果。生成学习算法比判决学习算法需要更少的数据。如GDA的假设较强,所以用较少的数据能拟合出不错的模型。而logistic回归的假设较弱,对模型的假设更为健壮,拟合数据需要更多的样本。3、朴素贝叶斯