《概率密度函数的估计.优秀PPT.ppt》由会员分享,可在线阅读,更多相关《概率密度函数的估计.优秀PPT.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章概率密度函数的估计概率密度函数的估计v概率密度估计的基础学问概率密度估计的基础学问v参数估计理论参数估计理论v极大似然估计(极大似然估计(MLE)v贝叶斯估计(或称最大后验估计)贝叶斯估计(或称最大后验估计)v贝叶斯学习贝叶斯学习v非参数估计理论非参数估计理论v密度估计密度估计vParzen窗估计窗估计vK近邻估计(近邻估计(KNE)4-1概率密度估计的基础学问概率密度估计的基础学问贝叶斯分类器中只要知道先验概率、条贝叶斯分类器中只要知道先验概率、条件概率或后验概概率件概率或后验概概率P(i),P(x/i),P(i/x)就可以设计分类器了。现在来探讨如就可以设计分类器了。现在来探讨
2、如何用已知训练样本的信息去估计何用已知训练样本的信息去估计P(i),P(x/i),P(i/x)一参数估计与非参数估计一参数估计与非参数估计参数估计:先假定探讨的问题具有某种数参数估计:先假定探讨的问题具有某种数学模型,如正态分布,二项分布,再用学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。已知类别的学习样本估计里面的参数。非参数估计:不假定数学模型,干脆用已非参数估计:不假定数学模型,干脆用已知类别的学习样本的先验学问干脆估计知类别的学习样本的先验学问干脆估计数学模型。数学模型。二监督参数估计与非监督参数估计二监督参数估计与非监督参数估计监监督督参参数数估估计计:样样本本
3、所所属属的的类类别别及及类类条条件件总总体体概概率率概概率率密密度度函函数数的的形形式式已已知知,而而表表征征概概率率密密度度函函数数的的某某些些参参数数是是未未知知的的。目目的的在在于于:由由已已知知类类别别的的样样本本集集对对总总体体分分布布的的某某些些参参数数进进行行统统计计推推断断,此此种状况下的估计问题称为监督参数估计。种状况下的估计问题称为监督参数估计。非非监监督督参参数数估估计计:已已知知总总体体概概率率密密度度函函数数形形式式但但未未知知样样本本所所属属类类别别,要要求求推推断断出出概概率率密密度度函函数数的的某某些些参参数数,称称这这种种推推断断方方法法为为非非监监督督状状况
4、况下下的的参参数数估计。估计。注注:监监督督与与非非监监督督是是针针对对样样本本所所属属类类别别是是已已知知还还是是未知而言的。未知而言的。三三.参数估计的基本概念参数估计的基本概念1.统计量:样本中包含着总体的信息,总统计量:样本中包含着总体的信息,总希望通过样本集把有关信息抽取出来。希望通过样本集把有关信息抽取出来。也就是说,针对不同要求构造出样本的也就是说,针对不同要求构造出样本的某种函数,该函数称为统计量。某种函数,该函数称为统计量。2.参数空间:在参数估计中,总假设总体参数空间:在参数估计中,总假设总体概率密度函数的形式已知,而未知的仅概率密度函数的形式已知,而未知的仅是分布中的参数
5、,将未知参数记为是分布中的参数,将未知参数记为,于是将总体分布未知参数于是将总体分布未知参数的全部可容的全部可容许值组成的集合称为参数空间,记为许值组成的集合称为参数空间,记为。3.点估计、估计量和估计值:点估计问题点估计、估计量和估计值:点估计问题就是构造一个统计量就是构造一个统计量作为参作为参数数的估计的估计,在统计学中称,在统计学中称为为的的估计量。若估计量。若是属于类别是属于类别的几的几个样本视察值,代入统计量个样本视察值,代入统计量d就得到对于就得到对于第第i类的类的的具体数值,该数值就称为的具体数值,该数值就称为的的估计值。估计值。4.区间估计:除点估计外,还有另一类估计问题,要求
6、用区间估计:除点估计外,还有另一类估计问题,要求用区间区间作为作为可能取值范围得一种估计可能取值范围得一种估计,此区间称,此区间称为置信区间,该类估计问题称为区间估计。为置信区间,该类估计问题称为区间估计。5.参数估计方法:参数估计是统计学的经典问题,解决方参数估计方法:参数估计是统计学的经典问题,解决方法很多,在此只考虑两种常用方法:一种是最大似然估法很多,在此只考虑两种常用方法:一种是最大似然估计方法,另一种是贝叶斯估计方法。计方法,另一种是贝叶斯估计方法。(1)最大似然估计:把参数看作是确定而未知的,最好最大似然估计:把参数看作是确定而未知的,最好的估计值是在获得实际视察样本的最大的条件
7、下得到的。的估计值是在获得实际视察样本的最大的条件下得到的。(2)贝叶斯估计:把未知的参数当作具有某种分布的随机贝叶斯估计:把未知的参数当作具有某种分布的随机变量,样本的视察结果使先验分布转化为后验分布,再变量,样本的视察结果使先验分布转化为后验分布,再依据后验分布修正原先对参数的估计。依据后验分布修正原先对参数的估计。6.参数估计的评价:评价一个估计的参数估计的评价:评价一个估计的“好坏好坏”,不能按一,不能按一次抽样结果得到的估计值与参数真值次抽样结果得到的估计值与参数真值的偏差大小来确的偏差大小来确定,而必需从平均和方差的角度动身进行分析,即关于定,而必需从平均和方差的角度动身进行分析,
8、即关于估计量性质的定义。估计量性质的定义。4-2参数估计理论参数估计理论一极大似然估计一极大似然估计假定:假定:待估参数待估参数是确定的未知量是确定的未知量按类别把样本分成按类别把样本分成M类类X1,X2,X3,XM其中第其中第i类的样本共类的样本共N个个Xi=(X1,X2,XN)T并且是独立从总体中抽取的并且是独立从总体中抽取的Xi中的样本不包含中的样本不包含(ij)的信息,的信息,所以可以对每一所以可以对每一类样本独立进行处理。类样本独立进行处理。第第i类的待估参数类的待估参数依据以上四条假定,我们下边就可以只利依据以上四条假定,我们下边就可以只利用第用第i类学习样类学习样原来估计第原来估
9、计第i类的概率密度,其它类的概率类的概率密度,其它类的概率密度由其它类密度由其它类的学习样原来估计。的学习样原来估计。1.一般原则:一般原则:第第i类样本的类条件概率密度:类样本的类条件概率密度:P(Xi/i)=P(Xi/ii)=P(Xi/i)原属于原属于i类的学习样本为类的学习样本为Xi=(X1,X2,XN,)Ti=1,2,M求求i的极大似然估计就是把的极大似然估计就是把P(Xi/i)看成看成i的函数,求的函数,求出访它极大时的出访它极大时的i值。值。学习样本独立从总体样本集中抽取的学习样本独立从总体样本集中抽取的N个个学学习习样样本本出出现现概概率率的的乘乘积积取对数取对数:对i求导,并令
10、它为0:有时上式是多解的,上图有5个解,只有一个解最大即.P(Xi/i)2.多多维维正正态态分布状况分布状况已知已知,未知未知,估估计计听从正听从正态态分布分布所以在正所以在正态态分布分布时时代入上式得所以,有这说明未知均值的极大似然估计正好是训练样本的算术平均。,均未知A.一维状况:n=1对于每个学习样本只有一个特征的简洁状况:(n=1)由上式得即学习样本的算术平均样本方差v探讨:探讨:v1.正正态态总总体体均均值值的的极极大大似似然然估估计计即即为为学学习习样样本本的的算算术术平平均均v2.正正态态总总体体方方差差的的极极大大似似然然估估计计与与样样本本的的方方差差不不同同,当当N较大的时
11、候,二者的差别不大。较大的时候,二者的差别不大。vB多维状况:多维状况:n个特征(推导过程,作为练习)个特征(推导过程,作为练习)v估计值:估计值:v结论:结论:的估计即为学习样本的算术平均的估计即为学习样本的算术平均vv估估计计的的协协方方差差矩矩阵阵是是矩矩阵阵的的算算术术v平均(平均(nn阵列,阵列,nn个值)个值)二二.贝叶斯估计贝叶斯估计极大似然估计是把待估的参数看作固定的未极大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第具有某种先验分布的随机变量,通过对第i类类学习样本学习样本Xi
12、的视察,通过贝叶斯准则将概率的视察,通过贝叶斯准则将概率密度分布密度分布P(Xi/)转化为后验概率转化为后验概率P(/Xi),进而求使得后验概率分布最大的参数估计,进而求使得后验概率分布最大的参数估计,也称最大后验估计。也称最大后验估计。估计步骤:估计步骤:确定确定的先验分布的先验分布P(),待估参数为随机变待估参数为随机变量。量。用第用第i类样本类样本xi=(x1,x2,.xN)T求出样本求出样本的联合概率密度分布的联合概率密度分布P(xi|),它是,它是的函数。的函数。利用贝叶斯公式利用贝叶斯公式,求求的后验概率的后验概率下面以正态分布的均值估计为例说明贝叶斯估计的过程:一维正态分布:已知
13、2,估计假设概率密度听从正态分布P(X|)=N(,2),P()=N(0,02)第i类学习样本xi=(x1,x2,.xN)T,i=1,2,M第i类概率密度P(x|i,xi)=P(x|xi)所以由贝叶斯公式,则可得后验概率:因为N个样本是独立抽取的,所以上式可以写成其中为比例因子,只与x有关,与无关P(Xk|)=N(,2),P(u)=N(0,02)其中a,a包含了全部与无关的因子P(|Xi)是u的二次函数的指数函数P(|Xi)仍旧是一个正态函数,P(|Xi)=N(N,N2)另外后验概率可以干脆写成正态形式:比较以上两个式子,对应的系数应当相等解以上两式得将N,代入P(|Xi)可以得到后验概率,再用
14、公式 对的估计为 若令P()=N(0,02)=N(0,1),即为标准正态分布,且总体分布的方差 也为1,则 此时估计 与极大似然估计相像,只是分母不同。三贝叶斯学习三贝叶斯学习1.贝贝叶叶斯斯学学习习的的概概念念:通通过过已已有有的的概概率率分分布布和和观观测测数数据据推推理理求求出出的的后后验验概概率率之之后后,干干脆脆去推导总体分布去推导总体分布(形式已知形式已知),即,即当当视视察察一一个个样样本本时时,N=1就就会会有有一一个个的的估估计计值值的修正值;的修正值;当视察当视察N=4时,对时,对进行修正,向真正的进行修正,向真正的靠近;靠近;当当视视察察N=9时时,对对进进行行修修正正,
15、向向真真正正的的靠靠的的更近;更近;当当视视察察N个个样样本本后后,N就就反反映映了了视视察察到到N个个样样本本后后对对的的最最好好推推想想,而而N2反反映映了了这这种种推推想想的的不不确确定定性性。N,N2,N2随随视视察察样样本本增增加加而单调减小,且当而单调减小,且当N,N20;当当N,P(|xi)越来越尖峰突起,于是越来越尖峰突起,于是N,P(|xi)函函数数,即即收收敛敛于于一一个个以以真真实实参参数数为为中中心心的的函函数数,这这个个过过程程成成为为贝贝叶叶斯斯学习。学习。2类概率密度的估计类概率密度的估计在求出在求出u的后验概率的后验概率P(|xi)后,可以干脆利用式后,可以干脆
16、利用式推推断断类类条条件件概概率率密度。密度。即即P(x|xi)P(x|i,xi)一维正态:已知一维正态:已知2,未知未知的后验概率为的后验概率为v结论:结论:v把把第第i类类的的先先验验概概率率P(i)与与第第i类类概概率率密密度度P(x|xi)相相乘乘可可以以得得到到第第i类类的的后后验验概概率率P(i|x),依依据据后后验验概概率可以分类。率可以分类。v对对于于正正态态分分布布P(x|xi),用用样样本本估估 计计 出出 来来 的的 N代代 替替 原原 来来 的的,用用 代替原来的方差代替原来的方差即可。即可。v把把估估计计值值N作作为为的的实实际际值值,那那 么么 使使 方方 差差 由
17、由 原原 来来 的的 变变 为为 ,使使方方差差增增大大;也也就就是是说说:用用的的估估计计值值N代代替替真真实实值值,将将引引起起不不确确定性增加。定性增加。多维正态(多维正态(已知已知,估计,估计)设设P(x|)=N(,)P()=N(0,0).依据依据Bayes公式,仿上面步骤可以得到:公式,仿上面步骤可以得到:N,N有以下关系有以下关系其中a与无关这就是在多维状况下,对的估计。4-3非参数估计非参数估计参数估计要求密度函数的形式已知,但这种参数估计要求密度函数的形式已知,但这种假定有时并不成假定有时并不成立,常见的一些函数形式很难拟合实际的概率立,常见的一些函数形式很难拟合实际的概率密度
18、,经典的密密度,经典的密度函数都是单峰的,而在很多实际状况中却是度函数都是单峰的,而在很多实际状况中却是多峰的,因此用多峰的,因此用非参数估计。非参数估计。非参数估计非参数估计:干脆用已知类别样本去估计总体密干脆用已知类别样本去估计总体密度分布,方法有:度分布,方法有:用样本干脆去估计类概率密度用样本干脆去估计类概率密度p(x|i)以此以此来设计分类器来设计分类器,如窗口估计如窗口估计用学习样本干脆估计后验概率用学习样本干脆估计后验概率p(i|x)作为作为分类准则分类准则来设计分类器,如来设计分类器,如KN近邻法。近邻法。1.密度估计原理:一个随机变量密度估计原理:一个随机变量X落在区域落在区
19、域R的概率为的概率为PP(X)为为P(X)在在R内的变更值,内的变更值,P(X)就是要求的就是要求的总体概率密度总体概率密度RP(x)假设有N个样本X=(X1,X2,XN)T都是依据P(X)从总体中独立抽取的,若N个样本中有k个落入在R内的概率符合二项分布其中,P是样本X落入R内的概率,Pk是k个样本落入R内的概率数学期望:E(k)=k=NP对概率P的估计:。是P的一个比较好的估计设P(x)在R内连续变更,当R渐渐减小的时候,小到使P(x)在其上几乎没有变更时,则其中是R包围的体积 条件密度的估计:(V足够小)探讨:当V固定的时候N增加,k也增加,当 时 只反映了P(x)的空间平均估计而反映不
20、出空间的变更 N固定,体积变小 当 时,k=0时 时 所以起伏比较大,噪声比较大,须要对V进行改进.对体积对体积V V进行改进:进行改进:为为了了估估计计X X点点的的密密度度,我我们们构构造造一一串串包包括括X X的的区区域域序序列列:R1,R2,.RNR1,R2,.RN。对对R1R1接受一个样本进行估计,接受一个样本进行估计,对对R2R2接受二个样本进行估计,接受二个样本进行估计,.设设VNVN是是RNRN的体积,的体积,KNKN是是N N个样本落入个样本落入VNVN的样本数,则:的样本数,则:密度的第密度的第N N次估计:次估计:其中:其中:VNVN是是RNRN的体积,的体积,KNKN是
21、是N N个样本落入个样本落入VNVN的样本数的样本数PN(x)PN(x)是是P(x)P(x)的第的第N N次估计次估计若若PN(x)收敛于收敛于P(x)应满足三个条件:应满足三个条件:,当,当N时,时,VN,N,VN0这时虽然样本数多,但由于这时虽然样本数多,但由于VN,落入,落入VN内的样本内的样本KN也减小,所以空间变更才反映出来;也减小,所以空间变更才反映出来;,N,KN,N与与KN同向变更;同向变更;,KN的的变变更更远远小小于于N的的变变更更。因因此此尽尽管管在在R内内落落入入了了很很多多的的样样本本,但但同同总总数数N比比较较,仍仍旧旧是是很很小小的一部分。的一部分。如何选择VN满
22、足以上条件:使体积VN以N的某个函数减小,如(h为常数),窗口法。使KN作为N的某个函数,例VN的选择使RN正好包含KN个近邻V1K1,V2K2,VRKRKN近邻法2.Parzen窗口估计窗口估计假设RN为一个d维的超立方体,hN为超立方体的长度超立方体体积为:,d=1,窗口为一线段d=2,窗口为一平面d=3,窗口为一立方体d3,窗口为一超立方体窗口的选择:窗口的选择:方窗函数指数窗函数正态窗函数(u)(u)(u)hN正态窗函数(u)是以原点x为中心的超立方体。在xi落入方窗时,则有 在VN内为1 不在VN内为0落入VN的样本数为全部为1者之和 密度估计探讨:探讨:每个样本对估计所起的作用依靠
23、于它到每个样本对估计所起的作用依靠于它到x的距离,即的距离,即|x-xi|hN/2时,时,xi在在VN内为内为1,否则为,否则为0。称为称为的窗函数,取的窗函数,取0,1两种值,但有两种值,但有时可以取时可以取0,0.1,0.2,多种数值,例如随多种数值,例如随xi离离x接近的程度,接近的程度,取值由取值由0,0.1,0.2,到到1。要求估计的PN(x)应满足:为满足这两个条件,要求窗函数满足:窗长度hN对PN(x)的影响若hN太大,PN(x)是P(x)的一个平坦,辨别率低的估计,有平均误差若hN太小,PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严峻,hN应很好选
24、择。例1:对于一个二类(1,2)识别问题,随机抽取1类的6个样本X=(x1,x2,.x6)1=(x1,x2,.x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计P(x|1)即PN(x)解:选正态窗函数0123456x6x5x3x1x2x4xx是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中心的丘形曲线(正态曲线),而PN(x)则是这些曲线之和。由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越精确。例2:设待估计的P(x)是个均值为0,方差为1的正态密度函数。若随机地抽取X样本中的1个、16个、256个作
25、为学习样本xi,试用窗口法估计PN(x)。解:设窗口函数为正态的,1,0hN:窗长度,N为样本数,h1为选定可调整的参数。v用窗法估计单一正态分布的实验N=N=256N=16N=1探讨:由图看出探讨:由图看出,PN(x)随随N,h1的变更状况的变更状况当当N1时,时,PN(x)是一个以第一个样本为中心是一个以第一个样本为中心的正态形态的小丘,与窗函数差不多。的正态形态的小丘,与窗函数差不多。当当N16及及N=256时时h10.25曲线起伏很大,噪声大曲线起伏很大,噪声大h11起伏减小起伏减小h14曲线平坦,平均误差曲线平坦,平均误差当当N时,时,PN(x)收敛于一平滑的正态曲线,收敛于一平滑的
26、正态曲线,估计曲线较好。估计曲线较好。例例3:待估的密度函数为两个匀整:待估的密度函数为两个匀整分布密度的混合密度分布密度的混合密度解:此为多峰状况的估计解:此为多峰状况的估计设窗函数为正态设窗函数为正态-2.5x-20 x2其它x-2.5-210.2502P(x)N=N=256N=16N=1v用窗法估计两个均匀分布的实验当N=1、16、256、时的PN(x)估计如图所示当N1时,PN(x)实际是窗函数。当N16及N=256时h10.25曲线起伏大;h11曲线起伏减小h14曲线平坦当N时,曲线较好。结论:结论:由上例知窗口法的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法
27、进行密度估计。要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。3.KN近邻估计:近邻估计:在在窗窗口口法法中中存存在在一一个个问问题题是是对对hN的的选选择择问问题题。若若hN选选太太小小,则则大大部部分分体体积积将将是是空空的的(即即不不包包含含样样本本),从从而而使使PN(x)估估计计不不稳稳定定。若若hN选选太太大大,则则PN(x)估估计计较较平平坦坦,反反映映不不出出总总体体分分布布的的变变更更,而而KN近近邻邻法法的的思思想想是是以以x为为中中心心建建立立空空包包,使使V,直直到到捕捕获获到到KN个个样样本本为为止止,因因此此称称其其为为KN-近邻估计。近邻估计。V的改进
28、体现为:样本密度大,的改进体现为:样本密度大,VN;样本密度小,样本密度小,VN;P(x)的估计为:的估计为:使使PN(x)收敛于收敛于P(x)的充分必要条件:的充分必要条件:,N与与KN同相变更同相变更,KN的变更远小于的变更远小于N的变更的变更V1为N=1时的VN值KN近邻估计对KN和VN都作了限制KN近邻法作后验概率的估计近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为:N个样本落入个样本落入VN内有内有KN个,个,KN个样本内有个样本内有Ki个样本属于个样本属于i类类则联合概率密度:依据Bayes公式可求出后验概率:类别为i的后验概率就是落在
29、VN内属于i的样本ki与VN内总样本数KN的比值K近邻分类准则:对于待分样本对于待分样本x,找出它的,找出它的k个近邻,检查个近邻,检查它的类别,把它的类别,把x归于样本最多的那个类别。归于样本最多的那个类别。K近邻分类的错误率随K,Pk,最低的错误率为Bayes分类。P*PK4.最最近近邻邻分分类类准准则则:待分样本x,找一个离它最近的样本,把x归于最近的样本一类。错误率:M为类别数P(e)为Bayes估计的错误率最近邻分类法则的错误率P比K近邻错误率还大,但最大不会超过贝叶斯分类器错误率的二倍。PP(e)BayesK近邻最近邻作业作业1.设总体概率分布密度为,并设,分别用最大似然估计和贝叶斯估计计算。已知的先验分布为2.设对于一个二类(1,2)识别问题,随机抽取1类的5个样本X=(x1,x2,.x5),即1=(x1,x2,.x5)x1=5.2,x2=5.6,x3=5,x4=8,x5=2.5试用方窗函数、正态窗函数和指数窗函数,估计P(x|1),并探讨其性能。