《模式识别课件总顺序No4第二章NO3杨雅双071013概率密度函数估计.ppt》由会员分享,可在线阅读,更多相关《模式识别课件总顺序No4第二章NO3杨雅双071013概率密度函数估计.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 概率密度函数的估计概率密度函数的估计一一 引言引言 前述是在已知已知P(wi)和p(x|wi)情况下进行讨论的。但实际中,我们能收集到的是有限数目有限数目的样本,而未知的未知的则可能是则可能是:条件概率密度(各类的总体分布)p(x|wi);先验概率P(wi)。也许P(wi)和和p(x|wi)的形式可知的形式可知,但其中的参数未知参数未知。这时就利用统计推断中的估计理论估计理论:如利用样本集估计利用样本集估计 p(wi)和和p(x|wi)(分别记为 和 )二二 参数估计的基本概念参数估计的基本概念 1 参数估计的类型参数估计的类型(1)监督参数估计监督参数估计:样本所属的类别样本所
2、属的类别及p(x|wi)的形式的形式为已知已知,而概率密度p(x|wi)中的一些参数是未知的一些参数是未知的。这时要由已知类别的样本集已知类别的样本集对总体分布的某些参数进行估计某些参数进行估计。(2)非监督参数估计非监督参数估计:已知已知p(x|wi)的形式的形式,但未知未知样本所属类别样本所属类别。这时就要估计概率密度中的一些参数估计概率密度中的一些参数。注:监督与非监督参数估计的区别:样本所属类别是已知还是未样本所属类别是已知还是未知的知的。(3)非参数估计非参数估计:已知样本所属类别已知样本所属类别,但未知未知p(x|wi)形式形式。这时就要推断出概率密度函数推断出概率密度函数。2 名
3、词解释名词解释 (1)训练(学习)训练(学习):在p(wi)、p(x|wi)或或p(wi|x)不知道或不完不知道或不完全知道全知道时,而根据样本来确定样本来确定他们,这项工作成为训练训练或学学习习。(2)总体(母体):总体(母体):一个模式类模式类。(3)总体的子样:总体的子样:一个模式类中某些模式(总体中的一些元素)某些模式(总体中的一些元素)的集合的集合称之这个总体的子样。(4)统计量:统计量:由样本构造的函数样本构造的函数d(xi,xn),即针对不同要求构造出样本的某种函数。(5)经验分布经验分布:由样本推断的分布样本推断的分布。(6)估计:估计:由样本样本按某种规则构造的一个统计量构造
4、的一个统计量=(x1,x2,xn),用的值作为被估参数集的值作为被估参数集的近似值的近似值。(7)点估计点估计:构造一个统计量:构造一个统计量d(x1,xn)作为参数的估计。(8)估计量:估计量:在统计学中称为为的估计量的估计量。(9)估计值:估计值:将类别类别wi中的几个样本观察值几个样本观察值x1i,xni代入统计量代入统计量d中所求得的第第i类的具体数值类的具体数值。(10)区间估计:区间估计:在一区间内一区间内对对进行估计进行估计,此区间称为置信区间。(11)参数空间:参数空间:在概率密度形式已知,而未知未知的是其所含所含(几个几个)参数时参数时,则未知参数(记为)的取值范围的取值范围
5、(即集合)称为参数空间。三三 参数估计的几种常用方法参数估计的几种常用方法1 最大似然估计最大似然估计(1)假设:假设:按类别把样本集分开按类别把样本集分开,设有c类,即有c个样本集个样本集1,2,c,其中j的样本X=(x1,xn)是按类条件概率密度按类条件概率密度为为p(X|wj)从从总体中独立抽取独立抽取的。p(X|wj)的函数形式已知形式已知,但其参数向量参数向量j未知未知,且j唯一唯一地是地是由由p(X|wi)决定的决定的(将其记为p(X|wj,j),即表示p(X|wj)与j有关。或说认为此概率密度是由由j、wj作为条件的条件概作为条件的条件概率密度率密度)。参数是由样本集唯一地确定(
6、是由样本集唯一地确定(即是确定而未知的量是确定而未知的量)。假设i类中的样本不包含类中的样本不包含j(ij)的信息,即不同类别的参数不同类别的参数在函数上是独立的在函数上是独立的。(2)现在的问题就是:现在的问题就是:从样本提供的信息来得到参数向量1,2,c(每个类得到一个参数向量每个类得到一个参数向量)的估计值估计值。(3)最大似然估计的基本思想:最大似然估计的基本思想:如果在一次观察中一个事件一次观察中一个事件X出现出现了了,那么可认为这个事件出现的可能性很大。这里,事件X=x1,x2,xn是按概率密度p(X|wi)从总体中抽出的样本,这时就认为p(X|)达到了最大值,使使p(X|)达到最
7、大值达到最大值的的就是就是的最的最大似然估计大似然估计。(4)最大似然估计的求解最大似然估计的求解设已得到属于同一类的属于同一类的N个样本个样本,即 X=x1,xN 它们具有概率密度p(xk|)(k=1,N),且样本是独立抽取的,则 N p(X|)=p(x1,xN|)=p(xk|)(2-26)k=1 p(X|)是的函数(将其称为相对于样本集相对于样本集X的的的似然函数,的似然函数,记为记为l()),即 N l()=p(X|)=p(xk|)(2-27)k=1注:注:(1)l()给出了从总体中抽出给出了从总体中抽出x1,xN这样这样N个样本的概率。个样本的概率。(2)未知参数的最大似然估计的最大似
8、然估计被定义为被定义为使使l()最大最大的的值值。(3)当当X的N个样本确定样本确定后,似然函数l()只是只是的函数的函数。(4)但若换一组样本换一组样本,l()的形式也会发生改变的形式也会发生改变。即使即使l()的值的值最大最大的的是样本是样本x1,x2,xN的的函数,函数,记为=d(x1,x2,xN)(其称为的最大似然估计量的最大似然估计量)。l()的对数形式对数形式ln l()(记为H(),称其为对数似然函数对数似然函数),使使H()极大极大的的同样同样使使l()取极大值取极大值。H()=ln l()=ln p(X|)=ln p(x1,xN|)(2-28)在N个样本独立抽取时,且设参数向
9、量设参数向量 在该式对对的偏导等于零的解,就是的偏导等于零的解,就是。其中梯度算子 即从 的s个方程中求得个方程中求得=1,s。如果以上方程的解能使似然函数值最大,能使似然函数值最大,则则就是就是的最的最大似然估计大似然估计。注意:注意:有时上方程组可能有若干解。如下图中 都是解,但只有只有才使似然函数最大才使似然函数最大,即才是最大似然才是最大似然估计估计。有时上方程组无解,如无极值点。3 贝叶贝叶斯(斯(Bayes)估计估计(1)贝叶斯估计中的贝叶斯估计中的损失函数损失函数 在最小风险Bayes决策中是依据总风险总风险R或条件风险最条件风险最小准则小准则建立判决规则。同样,在Bayes参数
10、估计中,也可以考虑总风险总风险/损失损失问题,但这里损失函数是用估计值损失函数是用估计值作为作为真实参数真实参数值值的代价的代价。令(,)作为作为代替代替所造成的损失(损失函数)所造成的损失(损失函数),对于一个观测样本集X=x1,x2,xd,当用作为的估计时,在在X条件下的条件风险定义为条件下的条件风险定义为:R(|X)=(,)*P(|X)d (2-31)其中为参数空间。考虑到X的各种取值的各种取值,因此总风险R应是R(|X)在d=,特征空间中的期望期望。即:R=d R(|X)*P(X)dX =d(,)*P(|X)*P(X)d dX (2-32)(2)Bayes估计的思想:所求得的 的估计值
11、 应使估计损失估计损失的期望最小最小,这种使使R或等价地或等价地使使R(|X)取最小值的取最小值的 的估的估计值计值称为称为 的贝叶斯估计。的贝叶斯估计。注:损失函数(,)可定义成不同的形式可定义成不同的形式,对于(,)不同的不同的具体定义,可得到不同的最佳具体定义,可得到不同的最佳Bayes估计估计量量。(3)二次函数下的贝叶斯估计二次函数下的贝叶斯估计例如:取取(,)为二次函数为二次函数,即平方误差损失函数,这种取法是Bayes估计中最理想最常用最常用的Bayes最优估计。即 (,)=(-)2 (2-33)于是,估计的平均损失平均损失(总风险)为:R=d(-)2*P(|X)*P(X)d d
12、X =d(-)2*P(|X)d*P(X)dX (2-34)由于由于p(X)是非负是非负的,的,只出现在内积分中,因此只出现在内积分中,因此使使R最小最小等价于使等价于使 R(|X)=(-)2*P(|X)d 最小。最小。为求为求R(|X)极小,则需极小,则需从而可得:因为:由于R是关于的二次函数,所以上式的上式的确使确使R或或R(|X)最小最小。上式同时表明,的最小方差的最小方差Bayes估计估计是在观是在观测测X条件下条件下的的的条件期望的条件期望。(4)归纳起来归纳起来Bayes估计的步骤是:估计的步骤是:确定未知参数集的先验概率P();由样本集X求出样本联合分布p(X|),它是的函数;条件
13、是:类的概型是已知的,且各样本是独立抽取的,即它们条件独立。利用Bayes公式,求出的后验概率p(|X)求出Bayes估计量4 贝叶斯学习贝叶斯学习Bayes学习与Bayes估计的前提条件是相同的前提条件是相同的,不同的是,Bayes学习不是进行参数估计不是进行参数估计,而是进行总体概率密度的推总体概率密度的推断以获得总体分布断以获得总体分布p(x|X),因此它们具有某些相同的计算过程和内容,也有不同的计算目标。即Bayes学习是在执行完Bayes估计的前3步得到的后验概率p(|X)之后不是去求,而是求总体x的后验概率 p(x|X)。另设 因为在已知的条件下,对x已无作用。由于抽样是独立进行的
14、,x1,x2,xn是条件独立的,故有另据Bayes公式,有 一般而言,运用上述公式可由观测 XN 对总体概率密度p(x|XN)进行推断。下面给出具有递推收敛性质下的Bayes学习的一般陈述。上式为一递推公式,显然 p(|X0)=p()为无样本条件下的条件概率密度,其等于的先验概率密度。反复逐一增加样本,反复逐一增加样本,重复使用上式时,可得到一个密度函数序列:p(),p(,x1),p(,x1,x2)等,这称为参数估计的递推参数估计的递推Bayes方法。方法。如果这个密度序列收敛于密度序列收敛于一个以真实参数为中心的函数,则把具有这种性质的递推过程称为称为Bayes学学习习。由于p(|XN)在真
15、是参数集处逼近一个函数,将其代入p(x|XN)=p(x|)p(|N)d,当样本数目N无穷大时,可得:最大似然估计、贝叶斯估计、贝叶斯学习之间的关系最大似然估计、贝叶斯估计、贝叶斯学习之间的关系(1)最大似然估计最大似然估计 将参数看成随机的未知参数(而非随机参数),似然函数 然后求使l()为最大的作为最大似然估计量(2)贝叶斯估计贝叶斯估计将看成为随机的未知参数,且具有先验分布P(),样本通过l()并利用Bayes公式将的先验分布P()转为后验分布。p(|X)包含了关于的先验信息及样本提供的后验信息,在规定损失函数是一个二次函数(即平方误差)情况下,求出 。(3)贝叶斯学习贝叶斯学习 利用的先验分布及样本提供的信息求出的后验分布p(|X),然后直接求总体分布。N k=1