《(44)--第三章 概率密度函数模式识别.pdf》由会员分享,可在线阅读,更多相关《(44)--第三章 概率密度函数模式识别.pdf(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2019-9-22模式识别第三章1 引言引言最大似然估计最大似然估计贝叶斯估计贝叶斯估计贝叶斯学习贝叶斯学习本章小结本章小结主要内容2019-9-22模式识别第三章2引言引言 2019-9-22模式识别第三章3 iiiPPPPxxx贝叶斯决策公式:贝叶斯决策公式:样本后验概率:(|)ipx()iP 2019-9-22模式识别第三章4利用类条件概率 和先验概率 来设计分类器 存在的问题:存在的问题:u 不知道先验概率不知道先验概率 和类条件概率和类条件概率 u 估计先验概率估计先验概率 通常没有太大困难;通常没有太大困难;u 最大困难在于估计类条件概率密度函数最大困难在于估计类条件概率密度函数
2、,因,因为训练样本不够多,如果特征的维数较大,会产生比为训练样本不够多,如果特征的维数较大,会产生比较困难的多重积分计算复杂度问题。较困难的多重积分计算复杂度问题。就是要寻找某种有效的方法,能利用现有的信息设计出就是要寻找某种有效的方法,能利用现有的信息设计出正确的分类器。正确的分类器。(|)ipx()iP()iP(|)ipx2019-9-22模式识别第三章5 目标:利用已知的笼统和模糊的知识+训练样本 设计分类器2019-9-22模式识别第三章6问题的解决:问题的解决:方法:利用训练样本估计先验概率和条件密度函数利用训练样本估计先验概率和条件密度函数,并把这些估计的结果当作实际的先验概率和条
3、件密度函数,然后再设计分类器。如何从可用的样本数据来推断如何从可用的样本数据来推断(估计估计)总体概率分布的参数?总体概率分布的参数?u 最大似然估计最大似然估计u 贝叶斯估计贝叶斯估计 u最大似然估计把待估计的参数看作是确定的量,只是最大似然估计把待估计的参数看作是确定的量,只是其取值未知;其取值未知;u贝叶斯估计是把待估计的参数看作符合某种先验概率贝叶斯估计是把待估计的参数看作符合某种先验概率分布的随机变量。分布的随机变量。两种方法的区别:参数估计的方法:参数估计的方法:2019-9-22模式识别第三章7 参数估计的分类参数估计的分类u监督参数估计监督参数估计样本所属类别(标签)已知,样本
4、的类条件概率密度函数的形式已知,但参数未知(例如,已知高斯分布,但参数或未知),即已知规律但未知参数。u非监督参数估计非监督参数估计已知总体概率密度函数的形式,但样本所属类别未知,要求推断出概率密度函数的某些参数,称为非监督参数估计。2019-9-22模式识别第三章8 参数估计的基本概念参数估计的基本概念u统计量统计量每一种训练样本都包含着总体的某种信息,一个训练样本集X 包含总体的全部信息,针对不同的参数估计要求构造某种函数以便从样本集X中抽取有关信息,这种函数称为统计量。u参数空间参数空间所有未知参数的可能取值的集合称为参数空间,记为。u 点估计、估计量和估计值点估计、估计量和估计值估计总
5、体分布的一个或几个具体参数叫点估计。针对某未知参数i构造一个统计量作为i的估计,称 为i的估计量;的值叫做i的估计值。ii2019-9-22模式识别第三章9最大似然估计最大似然估计 2019-9-22模式识别第三章10最大似然估计的基本问题最大似然估计的基本问题 在一类中独立地按照概率密度在一类中独立地按照概率密度p(p(x|x|)抽取样本集抽取样本集X X,用来估计出未知参数用来估计出未知参数。基本假设:u参数参数 是未知的确定性的量是未知的确定性的量;u样本集按照类别样本集按照类别w wi i分为分为c c个样本子集个样本子集,这些样本都是从这些样本都是从类条件概率密度为类条件概率密度为p
6、(p(x|wx|wj j)的总体中独立抽取的。的总体中独立抽取的。u类条件概率密度类条件概率密度p(p(x|wx|wj j)具有某种确定的函数形式,只具有某种确定的函数形式,只是其中的参数是其中的参数 未知。未知。u不同类别的参数在函数上是独立的(非耦合),可以不同类别的参数在函数上是独立的(非耦合),可以分别对每一类进行处理。分别对每一类进行处理。2019-9-22模式识别第三章11基本概念和原理基本概念和原理 已知某一类样本集包含已知某一类样本集包含N N个样本,个样本,X=x1,x2,xN,待估待估计的未知参数为计的未知参数为,由于假设样本是独立抽取的,那么,由于假设样本是独立抽取的,那
7、么 为了便于分析为了便于分析(指数分布以及对数函数单调性指数分布以及对数函数单调性),还可以,还可以定义对数似然函数:定义对数似然函数:2019-9-22模式识别第三章122019-9-22模式识别第三章13最大似然估计量最大似然估计量估计值估计值2019-9-22模式识别第三章14极大似然估计的求解极大似然估计的求解求解方法:根据已知的样本集求解方法:根据已知的样本集X X,使似然函数取极大值时,使似然函数取极大值时得到的参数,就是我们要找的估计量。得到的参数,就是我们要找的估计量。一维变量参数的求解:一维变量参数的求解:在似然函数连续、可微的条件下,并且只有一个在似然函数连续、可微的条件下
8、,并且只有一个参数变量的情况下,即参数变量的情况下,即为一维参数,求为一维参数,求 就是求就是求解如下微分方程的解:解如下微分方程的解:或或 0/)(ddl0/)(ddH2019-9-22模式识别第三章15多维变量参数的求解:多维变量参数的求解:若未知参数不止一个,即是由多个未知参数组成的向量时,求解似然函数的最大值,就需要对参数向量 的每一维分量分别求偏导的每一维分量分别求偏导,即用下面的梯度算子:Ts,212019-9-22模式识别第三章160)(H将似然函数或对数似然函数代入,并令其为零,解以上方程组就可得到 的的最大似然估计值,并加以判断。若参数矢量 是s维的,那么得到一组由s个方程组
9、成的方程组:11121ln(|)0ln(|)0ln(|)0NkkNkkNkksp xp xp x2019-9-22模式识别第三章17设i类分布为正态分布、一维模式、概率密度函数为待估计参数为,2。因此,。T21,122若X表示从i中独立抽取的N个样本,则 的似然函数为1()(|)Nkklpx正态分布情况下极大似然估计示例221exp21)|(xxp21221(|)exp22kkpxx其中,2019-9-22模式识别第三章18其对数似然函数为:)|(ln)(ln)(1kNkxPxlH21221ln(|)ln(2)22kkp xx分别对两个未知参数求偏导,得到:kNkxN1112122)(1kNk
10、xN解方程组,得到:2019-9-22模式识别第三章19推广到多维正态分布情况:11NkkNxT11()()NkkkN xx均值向量的最大似然估计是样本的均值;结论:正态分布假设下最大似然估计是 协方差矩阵的最大似然估计是N个矩阵的算术平均。2019-9-22模式识别第三章20贝叶斯估计贝叶斯估计 2019-9-22模式识别第三章21【贝叶斯估计的基本知识】u 贝叶斯估计是概率密度估计中的另一类参数估计方法,是把待估计的参数本身也看作随机变量,然后根据观测数据对参数的分布进行估计;u 把待估计参数看作具有先验分布密度p()的随机变量,其取值与已知样本集X有关;u 根据已知样本集 估计最优的参数
11、,解决思路类似于贝叶斯决策;u采用最小风险的决策方法,假设将参数估计为 时所带来的损失为 ,称为损失函数。Nxxx,21X X),(Nxxx,21X X2019-9-22模式识别第三章22 贝叶斯估计贝叶斯估计就是根据一个样本集 X=x1,x2,xn,找出估计量 ,估计X 所属总体分布的某个真实参数,使带来的贝叶斯风险最小。假设样本的取值空间为Ed,未知参数的取值空间为,当用 来作为的估计时的损失函数为 ,那么当用 来估计时所带来的总的期望风险就是:),(xxddpRdE),(),(xxxddppdE)()|(),(xxddpRdE),(),(xxxddppdE)()|(),(dEx其中,,2
12、019-9-22模式识别第三章23定义样本x下的条件风险为:2019-9-22模式识别第三章24dpR)|(),()|(xxdEx则期望风险可以写为:xxxdpRdE)()|(R目标是:对期望风险目标是:对期望风险R R求最小。求最小。求期望风险最小就等价于对所有可能的x求条件风险最小条件风险最小。即:最小化期望风险 最小化条件风险(对所有可能的x)对于不同的损失函数,可得到不同的最佳贝叶斯估计。常用的损失函数为平方误差形式常用的损失函数为平方误差形式,即2019-9-22模式识别第三章252)(),(可以证明:如果采用平方误差损失函数,则的贝叶斯估计量 是在给定样本x时的条件期望,即 dpE
13、)|(|xx 同理可得到,在给定样本集X下,的贝叶斯估计是:dpE)|(|X XX X2019-9-22模式识别第三章26 证明:取平方函数形式 ,那么条件风险2)(),(dpR)|(),()|(xx 条件风险对待求估计量进行求导,注意条件概率积分为1,得到dpE)|(|xx0)|()22(dxp(1)确定的先验分布p()(2)求样本集的联合分布(3)求的后验概率分布(4)求的贝叶斯估计量 2019-9-22模式识别第三章27贝叶斯估计的基本步骤:(平方误差损失函数)贝叶斯估计的基本步骤:(平方误差损失函数))|()|(1iNippxX Xdppppp)()|()()|()|(X XX XX
14、Xdp)|(X X2019-9-22模式识别第三章28左图:给定先验均值向量和协方差矩阵,两类高斯分布训练数据右图:高斯先验条件下贝叶斯估计参数最大后验概率分类,分类的正确率为93%左右。贝叶斯估计例子:分类贝叶斯估计例子:分类图3.1 贝叶斯分类(高斯先验)【贝叶斯学习】2019-9-22模式识别第三章29迭代计算式的推导:(|)()(|)(|)()NNNp XppXp Xpd(|)|ippxx2019-9-22模式识别第三章30式中1(|)(|)(|)NNNp Xpp Xx除样本xN以外其余N-1个样本的集合(|)()(|)(|)()NNNp XppXp Xpd将其代入上式得 11(|)(
15、|)()(|)(|)(|)()NNNNNpp XppXpp Xpdxx由贝叶斯公式 111(|)()(|)()NNNpXp Xp Xp相应地有随着观测数据的迭代公式11(|)(|)(|)(|)(|)NNNNNppXpXppXdxx参数估计的递推贝叶斯方法,迭代过程即是贝叶斯学习的过程2019-9-22模式识别第三章31详细的贝叶斯学习过程:11(|)(|)(|)(|)(|)NNNNNppXpXppXdxx1111(|)()(|)(|)(|)()pppXpppdxxx*得到观测数据x2,对用x1估计的结果进行修正1122122(|)(|)(|)(|,)(|)(|)ppXpXpppXdxx xx2
16、019-9-22模式识别第三章3211(|)(|)(|)(|)(|)NNNNNppXpXppXdxx|(,|)(|)(|)NNNpXpXdppXdxxx*逐次给出x3,x4,xN,得到后验概率密度 2019-9-22模式识别第三章33例例 正态分布密度函数的贝叶斯估计和贝叶斯学习正态分布密度函数的贝叶斯估计和贝叶斯学习1)贝叶斯估计 200,Np2019-9-22模式识别第三章34(|)()(|)(|)()p XppXp Xpd式中,1(|)(|)Nkkp Xp x1(|)(|)()NkkpXp xp后验密度可以写为2|,kp xN 200,Np由于 有 1(|)(|)()NkkpXp xp2
17、02001222exp212exp21Nkkx2019-9-22模式识别第三章35Nkkx120202221exp 20012220212121expNkkxN211(|)exp22NNNpX0220222020NmNNNN2202202NN式中,NkkNxNm112019-9-22模式识别第三章36211(|)exp22NNNNpX dd0220222020NmNNNNkkNxNmNN1111 与最大似然估计形式类似2019-9-22模式识别第三章37211(|)exp22NNNpX0220222020NmNNNN2202202NN式中,同前2)贝叶斯学习2019-9-22模式识别第三章38
18、图3.2 均值的贝叶斯学习过程示意图2019-9-22模式识别第三章39|(|)(|)p x Xp xpX ddxNNN22222exp212exp21222222exp21NNNx可见:2019-9-22模式识别第三章40【总 结】本章主要介绍了监督学习里概率密度函数未知参数的估本章主要介绍了监督学习里概率密度函数未知参数的估计方法。计方法。两种方法:两种方法:最大似然估计法和贝叶斯估计最大似然估计法和贝叶斯估计 共同点:共同点:都是在已知概率密度形式,但参数未知的情况都是在已知概率密度形式,但参数未知的情况下,利用已知训练样本来估计未知参数的。下,利用已知训练样本来估计未知参数的。区区 别
19、:别:最大似然估计是把待估计的参数当作未知但固定的最大似然估计是把待估计的参数当作未知但固定的参数,要做的是根据观测数据估计这个参数的取值;参数,要做的是根据观测数据估计这个参数的取值;而贝叶斯估计则是把待估计的参数本身也看作随机而贝叶斯估计则是把待估计的参数本身也看作随机变量,要做的是根据观测数据对参数的分布进行估计。变量,要做的是根据观测数据对参数的分布进行估计。2019-9-22模式识别第三章41贝叶斯学习2019-9-22模式识别第三章42|(,|)(|)(|)NNNpXpXdppXdxxx11(|)(|)(|)(|)(|)NNNNNppXpXppXdxx本章结束本章结束 2019-9-22模式识别第三章43