《模式识别(3-1).ppt》由会员分享,可在线阅读,更多相关《模式识别(3-1).ppt(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 模式识别模式识别 第第3章章 概率总体的估计概率总体的估计(1)3.1 3.1 引言引言通常不能得到有关问题的概率结构的全部知识!寻找某种有效的方法,能利用现寻找某种有效的方法,能利用现有的信息设计出正确的分类器。有的信息设计出正确的分类器。3.1 3.1 引言引言n估计先验概率和类条件概率密度类条件概率密度?q难点:n需要大量样本n当特征向量维数较大时,计算起来比较复杂q解决方式:n已知参数个数n把类条件概率密度进行参数化3.1 3.1 引言引言n n基于样本的两步贝叶斯决策:基于样本的两步贝叶斯决策:3.1 3.1 引言引言n n参数估计参数估计q先假定研究的问题具有某种数数学学模模型型
2、,如正态分布,二项分布等,再用已知类别的学习样本估计里面的参数。n n非参数估计非参数估计q不假定数数学学模模型型,直接用已知类别的学习样本的先验知识估计数学模型。3.1 3.1 引言引言n n监督学习监督学习q在已已知知类类别别样本指导下的学习和训练,参数估计和非参数估计都属于监督学习。n n非监督学习非监督学习q不知道样本类别不知道样本类别,只知道样本的某些 信息去估计,如:聚类分析。从样本集推断总体概率分布的方法可归结为以下几种类型:1)监督参数估计:样本所属的类别及类条件概率密度函数的形式为已知,而表征概率密度函数的某些参数是未知的。2)非监督参数估计:已知总体概率密度函数形式但未知样
3、本所属类别,要求推断出概率密度函数的某些参数。监督与非监督是指样本所属类别是已知还是未知。但无论那种情况下的参数估计我们通常采用两种方法。一种是极大似然估计方法,另一种是贝叶斯估计方法。虽然这两种估计的结果通常是近似相等的,但从概念上来说它们的处理方法是完全不同的。极大似然估计把参数看作是确定而未知的,最好的估计值是在获得实际观察样本的概率为最大的条件下得到的;而贝叶斯估计则把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。3.1 3.1 引言引言本章重点内容:n参数估计最大似然估计最大似然估计,bayes学习学习n非参数估计
4、ParseParse窗口估计、窗口估计、K KNN近邻估计近邻估计3.2 3.2 最大似然估计最大似然估计n n优点:优点:优点:优点:q在训练样本增多时,通常收敛得非常好。q计算比较简单,适合实际应用。假定:假定:假定:假定:待估参数是确定(非随机)的未知量 按类别把样本分成M类X1,X2,X3,XM 其中第i类的样本共N个 Xi =X1,X2,XN 并且是从总体中独立抽取的 3.2 3.2 最大似然估计最大似然估计 类条件概率密度具有某种确定的函数形式,但其参数向量未知。Xi中的样本不包含待估计参数j(ij)的信息,不同类别的参数在函数上是独立的,所以可以对每一 类样本独立进行处理。即:X
5、i中的样本只对i提供有关信息,而没有关于j的任何信息。根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。3.2 3.2 最大似然估计最大似然估计 1.一般原则:一般原则:第i类样本的类条件概率密度:原属于i类的学习样本为Xi=X1,X2,XN i=1,2,M求求i的的最最最最大大大大似似似似然然然然估估估估计计计计就就是是把把p(Xi|i)看看成成i的的函函数数,求求出使它最大时的出使它最大时的i值。值。3.2 3.2 最大似然估计最大似然估计似然函数定义似然函数定义:3.2 3.2 最大似然估计最大似然估计最大似然估计量:最
6、大似然估计量:最大似然估计量:最大似然估计量:使似然函数达到最大值的参数向量。最符合已有的观测样本集的那一个参数向量。学习样本从总体样本集中独立抽取的N个学习样本出现概率的乘积3.2 3.2 最大似然估计最大似然估计为了便于分析,总是使用似然函数的对数函数。为了便于分析,总是使用似然函数的对数函数。为了便于分析,总是使用似然函数的对数函数。为了便于分析,总是使用似然函数的对数函数。3.2 3.2 最大似然估计最大似然估计对求导,并令它为0:3.2 3.2 最大似然估计最大似然估计P(Xi/i)有时上式是多解的,上图有5个解,只有一个解最大即 (对所有的可能解进行检查或计算二阶导数)3.2 3.
7、2 最大似然估计最大似然估计3.2 3.2 最大似然估计最大似然估计3.2 3.2 最大似然估计最大似然估计 2.多维正态分布情况多维正态分布情况 已知,未知,估计,服从正态分布,所以在正态分布时3.2 3.2 最大似然估计最大似然估计n所以这说明未知均值的最大似然估计正好是训练样本的算术平均。3.2 3.2 最大似然估计最大似然估计 ,均未知 A.一维情况:n=1对于每个学习样本只有一个特征的简单情况:(n=1)由上式得:3.2 3.2 最大似然估计最大似然估计即学习样本的算术平均样本方差讨论:讨论:讨论:讨论:1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然
8、估计与样本的方差不同,当N较大的时候,二者的差别不大3.2 3.2 最大似然估计最大似然估计B多维情况:多维情况:n个特征个特征(自行推导)结论:结论:的最大似然估计即为学习样本的算术平均 估计的协方差矩阵是矩阵 的算术平均(nn阵列,nn个值)3.2 3.2 BayesBayes学习学习极大似然估计把参数看作是确定而未知的,最好的估计值是在获得实际观察样本的概率为最大的条件下得到的贝叶斯学习则把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。3.2 3.2 BayesBayes学习学习假定:假定:假定:假定:待估参数是随机的未
9、知量 按类别把样本分成M类X1,X2,X3,XM 其中第i类的样本共N个 Xi =X1,X2,XN 并且是从总体中独立抽取的 类条件概率密度具有某种确定的函数形式,但其参数向量未知。Xi中的样本不包含待估计参数j(ij)的信息,不同类别的参数在函数上是独立的,所以可以对每一 类样本独立进行处理。3.2 3.2 BayesBayes学习学习概率密度函数 是未知的,但假设具有已知的参数形式,未知的是参数向量 。用 表示参数 未知的概率密度函数,其中 是随机向量。已知先验概率 ,根据样本信息将它转化为一个后验概率联合密度 对 积分,得到类条件概率密度3.2 3.2 BayesBayes学习学习由于样
10、本的选择是独立的,所以上式可写为这样当未知的密度函数具有已知的函数形式时,样本可以通过后验概率密度 对 发挥作用。单变量密度函数单变量密度函数:设:设密度函数是正态的,均值是未知参数,而方差已知,要求计算后验概率 和最终的类条件概率密度函数3.2 3.2 BayesBayes学习学习其中其中 是已知的是已知的已知的信息还包括一组抽取出来的样本已知的信息还包括一组抽取出来的样本 ,从而,从而可以得到关于可以得到关于 的后验概率密度:的后验概率密度:其中其中 是比例因子,与是比例因子,与 无关无关由于由于及及带入上式,得到后验概率密度为:带入上式,得到后验概率密度为:3.2 3.2 BayesBa
11、yes学习学习仍然为一正态密度函数仍然为一正态密度函数其中其中3.2 3.2 BayesBayes学习学习解得解得因此因此 表示在观察到一组样本后,对表示在观察到一组样本后,对 的最好的推断,而的最好的推断,而 则反映了这个推断的不确定性则反映了这个推断的不确定性可以看出,随着可以看出,随着N的增加,的增加,单调减小,当单调减小,当 所以每增加一个观察样本都可以减少对推测的不确定性。所以每增加一个观察样本都可以减少对推测的不确定性。3.2 3.2 BayesBayes学习学习得到后验概率密度 后,下面求类条件概率密度函数 其中是与x无关的函数3.2 3.2 BayesBayes学习学习所以类条
12、件概率密度函数是服从正态分布的,所以类条件概率密度函数是服从正态分布的,也就是说,要想得到也就是说,要想得到 ,其中,其中 未知,只要以未知,只要以 代替原来的代替原来的 ,以,以 代替原来的代替原来的 即可。即可。其它形式的概率密度函数,归纳如下:其它形式的概率密度函数,归纳如下:1)类条件概率密度函数类条件概率密度函数 的形式已知,但参数的形式已知,但参数 的值未知的值未知2)关于参数)关于参数 知道它的先验概率密度知道它的先验概率密度3)关于)关于 的其它信息包含在一组样本集的其它信息包含在一组样本集 中中3.2 3.2 BayesBayes学习学习根据根据而后验概率密度函数为而后验概率密度函数为再根据独立性假设再根据独立性假设这样得到了估计的概率密度函数这样得到了估计的概率密度函数练习:对数正态分布 的最大似然估计式为: