《模式识别及其算法实现教学.ppt》由会员分享,可在线阅读,更多相关《模式识别及其算法实现教学.ppt(95页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别主讲主讲:蔡宣平蔡宣平 教授教授 电话电话:7344173441(O O),73442,73442(H H)E-mailE-mail:单位单位:电子科学与工程学院信息工程系电子科学与工程学院信息工程系1第五章第五章 统计决策中的训练、学习统计决策中的训练、学习 与错误率测试、估计与错误率测试、估计n 统计推断概述统计推断概述n 参数估计参数估计n 概密的窗函数估计法概密的窗函数估计法n 有限项正交函数级数逼近有限项正交函数级数逼近法法251 51 统计推断概述统计推断概述第五章第五章 统计决策中的训练、学习统计决策中的训练、学习 与错误率测试、估计与错误率测试、估计3本章目的:已知类别
2、的样本(训练样本)本章目的:已知类别的样本(训练样本)学习或训练学习或训练获得类概密获得类概密在上一章的学习中在上一章的学习中,我们一直假设类的条件概我们一直假设类的条件概率密度函数是已知的率密度函数是已知的,然后去设计贝叶斯分类器。然后去设计贝叶斯分类器。但在实际中,这些知识往往是不知道的,这就需但在实际中,这些知识往往是不知道的,这就需要用已知的样本进行学习或训练。也就是说利用要用已知的样本进行学习或训练。也就是说利用统计推断理论中的估计方法,从样本集数据中估统计推断理论中的估计方法,从样本集数据中估计这些参数。计这些参数。5.1 统计推断概述统计推断概述4如果已知如果已知iw 类的概密类
3、的概密)(ixp wr的函数类型,即知道的函数类型,即知道iw 类的类的概型,但不知道其中的参数或参数集概型,但不知道其中的参数或参数集,可采用参数估计的方法可采用参数估计的方法,当解得这些参数,当解得这些参数 后后)(ixp wr也就确定了。也就确定了。),(21qqq=qD qmiLr确定未知参数确定未知参数参数估计参数估计参数估计有两类方法参数估计有两类方法:1.1.将参数作为非随机量处理,如将参数作为非随机量处理,如矩法估计矩法估计、最大似然估计最大似然估计;2.2.将参数作为随机变量,将参数作为随机变量,贝叶斯估计贝叶斯估计就属此就属此类。类。5.1 统计推断概述统计推断概述5非参数
4、估计非参数估计5.1 统计推断概述统计推断概述当不知道类的概型时,就要采用非参数估计的当不知道类的概型时,就要采用非参数估计的方法,这种方法也称为总体推断,这类方法有:方法,这种方法也称为总体推断,这类方法有:1.p-1.p-窗法窗法2.2.有限项正交函数级数逼近法有限项正交函数级数逼近法3.3.随机逼近法随机逼近法6基本概念基本概念母体(总体):母体(总体):一个模式类称为一个一个模式类称为一个总体总体或或母体母体5.1 统计推断概述统计推断概述母体的母体的子样子样:一个模式类中某些模式:一个模式类中某些模式(即母体中的即母体中的 一些元素一些元素)的集合称为这个的集合称为这个母体的子样母体
5、的子样。母体的。母体的子样含有母体的某些信息,可以通过构造子样含有母体的某些信息,可以通过构造样本样本的函数的函数来获得。来获得。统计量:统计量:一般来说,每一个样本都包含着母体的某一般来说,每一个样本都包含着母体的某些信息,为了估计未知参数就要把有用的信息些信息,为了估计未知参数就要把有用的信息从样本中抽取出来。为此,要构造训练样本的从样本中抽取出来。为此,要构造训练样本的某种函数,这种函数在统计学中称为统计量。某种函数,这种函数在统计学中称为统计量。7基本概念基本概念经验分布:经验分布:由样本推断的分布称为经验分布。由样本推断的分布称为经验分布。5.1 统计推断概述统计推断概述数学期望、方
6、差等数学期望、方差等理论量(或理论分布):理论量(或理论分布):参数空间:参数空间:在统计学中,把未知参数在统计学中,把未知参数q q的可能值的的可能值的集合称为参数空间,记为集合称为参数空间,记为Q Q。点估计、估计量:点估计、估计量:针对某未知参数针对某未知参数q q构造一个统计构造一个统计量作为量作为q q的估计的估计 ,这种估计称为点估计。,这种估计称为点估计。称为称为q q的估计量。的估计量。8基本概念基本概念5.1 统计推断概述统计推断概述 为了准确地对某一类的分布进行参数估计或总为了准确地对某一类的分布进行参数估计或总体推断,应只使用该类的样本。体推断,应只使用该类的样本。就是说
7、在进行参数估计时,应对各类进行独立就是说在进行参数估计时,应对各类进行独立的参数估计或总体推断。因此在以后的论述中,如的参数估计或总体推断。因此在以后的论述中,如无必要,不特别言明类别。无必要,不特别言明类别。区间估计:区间估计:在一定置信度条件下估计某一未知参数在一定置信度条件下估计某一未知参数q q的取值范围,称之为置信区间,这类估计成为的取值范围,称之为置信区间,这类估计成为区间估计。区间估计。910基本概念基本概念5.1 统计推断概述统计推断概述渐近无偏估计渐近无偏估计:即即 。当不能对所当不能对所有有 的都有的都有 时,希望估计量时,希望估计量 是渐是渐近无偏估计。近无偏估计。11基
8、本概念基本概念5.1 统计推断概述统计推断概述均方收敛均方收敛:均方逼近均方逼近:均方收敛均方收敛:又称相合估计又称相合估计一致估计一致估计:当样本无限增多时,估计量当样本无限增多时,估计量 依概依概率收敛于率收敛于 ,12 52 52 参数估计参数估计第五章第五章 统计决策中的训练、学习统计决策中的训练、学习 与错误率测试、估计与错误率测试、估计135.2 参数估计参数估计5.2.1 5.2.1 均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计5.2.2 5.2.2 最大似然估计最大似然估计(MLE)(MLE)5.2.3 5.2.3 贝叶斯估计贝叶斯估计(BE)(BE)145.2 参
9、数估计参数估计均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计矩法估计矩法估计是用样本是用样本(的统计的统计)矩作为总体矩作为总体(理论理论)矩的估矩的估值。若类的概型为正态分布,我们用矩法估计出类的值。若类的概型为正态分布,我们用矩法估计出类的均值矢量和协方差阵后,类的概密也就完全确定了。均值矢量和协方差阵后,类的概密也就完全确定了。均值矢量均值矢量:均值无偏估计均值无偏估计:155.2 参数估计参数估计均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计协方差阵协方差阵:165.2 参数估计参数估计均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计协方差阵协方差阵:协方差
10、阵无偏估计协方差阵无偏估计:或或175.2 参数估计参数估计设设和和是由是由个样本算得的均矢和协方差阵,个样本算得的均矢和协方差阵,则可采用则可采用递推公式递推公式进行估算进行估算若再加入一个新的样本若再加入一个新的样本初始值初始值:)(11)(1NmxNNmNr rr rr r-+=+均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计185.2 参数估计参数估计协方差矩阵的递推估计式协方差矩阵的递推估计式:均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计+=+-=11)1()1(11NjjjNmNmNNxxNrrrr11)(12)()(111111+=+-+-=NNNjNjjx
11、xNxNmNNmNmNNxxNrrrrrrrr)()(11)(111NmxNmxNNCNNNNrrrr-+-=+F=-=-=)1()1()1(111111xxxxmmxxCrrrrrrrr初始值初始值:195.2 参数估计参数估计均值矢量和协方差阵的矩法估计均值矢量和协方差阵的矩法估计205.2 参数估计参数估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)如同如同矩法估计矩法估计一样,一样,最大似然估计最大似然估计要求要求已知已知总体的概型总体的概型,即概密的具体函数形式,它也将被,即概密的具体函数形式,它也将被估计量作为确定性的变量对待。但最大
12、似然估计估计量作为确定性的变量对待。但最大似然估计适用范围比矩法估计更宽一些,可以用于不是正适用范围比矩法估计更宽一些,可以用于不是正态分布的情况。态分布的情况。最大似然估计最大似然估计是参数估计中最重要的方法。是参数估计中最重要的方法。215.2 参数估计参数估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)似然函数似然函数:当当个随机样本取定值个随机样本取定值时,时,称为相对于称为相对于的的的的似然函数似然函数。联合概密联合概密 设一个总体设一个总体的概密为的概密为,其中,其中是一个是一个未知参数集,未知参数集,225.2 5.2 参数估计参数
13、估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)由于由于是概密的一个确定性的参数集是概密的一个确定性的参数集,因此因此实际上就是条件概密实际上就是条件概密 上式中不同的上式中不同的 ,将不同。将不同。如果各个如果各个是独立抽取的,则进是独立抽取的,则进一步有:一步有:235.2 5.2 参数估计参数估计最大似然估计最大似然估计(MLE)(MLE)(Maximum Likelihood Estimate)(Maximum Likelihood Estimate)最大似然估计:最大似然估计:245.2 5.2 参数估计参数估计最大似然估计最大似然估计
14、(MLE)(MLE)(Maximum Likelihood Estimate)(Maximum Likelihood Estimate)在实际中多是独立取样和经常处理正态变量,而在实际中多是独立取样和经常处理正态变量,而且对数函数是单值单调函数,对数似然函数与似然且对数函数是单值单调函数,对数似然函数与似然函数在相同的函数在相同的 处取得最大值。处取得最大值。255.2 参数估计参数估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)在似然函数可微的条件下,在似然函数可微的条件下,求下面微分方程组的解:求下面微分方程组的解:或等价地求或等价地求作为极
15、值的必要条件。作为极值的必要条件。对数似然方程组对数似然方程组 265.2 参数估计参数估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)需要指出的是:需要指出的是:对于具体问题,有时用上述对于具体问题,有时用上述方法不一定可行,原因之一是似然函数在最大值方法不一定可行,原因之一是似然函数在最大值点处没有零斜率。点处没有零斜率。求出上面方程组中的一切解及边界值,计算使求出上面方程组中的一切解及边界值,计算使最大的最大的作为作为的最大似然估计。的最大似然估计。因此,最大似然的关键是必须知道概型。因此,最大似然的关键是必须知道概型。275.2 参数估计
16、参数估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)下面我们以多维正态分布为例进行说明。下面我们以多维正态分布为例进行说明。(1 1)假设)假设是已知的,未知的只是均值是已知的,未知的只是均值,则:,则:285.2 参数估计参数估计最大似然估计最大似然估计(MLE)(Maximum Likelihood Estimate)这说明,样本总体的未知均值的最大似然估计这说明,样本总体的未知均值的最大似然估计就是训练样本的平均值。它的几何解释就是:若把就是训练样本的平均值。它的几何解释就是:若把N N个样本看成是一群质点,则样本均值便是它们的个样本看成是
17、一群质点,则样本均值便是它们的质心。质心。2930可见,正态分布中的协方差阵可见,正态分布中的协方差阵的最大似然估的最大似然估计量等于计量等于N N个矩阵的算术平均值。个矩阵的算术平均值。31(3 3)对于一般的多维正态密度的情况,计算方法)对于一般的多维正态密度的情况,计算方法完全是类似的。最后的结果是:完全是类似的。最后的结果是:可以证明上式的均值是无偏估计,但协方差阵可以证明上式的均值是无偏估计,但协方差阵并不是无偏估计,无偏估计是:并不是无偏估计,无偏估计是:325.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)考考虑虑到到的各种取的各种取值值,我,我们应们应求求在在空空间间中的期望
18、,即平均中的期望,即平均损损失:失:335.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)345.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)不同的具体定义,可得到不同不同的具体定义,可得到不同的最佳贝叶斯估计。比如,可以用平方误差作为的最佳贝叶斯估计。比如,可以用平方误差作为代价,此时:代价,此时:上式中,对于上式中,对于于是:于是:355.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)由于由于是非负的,是非负的,只出现在内层积分中,关于只出现在内层积分中,关于使使最小等价于:最小等价于:为求为求极小,令极小,令365.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)从而可得:从而可
19、得:375.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)下面介绍估计下面介绍估计 所涉及的其它公式或近似算式:所涉及的其它公式或近似算式:由于各样本是独立抽取的,故它们条件独立,即有由于各样本是独立抽取的,故它们条件独立,即有由贝叶斯定理知:由贝叶斯定理知:385.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)395.2 参数估计参数估计贝叶斯估计贝叶斯估计(BE)40作业:作业:P170 5.1,5.2,5.34154 概密的窗函数估计法 第五章第五章 统计决策中的训练、学习统计决策中的训练、学习 与错误率测试、估计与错误率测试、估计42设设 个样本个样本 是从上述概密为是从上述概密为
20、 的总的总体中独立抽取的,体中独立抽取的,个样本中有个样本中有 个样本落入区域个样本落入区域 中的概率中的概率 服从离散随机变量的二项分布服从离散随机变量的二项分布43令令 为众数,如果为众数,如果 不是整数,则不是整数,则:即即 等于等于 的整数部分;的整数部分;如果如果 是整数,则是整数,则:和和44由于:由于:所以:所以:这这里里 是是 的估计,当的估计,当 较大较大 较小时上式的近似较小时上式的近似程度是足够的。程度是足够的。455.4 概密的窗函数估计法概密的窗函数估计法概率密度的基本估计式概率密度的基本估计式 当固定当固定 时,对时,对 的最大似然估计的最大似然估计 ,由概率论知,
21、由概率论知,的数学期望的数学期望 。465.4 概密的窗函数估计法概密的窗函数估计法概率密度的基本估计式概率密度的基本估计式设区域设区域R的体积为的体积为V,我们取,我们取R足够小,使足够小,使=RVxpxdxpP)()(rrr设设)(xpr是是)(xpr的估计,由上面二式有的估计,由上面二式有VxpxdxpPNkR)()(rrr=于是可得于是可得475.4 概密的窗函数估计法概密的窗函数估计法概率密度的基本估计式概率密度的基本估计式显然显然是是的基本估的基本估计计式,它与式,它与有关,有关,显显然然和和有一定的有一定的误误差。差。理理论论上,要使上,要使 R0 V0,同,同时时k,N。而而实
22、际实际估估计时计时体体积积不是任意的小,且不是任意的小,且样样本本总总数数总总是存在是存在误误差。差。也是有限的,所以也是有限的,所以485.4 概密的窗函数估计法概密的窗函数估计法概率密度的基本估计式概率密度的基本估计式为了提高为了提高处的概密处的概密)(xpr的估计精度,我们根据的估计精度,我们根据理论,可以采用如下步骤以尽量满足理论要求:理论,可以采用如下步骤以尽量满足理论要求:极限极限 构造一包含构造一包含的区域序列的区域序列各区域各区域的体积的体积满足满足 相对区域相对区域作估计实验,对作估计实验,对取取N个样本个样本进行估计,设有进行估计,设有个样本落入个样本落入样本数目应满足样本
23、数目应满足中,中,495051525.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法为能用函数描述区域为能用函数描述区域NR和对落入和对落入NR的样本计的样本计数,数,定义窗函数定义窗函数),(21=nuuuuLr=j其它当,0,2,1,21,1)(niuuiLr 这样,这样,)(ur rj j以函数值以函数值1界定了一个以原点为中界定了一个以原点为中心、棱长为心、棱长为1的的n维超立方体。维超立方体。535.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法 如果一个样本如果一个样本jxr落入以落入以 xr为为中心以中心以Nh为棱长的超立方体为棱长的超立方体NR内时则
24、计数为内时则计数为1,否则计数为,否则计数为 0,我们可以利用窗函数我们可以利用窗函数)(xrj实现实现这个约定,即这个约定,即落入该立方体落入该立方体NR的样本数的样本数54555.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法上面所讲的是从构造上导出了估计式,所取的窗函上面所讲的是从构造上导出了估计式,所取的窗函数即迭加基函数为数即迭加基函数为 维方窗维方窗(柱柱)函数。事实上只要窗函数。事实上只要窗函数满足下面的两个条件函数满足下面的两个条件:由式由式 构造的估计式就是概密函数。构造的估计式就是概密函数。565.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法
25、按照上面的条件,除了选择方窗外,还可以选择按照上面的条件,除了选择方窗外,还可以选择其它的满足上述其它的满足上述两个条件的函数作窗函数。下面列出两个条件的函数作窗函数。下面列出几个一维窗函数的例子,几个一维窗函数的例子,n维的窗函数可用乘积的方维的窗函数可用乘积的方法由一维函数构造。法由一维函数构造。指数窗函数指数窗函数 uu-=jexp)(方窗函数方窗函数=j其它,021,1)(uu 正态窗函数正态窗函数 -p=j221exp21)(uu 三角窗函数三角窗函数-=j1,01,1)(uuuu57下面进一步讨论窗宽下面进一步讨论窗宽 对估计的影响对估计的影响:5.4 概密的窗函数估计法概密的窗函
26、数估计法Parzen窗法窗法定义定义:于是估计式表示成于是估计式表示成:影响影响的幅度和宽度。的幅度和宽度。注意到注意到:可看出可看出 585.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法若若Nh较大较大,则,则)(jNxxrr-d幅度将较小,而宽幅度将较小,而宽度增大度增大)(xpNr是是N个低幅缓变个低幅缓变宽的函数迭加宽的函数迭加,)(xpNr较平较平滑,不能跟上滑,不能跟上 的变化,分辨率较低。的变化,分辨率较低。)(xpr59605.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法估估计计量量 是一随机变量,它依赖于随机的训是一随机变量,它依赖于随机的训练
27、样本,所以估计量的性能只能用统计性质表示。练样本,所以估计量的性能只能用统计性质表示。在在满满足下列条件下足下列条件下 是是渐近无偏估计渐近无偏估计、均方收均方收敛敛、均方逼近均方逼近 、且是、且是渐近正态分布渐近正态分布。概密概密)(xpr r在在xr r处连续处连续 窗函数满足下列条件窗函数满足下列条件0)(jur =j1)(udurr j)(supuurr 0)(lim1=j=niiuuurr615.4 概密的窗函数估计法概密的窗函数估计法Parzen窗法窗法估估计计量量 是一随机变量,它依赖于随机的训是一随机变量,它依赖于随机的训练样本,所以估计量的性能只能用统计性质表示。练样本,所以
28、估计量的性能只能用统计性质表示。在在满满足下列条件下足下列条件下 是是渐近无偏估计渐近无偏估计、均方收均方收敛敛、均方逼近均方逼近 、且是、且是渐近正态分布渐近正态分布。窗宽限制窗宽限制 对样本的要求对样本的要求62(1)(1)是是 的的渐近无偏估计渐近无偏估计证明:6364P窗法的特点窗法的特点 适用范围广,无论概密是规则的或不规则的、单峰适用范围广,无论概密是规则的或不规则的、单峰的或多峰的。的或多峰的。但它但它要求样本分布较好且数量要大要求样本分布较好且数量要大,显然这也是一,显然这也是一个良好估计所必须的,但它的取样过程的操作个良好估计所必须的,但它的取样过程的操作增加了取样工作的复杂
29、性。增加了取样工作的复杂性。窗函数选取得当有利于提高估计的精度和减少样本窗函数选取得当有利于提高估计的精度和减少样本的数量。的数量。65(a)图中,图中,p(x)是均值为零、是均值为零、方差为方差为1的一维正态分布,的一维正态分布,窗函数选择为正态窗函数:窗函数选择为正态窗函数:h1为可调节参量。于是:为可调节参量。于是:66(a)由结果曲线可以看出,由结果曲线可以看出,样本量越大,估计越精样本量越大,估计越精确;同时,也可以看出确;同时,也可以看出窗口选择是否适当对估窗口选择是否适当对估计结果有一定影响。计结果有一定影响。67和和 同上同上由图中曲线可以看出,由图中曲线可以看出,当当N N
30、较小时,窗函数较小时,窗函数对估计结果影响较大,对估计结果影响较大,其估计结果与真实分其估计结果与真实分布相差较远;当布相差较远;当N N 增增大时,估计结果与真大时,估计结果与真实分布较为接近。实分布较为接近。685.4 概密的窗函数估计法概密的窗函数估计法kN-近邻估计法近邻估计法在在P窗法中,把体积窗法中,把体积作为作为的函数导致的函数导致对估计结果影响很大。例如对估计结果影响很大。例如当当选得太小将导致大部分区域是空的,会使选得太小将导致大部分区域是空的,会使不稳定;不稳定;选得太大,则选得太大,则较平坦,将丢失较平坦,将丢失的一些重要空间变化。的一些重要空间变化。当当近邻元估计法是克
31、服这个问题的一个可能的方法。近邻元估计法是克服这个问题的一个可能的方法。695.4 概密的窗函数估计法概密的窗函数估计法kN-近邻估计法近邻估计法基本思想:把含基本思想:把含点的序列区域的体积点的序列区域的体积作为落入作为落入中样本数中样本数的函数,而不是直接作为的函数,而不是直接作为的函数。我们可以预先确定的函数。我们可以预先确定是是的某个函数,然后在的某个函数,然后在点附近选择一点附近选择一“紧凑紧凑”区域,区域,个邻近样本。个邻近样本。实验样本数实验样本数让它只含让它只含点附近概密较大,则包含点附近概密较大,则包含个样本的区域个样本的区域如果如果体积自然就相对的小;体积自然就相对的小;点
32、附近概密较小,则区域体积就较大。点附近概密较小,则区域体积就较大。个邻近样本而扩展到高密度个邻近样本而扩展到高密度如果如果显然,当区域为含有显然,当区域为含有区时,扩展过程必然会停止。区时,扩展过程必然会停止。705.4 概密的窗函数估计法概密的窗函数估计法kN-近邻估计法近邻估计法如果满足条件如果满足条件 715.4 概密的窗函数估计法概密的窗函数估计法kN-近邻估计法近邻估计法725.4 概密的窗函数估计法概密的窗函数估计法kN-近邻估计法近邻估计法-2 0 210.01.00.10.010.001N=1,KN=1-2 0 210.01.00.10.010.001-2 0 210.01.0
33、0.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001N=16,KN=4N=256,KN=16N=,KN=73作业作业P170 5.7 5.8747555 55 有限项正交函数级数逼近法有限项正交函数级数逼近法第五章第五章 统计决策中的训练、学习统计决策中的训练、学习 与错误率测试、估计与错误率测试、估计7655 有限项正交函数级数逼近法有限项正交函数级数逼近法设有设有个抽自同
34、一母体个抽自同一母体 的样本的样本用于估用于估计总体概密计总体概密,我们将概密,我们将概密的估计的估计表示成表示成有限项正交级数有限项正交级数式中,式中,是某一正交函数集是某一正交函数集的基函数,的基函数,为待定系数。为待定系数。应根据应根据 的特点适当选择的特点适当选择 以期在固定的以期在固定的项数下减小误差,项数项数下减小误差,项数R取得越大近似得就越好。取得越大近似得就越好。最小积分平方逼近方法最小积分平方逼近方法7755 有限项正交函数级数逼近法有限项正交函数级数逼近法 估计估计与真值与真值之间的误差可用下式测度之间的误差可用下式测度式中,式中,是特征空间,是特征空间,是权函数,显然是
35、权函数,显然越小,我们得到的估计从总体上讲就越精确。越小,我们得到的估计从总体上讲就越精确。将将 的具体表示代入上式得:的具体表示代入上式得:最小积分平方逼近方法最小积分平方逼近方法78上式的上式的是是的二次函数,因此使的二次函数,因此使达到最小值的达到最小值的必要且只要满足:必要且只要满足:由此可得:由此可得:从而有:从而有:79 令令是是带权带权函数函数的正交函数集,即的正交函数集,即 80则有则有:若若是在是在下的规范化的正交函数集,即下的规范化的正交函数集,即则有则有:将所求得的最佳系数将所求得的最佳系数代入式代入式。便可以得到便可以得到81的的计计算式可写成算式可写成迭代形式迭代形式
36、。令令,若,若表示用前表示用前个样本所求得的系数个样本所求得的系数个样本后,个样本后,当加入第当加入第初始系数初始系数:,显显然然。82同理可得到同理可得到 的的迭代形式迭代形式。初始值初始值:83 前面介绍的方法中被逼近的函数是概密,对于这种前面介绍的方法中被逼近的函数是概密,对于这种幅值大小变化较剧烈的函数,须用幅值大小变化较剧烈的函数,须用较多的项较多的项才可能在整才可能在整个空间中有较好的逼近。个空间中有较好的逼近。为减少计算量为减少计算量,在样本出现较密集的区域(即概密在样本出现较密集的区域(即概密取值较大的区域)中,应要求逼近精度高些;而在样取值较大的区域)中,应要求逼近精度高些;
37、而在样本出现稀疏的区域(即概密取值较小的区域)中,可本出现稀疏的区域(即概密取值较小的区域)中,可以让逼近精度低一些。以让逼近精度低一些。这样分别对待会使在相同的训练样本下总的误判这样分别对待会使在相同的训练样本下总的误判概率较小。因此应考虑概率较小。因此应考虑加权的最小均方差逼近加权的最小均方差逼近。84对于对于c类问题,设类概密和类概率分别类问题,设类概密和类概率分别为为)(ixp r r和和)(iP ),2,1(ciLL=,则混合概密为,则混合概密为 =ciiixpPxp1)()()(r rr r设对每类的概密设对每类的概密)(ixp r r的估计的估计)(ixp r r用正交函用正交函
38、数有限项表示为数有限项表示为 =j j=RjjijixCxp1)()()(r rr r85考虑以混合概密作为权值的加权均方差考虑以混合概密作为权值的加权均方差:求求的最小值,有如下的定理:的最小值,有如下的定理:记为记为,其中,其中,若取各类的概率若取各类的概率为使上面所确定的为使上面所确定的达到最小值的达到最小值的近似满足线性方程组近似满足线性方程组:设有设有 个样本个样本,其中有,其中有个样本属于个样本属于类,类,86其中其中:87求得求得后就能构造各类的概密逼近式:后就能构造各类的概密逼近式:88解:解:用正交的二维用正交的二维Hermite多项式来构成正交函数集。多项式来构成正交函数集。例:用逼近法求如下模式类别的例:用逼近法求如下模式类别的 和和 的估计。的估计。8990对于对于 1,N1=7,系数为系数为91对于对于 2,N2=6,系数为系数为92使用最小错误判决规则使用最小错误判决规则:若只取线性项,则为若只取线性项,则为122令令则则判别界面方程为判别界面方程为9312294作业作业:5.995