模式识别第三章优秀课件.ppt-淘文阁

资源描述

《模式识别第三章优秀课件.ppt》由会员分享，可在线阅读，更多相关《模式识别第三章优秀课件.ppt（125页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、模式识别第三章第1页，本讲稿共125页解决思路：解决思路：利用已知训练样本估计利用已知训练样本估计P(i),p(x/i),分类器训练的主要任务：分类器训练的主要任务：确定类概密函数确定类概密函数p(x/i)可利用信息：可利用信息：训练样本训练样本第2页，本讲稿共125页任务：任务：利用利用有限的样本集有限的样本集去设计分类器。去设计分类器。1）利用样本集估计p(x/wi)和P(wi)，得到估计值和2）利用、代替贝叶斯决策中的p(x/wi)和 P(wi)，完成分类器设计希望：当样本数N时，收敛于p(x/wi)、P(wi)第3页，本讲稿共125页三个要解决的主要问题：三个要解决的主要问题：1

2、）如何利用样本集估计2）估计量的性质如何（希望无偏估计）3）利用样本集进行错误率估计）利用样本集进行错误率估计第4页，本讲稿共125页基本方法基本方法：1）监督参数估计：监督参数估计：样本所属类别及类条件总体概率密度函数的形式已知，样本所属类别及类条件总体概率密度函数的形式已知，未知的未知的是表征概率密度函数的是表征概率密度函数的某些参数；某些参数；例：正态分布，未知参数例：正态分布，未知参数，2，称为：监督参数估计第5页，本讲稿共125页3）监督非参数估计监督非参数估计：2）非监督参数估计：非监督参数估计：已知总体概率密度函数形式，但已知总体概率密度函数形式，但未知样本所属类别未知样本所属类

3、别，要求推断概率密度函数的某些参数；要求推断概率密度函数的某些参数；以上都是以上都是已知已知p(x/wi)的函数形式的函数形式已知样本所属类别，但已知样本所属类别，但未知未知p(x/wi)形式形式，直接推断，直接推断概率密度函数概率密度函数第6页，本讲稿共125页3.2 3.2 参数估计中的几个基本概念参数估计中的几个基本概念（1）统计量统计量由样本按某种规律由样本按某种规律构造的函数构造的函数或：设样本或：设样本xk(k=1,n)都含有总体信息，为估计未都含有总体信息，为估计未知参数，把有用信息抽取出来构造样本的某函数，即为知参数，把有用信息抽取出来构造样本的某函数，即为统计量。统计量

4、。例：对正态分布，其统计量例：对正态分布，其统计量第7页，本讲稿共125页（2）参数空间参数空间：在统计学中，把未知参数在统计学中，把未知参数的全部可取值的集合称的全部可取值的集合称参数空间，记为参数空间，记为第8页，本讲稿共125页（3）点估计、估计量和估计值点估计、估计量和估计值构造一个统计量构造一个统计量d(x1,xN)作为某未知参数作为某未知参数的的估计估计，这种估计称为，这种估计称为点估计点估计在统计学中，称为的估计量。将属于wi的样本得到第i类的的具体数值，称为的估计值。代入统计量d，这种构造统计量得到参数估计量的过程，称为点估计这种构造统计量得到参数估计量的过程，

5、称为点估计问题。问题。第9页，本讲稿共125页（4）区间估计区间估计：估计某个区间（估计某个区间（d1,d2）作为未知参数作为未知参数的可能取值范的可能取值范围，估计的区间（围，估计的区间（d1,d2）称为置信区间，这类估计称称为置信区间，这类估计称为区间估计。为区间估计。即在一定置信度条件下估计即在一定置信度条件下估计某一未知参数某一未知参数的取值范围的取值范围，称为置信区间，这类估计称为区间估计。称为置信区间，这类估计称为区间估计。第10页，本讲稿共125页参数估计方法的主要方法参数估计方法的主要方法:最大似然估计最大似然估计贝叶斯估计贝叶斯估计最大似然估计：最大似然估计：一种常用、有

6、效的方法一种常用、有效的方法把待估参数看作把待估参数看作确定性的量确定性的量，最佳估计就是，最佳估计就是使训使训练样本的概率为最大的那个值。练样本的概率为最大的那个值。两种方法的结果很接近，但本质有很大差别即：使似然函数达到最大的参数值作为估计值。其中参数是确定的未知量（非随机）第11页，本讲稿共125页贝叶斯估计的典型效果就是，每得到新的观测样贝叶斯估计的典型效果就是，每得到新的观测样本，都使后验概密函数更加尖锐，使其在待估参数的真本，都使后验概密函数更加尖锐，使其在待估参数的真实值附近实值附近形成最大尖峰形成最大尖峰，这个现象称为，这个现象称为“贝叶斯学习贝叶斯学习”过过程。程。贝叶斯

7、估计贝叶斯估计：把待估参数把待估参数看成符合某种先验概率分布的看成符合某种先验概率分布的随机变量随机变量，对样本进行修正的过程就是把对样本进行修正的过程就是把先验概率密度转化为后验概率先验概率密度转化为后验概率密度密度的过程。的过程。第12页，本讲稿共125页1 1最大似然估计最大似然估计假设假设：（前提条件）：（前提条件）1 1）待估参数）待估参数是是确定的未知量确定的未知量（非随机）（非随机）2 2）按类别把样本集分为）按类别把样本集分为C C个子集：个子集：X X1 1，X X2 2，X XC C 任意一个子集任意一个子集X Xi i的样本是从总体中独立抽取的，的样本是从总体中独立抽取

8、的，每一每一个样本集个样本集X Xi i中中样本都是独立同分布的随机变量样本都是独立同分布的随机变量第13页，本讲稿共125页3）每个类条件概密函数）每个类条件概密函数p(x/wi)的形式已知的形式已知，未知的是参未知的是参数向量数向量 i的值的值为强调为强调p(x/wi)与与 i有关，记为有关，记为p(x/wi,i)4）不同类别的参数不同类别的参数 i是独立的是独立的即即 Xi中的样本不包含中的样本不包含 j(j i)的信息，的信息，只包含只包含 i的信息（的信息（Xi与与 j无关）无关）可对可对每一每一类样本独立进行处理类样本独立进行处理，每个参数向量只由自，每个参数向量只由自己类别中

9、的样本决定。己类别中的样本决定。下边就只利用第下边就只利用第i类学习样本来估计第类学习样本来估计第i类的概率密度，类的概率密度，忽略类忽略类别标志，别标志，即即 p(x/wi,i)p(x/)第14页，本讲稿共125页设样本子集当样本是独立抽取的，则似然函数为当样本是独立抽取的，则似然函数为定义定义:(似然函数似然函数)（当已得到同一类样本集X，可略去类别下标，可写为p(X/)）当当X的的N个样本确定后，个样本确定后，p(X/)只是只是的函数，的函数，记记为为l()。第15页，本讲稿共125页最大似然估计的基本思想：最大似然估计的基本思想：例：设例：设xN(6,1)，则最可能出现的样本就是，则

10、最可能出现的样本就是x=6，即，即l()=max p(x/(6,1)=p(6/(6,1),若若已知，已知，当从观测值中抽取样本当从观测值中抽取样本x1,x2,xN时，最可时，最可能出现的样本是能出现的样本是使使l()为最大的样本为最大的样本。若若未知，未知，X选定。不同的选定。不同的选择，对选择，对N个样本个样本x1,x2,xN 就有不同的就有不同的p(X/)值，应选择使值，应选择使x1,x2,xN的似然函数的似然函数l()为最大的为最大的第16页，本讲稿共125页定义最大似然估计定义最大似然估计：使p(X/)达极大值的参数向量，就是的最大似然估计。显然使显然使最大的最大的是样本是

11、样本x x1 1,x,x2 2,x,xN N的函数，的函数，记为记为第17页，本讲稿共125页计算方法：计算方法：或或若若有有s个分量：个分量：求即即为便于分析，为便于分析，取对数形式取对数形式求导第18页，本讲稿共125页则：则：s个联立方程组求解,可得即：即：使对数似然函数最大的值，也必然使似然函数最大。是样本的函数，若样本数是样本的函数，若样本数N时，估计值时，估计值收敛于收敛于真值真值。第19页，本讲稿共125页注：极值解可能有多解，有全局最大解、局部极大注：极值解可能有多解，有全局最大解、局部极大点和拐点等，点和拐点等，确定最大值点确定最大值点即可。即可。按上式对按上式对所有

12、类型进行同样操作所有类型进行同样操作，最终完成对所有类，最终完成对所有类型的最大似然估计。型的最大似然估计。p(X/)第20页，本讲稿共125页例：高斯分布例：高斯分布1)已知已知,未知未知,似然函数为：似然函数为：其中，对于正态分布其中，对于正态分布第21页，本讲稿共125页求导：求导：第22页，本讲稿共125页令则说说明明未未知知均均值值的的最最最最大大大大似似似似然然然然估估估估计计计计正正正正好好好好是是是是训训训训练练练练样样样样本本本本的的的的算术平均算术平均算术平均算术平均第23页，本讲稿共125页2)、均未知均未知考虑一维情况（考虑一维情况（d1）令）令 1=，2=2 似然函

13、数似然函数其中，对于一维正态分布其中，对于一维正态分布第24页，本讲稿共125页令令求导求导则有则有第25页，本讲稿共125页对于多元高斯函数对于多元高斯函数(d维），则有维），则有最大似然估计结果令人满意最大似然估计结果令人满意结论：结论：的估计即为学习样本的的估计即为学习样本的算术平均算术平均估计的协方差矩阵是矩阵估计的协方差矩阵是矩阵的的算术平均算术平均（dd阵列，阵列，dd个值）个值）第26页，本讲稿共125页一个反例：均匀分布一个反例：均匀分布似然函数似然函数的解为必要条件（3-11式）式）不一定有解不一定有解，即：，即：（有两个需估计（有两个需估计的参数）的参数）注意：注意

14、：注意：注意：第27页，本讲稿共125页取对数：取对数：求导：求导：极值解为无穷大，结果无意义。极值解为无穷大，结果无意义。需用其它方法找最大值。需用其它方法找最大值。第28页，本讲稿共125页给定给定N个观察值个观察值x1,xN，由这些样本集估计，由这些样本集估计 1，2 1x3d3，窗口为一超立方体，窗口为一超立方体窗口的选择窗口的选择：有多种选择：有多种选择方窗函数方窗函数指数窗函数指数窗函数正态窗函数正态窗函数(u)(u)(u)hN 正态窗函数正态窗函数第91页，本讲稿共125页若选若选(u)(u)是以原点是以原点x x为中心的超立方体为中心的超立方体。在在x xi i落入方窗时，则

15、有落入方窗时，则有在VN内为1不在VN内为0落入落入V VN N的样本数等于所有为的样本数等于所有为1 1者之和者之和即第92页，本讲稿共125页则概率密度估计：则概率密度估计：落入窗口中的样本为落入窗口中的样本为ParzenParzen窗法估计的基本公式窗法估计的基本公式该式是一个迭加函数，使用该式是一个迭加函数，使用K KN N个以个以x xi i为中心的窗函数迭为中心的窗函数迭加，对加，对x x处的概密进行估计。每一样本处的概密进行估计。每一样本x xi i对概率密度函数的对概率密度函数的贡献只在一个窗口范围，离贡献只在一个窗口范围，离x x远近不同，贡献不同，是远近不同，贡献不同，是

16、一种内插一种内插过程过程。第93页，本讲稿共125页每个样本对估计所起的作用每个样本对估计所起的作用依赖于它到依赖于它到x x的距离，的距离，即即|x-x|x-xi i|h|hN N/2/2时，时，x xi i在在V VN N内为内为1 1，否则为，否则为0 0。讨论：讨论：称为窗函数，取称为窗函数，取0 0，1 1两种值两种值，但有时可取但有时可取0,0.1,0.20,0.1,0.2多种数值，例如随多种数值，例如随x xi i离离x x接近的程度接近的程度，取值可由取值可由0,0.1,0.20,0.1,0.2到到1 1。第94页，本讲稿共125页为满足这两个条件，要求为满足这两个条件，要求

17、窗函数满足窗函数满足窗函数满足窗函数满足：（保证保证非负）非负）窗函数的选择窗函数的选择例：例：矩形窗、正态窗、指数窗、三角窗等等矩形窗、正态窗、指数窗、三角窗等等（只要满足上述（只要满足上述两条件，都可作为窗函数使用）两条件，都可作为窗函数使用）要求估计的要求估计的应满应满足：足：第95页，本讲稿共125页窗窗长长度度hN对对的的影响影响 h h h hN N N N又称为平滑因子又称为平滑因子又称为平滑因子又称为平滑因子，N N有限时，有限时，h hN N影响大，影响大，既影响幅度，又影响宽度既影响幅度，又影响宽度既影响幅度，又影响宽度既影响幅度，又影响宽度若定义若定义则则 l

18、h h h hN N N N太大太大太大太大,是是p(x)p(x)的一个的一个平滑估计平滑估计,不能跟上不能跟上p(x)p(x)变化，变化，分辨力太低，有平均误差分辨力太低，有平均误差。若若若若h h h hN N N N太大太大太大太大，N N(x)(x)幅度小，而宽度拓宽，幅度小，而宽度拓宽，变得平变得平缓缓，是由是由N N个宽的低幅缓变函数迭加个宽的低幅缓变函数迭加。第96页，本讲稿共125页若hN太小，N(x)幅度很大，宽度很小，是N个以xi为中心的尖脉冲在x处的叠加。lh h h hN N N N太太太太小小小小,是是p p(x)(x)的的一一个个起起伏伏大大的的估估计计,分分辨辨

19、力高，但不稳定，波动太大，有噪声误差。力高，但不稳定，波动太大，有噪声误差。图图3.63.6、图、图3.73.7，说明，说明h hN N及及N N的影响的影响为使这些误差不严重，为使这些误差不严重，h h h hN N N N应折衷选择应折衷选择应折衷选择应折衷选择，即，即V V V VN N N N选择选择选择选择很关键很关键很关键很关键看出要得到与真实分布相近的估计，看出要得到与真实分布相近的估计，需要非常大量的训需要非常大量的训练样本。练样本。第97页，本讲稿共125页（5）的统计特性对对p(x)p(x)，(u)(u)，h hN N作必要的约束，作必要的约束，即满足即满足3.1153

20、.1233.1153.123式，就能保证收敛。式，就能保证收敛。在一定限制条件下在一定限制条件下，是是渐近无偏估计渐近无偏估计，平方误差一致，即平方误差一致，即N，第98页，本讲稿共125页0123456x6x5x3x1x2x4x例例1 1：对对于于一一个个二二类类（1 1 ，2 2 ）识识别别问问题题，随随机机抽抽取取1 1类的类的6 6个样本个样本X=(xX=(x1 1，x x2 2，.x.x6 6)1=(x1，x2，.x6)=(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估计估计p(x|p(x|1 1)，即，即第99页，本讲稿共125页解：选解：选正态窗函

21、数正态窗函数xx是一维的是一维的第100页，本讲稿共125页上式用图表示，上式用图表示，则是则是则是则是6 6 6 6个分别以个分别以个分别以个分别以3.23.23.23.2，3.63.63.63.6，3 3 3 3，6 6 6 6，2.52.52.52.5，1.11.11.11.1为中心的正态曲线为中心的正态曲线为中心的正态曲线为中心的正态曲线，而而而而则是这则是这则是这则是这些曲线之和。些曲线之和。些曲线之和。些曲线之和。第101页，本讲稿共125页由图看出：每个样本对估计的由图看出：每个样本对估计的贡献与样本间的距贡献与样本间的距离有关，样本越多，离有关，样本越多，P PN N(x

22、)(x)越准确越准确。第102页，本讲稿共125页例例2 2：设待估计的：设待估计的p(x)p(x)是均值为是均值为0 0，方差为，方差为1 1的正态密度函的正态密度函数。数。若随机抽取若随机抽取X X样本中的样本中的1 1个、个、16 16个、个、256 256个作为学个作为学习样本习样本x xi i,试用窗口法估计试用窗口法估计p pN N(x)(x)。解：设窗口函数为正态的，解：设窗口函数为正态的，1 1，0 0第103页，本讲稿共125页h hN N:窗长度，窗长度，N N为样本数，为样本数，h1h1为选定可调节的参数。为选定可调节的参数。第104页，本讲稿共125页v用用窗窗法法估

23、估计计单单一一正正态态分分布布的的实实验验N N=N=256N=16N=1第105页，本讲稿共125页当当N N1 1时时，是一个以第一个样本为中心的正态是一个以第一个样本为中心的正态形状的小丘，与窗函数差不多。形状的小丘，与窗函数差不多。讨论：讨论：由图看出由图看出，随随N,hN,h1 1的变化情况的变化情况当当N N1616及及N=256N=256时时 h h1 10.25 0.25 曲线起伏很大，噪声大曲线起伏很大，噪声大 h h1 11 1 起伏减小起伏减小 h h1 14 4 曲线平坦，平均误差曲线平坦，平均误差当当NN时，时，p pN N(x)(x)收敛于一平滑的正态曲线，收敛于

24、一平滑的正态曲线，估计曲线较好。估计曲线较好。第106页，本讲稿共125页例例3.3.待估的密度函数为二项分布待估的密度函数为二项分布解：此为解：此为多峰情况的估计多峰情况的估计设窗函数为正态设窗函数为正态-0.25x-20 x2x为其它x-2.5-210.2502p(x)第107页，本讲稿共125页N=N=256N=16N=1v用用窗窗法法估估计计两两个个均均匀匀分分布布的的实实验验第108页，本讲稿共125页当当N N1 1时时，实际是窗函数。实际是窗函数。当当N N1616及及N=256N=256时时 h h1 10.25 0.25 曲线起伏大曲线起伏大 h h1 11 1 曲线起伏减

25、小曲线起伏减小 h h1 14 4 曲线平坦曲线平坦当当NN时，时，曲线较好曲线较好上图上图是是N=1N=1、1616、256256、时的时的估计估计结果结果第109页，本讲稿共125页图图3.63.6、图、图3.73.7说明了该方法的功能和限制，说明了该方法的功能和限制，其其结果依赖结果依赖结果依赖结果依赖N N N N和和和和h1h1h1h1。尤其要得到精确的估计，尤其要得到精确的估计，所需的样本个数非常多所需的样本个数非常多。N=1N=1时，得到的更多是关于窗函数的信息，而不时，得到的更多是关于窗函数的信息，而不是概密函数是概密函数;当当N=16N=16时，估计结果不令人满意时，

26、估计结果不令人满意;当当N=256N=256，h1=1h1=1时，结果开始趋于精确。时，结果开始趋于精确。图图3.73.7更明显更明显:第110页，本讲稿共125页窗口法具有窗口法具有应用的普遍性应用的普遍性应用的普遍性应用的普遍性。对。对规则、非规则规则、非规则分布，分布，单单锋或多峰分布锋或多峰分布都可用此法估计概率密度。都可用此法估计概率密度。图图3.63.6、图、图3.73.7说明了如下结论：说明了如下结论：只要样本足够多，总可保证收敛于任何复杂的概只要样本足够多，总可保证收敛于任何复杂的概密函数密函数。ParzenParzen窗的优点窗的优点：第111页，本讲稿共125页Parzen

27、Parzen窗的缺点：窗的缺点：尤其特征空间维数大于尤其特征空间维数大于1 1后，更加突出，对样本后，更加突出，对样本的需求相对于维数按指数的需求相对于维数按指数，所以易，所以易出现出现出现出现“维数灾难维数灾难维数灾难维数灾难”。要求样本足够多要求样本足够多，才能有较好的估计。，才能有较好的估计。比参数估计法所需样本数大得多，比参数估计法所需样本数大得多，需大量需大量的存储单元和计算时间，计算效率不高的存储单元和计算时间，计算效率不高。第112页，本讲稿共125页利用训练样本类别属性已知，对每一类独立估计利用训练样本类别属性已知，对每一类独立估计概率密度，并概率密度，并根据最大后验概率（根

28、据最大后验概率（MAPMAP）的原则进行）的原则进行分类。分类。为提高处理效率，模式识别可用为提高处理效率，模式识别可用并行处理并行处理方式实现，方式实现，以以空间复杂度来换取时间复杂度空间复杂度来换取时间复杂度具有人工网络的结具有人工网络的结构。构。Parzer Parzer窗法神经网络结构窗法神经网络结构概率神经网络概率神经网络（Probabilistic neural network PNNProbabilistic neural network PNN）分类器设计：分类器设计：第113页，本讲稿共125页3.5.3 K3.5.3 KN N近邻估计近邻估计 Parzen Parzen窗法

29、存在的问题：窗法存在的问题：例，对V1敏感(图3.6，图3.7)对对V VN N （h hN N）的选择）的选择，对估计结果影响很大对估计结果影响很大若若h hN N选选太太小小，则则大大部部分分体体积积将将是是空空的的（不不包包含含样样本本），使使P PN N(x)(x)估计不稳定估计不稳定;若若h hN N选选太太大大，则则P PN N(x)(x)估估计计较较平平坦坦，反反映映不不出出总总体体分分布布的的变化变化.K KN N近邻估计近邻估计是克服该问题的一个是克服该问题的一个较有效方法较有效方法第114页，本讲稿共125页以以x x为为中中心心建建立立区区域域V V，使使V V增增大

30、大（V V1 1，V V2 2，V VN N ），），直到捕捉到直到捕捉到直到捕捉到直到捕捉到K K K KN N N N个样本为止个样本为止个样本为止个样本为止。称称K KN N-近邻估计近邻估计K KN N近邻法的思想近邻法的思想:V VN N 受控于受控于K KN N，而不是直接作为，而不是直接作为N N的函数，可避免出现的函数，可避免出现空的区域空的区域R RN N，消除了不稳定性消除了不稳定性。V VN N适应于适应于K KN N的变化的变化即：样本密度大，即：样本密度大，V VN N;样本密度小，样本密度小，V VN N;第115页，本讲稿共125页K KN N近邻方法：近邻方法：

31、1 1）预先）预先确定确定K KN N是是N N的函数的函数，例：，例：2 2）然后围绕）然后围绕x x点建立一个体积（邻域）点建立一个体积（邻域）R RN N，并让它，并让它不断增大不断增大，直到包含，直到包含K KN N个样本为止，这个样本为止，这K KN N个样本个样本就称为就称为x x的的K KN N个近邻。个近邻。3 3）计算该领域的体积）计算该领域的体积V VN N显然：如果显然：如果x x点附近样本密度高，概密点附近样本密度高，概密p(x)p(x)较大，则区域体积就较大，则区域体积就小，分辨力较高。小，分辨力较高。如果如果x x点附近样本密度低，点附近样本密度低，p(x)p(x

32、)较小，则区较小，则区域体积自然就大，域体积自然就大，当区域为包含当区域为包含K KN N个邻近样本而扩展到高密度个邻近样本而扩展到高密度区时，扩展过程必然很快停止。区时，扩展过程必然很快停止。4 4）概密函数估计为）概密函数估计为第116页，本讲稿共125页nN N个已知类别样本落入个已知类别样本落入V VN N内为内为K KN N个样本的概率密度个样本的概率密度估计估计为：为：当当N N个样本落入个样本落入V VN N内有内有K KN N个，个，K KN N个样本内有个样本内有K Ki i个样本属于个样本属于i i类类则联合概率密度：则联合概率密度：用用K KN N近邻法进行后验概率的估

33、计：近邻法进行后验概率的估计：第117页，本讲稿共125页根据根据BayesBayes公式可求出后验概率：公式可求出后验概率：则则类别为类别为i i的后验概率就是落在的后验概率就是落在V VN N内属于内属于i i的样本的样本k ki i与与V VN N内总样本数内总样本数K KN N的比值的比值第118页，本讲稿共125页ParzenParzen窗估计法：窗估计法：需调整需调整需调整需调整h h h hN N N N(V(V(V(VN N N N)因子因子因子因子与与ParzenParzen窗法比较，窗法比较，K KN N近邻估计法是一近邻估计法是一种较好的非参数估计方法。种较好的非参数

34、估计方法。K KN N近邻估计法：近邻估计法：需调查需调查需调查需调查K K K KN N N N因子因子因子因子第119页，本讲稿共125页1）（使平均密度收敛于真实密度，使平均密度收敛于真实密度，即即）2）N与KN同相变化。3）KN的变化远小于N的变化。即KN 的慢一点，以使捕获KN个样本的体积VN可逐步减小，使，避免要使要使收敛于收敛于p(x)p(x)，仍应满足下列条件仍应满足下列条件:即N时，KN，可保证样本落在VN中的概率估值有一定的值(充分必要条件充分必要条件)第120页，本讲稿共125页上述条件满足，则上述条件满足，则收敛于真实概密收敛于真实概密p(x)p(x)缺点：

35、缺点：计算量太大（一维需数百个样本，二维需数千个样计算量太大（一维需数百个样本，二维需数千个样本）。本）。出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类例：最近邻法分类例：最近邻法分类 K K近邻法分类近邻法分类（第六章内容）（第六章内容）第121页，本讲稿共125页K K K K近邻分类准则：近邻分类准则：近邻分类准则：近邻分类准则：K K近邻分类的错误率，近邻分类的错误率，随随KK，其错误率，其错误率PP,最低的错误最低的错误率为率为BayesBayes分类分类对于待分样本对于待分样本x x，找出它的，找出它的k k

36、个近邻，检查它的类别，个近邻，检查它的类别，把把把把x x x x归归归归于样本最多的那个类别于样本最多的那个类别于样本最多的那个类别于样本最多的那个类别。P(e)P 第122页，本讲稿共125页最近邻分类准则：最近邻分类准则：待分样本待分样本x x，找一个离它最近的样本，把找一个离它最近的样本，把x x归于最近的归于最近的样本一类。样本一类。错误率：错误率：其中：其中：c c为类别数为类别数;P(e);P(e)为为BayesBayes估计的错误率估计的错误率最近邻分类法的错误率最近邻分类法的错误率P P比比K K近邻错误率还大，但最大不会近邻错误率还大，但最大不会超过贝叶斯分类器错误率的二

37、倍。超过贝叶斯分类器错误率的二倍。第123页，本讲稿共125页剪辑法：剪辑法：目标去掉训练集中那些目标去掉训练集中那些不太可信不太可信的样本，减少需的样本，减少需计算的距离数计算的距离数方法：方法：方法：方法：1 1）用另一训练集合中的）用另一训练集合中的K KN N个近邻，对现有训个近邻，对现有训练集合中的每个样本用练集合中的每个样本用K KN N近邻法分类近邻法分类2 2）若分类结果与这个样本原始类别不一样就去掉该）若分类结果与这个样本原始类别不一样就去掉该样本，就得到一个更小的新的训练集样本，就得到一个更小的新的训练集为提高近邻估计法效率，为提高近邻估计法效率，应获取一个更新、更小

38、、应获取一个更新、更小、更有效的训练样本。更有效的训练样本。注意样本选择：第124页，本讲稿共125页3.7 3.7 小结小结（主要讨论存在的问题及局限性）（主要讨论存在的问题及局限性）应用统计决策理论设计分类器（最优分类器设计）的前提应用统计决策理论设计分类器（最优分类器设计）的前提条件是：条件是：1 1）对先验概率或类条件概密）对先验概率或类条件概密有充分的先验知识（已有充分的先验知识（已知则更好）知则更好）2 2）有足够多的训练样本）有足够多的训练样本虽虽理论完善理论完善理论完善理论完善，但需大量样本，有时难以实现。，但需大量样本，有时难以实现。否则，设计分类器效果差否则，设计分类器效果差第125页，本讲稿共125页

展开阅读全文