《模式识别第三章精选PPT.ppt》由会员分享,可在线阅读,更多相关《模式识别第三章精选PPT.ppt(125页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别第三章第1页,此课件共125页哦 解决思路:解决思路:利用已知训练样本估计利用已知训练样本估计P(i),p(x/i),分类器训练的主要任务:分类器训练的主要任务:确定类概密函数确定类概密函数p(x/i)可利用信息:可利用信息:训练样本训练样本第2页,此课件共125页哦任务:任务:利用利用有限的样本集有限的样本集去设计分类器。去设计分类器。1)利用样本集估计)利用样本集估计p(x/wi)和和P(wi),得到估计值,得到估计值和和2)利用)利用 、代替贝叶斯决策中的代替贝叶斯决策中的p(x/wi)和和 P(wi),完成分类器设计,完成分类器设计 希望:希望:当样本数当样本数N 时,时,收敛
2、于收敛于p(x/wi)、P(wi)第3页,此课件共125页哦三个要解决的主要问题:三个要解决的主要问题:1)如何利用样本集估计)如何利用样本集估计2)估计量的性质如何(希望无偏估计)估计量的性质如何(希望无偏估计)3)利用样本集进行错误率估计)利用样本集进行错误率估计第4页,此课件共125页哦基本方法基本方法:1)监督参数估计:监督参数估计:样本所属类别及类条件总体概率密度函数的形式样本所属类别及类条件总体概率密度函数的形式已知,已知,未知的未知的是表征概率密度函数的是表征概率密度函数的某些参数;某些参数;例:正态分布,未知参数例:正态分布,未知参数,2,称为:称为:监督参数估计监督参数估计第
3、5页,此课件共125页哦3)监督非参数估计监督非参数估计:2)非监督参数估计:非监督参数估计:已知总体概率密度函数形式,但已知总体概率密度函数形式,但未知样本所属类别未知样本所属类别,要求推断概率密度函数的某些参数;要求推断概率密度函数的某些参数;以上都是以上都是已知已知p(x/wi)的函数形式的函数形式 已知样本所属类别,但已知样本所属类别,但未知未知p(x/wi)形式形式,直接推断,直接推断概率密度函数概率密度函数第6页,此课件共125页哦3.2 3.2 参数估计中的几个基本概念参数估计中的几个基本概念(1)统计量统计量 由样本按某种规律由样本按某种规律构造的函数构造的函数 或:设样本或:
4、设样本xk(k=1,n)都含有总体信息,为估计未知都含有总体信息,为估计未知参数,把有用信息抽取出来构造样本的某函数,即为统计量。参数,把有用信息抽取出来构造样本的某函数,即为统计量。例:对正态分布,其统计量例:对正态分布,其统计量 第7页,此课件共125页哦(2)参数空间参数空间:在统计学中,把未知参数在统计学中,把未知参数 的全部可取值的集合的全部可取值的集合称参数空间,记为称参数空间,记为 第8页,此课件共125页哦(3)点估计、估计量和估计值点估计、估计量和估计值 构造一个统计量构造一个统计量d(x1,xN)作为某未知参数作为某未知参数 的的估计估计 ,这种估计称为,这种估计称为点估计
5、点估计在统计学中,在统计学中,称称 为为 的的估计量估计量。将属于将属于wi的样本的样本得到第得到第i类的类的 的的具体数值具体数值,称为,称为 的的估计值估计值。代入统计量代入统计量d,这种构造统计量得到参数估计量的过程,称为点估计这种构造统计量得到参数估计量的过程,称为点估计问题。问题。第9页,此课件共125页哦(4)区间估计区间估计:估计某个区间(估计某个区间(d1,d2)作为未知参数作为未知参数 的可能取值范的可能取值范围,估计的区间(围,估计的区间(d1,d2)称为置信区间,这类估计称为)称为置信区间,这类估计称为区间估计。区间估计。即在一定置信度条件下估计即在一定置信度条件下估计某
6、一未知参数某一未知参数 的取值范围的取值范围,称,称为置信区间,这类估计称为区间估计。为置信区间,这类估计称为区间估计。第10页,此课件共125页哦参数估计方法的主要方法参数估计方法的主要方法:最大似然估计最大似然估计贝叶斯估计贝叶斯估计最大似然估计:最大似然估计:一种常用、有效的方法一种常用、有效的方法 把待估参数看作把待估参数看作确定性的量确定性的量,最佳估计就是,最佳估计就是使训使训练样本的概率为最大的那个值。练样本的概率为最大的那个值。两种方法的结果很接近,但本质有很大差别即:使似然函数达到最大的参数值作为估计值。其中参数是确定的未知量(非随机)第11页,此课件共125页哦 贝叶斯估计
7、的典型效果就是,每得到新的观测样贝叶斯估计的典型效果就是,每得到新的观测样本,都使后验概密函数更加尖锐,使其在待估参数的真本,都使后验概密函数更加尖锐,使其在待估参数的真实值附近实值附近形成最大尖峰形成最大尖峰,这个现象称为,这个现象称为“贝叶斯学习贝叶斯学习”过程。过程。贝叶斯估计贝叶斯估计:把待估参数把待估参数 看成符合某种先验概率分布的看成符合某种先验概率分布的随机变量随机变量,对样本进行修正的过程就是把对样本进行修正的过程就是把先验概率密度转化为后验先验概率密度转化为后验概率密度概率密度的过程。的过程。第12页,此课件共125页哦1 1最大似然估计最大似然估计假设假设:(前提条件):(
8、前提条件)1 1)待估参数)待估参数是是确定的未知量确定的未知量(非随机)(非随机)2 2)按类别把样本集分为)按类别把样本集分为C C个子集:个子集:X X1 1,X X2 2,X XC C 任意一个子集任意一个子集X Xi i的样本是从总体中独立抽取的,的样本是从总体中独立抽取的,每一每一个样本集个样本集X Xi i中中样本都是独立同分布的随机变量样本都是独立同分布的随机变量第13页,此课件共125页哦3)每个类条件概密函数)每个类条件概密函数p(x/wi)的形式已知的形式已知,未知的是参数未知的是参数向量向量 i的值的值 为强调为强调p(x/wi)与与 i有关,记为有关,记为p(x/wi
9、,i)4)不同类别的参数不同类别的参数 i是独立的是独立的即即 Xi中的样本不包含中的样本不包含 j(j i)的信息,的信息,只包含只包含 i的信息(的信息(Xi与与 j无关)无关)可对可对每一每一 类样本独立进行处理类样本独立进行处理,每个参数向量只由自,每个参数向量只由自己类别中的样本决定。己类别中的样本决定。下边就只利用第下边就只利用第i类学习样本来估计第类学习样本来估计第i类的概率密度,类的概率密度,忽略类别忽略类别标志,标志,即即 p(x/wi,i)p(x/)第14页,此课件共125页哦设样本子集设样本子集当样本是独立抽取的,则似然函数为当样本是独立抽取的,则似然函数为定义定义:(似
10、然函数似然函数)(当已得到同一类样本集(当已得到同一类样本集X,可略去类别下标,可略去类别下标,可写为,可写为p(X/))当当X的的N个样本确定后,个样本确定后,p(X/)只是只是 的函数,的函数,记为记为l()。第15页,此课件共125页哦最大似然估计的基本思想:最大似然估计的基本思想:例:设例:设xN(6,1),则最可能出现的样本就是,则最可能出现的样本就是x=6,即,即l()=max p(x/(6,1)=p(6/(6,1),若若 已知,已知,当从观测值中抽取样本当从观测值中抽取样本x1,x2,xN时,最可能时,最可能出现的样本是出现的样本是使使l()为最大的样本为最大的样本。若若 未知,
11、未知,X选定。不同的选定。不同的 选择,对选择,对N个样本个样本x1,x2,xN 就有不同的就有不同的p(X/)值,应选择使值,应选择使x1,x2,xN的似然函数的似然函数l()为最大的为最大的第16页,此课件共125页哦定义最大似然估计定义最大似然估计:使p(X/)达极大值的参数向量 ,就是的最大似然估计。显然使显然使 最大的最大的 是样本是样本x x1 1,x,x2 2,x,xN N的函数,的函数,记为记为第17页,此课件共125页哦计算方法:计算方法:或或若若 有有s个分量:个分量:求求即即为便于分析,为便于分析,取对数形式取对数形式求导求导第18页,此课件共125页哦则:则:s个联立方
12、程组求解个联立方程组求解,可得可得即:即:使使对数对数似然函数最大的似然函数最大的 值,也必然使似然函数最大。值,也必然使似然函数最大。是样本的函数,若样本数是样本的函数,若样本数N时,估计值时,估计值 收敛于收敛于真值真值。第19页,此课件共125页哦 注:极值解可能有多解,有全局最大解、局部极大注:极值解可能有多解,有全局最大解、局部极大点和拐点等,点和拐点等,确定最大值点确定最大值点即可。即可。按上式对按上式对所有类型进行同样操作所有类型进行同样操作,最终完成对所有类型的,最终完成对所有类型的最大似然估计。最大似然估计。p(X/)第20页,此课件共125页哦例:高斯分布例:高斯分布1)已
13、知已知,未知未知,似然函数为:似然函数为:其中,对于正态分布其中,对于正态分布第21页,此课件共125页哦求导:求导:第22页,此课件共125页哦令令则则 说说明明未未知知均均值值的的最最最最大大大大似似似似然然然然估估估估计计计计正正正正好好好好是是是是训训训训练练练练样样样样本本本本的的的的算算算算术术术术平均平均平均平均第23页,此课件共125页哦2)、均未知均未知考虑一维情况(考虑一维情况(d1)令)令 1=,2=2 似然函数似然函数其中,对于一维正态分布其中,对于一维正态分布第24页,此课件共125页哦令令求导求导 则有则有第25页,此课件共125页哦对于多元高斯函数对于多元高斯函数
14、(d维),则有维),则有 最大似然估计结果令人满意最大似然估计结果令人满意结论:结论:的估计即为学习样本的的估计即为学习样本的算术平均算术平均估计的协方差矩阵是矩阵估计的协方差矩阵是矩阵的的算术平均算术平均(dd阵列,阵列,dd个值)个值)第26页,此课件共125页哦一个反例:均匀分布一个反例:均匀分布 似然函数似然函数 的的解为必要条件解为必要条件(3-11式)式)不一定有解不一定有解,即:,即:(有两个需估计的(有两个需估计的参数)参数)注意:注意:注意:注意:第27页,此课件共125页哦取对数:取对数:求导:求导:极值解为无穷大,结果无意义。极值解为无穷大,结果无意义。需用其它方法找最大
15、值。需用其它方法找最大值。第28页,此课件共125页哦给定给定N个观察值个观察值x1,xN,由这些样本集估计,由这些样本集估计 1,2 1x3d3,窗口为一超立方体,窗口为一超立方体窗口的选择窗口的选择:有多种选择:有多种选择 方窗函数方窗函数指数窗函数指数窗函数正态窗函数正态窗函数(u)(u)(u)hN 正态窗函数正态窗函数第91页,此课件共125页哦若选若选(u)(u)是以原点是以原点x x为中心的超立方体为中心的超立方体。在在x xi i落入方窗时,则有落入方窗时,则有在在V VN N内为内为1 1不在不在V VN N内为内为0 0落入落入V VN N的样本数等于所有为的样本数等于所有为
16、1 1者之和者之和即即第92页,此课件共125页哦则概率密度估计:则概率密度估计:落入窗口中的样本为落入窗口中的样本为ParzenParzen窗法估计的基本公式窗法估计的基本公式 该式是一个迭加函数,使用该式是一个迭加函数,使用K KN N个以个以x xi i为中心的窗函数迭为中心的窗函数迭加,对加,对x x处的概密进行估计。每一样本处的概密进行估计。每一样本x xi i对概率密度函数对概率密度函数的贡献只在一个窗口范围,离的贡献只在一个窗口范围,离x x远近不同,贡献不同,是远近不同,贡献不同,是一种内插过程一种内插过程。第93页,此课件共125页哦 每个样本对估计所起的作用每个样本对估计所
17、起的作用依赖于它到依赖于它到x x的距离,的距离,即即|x-x|x-xi i|h|hN N/2/2时,时,x xi i在在V VN N内为内为1 1,否则为,否则为0 0。讨论:讨论:称为窗函数,取称为窗函数,取0 0,1 1两种值两种值,但有时可取但有时可取0,0.1,0.20,0.1,0.2多种数值,例如随多种数值,例如随x xi i离离x x接近的程度接近的程度,取值可由取值可由0,0.1,0.20,0.1,0.2到到1 1。第94页,此课件共125页哦为满足这两个条件,要求为满足这两个条件,要求窗函数满足窗函数满足窗函数满足窗函数满足:(保证保证 非非负)负)窗函数的选择窗函数的选择例
18、:例:矩形窗、正态窗、指数窗、三角窗等等矩形窗、正态窗、指数窗、三角窗等等(只要满足上(只要满足上述两条件,都可作为窗函数使用)述两条件,都可作为窗函数使用)要求估计的要求估计的 应满应满足:足:第95页,此课件共125页哦 窗窗长长度度hN对对 的的影响影响 h h h hN N N N又称为平滑因子又称为平滑因子又称为平滑因子又称为平滑因子,N N有限时,有限时,h hN N影响大,影响大,既影响幅度,又影响宽度既影响幅度,又影响宽度既影响幅度,又影响宽度既影响幅度,又影响宽度若定义若定义 则则 l h hN N太大太大,是是p(x)p(x)的一个的一个平滑估计平滑估计,不能跟上不能跟上p
19、(x)p(x)变化,变化,分辨力太低,有平均误差分辨力太低,有平均误差。若若h hN N太大太大,N N(x)(x)幅度小,而宽度拓宽,幅度小,而宽度拓宽,变得平变得平缓缓,是由是由N N个宽的低幅缓变函数迭加个宽的低幅缓变函数迭加。第96页,此课件共125页哦 若若h hN N太小太小,N N(x)(x)幅度很大,宽度很小幅度很大,宽度很小,是是N N个以个以xixi为中心的尖脉冲在为中心的尖脉冲在x x处的叠加处的叠加。lh hN N太太小小,是是p p(x)(x)的的一一个个起起伏伏大大的的估估计计,分分辨辨力高,但不稳定,波动太大,有噪声误差。力高,但不稳定,波动太大,有噪声误差。图图
20、3.63.6、图、图3.73.7,说明,说明h hN N及及N N的影响的影响为使这些误差不严重,为使这些误差不严重,h hN N应折衷选择应折衷选择,即,即V VN N选择选择很关键很关键 看出要得到与真实分布相近的估计,看出要得到与真实分布相近的估计,需要非常大量的需要非常大量的训练样本。训练样本。第97页,此课件共125页哦(5)的统计特性的统计特性 对对p(x)p(x),(u)(u),h hN N作必要的约束,作必要的约束,即满足即满足3.1153.1233.1153.123式,就能保证收敛。式,就能保证收敛。在一定限制条件下在一定限制条件下,是是渐近无偏估计渐近无偏估计,平方误差一致
21、,即平方误差一致,即N,第98页,此课件共125页哦0123456x6x5x3x1x2x4x例例1 1:对对于于一一个个二二类类(1 1 ,2 2 )识识别别问问题题,随随机机抽抽取取1 1类的类的6 6个样本个样本X=(xX=(x1 1,x x2 2,.x.x6 6)1=(x1,x2,.x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计估计p(x|p(x|1 1),即,即第99页,此课件共125页哦解:选解:选正态窗函数正态窗函数xx是一维的是一维的第100页,此课件共125页哦 上式用图表示,上式用图表示,则是则是6 6个分别以个分别以3.23.2,
22、3.63.6,3 3,6 6,2.52.5,1.11.1为中心的正态曲线为中心的正态曲线,而而 则是这则是这些曲线之和。些曲线之和。第101页,此课件共125页哦 由图看出:每个样本对估计的由图看出:每个样本对估计的贡献与样本间贡献与样本间的距离有关,样本越多,的距离有关,样本越多,P PN N(x)(x)越准确越准确。第102页,此课件共125页哦例例2 2:设待估计的:设待估计的p(x)p(x)是均值为是均值为0 0,方差为,方差为1 1的正态密度的正态密度函数。函数。若随机抽取若随机抽取X X样本中的样本中的1 1个、个、16 16个、个、256 256个作为学习个作为学习样本样本x x
23、i i,试用窗口法估计试用窗口法估计p pN N(x)(x)。解:设窗口函数为正态的,解:设窗口函数为正态的,1 1,0 0第103页,此课件共125页哦h hN N:窗长度,窗长度,N N为样本数,为样本数,h1h1为选定可调节的参数。为选定可调节的参数。第104页,此课件共125页哦v用用 窗窗法法估估计计单单一一正正态态分分布布的的实实验验N N=N N=256=256N N=16=16N N=1=1第105页,此课件共125页哦当当N N1 1时时,是一个以第一个样本为中心的正态形是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。状的小丘,与窗函数差不多。讨论:讨论:由图看出由
24、图看出,随随N,hN,h1 1的变化情况的变化情况当当N N1616及及N=256N=256时时 h h1 10.25 0.25 曲线起伏很大,噪声大曲线起伏很大,噪声大 h h1 11 1 起伏减小起伏减小 h h1 14 4 曲线平坦,平均误差曲线平坦,平均误差 当当NN时,时,p pN N(x)(x)收敛于一平滑的正态曲线,收敛于一平滑的正态曲线,估计曲线较好。估计曲线较好。第106页,此课件共125页哦例例3.3.待估的密度函数为二项分布待估的密度函数为二项分布解:此为解:此为多峰情况的估计多峰情况的估计设窗函数为正态设窗函数为正态-0.25x-20 x2x为其它为其它x-2.5-21
25、0.2502p(x)第107页,此课件共125页哦N=N=256N=16N=1v用用 窗窗法法估估计计两两个个均均匀匀分分布布的的实实验验第108页,此课件共125页哦当当N N1 1时时,实际是窗函数。实际是窗函数。当当N N1616及及N=256N=256时时 h h1 10.25 0.25 曲线起伏大曲线起伏大 h h1 11 1 曲线起伏减小曲线起伏减小 h h1 14 4 曲线平坦曲线平坦 当当NN时,时,曲线较好曲线较好上图上图是是N=1N=1、1616、256256、时的时的 估计估计结果结果第109页,此课件共125页哦 图图3.63.6、图、图3.73.7说明了该方法的功能和
26、限制,说明了该方法的功能和限制,其其结果依赖结果依赖结果依赖结果依赖N N N N和和和和h1h1h1h1。尤其要得到精确的估计,尤其要得到精确的估计,所需的样本个数非常多所需的样本个数非常多。N=1N=1时,得到的更多是关于窗函数的信息,而不时,得到的更多是关于窗函数的信息,而不 是概密函数是概密函数;当当N=16N=16时,估计结果不令人满意时,估计结果不令人满意;当当N=256N=256,h1=1h1=1时,结果开始趋于精确。时,结果开始趋于精确。图图3.73.7更明显更明显:第110页,此课件共125页哦窗口法具有窗口法具有应用的普遍性应用的普遍性应用的普遍性应用的普遍性。对。对规则、
27、非规则规则、非规则分布,分布,单锋单锋或多峰分布或多峰分布都可用此法估计概率密度。都可用此法估计概率密度。图图3.63.6、图、图3.73.7说明了如下结论:说明了如下结论:只要样本足够多,总可保证收敛于任何复杂的概密只要样本足够多,总可保证收敛于任何复杂的概密函数函数。ParzenParzen窗的优点窗的优点:第111页,此课件共125页哦ParzenParzen窗的缺点:窗的缺点:尤其特征空间维数大于尤其特征空间维数大于1 1后,更加突出,对样本后,更加突出,对样本的需求相对于维数按指数的需求相对于维数按指数,所以易,所以易出现出现出现出现“维数灾难维数灾难维数灾难维数灾难”。要求样本足够
28、多要求样本足够多,才能有较好的估计。,才能有较好的估计。比参数估计法所需样本数大得多,比参数估计法所需样本数大得多,需大量需大量的存储单元和计算时间,计算效率不高的存储单元和计算时间,计算效率不高。第112页,此课件共125页哦 利用训练样本类别属性已知,对每一类独立估计利用训练样本类别属性已知,对每一类独立估计概率密度,并概率密度,并根据最大后验概率(根据最大后验概率(MAPMAP)的原则进行分类。)的原则进行分类。为提高处理效率,模式识别可用为提高处理效率,模式识别可用并行处理并行处理方式实现,以方式实现,以空间复杂度来换取时间复杂度空间复杂度来换取时间复杂度具有人工网络的结构。具有人工网
29、络的结构。Parzer Parzer窗法神经网络结构窗法神经网络结构概率神经网络概率神经网络(Probabilistic neural network PNNProbabilistic neural network PNN)分类器设计:分类器设计:第113页,此课件共125页哦3.5.3 K3.5.3 KN N近邻估计近邻估计 Parzen Parzen窗法存在的问题:窗法存在的问题:例例 ,对对V1V1敏感敏感(图图3.63.6,图,图3.7)3.7)对对V VN N (h hN N)的选择)的选择,对估计结果影响很大对估计结果影响很大若若h hN N选选太太小小,则则大大部部分分体体积积将
30、将是是空空的的(不不包包含含样样本本),使使P PN N(x)(x)估计不稳定估计不稳定;若若h hN N选选太太大大,则则P PN N(x)(x)估估计计较较平平坦坦,反反映映不不出出总总体体分分布布的变化的变化.K KN N近邻估计近邻估计是克服该问题的一个是克服该问题的一个较有效方法较有效方法第114页,此课件共125页哦 以以x x为为中中心心建建立立区区域域V V,使使V V增增大大(V V1 1,V V2 2,V VN N ),),直到捕捉到直到捕捉到直到捕捉到直到捕捉到K K K KN N N N个样本为止个样本为止个样本为止个样本为止。称称K KN N-近邻估计近邻估计K KN
31、 N近邻法的思想近邻法的思想:V VN N 受控于受控于K KN N,而不是直接作为,而不是直接作为N N的函数,可避免的函数,可避免出现空的区域出现空的区域R RN N,消除了不稳定性消除了不稳定性。V VN N适应于适应于K KN N的变化的变化即:样本密度大,即:样本密度大,V VN N;样本密度小,样本密度小,V VN N;第115页,此课件共125页哦K KN N近邻方法:近邻方法:1 1)预先)预先确定确定K KN N是是N N的函数的函数,例:,例:2 2)然后围绕)然后围绕x x点建立一个体积(邻域)点建立一个体积(邻域)R RN N,并让它,并让它 不断增大不断增大,直到包含
32、,直到包含K KN N个样本为止,这个样本为止,这K KN N个样本个样本就称为就称为x x的的K KN N个近邻。个近邻。3 3)计算该领域的体积)计算该领域的体积V VN N显然:如果显然:如果x x点附近样本密度高,概密点附近样本密度高,概密p(x)p(x)较大,则区域体积就小,较大,则区域体积就小,分辨力较高。分辨力较高。如果如果x x点附近样本密度低,点附近样本密度低,p(x)p(x)较小,则区域体积自然较小,则区域体积自然就大,就大,当区域为包含当区域为包含K KN N个邻近样本而扩展到高密度区时,扩展过程必个邻近样本而扩展到高密度区时,扩展过程必然很快停止。然很快停止。4 4)概
33、密函数估计为)概密函数估计为 第116页,此课件共125页哦nN N个已知类别样本落入个已知类别样本落入V VN N内为内为K KN N个样本的概率密度个样本的概率密度估计估计为:为:当当N N个样本落入个样本落入V VN N内有内有K KN N个,个,K KN N个样本内有个样本内有K Ki i个样本属于个样本属于i i类类则联合概率密度:则联合概率密度:用用K KN N近邻法进行后验概率的估计:近邻法进行后验概率的估计:第117页,此课件共125页哦根据根据BayesBayes公式可求出后验概率:公式可求出后验概率:则则 类别为类别为i i的后验概率就是落在的后验概率就是落在V VN N内
34、属于内属于i i的样本的样本k ki i与与V VN N内总样本数内总样本数K KN N的比值的比值第118页,此课件共125页哦ParzenParzen窗估计法:窗估计法:需调整需调整需调整需调整h h h hN N N N(V(V(V(VN N N N)因子因子因子因子 与与ParzenParzen窗法比较,窗法比较,K KN N近邻估计法是一近邻估计法是一种较好的非参数估计方法。种较好的非参数估计方法。K KN N近邻估计法:近邻估计法:需调查需调查需调查需调查K K K KN N N N因子因子因子因子第119页,此课件共125页哦1)(使平均密度收敛于真实密度,使平均密度收敛于真实密
35、度,即即 )2)N N与与K KN N同相变化同相变化。3)K KN N的变化远小于的变化远小于N N的变化。的变化。即即K KN N 的慢一点,以使捕获的慢一点,以使捕获K KN N个样本的体积个样本的体积V VN N可逐步减小,可逐步减小,使使 ,避免避免 要使要使 收敛于收敛于p(x)p(x),仍应满足下列条件,仍应满足下列条件:即即N N 时,时,K KN N,可保证样本落在,可保证样本落在V VN N中的概率中的概率估值估值 有一定的值有一定的值(充分必要条件充分必要条件)第120页,此课件共125页哦上述条件满足,则上述条件满足,则 收敛于真实概密收敛于真实概密p(x)p(x)缺点
36、:缺点:计算量太大(一维需数百个样本,二维需数千个样计算量太大(一维需数百个样本,二维需数千个样本)。本)。出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类例:最近邻法分类例:最近邻法分类 K K近邻法分类近邻法分类(第六章内容)(第六章内容)第121页,此课件共125页哦K K K K近邻分类准则:近邻分类准则:近邻分类准则:近邻分类准则:K K近邻分类的错误率,近邻分类的错误率,随随KK,其错误率,其错误率PP,最低的错误最低的错误率为率为BayesBayes分类分类对于待分样本对于待分样本x x,找出它的,找出它的k
37、 k个近邻,检查它的类别,个近邻,检查它的类别,把把把把x x x x归于样本最多的那个类别归于样本最多的那个类别归于样本最多的那个类别归于样本最多的那个类别。P(e)P 第122页,此课件共125页哦最近邻分类准则:最近邻分类准则:待分样本待分样本x x,找一个离它最近的样本,把找一个离它最近的样本,把x x归于最近归于最近的样本一类。的样本一类。错误率:错误率:其中:其中:c c为类别数为类别数;P(e);P(e)为为BayesBayes估计的错误率估计的错误率 最近邻分类法的错误率最近邻分类法的错误率P P比比K K近邻错误率还大,但最近邻错误率还大,但最大不会超过贝叶斯分类器错误率的二
38、倍。大不会超过贝叶斯分类器错误率的二倍。第123页,此课件共125页哦剪辑法:剪辑法:目标去掉训练集中那些目标去掉训练集中那些不太可信不太可信的样本,减少需的样本,减少需计算的距离数计算的距离数方法:方法:方法:方法:1 1)用另一训练集合中的)用另一训练集合中的K KN N个近邻,对现有训个近邻,对现有训 练集合中的每个样本用练集合中的每个样本用K KN N近邻法分类近邻法分类2 2)若分类结果与这个样本原始类别不一样就去掉该)若分类结果与这个样本原始类别不一样就去掉该 样本,就得到一个更小的新的训练集样本,就得到一个更小的新的训练集 为提高近邻估计法效率,为提高近邻估计法效率,应获取一个更
39、新、更小、应获取一个更新、更小、更有效的训练样本。更有效的训练样本。注意样本选择:注意样本选择:第124页,此课件共125页哦3.7 3.7 小结小结 (主要讨论存在的问题及局限性)(主要讨论存在的问题及局限性)应用统计决策理论设计分类器(最优分类器设计)的前应用统计决策理论设计分类器(最优分类器设计)的前提条件是:提条件是:1 1)对先验概率或类条件概密)对先验概率或类条件概密有充分的先验知识有充分的先验知识(已知则更好)(已知则更好)2 2)有足够多的训练样本)有足够多的训练样本虽虽理论完善理论完善理论完善理论完善,但需大量样本,有时难以实现。,但需大量样本,有时难以实现。否则,设计分类器效果差否则,设计分类器效果差第125页,此课件共125页哦