《模式识别导论(二).pdf》由会员分享,可在线阅读,更多相关《模式识别导论(二).pdf(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别导论 武汉大学遥感信息工程学院 马洪超 模式识别导论:Bayes决策理论 Bayes Decision Theory 模式识别导论 武汉大学遥感信息工程学院 马洪超 如果模式表现为具有确定性(deterministic)特征,在特征空间(feature space)中各类互不重叠,那么可以用线性判别函数(linear decision function,广义线性)但事实上并不完全是这样,许多(特征)观测结果具有不确定性(uncertainty),这时用概率法则。如图 模式识别导论 武汉大学遥感信息工程学院 马洪超 本章主要讨论第二种情况下,如何设计分类器的问题 设计的思想是:给定一个未
2、知样本(模式),它“最有可能”(most probable)属于哪一类?把上述问题用数学语言来表达:一个未知模式,用一组它的模式特征向量来表示为x,并且已知它来自M个类别中的某一类,这是,我们可以获得一组后验概率如下:如果用文字来表达,就是:已经测定未知模式的特征向如果用文字来表达,就是:已经测定未知模式的特征向量量x的条件下,来自某一类别的条件下,来自某一类别i的概率。这个最大概率完的概率。这个最大概率完全可以作为“最有可能”的数学表达全可以作为“最有可能”的数学表达 MiPi,2,1),|(x模式识别导论 武汉大学遥感信息工程学院 马洪超 2.1 基于最小错误率的Bayes判别法 2.2
3、基于Bayes判别的几种判别规则 基于最小风险的Bayes决策 Neyman-pearson决策 最小最大决策 序贯分类决策 2.3 正态分别模式的统计决策 正态分别概率密度函数的定义与性质 多元正态概率模型的Bayes判别函数 2.4 概率密度函数的估计 2.5 Bayes分类器的错误概率 模式识别导论 武汉大学遥感信息工程学院 马洪超 2.1 2.1 基于最小错误率的基于最小错误率的BayesBayes决策决策 一、两类问题 例如:细胞识别问题。设1正常细胞,2异常细胞。某地区经大量统计获先验概率(a priori probability)P(1),P(2)。若取该地区某人细胞,问属何种细
4、胞,此时只能由先验概率决定。这种分类器意义不大221121),()(),()(xxPPPP模式识别导论 武汉大学遥感信息工程学院 马洪超 不过一般总是不止这么一点信息的。假设我们对细胞的某个特征x进行了测量,它具有概率密度函数(PDF)1|xp现假设我们对某未知细胞进来了这个特征的测量,获得测量值x,那么这个测量值对我们判别该细胞来自哪一类有什么样的影响呢?设细胞来自 同时具有测量值x的概率为 i)()|()()|(),(,xpxPPxPxPxPiiiii模式识别导论 武汉大学遥感信息工程学院 马洪超 21)()()()(|jjjiiiiiPxpPxpxpPxpxP全概率公式 这就是Bayes
5、公式。当给定某未知细胞特征的测量值的条件下,来自于 的概率。这个概率称为后验概率(a posteriori probability)。所以后验概率的计算可以通过先验概率和类概率密度。如果我们测量的是一组特征,那么:i 21)()()()(|jjjiiiiiPpPppPpPxxxxx模式识别导论 武汉大学遥感信息工程学院 马洪超 221121),()(),()(xxPxPxxPxP则若则若一般地,设N个样本分为两类1,2。每个样本抽出n个特征,x x=(x1,x2,x3,xn)T 判别规则:决策面(decision surface)按照判别规则将多维特征空间分成M个类别区域,这些区域的边界面 决
6、策面方程(decision equation)用解析形式表示决策面 判别函数(decision function)用以表述判别规则的函数 模式识别导论 武汉大学遥感信息工程学院 马洪超)(,)()(ln)()(ln)()4()(,)()()()()()3()(),()()()()()2()(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率PPppgPPppgPpPpgPPgxxxxxxxxxxxx若已知先验概率P(1),P(2),类条件概率密度p(x x|1),p(x x|2)。则可得贝叶斯判别函数四种形式:模式识别导论 武汉大学遥感信息工程学院 马洪
7、超 决策规则:2112212112212122112121)()(ln)()(ln)()4()()()()()3()()()()()2()()()1(xxxxxxxxxxxxxPPppgPpPpPpPpPP模式识别导论 武汉大学遥感信息工程学院 马洪超 Bayes决策的基本思想是:要求判别归属时依概率最大作出决策,这样的结果可以使分类的错误率最小 dxxpxPdxxpxPPPRxPPRxPPRPRPPRReee12|:Bayes|.P(.,.),R R.R R 21112221122112212211公式再使用针对连续型的换为由基础概率论,上式转率表示两个事件的联合概其中发生了错误,因此时,而
8、实际样本是属于,或者当该模式应该是属于而实际上那么当的样本组成的区域由属于的样本组成区域,别是特征空间中由属于类设证明:xxxx模式识别导论 武汉大学遥感信息工程学院 马洪超 dxxpxPR1|2 dxxpxPR21|)|()(xPxpi模式识别导论 武汉大学遥感信息工程学院 马洪超 率为最小组成的区域,那么错误的是由满足条件同样,如果那么错误概率会最小组成的区域的是由满足条件上式表明,如果因此义根据概率密度函数的定和在一起覆盖整个区域和由于区域x|R .x|R|,R R 21221121111121121xPxPxPxPdxxpxPxPPPPdxxpxPdxxpxPReRR上述两个条件,即是
9、按照最大后验概率的Bayes决策规则!模式识别导论 武汉大学遥感信息工程学院 马洪超 例例:某地区细胞识别:P(1)=0.9,P(2)=0.1 未知细胞测量得特征x x,1,2有该特征的概率分别如下,该细胞属于正常细胞还是异常细胞?设1为正常细胞。P(x|1)=0.2,P(x|2)=0.4.),()(),()(,182.0)(1)(818.01.04.09.02.09.02.0)()()()()(211211221111用所以先验概率起很大作因为属正常细胞。因为PPPPPPPPPPPjjjxxxxxxxx解解:先计算后验概率:模式识别导论 武汉大学遥感信息工程学院 马洪超 例:设有一维两类问题
10、,特征x的概率密度函数)1(exp(1)|()exp(1)|(2221xxpxxp令P(1)=P(2)=0.5,计算使错误率最小的阈值 5.0 )1(exp()exp(:0220 xxxx解:模式识别导论 武汉大学遥感信息工程学院 马洪超 g(x)nxxxX.21特征向量判别计算决策21x阈值单元 分类器设计:两类情况:多类情况:=(1,2,m),x=(x1,x2,xn)判别函数:M类有M个判别函数g1(x),g2(x),gm(x).每个判别函数有前述的四种形式。决策规则(用最大后验概率表示):),.,2,1(,)()(max)()()(1MixPxPPxPxgijjMjiiig1(x)Max
11、gi(x)nxxxX.21特征向量判别计算决策ixg2(x)gm(x)最大值选择器.多类问题Bayes分类器设计:模式识别导论 武汉大学遥感信息工程学院 马洪超 实际计算中,要利用Bayes公式计算后验概率,必须有如下两个参数:先验概率;每一类别的概率密度函数 先验概率通过事先做统计调查、或者根据已有知识假定等方法确定,相对容易 类概率密度函数的确定,由两种情况 事先知道概率密度的分布形式,如正态分布(参数估计,parameter estimation)事先不知道概率密度的分布形式(非参数估计,nonparameter estimation)模式识别导论 武汉大学遥感信息工程学院 马洪超 正态
12、分布(正态分布(normal distributionnormal distribution)决策理论)决策理论 一、正态分布判别函数 a、正态分布在物理上是合理的、广泛的。b、正态分布数学上简单,N(,)只有均值和方差两个参数。单变量正态分布:)()()(,)()(:),(21exp21)(22222方差,均值或数学期望其中dxxPxxEdxxxPxENxxP1)()(,0)(dxxPxxP列关系:概率密度函数应满足下)(xPX2295.01模式识别导论 武汉大学遥感信息工程学院 马洪超(多变量)多维正态分布(multi-variable normal distribution)(1)函数形
13、式:的行列式为的逆阵,为维协方差矩阵,为维均值向量,维特征向量其中121211212),.,(,.,:21exp21)(nnnnxxxPTnTnTnxxxxiiiiidxxPxxE)()(模式识别导论 武汉大学遥感信息工程学院 马洪超 多元正态分布可以由单元正态分布引入。niiiiniiniiiniiiiiinxxxpNxpxxxn12122122121exp2121exp21,其联合分布为:,则如果它们是相互独立的是正态分布的,即个随机变量设有模式识别导论 武汉大学遥感信息工程学院 马洪超 2122221221200000 0100010010nn上面的式子可以写成矩阵的形式,首先注意到这时
14、的协方差矩阵为对角矩阵:模式识别导论 武汉大学遥感信息工程学院 马洪超 对角阵,即要求对于一般情形,不一定于是,xxxxx121212121exp21TnTniiiipx,.2222121212211nnnnn模式识别导论 武汉大学遥感信息工程学院 马洪超 是协方差,非对角线是方差对角线jijixxExxExxExxEijijnnnnnnnnnnnnn22222212121221111111111,.模式识别导论 武汉大学遥感信息工程学院 马洪超(2)、性质:、与对分布起决定作用P(X X)=N(,),由n个分量组成,由n(n+1)/2元素组成。多维正态分布由n+n(n+1)/2个参数组成。、
15、等密度点的轨迹是一个超椭球面。区域中心由决定,区域形状由决定。、不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。、线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。、线性组合的正态性。211X2X模式识别导论 武汉大学遥感信息工程学院 马洪超 判别函数:类条件概率密度用正态来表示:112211221()ln()()11lnexp()2211lnexpln()2211ln2lnln()222iiTiiiiniTiiiiniTiiiiig xP xPPPnP xxxxxx模式识别导论 武汉大学遥感信息工程学院 马洪超 最小错误率(Bayes)分类器:从
16、最小错误率这个角度来分 Bayes 分类器 1.1.第一种情况:第一种情况:各个特征统计独立,且同方差情况。(最简单情况)决策面方程:()()0ijggxx111()()2()1lnln02()TijiiiTjijjjijggPP xxxxxx模式识别导论 武汉大学遥感信息工程学院 马洪超 112221()21ln2lnln()221,ln22TiiiiiiiiignPni xxxIII因为都与 无关。对分类无影响。零。,只有方差,协方差为即222.0.0.:Ii判别函数:模式识别导论 武汉大学遥感信息工程学院 马洪超 1222()().()(),()2miPPPgxx欧氏距离最小距离分类器:
17、未知x与i相减,找最近的i把x归类 如果M类先验概率相等:12221()ln()2ln(),2TiiiiiTiiiiigPP xxxxxxx其中模式识别导论 武汉大学遥感信息工程学院 马洪超 00220012,(),()11,ln()2()maxTTTTTiiiiiTiiiTiiiiiiTTiiijjij MigwwPgxww xxx x x x xxw xw xww xx因为二次项与 无关简化可得:线性判别函数其中:判别规则:当各类先验概率不相等的时候:模式识别导论 武汉大学遥感信息工程学院 马洪超 0202()()0()0()1()ln2()ijTijijiijjijggPPxxwxxwx
18、决策面方程:其中21212211212212)()(ln)(21)(1)()()(xPPxxgxgxgTTT对于两类情况模式识别导论 武汉大学遥感信息工程学院 马洪超 讨论:的联线。垂直于决策面同方向同相与,所以因为是决策面的法向量,又率面是一个圆形。协方差为零。所以等概因为HWWWbajii)()(,)(21212I21i二类情况下界面。均值联线的垂直线作为对多类情况,用各类的。离开先验概率大的一类否则就是联线的中点。通过如果先验概率相等 )(),()(),()()(2121dHPPHPPc12WH时决策面)()(21PP124334H23H14H12H1121x2xHW20 x模式识别导论
19、 武汉大学遥感信息工程学院 马洪超)()()(21)()(.)()()()(ln)()(21)(.21321121马氏距离,若先验概率相等无关与因为rxgPPPPPgiiTiiiiiTiiMxxxxx)(ln21,)()()(101011iiTiiiiiTiiTiTiPwWwWgi其中(线性函数)无关。与展开;把xxxxxx2、第二种情况:、第二种情况:i 相等,即各类协方差相等。模式识别导论 武汉大学遥感信息工程学院 马洪超 第二类 21trxx其中为均值向量,为协方差矩阵 欧氏距离和马氏距离之间的差别:欧氏距离来说应该是属于第二类 模式识别导论 武汉大学遥感信息工程学院 马洪超 例子:二维
20、两类问题,设都服从正态分布,协方差矩阵一样 TT33,009.13.03.01.121均值向量为计算向量 到这两类的欧氏距离和马氏距离 T2.21.0952.20.20.155.015.015.095.02.20.1)()(),(11112xxxdTm模式识别导论 武汉大学遥感信息工程学院 马洪超 672.38.00.255.015.015.095.08.00.2)()(),(21222xxxdTm同理,可见,给定的向量和第一类的中心比较近。但如果从欧氏距离类看,则是相反的,下图 228.02 2212.2 模式识别导论 武汉大学遥感信息工程学院 马洪超)()()()()(ln)(21)(,0
21、)(1010jiTjijijijijiTPPxWxxW。其中0)()()()(ln)(21)()()()(max)(21212211111212010 xgxgxPPxxgxgxgxwxWwxWxgjijiTTijTjMjiTii相邻与决策界面:若对于二类情况决策规则:模式识别导论 武汉大学遥感信息工程学院 马洪超 3 3、第三种情况、第三种情况(一般情况):为任意,各类协方差矩阵不等,二次项 与i有关。所以判别函数为二次型函数。ijTjjTMjiTiiTiwWWwWWgxxxxxxxx010max)(决策规则:2121212122111112)()(lnln21)()(21)()(21)()
22、()(xxxxxxxPPxgggTT对于二类情况)(lnln2121)()(,21,)(:10110iiiiTiiiiiiiiTiTiPwnWnnWwWWgi,维列向量矩阵其中判别函数xxxxxx1iT模式识别导论 武汉大学遥感信息工程学院 马洪超 贝叶斯决策分类器大都涉及类概率密度函数,对于正态分布模式,其概率密度函数可通过均值向量和协方差矩阵的估算而确定。在无法用参数表征概率密度函数时,则可以通过某些函数来近似地表示 概率密度函数的估计 一般以模式样本的平均作为均值向量的近似值。设某类的模式样本数为N,其均值向量估计量 m 14211NjjxNm2422ttttttEEECmmxxmmxm
23、xxmxmx模式识别导论 武汉大学遥感信息工程学院 马洪超 342111tkNKkmxmxNC当无法用参数表征概率密度函数时,则需要选取某种基函数作近似估计 dxxPxPxRx2 x xP其中 是权函数。如果将 写成m项展开式 为最小的均方误差与使得估计函数法,的估计,采用最小二乘作为),以(表示这里以RxPxPxPxPxPxPi)()()()(|)(模式识别导论 武汉大学遥感信息工程学院 马洪超 8421mjjjxCxPjC xj其中 为待定系数,为基函数,将此式代入(2-4-7 dxxCxpxRmjjjx21 942,2,1,01dxxpxxdxxxxCmkCRkxkjxjmjk有模式识别
24、导论 武汉大学遥感信息工程学院 马洪超 由于式中右边为 xxk的数学期望,可用N个样本的均值来近似 1042111 NjikikmjxjjxxNdxxxxC由于一般选择正交函数集 xj作为基函数,故有 11420kjkjAdxxxxKxkj若模式识别导论 武汉大学遥感信息工程学院 马洪超 书上例子,自学。注意Hermite多项式查阅有关数学参考书 有关Bayes估计,自学。)()(),(8-4-22,1 )(1),(,)(1)(1xPxPxPCmkxNCxxkxAkxkNjikkiiikik并且认为估计)得到概率密度函数的以后,即可以根据(这样当求得所有系数于是且可以认为对所有的无关,与。由于
25、,有正交归一时,对所有的当基函数模式识别导论 武汉大学遥感信息工程学院 马洪超 BayesBayes分类的算法分类的算法(假定各类样本服从正态分布)1.输入类数M;特征数n,待分样本数m.2.输入训练样本数N和训练集资料矩阵X(Nn)。并计算有关参数。3.计算矩阵X中各类的后验概率。4.若按最小错误率原则分类,则可根据 3 的结果判定y中各类样本的类别。5.若按最小风险原则分类,则输入各值,并计算X中各样本属于各类时的风险并判定各样本类别。例例1、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?解解1、假定二类协方差 矩阵不等
26、(12)则均值:53,0)11011(511211XX训练样本号k 1 2 3 4 5 1 2 3 4 特征 x1 特征 x2 1 1 0 -1 -1 0 1 0 -1 0 1 1 1 0-1 -2 -2 -2 类别 1 2 的计算方法)请看协方差协方差矩阵为11222112112221212111(:.)47,0(,)53,0(,CCCCXXXXXXTTTT计算方法同上)协方差矩阵为(410032,103001103)()(410)()(411)01()01()00()01()01(41)()(15121122T511222221121225111112222221115111111xxxx
27、CCCxxxxCxxxxCkkkkTkkkkTk223.0)()(ln,94)(,95)(:59.0ln,61,103,40023,310001212121211211PPPP先验概率模式识别导论 武汉大学遥感信息工程学院 马洪超 188.12)5.13(81.14091.101832210)()0,0(091.10)()0,0(),(x,),(x0)()(lnln21)xx()xx(21)xx()xx(21)()()(22222122221121212121211222111112xxxxxxgXxgxxxxxPPxgxgxgTTTTTT程:这是一个非线性椭圆方得分界线方程为:令类。属于所以
28、判代入得:将利用公式:62.0模式识别导论 武汉大学遥感信息工程学院 马洪超.61.0068.21147)()0,0(x068.2)()(ln)xxxx(21x)xx()(221211212111112所示为一直线,如图中虚线从而得分界线方程为类,判为故应把xxxgPPxgTTTT得:所以代入Tx0,0,11200053,20110035121 解解2、假定两类协方差矩阵相等=1+2 模式识别导论 武汉大学遥感信息工程学院 马洪超 训练样本号k 1 2 3 1 2 3 1 2 3 特征 x1 0 1 2-2 -1 -2 0 1 -1 特征 x2 1 0 -1 1 0 -1 -1 -2 -2 类
29、别 1 2 3 解解1、假定三类协方差不等;例例2:有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=3、n=2、M=3,试问,未知样本 X=(0,0)T应属于哪一类?3213213100110031,1001:)35,0(x)0,35(x,)0,1(x,协方差矩阵为,均值TTT300110031001131211,所以模式识别导论 武汉大学遥感信息工程学院 马洪超 6.3)()(,5.0)(:0,02.710321)(2.710321)(1221)(.lnln2121,21,)(3131311321222213122212122211111321321xgxgxgXxxxxgxxxxg
30、xxxxgPwwWwxwxWxxgPPPTiiiiTiioiiiiiioTiiTi代入得将所以其中代入多类判别函数先验概率,12X321X待定样品353511x3x2x模式识别导论 武汉大学遥感信息工程学院 马洪超 06.252)()(055)()(01.36)()()()(),()(),()(0,021221321222132121211332211xxxxgxgxxxxxgxgxxxgxgxgxgxgxgxgxgXT分别令类为故应判样品12X321X待定样品353511x3x2x可得三类分界线如图所示:可得三类分界线如图所示:模式识别导论 武汉大学遥感信息工程学院 马洪超 4225)()(
31、,143)(:0,0422575)(422575)(,14373)()(:730073,37003732123121101321 xgxgxgXxxgxxgxxgwxwxgTiTii代入得将所以代入多类时判别函数解解2、设三类协方差矩阵相等 模式识别导论 武汉大学遥感信息工程学院 马洪超 12X321X待定样品353511x3x2x2187573)()(7575)()(21878)()()()(),()(),()(0,0211321321211332211xxxgxgxxxgxgxxgxgxgxgxgxgxgxgXT分别令类为故应判样品可得三类分界线如图所示:可得三类分界线如图所示:模式识别导
32、论 武汉大学遥感信息工程学院 马洪超 作业作业:在下列条件下,求待定样本x=(2,0)T的类别,画出分界线,编程上机。1、二类协方差相等,2、二类协方差不等。训练样本号k 1 2 3 1 2 3 特征x1 1 1 2-1 -1 -2 特征x2 1 0 -1 1 0 -1 类别 1 2 模式识别导论 武汉大学遥感信息工程学院 马洪超 作业作业:有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=N3=3、n=2、M=3,试问,X=(-2,2)T应属于哪一类?要求:要求:用两种解法a、三类协方差不等;b、三类协方差相等。编程上机,画出三类的分界线。训练样本号k 1 2 3 1 2 3 1 2
33、3 特征x1 0 2 1-1 -2 -2 0 0 1 特征x2 0 1 0 1 0 -1 -2 -1 -2 类别 1 2 3 模式识别导论 武汉大学遥感信息工程学院 马洪超 作业 (高级题,选做)用马氏距离法进行TM图像监督分类,并给出分类结果评价(用混淆矩阵),基本要求:训练样区的选择可以用其他软件如photoshop来实现,TM用1,2,3,4,5,7这六个波段,图像格式自己定义。数据量不作要求,结果用专题图的形式表示(用不同色斑表示不同地物类别),数据自己找,分类数量不少于4类。提高要求:训练样区自己选择,数据量可以任意,算法实现按照软件工程化的原则,算法是以库或组件的形式可以发布(网上
34、或者组件产品)。模式识别导论 武汉大学遥感信息工程学院 马洪超 关于分类器的错误率分析关于分类器的错误率分析(一般情况)一般情况))()(11Pxp)()(22PxpTY1YR1 R2 时,错误率最小由图可以看出换为由基础概率论,上式转率表示两个事件的联合概其中发生了错误,因此时,而实际样本是属于,或者当该模式应该是属于而实际上那么当的样本组成的区域由属于的样本组成区域,别是特征空间中由属于类设221121122112221122112212211|.P(.,.),R R.R R 1PpPpdxpPdxpPPPRPPRPPRPRPPRReeexxxxxxxxxx模式识别导论 武汉大学遥感信息工
35、程学院 马洪超 计算量很大)总错误率对于多类问题:)()()()(.)()(.)()(.)()()()(.)()()(11121222321111312iMiMjjjMMMMMMMPRxPPRxPRxPRxPPRxPRxPRxPPRxPRxPRxPePijMiiRiMiiiidxPxPPRxPMPi11)()()()()(用平均正确分类概率:,计算相对简单。错误率:)(1)(MPeP2、正态分布最小错误率、正态分布最小错误率(在正态分布情况下求最小错误率)21)()(21PP设:模式识别导论 武汉大学遥感信息工程学院 马洪超 221121exp21)21exp21)(xxpxxp率。因此可计算
36、出最小错误可以计算若已知错误率最小对多维问题:可计算可以计算若已知,其中:。可得代入把值值就是,可解出条件:把上式代入最小错误率.,)(21,21exp21)(,)(,)()(,2121exp21)()()()()()()(.)()()()(21211212min222111min212221122211minmin2211kkduuePNxPNxPePkkxuduudxxpPdxxpPePePePYYxxpPxpPTkkYYTTTT模式识别导论 武汉大学遥感信息工程学院 马洪超 最小风险最小风险Bayes分类器分类器 假定要判断某人是正常(1)还是肺病患者(2),于是在判断中可能出现以下情况
37、:第一类,判对(正常正常)11;第二类,判错(正常肺病)21;第三类,判对(肺病肺病)22;第四类,判错(肺病正常)12。当发生错误时,由此引起的损失或风险是不同的,因此引入最小风险Bayes分类器。先说明几个概念:模式识别导论 武汉大学遥感信息工程学院 马洪超 行动i:表示把模式x x判决为i类的一次动作。损失函数ii表示模式X本来属于i类而判为i所受损失。因为这是正确判决,故损失最小。损失函数ij表示模式X本来属于j类判为i所受损失。因为这是错误判决,故损失最大。条件风险(也叫条件期望损失,对于给定的X,采取i的损失):1,1,2,.,.()MiijijjjREPia aMxx风险R(期望
38、风险):对未知X采取一个判决行动(X)所付出的代价(损耗)在整个特征空间中定义期望风险,期望风险:)(,平均风险xxxxdPRR模式识别导论 武汉大学遥感信息工程学院 马洪超 对于给定的x,如果采取决策,从决策表可见,对应于决策,可以在M个,j=1,2,m当中任取一个损失函数,其相应概率为P(j|x)。损失 状态 决策 1 2 3 m 1 2 3 a ij1112131m2122232m1a2a3aam模式识别导论 武汉大学遥感信息工程学院 马洪超 条件风险只反映对某x取值的决策行动i所带来的风险。期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险。最小风险Bayes决策规则:
39、kiMikxRxR则若,min,.,2,1对于实际问题,最小风险贝叶斯决策可按下列步骤进行:在已知P(j),p(x|j),j=1,2,m,并给出待识别的x的情况下,根据贝叶斯公式计算出后验概率:iimijjjPxPPxPxP|1模式识别导论 武汉大学遥感信息工程学院 马洪超 就是风险最小的决策则即最小的决策比较,找出使条件风险,进行个条件风险值的条件风险,得到计算kiaikkiiMjjijijiRRRaiMaajxPER,|min|,|a,2,1,)(,2,1,|2,11xxxx利用计算出的后验概率及决策表,按 结论:最小风险Bayes决策不仅取决于先验概率,还取决于损失函数。实际工作中,损失
40、函数的确定需要根据不同的具体问题而定 模式识别导论 武汉大学遥感信息工程学院 马洪超 作用。较大,决策损失起决定因类风险大。因决策异常细胞因为条件风险:概率:由上例中计算出的后验,的概率分别为征正常和异常细胞具有特异常为概率为例:已知正常细胞先验6,)()(818.0)()(092.1)()()(182.0)(,818.0)(0,1,6,04.0)(,2.0)(x,1.0)(,9.0)(1212112122121211212221121121xxRxRxPxRxPxPxRxPxPxPxPPPjjjii 二类问题:把x归于1时风险:把x归于2时风险:)()()()()()(22212122121
41、111xPxPxRxPxPxR模式识别导论 武汉大学遥感信息工程学院 马洪超 110,0 1:1,()()()()1()()()ijMiijiijjjij ijiiiijijRxPxPxPxPxRxPx 时用函数时后验概率最小,就相当于最大,这时便得到最小错误率分类器。下面我们会看到,Bayes决策是最小风险Bayes决策的特殊情况:模式识别导论 武汉大学遥感信息工程学院 马洪超 在一类错误率固定使另一类错误率最小的判别准则在一类错误率固定使另一类错误率最小的判别准则(聂曼-皮尔逊判决neyman-pearson))(1xp)(2xp1R2X1X12R考虑两类决策问题,其两类错误率为P1(e)
42、(本属第一类被判为第二类)和P2(e)(反之)。由于实际工作中常常要求限制某一类错误率不得大于某个常数而使另一类错误率尽可能地小,例如在癌细胞识别中,我们已经认识到把异常误判为正常的损失更为严重,常常要求这种误判为错误率P2(e)很小,即P2(e)=是一个很小的常数,在这种条件下再要求P1(e)即把正常误判为异常的错误率尽可能地小。这是一个条件极值问题 00,122211|RRdxxpePdxxpeP则设两类先验概率相等,模式识别导论 武汉大学遥感信息工程学院 马洪超)()(021ePePr设:dxxpdxxpRR11|1|12考虑到:dxxpxpdxxpxpdxxpdxxprRRRR2101
43、20021|1|1|1112求R1使r取得极小值。由微积分中条件极值的求法:模式识别导论 武汉大学遥感信息工程学院 马洪超 由此式分别对x和 求导,令 0 xr0r21|xpxp14-2-13,2-2-2|021dxxpR可以推知,当我们选择满足条件 0|21xpxp的点x的全体组成为R1,就可以保证这时的r比其他任何R1的取法要小。因为此时可以保证R1能使被积函数取正的最大的域。对于其他任何新的取法,不妨设 121111)(RRRR那么在R11上,0|21xpxp那么在R12上,0|21xpxpR1 R11 R12 模式识别导论 武汉大学遥感信息工程学院 马洪超 dxxpxpdxxpxprd
44、xxpxpdxxpxpdxxpxprRRRRRR)|(|()|(|()1(|11211121111212121210210上式第二项积分为正,第三项积分为负,因此 rr 模式识别导论 武汉大学遥感信息工程学院 马洪超 同理,当选择 的点x 组成区域R2可以使所求的目标函数最小,综上,有判别规则 0|21xpxp21|xPxP21x可以看出聂曼皮尔逊决策规则与最小错误率贝叶斯决策规则都是以似然比为基础的,所不同的只是最小错误率决策所用的阈值是先验概率之比P(2)/P(1),而聂曼皮尔逊决策所用的阈值则是Lagrange乘子 它是(2-2-13)和(2-2-14)方程的解。模式识别导论 武汉大学遥
45、感信息工程学院 马洪超 这里,判决阈值 又是由 决定的,即适当选取 002)(ep020()p e当 给定后,拉格朗日乘子 可由式其中为判别边界g()2p x|dx)g()但显式求解很困难,因为是 的单调函数,可以用试探法 模式识别导论 武汉大学遥感信息工程学院 马洪超 例例:两类的模式分布为二维正态 协方差矩阵为单位矩阵1=2=I,设00.04求聂曼-皮尔逊准则 T.解:解:TT0,1,0,121 22exp212exp21)(21exp212exp21)(22212222221111xxPxxPTTxxxxxx同理:所以因为是两类正态模式识别导论 武汉大学遥感信息工程学院 马洪超 的不同直
46、线。判别边界是平行于对于不同式有了判别边界和判别形即判别式为:判别边界为:如右图所示22112111121,ln212exp2exp2exp)()(:xxxxxxxPPxx4 212141111x2x12345.07.0345.07.0模式识别导论 武汉大学遥感信息工程学院 马洪超 2/)1(exp212/)1(exp(21)|()|()|(2122221212121xdxxxxpxppx边缘密度的的函数,需求由于界面只是x121ln21021exp21dxx模式识别导论 武汉大学遥感信息工程学院 马洪超 nx211121ndyy2exp2121ln2/10令 x1-1=y 则 y=故 4.5
47、 4 2 1 1/2 1/4 y-1.752-1.693-1.347-1-0.653-0.307 x1 0.752-0.693-0.347 0 0.347 0.693 0.399 0.046 0.089 0.0159 0.258 0.378 0模式识别导论 武汉大学遥感信息工程学院 马洪超 最大最小判别准则最大最小判别准则:前边的讨论都是假定先验概率不变,现在讨论在P(i)变化时如何使最大可能风险最小,先验概率P(i)与风险R间的变化关系如下:.)(,11)(12122212111212211122212221121222211212212111121122122121的线性函数就是被确定,风
48、险一旦,对二类情况有:关系:与风险PRdxxPdxxPPdxxPRdxxPdxxPPPdxxPPxPPdxxPPxPPdxxPxxRdxxPxxRdxxPxxRRPRi整个样本空间中的期望风险 模式识别导论 武汉大学遥感信息工程学院 马洪超 1222221211121221122212221dxxPdxxPbdxxPabPaR其中:)(1xP)(2xP12X1X12 。使最大风险为不变,变化,则平行,与横坐标这时直线如图所示,这时候最大风险为最小即无关与使如果选择关系为一条曲线与选择不同时,当关系为直线关系与区间固定时,当a:0.,0,3;,2;,11122212222221211121221
49、11211211121212RPPRdxxPaRdxxPdxxPPRbPRRPPR这样,就得出最小风险与先验概率的关系曲线,如图所示:讨论:1PR固定21,*RA选择不同21,)(1*P1PR*RB)(1*P不变变化RP1模式识别导论 武汉大学遥感信息工程学院 马洪超 .,0.0,2121211222112112两类错误概率相等若选取损失为满足应该使边界所以在最大最小判别中ePePdxxPdxxPb上式证明,所选的判别边界,使两类的概率相等:ePeP21这时可使最大可能的风险为最小,这时先验概率变化,其风险不变 模式识别导论 武汉大学遥感信息工程学院 马洪超 序贯分类序贯分类 迄今为止所讨论的
50、分类问题,关于待分类样本的所有信息都是一次性提供的。但是,在许多实际问题中,观察实际上是序贯的。随着时间的推移可以得到越来越多的信息。假设对样品进行第 i 次观察获取一序列特征为:X=(x1,x2,xi)T 则对于1,2两类问题,若X 1,则判决完毕 若X 2,则判决完毕 若X不属1也不属2,则不能判决,进行第i+1次观察,得X=(x1,x2,xi,x i+1)T,再重复上面的判决,直到所有的样品分类完毕为止。这样做的好处是使那些在二类边界附近的样本不会因某种偶然的微小变化而误判,当然这是以多次观察为代价的。模式识别导论 武汉大学遥感信息工程学院 马洪超:),.,()()()()()(1212