《Bayes决策理论课件42461.pptx》由会员分享,可在线阅读,更多相关《Bayes决策理论课件42461.pptx(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 Bayes Bayes决策理论决策理论 最小错误概率的最小错误概率的Bayes决策决策 最小风险的最小风险的Bayes决策决策 Neyman-Pearson决策决策 Bayes分类器和判别函数分类器和判别函数 正态分布时的正态分布时的Bayes决策法则决策法则引言引言模式特征的不确定性模式特征的不确定性 进行模式识别,首先要提取和选择模式特征,进行模式识别,首先要提取和选择模式特征,使这些特征组成的特征向量能很好地代表这个事使这些特征组成的特征向量能很好地代表这个事物。但是,在实际问题中,由于技术或经济上的物。但是,在实际问题中,由于技术或经济上的原因,使得提取和选择的特征不一定
2、能准确地描原因,使得提取和选择的特征不一定能准确地描述这个模式。述这个模式。比如,比如,特征选择的不合适,特征的数量不当,特征选择的不合适,特征的数量不当,特征测量的不准确,等等,使模式具有不确定性。特征测量的不准确,等等,使模式具有不确定性。因此,我们应当把模式向量看成随机变量。因此,我们应当把模式向量看成随机变量。处理随机变量用什么方法呢?处理随机变量用什么方法呢?概率论与数理统计概率论与数理统计 1.概率概率 频率:如果在频率:如果在 n次重复试验中,事件次重复试验中,事件A发生了发生了 次,则称比值次,则称比值 是事件是事件A在这在这n次试验中发生次试验中发生的频率。记作的频率。记作
3、概率:在相同条件下重复进行同一试验,如果随概率:在相同条件下重复进行同一试验,如果随着试验次数着试验次数n的增加,事件的增加,事件A的频率的频率 仅在某个数仅在某个数 附近有微小变化,则称附近有微小变化,则称 是事件是事件A的概论,的概论,实际上,实际上,是不容易得到的,常用是不容易得到的,常用n较大时的频率作较大时的频率作为为A的概率的概率 2.条件概率条件概率 设设A,B是试验是试验E的两个事件,则称的两个事件,则称 为在事件为在事件B发生条件下事件发生条件下事件A的条件概率。的条件概率。3.Bayes公式公式含义:假设含义:假设 是某个过程的是某个过程的n个事件,个事件,是各事件出现的概
4、率,称为先验概率。如果这个过程得到是各事件出现的概率,称为先验概率。如果这个过程得到一个结果一个结果B,由于,由于B的出现,而对各事件的出现,而对各事件 的概率的概率要做出重新认识。要做出重新认识。3.1 最小错误概率的最小错误概率的Bayes决策决策1.用先验概率决策用先验概率决策 假设某个工厂生产两种尺寸和外形都相同的螺钉假设某个工厂生产两种尺寸和外形都相同的螺钉,一种是铁的一种是铁的,一种是铜的一种是铜的,两种产品混在一起两种产品混在一起,要求要求对它们进行自动分类。对它们进行自动分类。设设 铁的类别状态用铁的类别状态用 表示;表示;铜的类别状态用铜的类别状态用 表示;表示;因为事先类别
5、状态是不确定的,所以因为事先类别状态是不确定的,所以 是随机是随机变量。假设铁螺钉有变量。假设铁螺钉有7万个,铜螺钉有万个,铜螺钉有3万个,那万个,那么铁螺钉出现的概率么铁螺钉出现的概率 ,铜螺钉出现,铜螺钉出现的概率的概率 如果用概率如果用概率 和和 来决策,规则为:来决策,规则为:如果如果 则螺钉则螺钉 如果如果 则螺钉则螺钉 因为因为 ,所以,所以 螺钉螺钉 。所有螺钉都分到铁螺钉这一类,决策错误概率为所有螺钉都分到铁螺钉这一类,决策错误概率为0.3。用先验概率决策存在的问题?用先验概率决策存在的问题?与待识别对象的特征没有建立联系,没有利用待与待识别对象的特征没有建立联系,没有利用待识
6、别对象本身的信息识别对象本身的信息 2.用后验概率决策用后验概率决策 先用一个模式特征先用一个模式特征 来分类,如果这个特征来分类,如果这个特征对分类是有效的,那么对分类是有效的,那么 的概率分布就与类别状的概率分布就与类别状态态 是有联系的。是有联系的。例如:铜螺钉和铁螺钉的表面亮度是不同的,以例如:铜螺钉和铁螺钉的表面亮度是不同的,以亮度作为特征亮度作为特征 ,亮度用,亮度用“亮度计亮度计”来测量,每来测量,每个螺钉的亮度在亮度计上可以在一定范围内连续个螺钉的亮度在亮度计上可以在一定范围内连续取值。由于每个螺钉的亮度可能是不同的,所以取值。由于每个螺钉的亮度可能是不同的,所以 是一个连续的
7、随机变量。是一个连续的随机变量。对对 的概率分布记为的概率分布记为 对对 的概率分布记为的概率分布记为 那么那么 和和 的差别的差别 反映了反映了 和和 的类别状态的差别的类别状态的差别 反映了两类模式的差别。反映了两类模式的差别。X有对属于铜螺钉的分布,有对属于铜螺钉的分布,也有对属于铁螺钉的分布也有对属于铁螺钉的分布假设已经知道了假设已经知道了 ,如何求如何求利用利用Bayes公式:公式:式中式中Bayes公式表明公式表明,可以通过特征的观察值可以通过特征的观察值 ,把先验概率把先验概率 转化为后验概率转化为后验概率 。图图3.1表示了当表示了当(a)所示时,后验概率所示时,后验概率 随亮
8、度的变化情况。随亮度的变化情况。因此,可以用后验概率进行决策。因此,可以用后验概率进行决策。决策规则:决策规则:如果如果 ,则决策,则决策 ;如果如果 ,则决策,则决策 ;这个决策规则被称为最小错误概率的这个决策规则被称为最小错误概率的Bayes决策。决策。为什么说这个决策规则具有最小错误概率呢?为什么说这个决策规则具有最小错误概率呢?3.最小错误概率的解释最小错误概率的解释 在用上述规则决策时在用上述规则决策时,有两种可能发生的错误分有两种可能发生的错误分类类 将真实属于将真实属于 分到分到 将真实属于将真实属于 分到分到 观察到的观察到的x值不同值不同,那么后验概率就不同那么后验概率就不同
9、,从而从而分类错误概率也不同分类错误概率也不同,所以分类错误概率所以分类错误概率 是随机变量是随机变量x的函数的函数.也是随机变量也是随机变量.对于观察到的大量对于观察到的大量x,对它们作出分类决策的平均错对它们作出分类决策的平均错误率误率 应当是应当是 的的数学期望数学期望.由概率论可知由概率论可知,若已知连续随机变量若已知连续随机变量x的概率密度的概率密度函数函数 ,可以计算出可以计算出 的数学期望的数学期望如果对于每次观察到的特征值如果对于每次观察到的特征值x,尽可能小尽可能小的话的话,则上式的积分也必定是尽可能小的则上式的积分也必定是尽可能小的.假设假设H为两类的分界面为两类的分界面,
10、相应于相应于 和和 ,将将x轴分轴分为两个区域为两个区域 ,在发生分类错误时在发生分类错误时,总的错误概率为:总的错误概率为:所以总的错误概率是两种分类错误概率的加权和。所以总的错误概率是两种分类错误概率的加权和。由于由于 和和 是任意取的,所以错误概率是任意取的,所以错误概率不一定是最小的。当把决策面不一定是最小的。当把决策面 左移时,我们左移时,我们可以减小代表误分类的三角形区域可以减小代表误分类的三角形区域 的面积,的面积,从而减小分类错误概率。从而减小分类错误概率。若选取决策面若选取决策面H使得:使得:则可消除面积则可消除面积A,从而得到最小的分类错误概,从而得到最小的分类错误概率。率
11、。这正是上述决策规则得到的结果。这正是上述决策规则得到的结果。如果对于某个如果对于某个x,有,有则把则把x 分到分到R2中可以使得中可以使得x对积分对积分 贡献增大,而对积分贡献增大,而对积分 的贡献的贡献减小,相当于使减小,相当于使H左移。左移。证明:证明:假设假设R1是是 类的决策域,类的决策域,R2是是 类的决策域,类的决策域,对对X分类,这时有两种可能发生的分类错误:分类,这时有两种可能发生的分类错误:X的真实状态是的真实状态是 ,却分到,却分到 R1,X的真实状态是的真实状态是 ,却分到,却分到 R2 ,错误率:错误率:由由Bayes公式公式有:有:则则 在整个特征空间,有在整个特征
12、空间,有所以,所以,当当 时,把时,把x分到分到R1,增加积增加积分值,可以使错误率减小。分值,可以使错误率减小。同理可得:同理可得:当当 时,把时,把x分到分到R2,可以使,可以使错误率减小。错误率减小。对于一般情况,即模式向量是对于一般情况,即模式向量是 维向量,要求在维向量,要求在 类模式情况下进行决策时,最小错误概率的类模式情况下进行决策时,最小错误概率的Bayes决策法则可表达为:决策法则可表达为:设设 是个是个 类别状态的有限集合,特征类别状态的有限集合,特征向量向量 是是 维随机向量,维随机向量,是模式向量是模式向量 在在 状态下的条件概率密度,状态下的条件概率密度,是是 的先验
13、概率,的先验概率,则根据则根据Bayes法则法则,后验概率后验概率 就是就是 式中式中,这时决策与上述二类一维模式相似:这时决策与上述二类一维模式相似:如果如果 对于一切对于一切 成立,则决策成立,则决策 。3.2 3.2 最小风险的最小风险的BayesBayes决策决策1 决策错误的损失与风险决策错误的损失与风险 对于两类别决策,存在两种可能的分类错误:对于两类别决策,存在两种可能的分类错误:(1)把真实状态为)把真实状态为 的模式分到的模式分到 类;类;(2)把真实状态为)把真实状态为 的模式分到的模式分到 类。类。显然,由于分类错误,其结果都会带来损失,但显然,由于分类错误,其结果都会带
14、来损失,但是对于有的问题来说损失是不同的。是对于有的问题来说损失是不同的。比如,以癌变细胞的分类识别为例,比如,以癌变细胞的分类识别为例,把正常细胞识别成癌变细胞把正常细胞识别成癌变细胞 给正常人带来精给正常人带来精神负担;神负担;把癌变细胞识别成正常细胞把癌变细胞识别成正常细胞 使早期患者失去使早期患者失去治疗机会,延误治疗,缩短生命。治疗机会,延误治疗,缩短生命。因此,在决策时就要把由分类错误而引起的损失考因此,在决策时就要把由分类错误而引起的损失考虑进去。虑进去。一般情况,设一般情况,设 是是 个可能的决策集合个可能的决策集合 是是 个自然状态集合个自然状态集合 表示当自然状态为表示当自
15、然状态为 时,采取决时,采取决策策 所造成的损失。所造成的损失。决策表决策表 损失的数值一般由专家根据经验给出。损失的数值一般由专家根据经验给出。2.最小风险的最小风险的Bayes决策决策设设 是是X在自然状态为在自然状态为 下的条件概率,下的条件概率,是自然状态为是自然状态为 的先验概率,则由的先验概率,则由Bayes公公式可求得后验概率式可求得后验概率 X 由由Bayes公式,后验概率是公式,后验概率是:式中式中 假定观察到一个假定观察到一个 ,同时决定采取决策,同时决定采取决策 ,如,如果真正的状态为果真正的状态为 ,就会导致产生损失,就会导致产生损失 。因为因为 是自然状态为是自然状态
16、为 的概率,所以与的概率,所以与采取的决策采取的决策 有关的损失的数学期望就是:有关的损失的数学期望就是:是一个平均损失,称为是一个平均损失,称为条件风险条件风险。每。每当观察到一个当观察到一个X时,我们总可以选取使条件风时,我们总可以选取使条件风险极小的决策。如果选取的决策使得平均损失险极小的决策。如果选取的决策使得平均损失对每一个具体的对每一个具体的X都能尽可能小,则总风险也都能尽可能小,则总风险也会达到极小。会达到极小。最小风险的最小风险的Bayes决策规则:决策规则:为了使风险最小,应对于为了使风险最小,应对于 计算条件风险计算条件风险 并选择决策,使得并选择决策,使得 最小。最小。对
17、于二类问题,对于二类问题,相当于决策相当于决策“真正状态为真正状态为 ”,而,而 相当于决策相当于决策“真正状态为真正状态为 ”。记记 为当真正状态为为当真正状态为 而把而把 误作真正状态时所误作真正状态时所受到的损失。有受到的损失。有这时最小风险的这时最小风险的Bayes决策法则就是:决策法则就是:如果如果 ,则判定则判定 为真正的状态;否则为真正的状态;否则 为真正的状态。为真正的状态。或:或:如果如果 ,则判定则判定 为真正的状态;否则为真正的状态;否则 为真正的状态。为真正的状态。上式与最小错误概率的上式与最小错误概率的Bayes决策比较,有何不同?决策比较,有何不同?在后验概率上分别
18、乘以一个损失差作为比例因子。在后验概率上分别乘以一个损失差作为比例因子。最小风险的最小风险的Bayes决策和最小错误概率的决策和最小错误概率的Bayes决策的关系:决策的关系:(1)在二类问题中,若有在二类问题中,若有 即所谓对称损失函数的情况,二者一致。即所谓对称损失函数的情况,二者一致。(2)一般的多类问题中,在一般的多类问题中,在0-1损失函数的情况损失函数的情况时,即时,即 提示:问题的一般性和特殊性。提示:问题的一般性和特殊性。条件风险为:条件风险为:使使 极小,即使极小,即使 极大。极大。两种决策的结果相同两种决策的结果相同 正确时的条件概率3.3 Neyman-Pearson3.
19、3 Neyman-Pearson决策决策 对于两类别决策,存在两种可能的分类错误:对于两类别决策,存在两种可能的分类错误:(1)把真实状态为)把真实状态为 的模式分到的模式分到 类;类;(2)把真实状态为)把真实状态为 的模式分到的模式分到 类。类。两种错误的概率分别为:两种错误的概率分别为:决策应该使决策应该使 都为最小。都为最小。如何做?如何做?Neyman-Pearson决策所要解决的问题:决策所要解决的问题:对于二类模式识别问题,保持一种错误概率为常对于二类模式识别问题,保持一种错误概率为常数数 ,例如,例如 ,而使另一种错误概率,而使另一种错误概率 达到极小。达到极小。这个问题可以看
20、成在这个问题可以看成在 条件下求条件下求 的极小的极小值问题。值问题。用什么方法呢?用什么方法呢?采用采用Lagrange乘数法,约束条件为乘数法,约束条件为 ,构造构造Lagrange函数:函数:我们的目的就是使我们的目的就是使 达到极小。即达到极小。即 min对于二类问题,有对于二类问题,有所以,所以,要使要使 极小,对于极小,对于X,如果被积函数,如果被积函数将将X分到分到R1,来减少,来减少如果如果 ,将将X分到分到R2,来减小,来减小 。这样,可以写出决策规则:这样,可以写出决策规则:如果如果 ,则,则 如果如果 ,则,则如何求如何求?将决策规则写成:将决策规则写成:如果如果 则则
21、如果如果 则则 可以看出,可以看出,是两种决策的边界。也就是选择是两种决策的边界。也就是选择R1和和R2的边界,使得的边界,使得L极小。极小。达到极小值的必要条件是:达到极小值的必要条件是:由此得由此得 或或这是未知数这是未知数 的方程,的方程,就是分界的阈值。就是分界的阈值。可以用其他数学方法求得。可以用其他数学方法求得。3.6 3.6 正态分布时的正态分布时的BayesBayes决策法则决策法则u单变量正态密度函数单变量正态密度函数 它的均值为:它的均值为:方差为:方差为:单变量正态密度可由两个参数,即均值单变量正态密度可由两个参数,即均值 和方和方差差 完全决定,记为完全决定,记为 。它
22、表示它表示 是服从均值为是服从均值为 ,方差为,方差为 的正态分的正态分布的随机变量。布的随机变量。正态分布的样本集中在均值附近,其分散的程正态分布的样本集中在均值附近,其分散的程度正比于方差的平方根度正比于方差的平方根 ,即标准差。,即标准差。从正态总体中抽取的样本中有从正态总体中抽取的样本中有95.44%落在区落在区间间 中。中。u多维正态密度函数为:多维正态密度函数为:其中其中 是是 维列向量,维列向量,是是 维均值向量,维均值向量,是是 协方差矩阵,协方差矩阵,它的均值向量为它的均值向量为协方差矩阵为:协方差矩阵为:是是 的逆矩阵,的逆矩阵,是是 的行列式。的行列式。图图3.8所示为一
23、个二维正态密度的示意图,如果把等所示为一个二维正态密度的示意图,如果把等概率密度点画出来,它们就是一簇同心的椭圆。概率密度点画出来,它们就是一簇同心的椭圆。从正态总体中抽取的样本落在一个密集的区域,从正态总体中抽取的样本落在一个密集的区域,区域中心由均值向量决定,形状由协方差矩阵决区域中心由均值向量决定,形状由协方差矩阵决定。定。用判别函数用判别函数可以得到最小错误概率的分类。可以得到最小错误概率的分类。当概率密度函数当概率密度函数 为正态时,对上式取自为正态时,对上式取自然对数,则然对数,则下面对该式在下述三种不同情况下进行讨论:下面对该式在下述三种不同情况下进行讨论:1.第一种情况:第一种
24、情况:这种情况下,每类的协方差矩阵都相等,而这种情况下,每类的协方差矩阵都相等,而且类内各特征分两间相互独立,具有相同的且类内各特征分两间相互独立,具有相同的方差,协方差矩阵是对角矩阵,对角线元素方差,协方差矩阵是对角矩阵,对角线元素都是都是 。几何上这相当于样本落在同样大小的一些超几何上这相当于样本落在同样大小的一些超圆球族内。第圆球族内。第 i 类样本的超圆球族是以均值类样本的超圆球族是以均值 为中心的为中心的。(图。(图3.8和和3.9的长短轴相等形式)的长短轴相等形式)这时:这时:判别函数可以写成:判别函数可以写成:是欧氏距离是欧氏距离 如果如果 个类的先验概率个类的先验概率 都相同:
25、都相同:这时最小错误概率的这时最小错误概率的Bayes决策法则是:若要对决策法则是:若要对模式模式 分类,只要计算出从待分类模式向量分类,只要计算出从待分类模式向量 到到每一类均值向量每一类均值向量 的欧氏距离的欧氏距离 ,然后把,然后把 归到距离最近的那个均值向量所属的类别。归到距离最近的那个均值向量所属的类别。这种分类器称为最小距离分类器这种分类器称为最小距离分类器 -模板匹配技模板匹配技术术 如果如果 个类的先验概率不相同:个类的先验概率不相同:这时对距离的平方这时对距离的平方 必须用方差必须用方差 规范化后规范化后减去减去 再用以分类。所以,如果待分类的模再用以分类。所以,如果待分类的
26、模式向量式向量 同两类均值向量的欧氏距离相等的话,同两类均值向量的欧氏距离相等的话,最小错误概率的最小错误概率的Bayes决策是把这个模式归到先决策是把这个模式归到先验概率较大的那一类。验概率较大的那一类。在实际应用中,不必计算欧氏距离,在实际应用中,不必计算欧氏距离,把把 展开后,判别函数式就变成展开后,判别函数式就变成 式中式中 与模式类别无关,可以忽略,可得判别与模式类别无关,可以忽略,可得判别函数:函数:式中式中 ,决策面由线性方程决策面由线性方程 所决定。所决定。在这个具体情况下,决策面可化为:在这个具体情况下,决策面可化为:其中其中 这个方程确定了通过这个方程确定了通过 并正交于向
27、量并正交于向量 的的超平面。由于超平面。由于 ,所以划分,所以划分 和和 的超平面正交于均值向量之间的联线。的超平面正交于均值向量之间的联线。图图(3.11)是一个二维二类模式的例子。如果是一个二维二类模式的例子。如果 ,则点,则点 就离开先验概率较大的那个类的均值就离开先验概率较大的那个类的均值向量而朝先验概率较小的那类方向移动。但如向量而朝先验概率较小的那类方向移动。但如果方差果方差 ,则先验概率对决策面位,则先验概率对决策面位置的影响比较小。置的影响比较小。2.第二种情况:第二种情况:各类的协方差矩阵相等,这种情况下的判别函各类的协方差矩阵相等,这种情况下的判别函数为:数为:如果各类的先
28、验概率相等,决策法则为只计算它如果各类的先验概率相等,决策法则为只计算它与每一类均值向量间的与每一类均值向量间的Mahalanobis距离平方距离平方 而后把它分到与之最近的均值向量所属的类别而后把它分到与之最近的均值向量所属的类别中去。中去。如果各类的先验概率不同时,则决策应有利于先如果各类的先验概率不同时,则决策应有利于先验概率较大的那一类。验概率较大的那一类。把把 展开后,展开后,与类别与类别 无无关,判别函数变成:关,判别函数变成:式中式中 若若 和和 相邻,它们之间的决策面应满足:相邻,它们之间的决策面应满足:式中式中 图图3.12表示二维二类模式情况下的决策界面。如果表示二维二类模
29、式情况下的决策界面。如果各类的先验概率相等,则这个决策面同均值向量联各类的先验概率相等,则这个决策面同均值向量联线的交点在联线的中点。若各类的先验概率不相等,线的交点在联线的中点。若各类的先验概率不相等,则决策面就离开先验概率较大的那个类的均值向量则决策面就离开先验概率较大的那个类的均值向量而朝先验概率较小的那类方向移动。而朝先验概率较小的那类方向移动。例:例:两类二维正态分布的模式的均值向量为两类二维正态分布的模式的均值向量为 ,其协方差矩阵均为单位矩阵其协方差矩阵均为单位矩阵 ,即,即 设设 ,求求Neyman-Pearson决策的阈值(取整数)。决策的阈值(取整数)。是是 维列向量维列向量 是是 维均值向量维均值向量 是是 的逆矩阵的逆矩阵 是是 的行列式的行列式由于由于 是边界,所以令决策边界是边界,所以令决策边界Lagrange乘子乘子根据决策规则,有根据决策规则,有因为因为 和和 之间的关系为:之间的关系为:所以,所以,插值法:插值法:于是,在于是,在 取不同值时,可求得不同的取不同值时,可求得不同的 。找与找与0.04最近的对应的最近的对应的 值。取值。取 1 2 4 0.1590.0890.046演讲完毕,谢谢观看!