模式识别问题概述.ppt-淘文阁

资源描述

《模式识别问题概述.ppt》由会员分享，可在线阅读，更多相关《模式识别问题概述.ppt（29页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、模式识别问题概述现在学习的是第1页，共29页内容一、模式识别的基本概念二、模式识别系统的基本设计方法三、有监督学习于无监督学习四、模式识别的应用五、贝叶斯决策理论概述现在学习的是第2页，共29页一、模式识别的基本概念1、什么是模式识别？简单地说，模式识别就是对观察到的物理对象进行识别与分类。模式识别无所不在，我们每一天都在进行着成功的模式识别。一个简单的例子是根据声音识别汽车的类别。再如读书看报。2、如何让机器自动进行模式识别？模式识别的定义：根据对某个物理对象的观测信息，利用计算机对该物理对象进行分类，从而给出该物理对象所属的类别。在这里，“模式”就是指存储于计算机内的有关物理对象的观测

2、信息，它可以是图像、声音、温度、压力等任何可以测量的观测量。为了让机器自动完成模式识别任务，我们需要（1）数据采集设备（2）模式识别算法。一个简单的问题：如何让机器可以认字？现在学习的是第3页，共29页3、模式识别研究的意义对外界事物的感知与识别是智能的基础。如果我们能够很好的解决模式识别问题，就能够制造出更高级的智能系统。一个例子是手写体识别。另一个例子是自动驾驶系统。模式识别在计算机学科中的地位：模式识别是计算机科学与控制科学的一个交叉学科，是智能系统及智能信息处理的一个重要基础。现在学习的是第4页，共29页二、模式识别系统的基本设计方法模式识别问题的一个例子：设计一个自动分类系统，实

3、现对两种不同类别鱼类的自动分类(salmon,sea bass)。结合该例子，我们讨论以下几个问题（1）观测量的获取（2）特征提取（3）分类器的训练（4）分类器的测试（5）分类器的设计过程（6）分类器设计过程中需要考虑的一些关键因素。现在学习的是第5页，共29页1、观测量的获取（图像获取）：首先通过摄像机获取图像，然后采用图像分割技术，得到单个物理对象的图像。现在学习的是第6页，共29页2、特征提取：抽取关键特征，并根据这些特征对物理对象进行分类。长度特征:根据长度进行分类 salmon一般较短，sea bass一般较长现在学习的是第7页，共29页亮度特征：根据亮度进行分类 salmon一般

4、较暗，sea bass一般较亮现在学习的是第8页，共29页特征向量：提取一组特征，构成特征向量，根据特征向量进行分类。特征向量=（亮度、宽度）；x=(x1,x2);特征空间:特征向量所有可能的取值的集合样本:(x,y),x:该样本对应的特征向量y:该样本的类别，y=+1(salmon),或y=-1(bass)现在学习的是第9页，共29页在特征空间中构造一个分类面，对两类样本进行分类。现在学习的是第10页，共29页3、分类器的训练：根据已有的一组样本（样本集），构造一个判决函数d(x)，根据d(x)实现对两类样本的正确分类。我们希望d(x)尽可能满足：对于第一类样本(x,y),y=1:d(x)

5、0或sign(d(x)=1 对于第二类样本(x,y),y=-1:d(x)0则分类正确。对于测试样本(x,y),y=-1,如果d(x)0则产生一个分类错误。分类器对测试样本集进行分类时的错误率，称为测试误差。训练误差、测试误差统称为经验误差。分类器优化的原则应该是使测试误差近可能小。现在学习的是第12页，共29页分类器的应用：在对分类器进行训练及测试，并最终确定了分类器的判决函数以后，就可将分类器投入实际应用。在实际应用中，我们只能观测到物理对象的特征向量，但是并不知道该对象的类别。为此，我们采用分类器的判决函数对其类别进行预测（即分类）。对于观测到的特征向量 x：如果d(x)0，则判y=1（

6、物理对象属于第一类）如果d(x)0，则判y=-1（物理对象属于第二类）现在学习的是第13页，共29页5、分类器的设计过程现在学习的是第14页，共29页6、分类器设计过程中需要考虑的一些关键因素：(1)两类不同样本的特征向量的真实分布：特征向量的概率分布决定了分类器在实际应用中的真实分类能力（泛化能力）。特征向量的概率分布通常是未知的。因此分类器的泛化能力也是未知的。但是，分类器的真实分类能力可以通过测试误差进行初步的估计。(2)训练样本及测试样本的数量：越多越好，但是在实际应用中，获取大量的样本通常需要付出很大的代价。现在学习的是第15页，共29页(3)分类器的复杂度选择：采用复杂度高的分类器

7、可以获得较小的训练误差。但是，随着分类器复杂度的进一步提高，伴随着训练误差的降低，分类器的测试误差却会开始变大。这一现象称为过度拟合（过学习）。过度拟合的出现，意味着分类器泛化能力的降低。它说明在分类器的设计过程中，分类器（也即判决函数）的复杂度应该受到适当的限制。分类器复杂度选择的两个基本原则：1、Occam razor 原则：为了保证泛化能力，在经验误差相近的条件下，应该选择复杂度较低的分类器。2、统计学习理论：为了保证泛化能力，分类器的复杂度应与可用样本的数量相平衡。样本数量较多时，采用复杂度高的分类器才更可靠。现在学习的是第16页，共29页分类器复杂度过高：分类器复杂度过高，出现过度拟

8、合，泛化能力可能会有所降低。现在学习的是第17页，共29页分类器复杂度过低：由于分类器的复杂度过低，无法有效表示不同类别训练样本之间的分界面，从而导致训练误差无法得到充分的降低，这一现象称为欠学习。欠学习同样无法保证较好的泛化能力。现在学习的是第18页，共29页分类器复杂度适中：分类器的复杂度与可用样本的数量相匹配，复杂度的选择符合Occam razor 原则，这样得到的分类器最有可能获得较好的分类能力。现在学习的是第19页，共29页三、有监督学习于无监督学习有监督学习(分类):（1）获取物理对象的观测量，从观测量中提取有利于进行分类的特征向量，根据特征向量及物理对象的类别构成一个样本。对不

9、同类别的多个物理对象重复上述过程，获得一个样本集。样本集是分类器设计的基础。（2）将样本集分为训练集及测试集。选择一个合适的分类器模型，根据训练集及测试集共同确定该分类器模型的参数。这一过程称为有监督学习。有监督学习是一种基于样本的学习方法。基于样本的学习方法是解决复杂问题的一个重要手段（例如中医诊脉）。无监督学习(聚类):与有监督学习相对应的是无监督学习（聚类分析）。在聚类分析中，没有样本的类别信息可资利用，只有一组可能是来自于多个不同类别对象的观测量（也称为特征向量或样本）。聚类分析的目的，就是根据样本分布的自然结构，根据样本之间的相似性，将样本分为多个不同的类。现在学习的是第20页，共2

10、9页一个聚类分析的例子：只有观测信息，没有类别信息。我们希望根据样本的分布，将样本划分为若干个自然类，从而发现隐藏于样本集中的可能的类别信息。现在学习的是第21页，共29页四、模式识别的应用手写体识别：邮政编码指纹识别：人脸识别：故障诊断：语音识别：读1、2、3、4、5，鉴别合法性网络安全：目标识别：雷达、声呐数据挖掘：现在学习的是第22页，共29页人脸的识别：分类器的训练样本现在学习的是第23页，共29页人脸的识别：一个应用的例子现在学习的是第24页，共29页五、贝叶斯决策理论概述一个例子：根据亮度特征进行分类 :SEA BASS :SALMON 已知条件:先验概率及条件概率密度函数其

11、中x为亮度特征，x=lightness 问题:观测到一条鱼的亮度x,应该将它分为哪一类？现在学习的是第25页，共29页现在学习的是第26页，共29页BAYES判决规则：首先计算后验概率：判决规则：根据后验概率进行判决，如果：判为第一类如果：判为第二类最优性：该判决规则对应的错误概率最小。现在学习的是第27页，共29页一个例子：考虑一个两类分类问题。假设条件概率密度函数未知，但是却有两个样本集X1及X2，其中X1是第一类样本的集合，X2是第二类样本的集合。现在假设观测到了一个特征向量x，应如何对x进行分类？答案：用X1估计用X2估计并据此设计BAYES分类器。现在学习的是第28页，共29页例子：在一个水果的分类问题中，采用的特征向量为：颜色，尺寸，形状，味道，其中：颜色属性的取值范围：红，绿，黄尺寸属性的取值范围：大，中，小味道属性的取值范围：甜，酸形状属性的取值范围：圆，细样本集：一批水果，知道其特征向量及类别（n样本，m个类别）问题：一个新的水果，观测到了其特征向量，应该将其分类哪一类？现在学习的是第29页，共29页

展开阅读全文