《第1章-模式识别课程绪论ppt课件.ppt》由会员分享,可在线阅读,更多相关《第1章-模式识别课程绪论ppt课件.ppt(101页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 模式识别的定义模式识别的定义Pattern recognition is the study of how machines can observe the environment, learn to distinguish patterns of interest from their background, and make sound and reasonable decisions about the categories of the patterns. Anil K. Jain,Michigan State University http:/www.cse.msu.edu/jai
2、n/Ref: Anil K. Jain et al. Statistical Pattern Recognition:A Review. IEEE Trans. on pattern analysis and machine intelligence. 2000, 22(1):4-37什么是模式识别?什么是模式识别? 模式识别的目的:模式识别的目的:利用计算机对物理对象利用计算机对物理对象进行进行分类分类,在,在错误概率最小错误概率最小的条件下,使的条件下,使识别的结果尽识别的结果尽量与客观物体相符合量与客观物体相符合。 Y = F(X) X的定义域取自特征集的定义域取自特征集 Y的值域为类别
3、的标号集的值域为类别的标号集 F是模式识别的判别方法是模式识别的判别方法什么是识别?什么是识别?生产实践的需要:生产实践的需要:需要智能机器人,另外人的需要智能机器人,另外人的工资高,而计算机的价格越来便宜。工资高,而计算机的价格越来便宜。信息爆炸现象:信息爆炸现象:处理人来不及处理的信息。如处理人来不及处理的信息。如:卫星遥感,超级市场,邮政,银行,指纹库。:卫星遥感,超级市场,邮政,银行,指纹库。危险地带:危险地带:油漆、放射、高温、核电站。油漆、放射、高温、核电站。提高工效:提高工效:自动化带来的好处已经显而易见。自动化带来的好处已经显而易见。为什么要研究模式识别为什么要研究模式识别 与
4、其他学科的联系与区别与其他学科的联系与区别 人工智能人工智能: 符号主义,连接主义,行为主义,符号主义,连接主义,行为主义,机制主义(结构,功能,行为)机制主义(结构,功能,行为) 计算智能:计算智能:神经网络,模糊逻辑,进化计算神经网络,模糊逻辑,进化计算 机器学习:机器学习:分类,聚类,回归,有监督学习,分类,聚类,回归,有监督学习,无监督学习,半监督学习无监督学习,半监督学习 统计学统计学 运筹学运筹学与其他学科的关系与其他学科的关系模式识别基本概念模式识别系统组成模式识别基本问题应用领域小结模式识别基本概念模式识别基本概念 【基本概念】(1)(1)模式识别模式识别(Pattern Re
5、cognition)(Pattern Recognition):确定一个样本的确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。型中的某个类型。(2)(2)样本(样本(Sample)Sample):一个具体的研究(客观)对象。如患一个具体的研究(客观)对象。如患者,某人写的一个汉字,一幅图片等。者,某人写的一个汉字,一幅图片等。(3)(3)模式模式(Pattern)(Pattern):对客体(研究对象)特征的描述(定对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量量的或结构的描述)
6、,是取自客观世界的某一样本的测量值的集合(或综合)。值的集合(或综合)。它是一种具有时间或空间分布的信它是一种具有时间或空间分布的信息。息。从工程角度讲是指客观事物存在形式的数学表达。从工程角度讲是指客观事物存在形式的数学表达。【基本概念】 ( (4 4) )模式类(模式类(Pattern ClassPattern Class):):把模式所属的类别或同把模式所属的类别或同一类别中模式的总体称为模式类(或简称为类)。一类别中模式的总体称为模式类(或简称为类)。 (5)(5)例子:以身高为例,例子:以身高为例,模式:身高:模式:身高:167cm, 180cm, 156cm, 176cm,167c
7、m, 180cm, 156cm, 176cm,模式类:高个头、中等个头、矮个头;模式类:高个头、中等个头、矮个头;【基本概念】(6)(6)说明:说明:(1 1)模式所指的不是事物本身,而是我们从事物中获得的信息。)模式所指的不是事物本身,而是我们从事物中获得的信息。(2 2)模式往往表现为具体的时间和空间分布的信息。)模式往往表现为具体的时间和空间分布的信息。(3 3)本课程讨论的是用计算机进行模式识别,信息进入计算机之前)本课程讨论的是用计算机进行模式识别,信息进入计算机之前通常要经过取样和量化,在计算机中表现为具有时空分布的信息表现通常要经过取样和量化,在计算机中表现为具有时空分布的信息表
8、现为向量或数组,数组中元素的序号可以对应时间和空间,也可对应其为向量或数组,数组中元素的序号可以对应时间和空间,也可对应其它标识,此处所说的时间和空间是更广义和抽象的理解。它标识,此处所说的时间和空间是更广义和抽象的理解。模式识别基本概念模式识别系统组成模式识别基本问题应用领域小结模式识别系统组成模式识别系统组成 【模式识别系统组成】1. 1. 信息的获取:通过测量、采样、量化并用矩阵或向量表示。通常信息的获取:通过测量、采样、量化并用矩阵或向量表示。通常输入对象的信息有三个类型:二维图像(文字、指纹、地图、照片输入对象的信息有三个类型:二维图像(文字、指纹、地图、照片等)、一维波形(脑电图、
9、心电图、机械震动波形等)、物理参量等)、一维波形(脑电图、心电图、机械震动波形等)、物理参量和逻辑值(体检中的温度、血化验结果等)和逻辑值(体检中的温度、血化验结果等)2. 2. 预处理:去除噪声,加强有用的信息,并对输入测量仪器或其它预处理:去除噪声,加强有用的信息,并对输入测量仪器或其它因素造成的干扰进行处理。因素造成的干扰进行处理。3. 3. 特征提取与选择:为了实现有效的识别分类,要对原始数据进行特征提取与选择:为了实现有效的识别分类,要对原始数据进行变换得到最能反映分类本质的特征,此过程为特征提取和选择。变换得到最能反映分类本质的特征,此过程为特征提取和选择。4. 4. 分类决策:在
10、特征空间中用统计方法把被识别对象归为某一类。分类决策:在特征空间中用统计方法把被识别对象归为某一类。基本作法是在样本训练集基础上确定某个判决规则,使按这种判决基本作法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。最小。5.5.后处理:针对决策采取相应的行动。后处理:针对决策采取相应的行动。信息信息获取获取预处理预处理特征提取特征提取与选择与选择分类分类决策决策后处理后处理模式识别系统组成框图模式识别系统组成框图【模式识别系统组成】数据采集数据采集特征提取特征提取二次特征
11、二次特征提取与选择提取与选择分类分类识别识别待识待识对象对象识别结果识别结果数据采集数据采集特征提取特征提取改进分类改进分类识别规则识别规则二次特征提二次特征提取与选择取与选择训练训练样本样本改进采集改进采集提取方法提取方法改进特征提改进特征提取与选择取与选择制定改进分制定改进分类识别规则类识别规则人工人工干预干预正确率正确率测试测试【例1:车牌识别】车牌识别系统框图原始图像车牌定位字符识别倾斜校正字符分割系统流程图车牌定位车牌倾斜校正字符分割 传感器:传感器: 摄像头摄像头 预处理:预处理: 统一光照、统一焦距,去除背景,分割统一光照、统一焦距,去除背景,分割 特征提取:特征提取: 长度,亮
12、度,重量,鳍的数目长度,亮度,重量,鳍的数目 输入(测量):输入(测量): 重量,长度,宽度,光泽度(亮还是暗)鳍数目重量,长度,宽度,光泽度(亮还是暗)鳍数目 特征选择:特征选择:哪个特征能最好的区分两种鱼?哪个特征能最好的区分两种鱼? 设计分类器:设计分类器:线性?非线性?线性?非线性?例例2:鲈鱼和鲑鱼识别:鲈鱼和鲑鱼识别 从长度很难区分从长度很难区分Salmon:鲑鱼:鲑鱼 Sea bass:鲈鱼:鲈鱼特征选择:长度特征选择:长度错误率仍然较高错误率仍然较高特征选择:亮度特征选择:亮度完美的分界完美的分界特征选择:宽度特征选择:宽度+亮度亮度线性分类器线性分类器分类器设计分类器设计非线
13、性分类器非线性分类器分类器设计分类器设计哪一个好?为什么?哪一个好?为什么?分类器设计分类器设计 泛化能力泛化能力/推广能力(推广能力(Generalization) 设计分类器的中心目标是能够对新样本做出正设计分类器的中心目标是能够对新样本做出正确的反应,而不是对训练样本的完美分类。确的反应,而不是对训练样本的完美分类。 分类模型对训练样本的过分匹配是一种应当努分类模型对训练样本的过分匹配是一种应当努力避免的现象:力避免的现象:过拟合过拟合(Overfitting) 避免过拟合的方法:避免过拟合的方法:避免过于复杂的决策面避免过于复杂的决策面 复杂的决策面复杂的决策面 or 简单的决策面?简
14、单的决策面?分类器的泛化能力分类器的泛化能力模式识别的基本问题模式识别的基本问题 对象空间对象空间模式空间模式空间特征空间特征空间类型空间类型空间模式识别的任务模式识别的任务模式采集:模式采集:从客观世界(对象从客观世界(对象空间)到模式空间的过程称为空间)到模式空间的过程称为模式采集。模式采集。特征提取和特征选择:特征提取和特征选择:由模式由模式空间到特征空间的变换和选择。空间到特征空间的变换和选择。类型判别:类型判别:特征空间到类型空特征空间到类型空间所作的操作。间所作的操作。模模式式识识别别三三大大任任务务【主要内容】(1)(1)模式识别的训练方法模式识别的训练方法 (2)(2)紧致性紧
15、致性(3)(3)特征选取特征选取(4)(4)相似性度量与分类相似性度量与分类 (5)(5)性能评价性能评价(6)(6)识别系统设计过程识别系统设计过程【模式识别的训练方法】学习的分类:学习的分类: 学习的定义:学习的定义:广义地讲,任何设计分类器时所用的方法只要广义地讲,任何设计分类器时所用的方法只要它利用了训练样本的信息就可以认为学习,学习的目的是指它利用了训练样本的信息就可以认为学习,学习的目的是指利用某种算法来降低由于训练样本的差异导致的分类误差。利用某种算法来降低由于训练样本的差异导致的分类误差。 监督学习(监督学习(supervised learningsupervised lear
16、ning ):):存在一个教师信号,对训练样存在一个教师信号,对训练样本集的每个输入样本能提供类别标记和分类代价并寻找能够降低总体本集的每个输入样本能提供类别标记和分类代价并寻找能够降低总体代价的方向。代价的方向。( (人脸识别人脸识别) )。利用一组已知类别的样本调整利用一组已知类别的样本调整分类器分类器的的参参数数,使其达到所要求性能的过程。对具有概念标记(分类)的训练样,使其达到所要求性能的过程。对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。所有的标记(分类)是已知的。因此,训练样本
17、的岐义性低。所有的标记(分类)是已知的。因此,训练样本的岐义性低。无监督学习(无监督学习(unsupervised learningunsupervised learning ):):没有显示的教师指导整没有显示的教师指导整个训练过程。(图像检索)。个训练过程。(图像检索)。对没有概念标记(分类)的训练样本对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。所有的标记(分类进行学习,以发现训练样本集中的结构性知识。所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习。学习。半监督学习(半监
18、督学习(Semi-supervised LearningSemi-supervised Learning ):):半监督学习是利用少半监督学习是利用少部分标记数据集及未标记样本进行学习的主流技术。(如医学图部分标记数据集及未标记样本进行学习的主流技术。(如医学图像)。像)。无监督学习只利用未标记的样本集,而监督学习则只利用标无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。但在很多实际问题中,只有少量的带有标记记的样本集进行学习。但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高。的数据,因为对数据进行标记的代价有时很高。【监督学习与无监督学习
19、】监督的学习方法监督的学习方法的性能完全由训练样本的数量和质量决定,目标是通的性能完全由训练样本的数量和质量决定,目标是通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,建立,建立问题域的预测模型问题域的预测模型,将输入映射到合适的输出。主要存在以下,将输入映射到合适的输出。主要存在以下两点缺陷两点缺陷: (1)(1)垃圾进、垃圾出。垃圾进、垃圾出。是指分类器的有效性完全依赖于训是指分类器的有效性完全依赖于训练样本的质量,当训练样本的质量不高时,很难得到好的分类效果。练样本的质量,当训练样本的质量不高时,很难得到好的分类
20、效果。(2 2)过分适应训练样本(过拟合)。过分适应训练样本(过拟合)。当训练样本的数量有限时,就当训练样本的数量有限时,就会出现过分适应训练样本的现象,从而影响对新到数据的分类性能。会出现过分适应训练样本的现象,从而影响对新到数据的分类性能。简单解决的办法是增加训练样本的数量,但是给训练数据分类是一项简单解决的办法是增加训练样本的数量,但是给训练数据分类是一项极其耗费时间的工作,甚至有些情况下是不可能的。比如:对于有些极其耗费时间的工作,甚至有些情况下是不可能的。比如:对于有些问题,人们还不知道问题的正确答案,因此问题,人们还不知道问题的正确答案,因此“增加训练样本的数量增加训练样本的数量”
21、看似简单,实际上并不简单。看似简单,实际上并不简单。一句话:从它得到的训练集中进行一句话:从它得到的训练集中进行“学学习习”,从而对未知数据进行分类。,从而对未知数据进行分类。常用的算法包括:决策树分类法,朴素的贝叶斯分类算法常用的算法包括:决策树分类法,朴素的贝叶斯分类算法(native (native Bayesian classifier)Bayesian classifier)、基于支持向量机、基于支持向量机(SVM)(SVM)的分类器,神经网络的分类器,神经网络法,法,k-k-最近邻法最近邻法(k-nearest neighbor(k-nearest neighbor,kNNkNN)
22、 ),模糊分类法等等。,模糊分类法等等。无监督的学习方法的目标是直接对输入数据集进行建模,无监督的学习方法的目标是直接对输入数据集进行建模,通过数据分通过数据分析以发现有趣的模式或结构析以发现有趣的模式或结构。聚类方法是一种典型的无监督的学习方。聚类方法是一种典型的无监督的学习方法。需要聚类的数据对象没有标记,需要由聚类算法自己确定。由于法。需要聚类的数据对象没有标记,需要由聚类算法自己确定。由于对数据对象不具备任何背景知识,聚类算法采用相同的原则对这些数对数据对象不具备任何背景知识,聚类算法采用相同的原则对这些数据进行分析,聚类结果是否有效依赖于数据集对事先所制定的原则(据进行分析,聚类结果
23、是否有效依赖于数据集对事先所制定的原则(假设)的符合程度。假设)的符合程度。【半监督学习】MotivationMotivation:1 1、有标记样本难以获取。需要专门的人员、有标记样本难以获取。需要专门的人员, ,特别的设备特别的设备, ,额外的开销等等。额外的开销等等。2 2、无标记的样本相对而言是很廉价,容易获取的。、无标记的样本相对而言是很廉价,容易获取的。两个例子两个例子:(:(1 1)在计算机辅助医学图像分析中)在计算机辅助医学图像分析中, ,可以从医院获得大量可以从医院获得大量的医学图像作为训练例的医学图像作为训练例, ,但如果要求医学专家把这些图像中的病灶都但如果要求医学专家把
24、这些图像中的病灶都标识出来标识出来, ,则往往是不现实的。(则往往是不现实的。(2 2)在进行)在进行 Web Web 网页推荐时网页推荐时, ,需要用需要用户标记出哪些网页是他感兴趣的户标记出哪些网页是他感兴趣的, ,很少会有用户愿意花大量的时间来很少会有用户愿意花大量的时间来提供标记提供标记, ,因此有标记的网页示例比较少因此有标记的网页示例比较少, Web, Web上存在着无数的网页上存在着无数的网页, ,它们都可作为未标记示例来使用。它们都可作为未标记示例来使用。显然显然, ,如果只使用少量的有标记示例如果只使用少量的有标记示例, ,那么利用它们所训练出的学习系那么利用它们所训练出的学
25、习系统往往很难具有统往往很难具有强泛化能力强泛化能力; ;另一方面另一方面, ,如果仅使用少量如果仅使用少量“昂贵的昂贵的”有有标记示例而不利用大量标记示例而不利用大量“廉价的廉价的”未标记示例未标记示例, ,则是对数据资源的极则是对数据资源的极大的浪费。大的浪费。目前目前, ,利用未标记示例的主流学习技术主要有三大类:利用未标记示例的主流学习技术主要有三大类:半监督学习半监督学习(semi-(semi-supervisedlearningsupervisedlearning) )、直推学习、直推学习( (transductivetransductive learning) learning)
26、和和主动学习主动学习(active learning)(active learning)。这三类技术都是试图利用大量的未标这三类技术都是试图利用大量的未标记示例来辅助对少量有标记示例的学习记示例来辅助对少量有标记示例的学习, ,但它们的基本思想却有显著但它们的基本思想却有显著的不同。在半监督学习中的不同。在半监督学习中, ,学习器试图自行利用未标记示例学习器试图自行利用未标记示例, ,即整个学即整个学习过程不需人工干预习过程不需人工干预, ,仅基于学习器自身对未标记示例进行利用。直仅基于学习器自身对未标记示例进行利用。直推学习与半监督学习的相似之处是它也是由学习器自行利用未标记示推学习与半监督
27、学习的相似之处是它也是由学习器自行利用未标记示例例, ,但不同的是但不同的是, ,直推学习假定未标记示例就是测试例直推学习假定未标记示例就是测试例, ,即学习的目的即学习的目的就是在这些未标记示例上取得最佳泛化能力就是在这些未标记示例上取得最佳泛化能力。换句话说。换句话说, ,半监督学习半监督学习考虑的是一个考虑的是一个“开放世界开放世界”, ,即在进行学习时并不知道要预测的示例即在进行学习时并不知道要预测的示例是什么是什么, ,而直推学习考虑的则是一个而直推学习考虑的则是一个“封闭世界封闭世界”, ,在学习时已经知道在学习时已经知道了需要预测哪些示例。总结:了需要预测哪些示例。总结:半监督学
28、习是归纳式的半监督学习是归纳式的, ,生成的模型可生成的模型可用做更广泛的样本用做更广泛的样本; ;而直推式学习仅仅为了当前无标记样本的分类。而直推式学习仅仅为了当前无标记样本的分类。前者使用无标记样本前者使用无标记样本, ,为了以后其他样本更好的分类。后者只是为了为了以后其他样本更好的分类。后者只是为了分类好这些有限的无标记样本。主动分类好这些有限的无标记样本。主动学习算法可以主动地提出一些标学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。注请求,将一些经过筛选的数据提交给专家进行标注。【主要内容】(1)(1)模式识别的训练方法模式识别的训练方法 (2)(2)紧致
29、性紧致性(3)(3)特征选取特征选取(4)(4)相似性度量与分类相似性度量与分类 (5)(5)性能评价性能评价(6)(6)识别系统设计过程识别系统设计过程【紧致性】 紧致集紧致集:同一类模式类样本的分布比较集中,没有或临界样本很少,这样的模式类称紧致集。紧致集。 临界点临界点(样本):在多类样本中,某些样本的值有微小变化时就变成另一类样本称为临界样本(点)。 紧致性的概念:为了能在某个空间中进行分类,通常假设同一类的各个模式在该空间中组成一个紧致集。从这个紧致集中的任何一点可以均匀过渡到同一集中的另外一点,且在过渡途中的所有各个点都仍然属于这个紧致集(即属于同一模式类)。此外,当紧致集中各个点
30、在任意方向有某些不大的移动时它仍然属于这个集合。第第1 1种情况:种情况:A1: 111,101,110,011A1: 111,101,110,011A2A2:000000,010010,100100,001001只要用一个平面就可以将两个点集分开。只要用一个平面就可以将两个点集分开。【举例】011111001101100110010 x1x3x2000第第2 2种情况:种情况:A1: 111A1: 111A2A2:000000任何一个通过点任何一个通过点000000与与111111连线的平面都能达到分类的目的。连线的平面都能达到分类的目的。【举例】x201111100110110011001
31、0 x1x3000第第3 3种情况:种情况:A1: 111,001,100,010A1: 111,001,100,010A2A2:000000,011011,101101,110110需要用需要用3 3个平面才能分开。个平面才能分开。【举例】011111001101100110010 x1x3x2000 对于这种情况,结合对于这种情况,结合A1A1中任意中任意一点的一个码的数值发生变化,一点的一个码的数值发生变化,例如例如1 11 11 1变为变为1 10 01 1,那么就成为,那么就成为A2A2中的成员。把这些点成为临界点。中的成员。把这些点成为临界点。 把改变其中一个码值不能改变把改变其中
32、一个码值不能改变其集合属性的点成为内点。在该其集合属性的点成为内点。在该情况下,集合情况下,集合A1A1和集合和集合A2A2没有内没有内点,全部为临界点。点,全部为临界点。一般情况,一般情况,两个集合中具有的临两个集合中具有的临界点越多,就越难分开。界点越多,就越难分开。例如,例如,A1=000;A2=111A1=000;A2=111,没有,没有临界点,全部为内点,因此较为临界点,全部为内点,因此较为容易将其分开容易将其分开 一般来说,在一般来说,在D维空间中要用超表面进行分类,假若我们维空间中要用超表面进行分类,假若我们用平面图表示用平面图表示D维空间中点的分布。如下图。维空间中点的分布。如
33、下图。没有临界点没有临界点有许多临界点有许多临界点临界点过多,临界点过多,造成不可分造成不可分【紧致性】 紧致性的性质:紧致性的性质:临界点的数量与总的点数相比很少;临界点的数量与总的点数相比很少;集合中任意两点可以用光滑线连接,在该连线上的点也属集合中任意两点可以用光滑线连接,在该连线上的点也属于这个集合;于这个集合;每个内点都有足够大的领域只包含同一集合中的点。每个内点都有足够大的领域只包含同一集合中的点。模式识别的要求模式识别的要求:满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变换的方法,满足紧致集。【主要内容】(1)(1)模式识别的训练方法模式识别的训练方法 (2)(2)紧致
34、性紧致性(3)(3)特征选取特征选取(4)(4)相似性度量与分类相似性度量与分类 (5)(5)性能评价性能评价(6)(6)识别系统设计过程识别系统设计过程【特征选取】特征是决定相似性和分类的关键,当分类的目的决特征是决定相似性和分类的关键,当分类的目的决定后,如何找到合适的特征成为识别物体的关键。定后,如何找到合适的特征成为识别物体的关键。下面举一个实例说明。下面举一个实例说明。Salmon(鲑鱼) 与Sea bass (鲈鱼)分类系统【特征选取】光泽度光泽度长度长度宽度宽度可选特征长度特征直方图光泽度直方图宽度(纵轴)-光泽度(横轴)不成功不成功成功【特征选取】泛化推广能力泛化推广能力:模型
35、的复杂度对分类效果的影响模型的复杂度对分类效果的影响【特征选取】 1.底层特征:底层特征: (1)数值尺度()数值尺度(numerical size):有明确的数量):有明确的数量和数值。和数值。 (2)非数值尺度()非数值尺度(non-numerical size) 有序尺度:有先后、好坏的次序关系,如酒有序尺度:有先后、好坏的次序关系,如酒 分为上,中,下三个等级。分为上,中,下三个等级。 名义尺度名义尺度(nominal):无数量、无次序关系:无数量、无次序关系, 如颜色:红、如颜色:红、 黄、蓝、黑黄、蓝、黑 2. 中层特征:经过计算,变换得到的特征中层特征:经过计算,变换得到的特征
36、3. 高层特征:在中层特征的基础上有目的的经过运高层特征:在中层特征的基础上有目的的经过运 算形成算形成 【特征选取】【主要内容】(1)(1)模式识别的训练方法模式识别的训练方法 (2)(2)紧致性紧致性(3)(3)特征选取特征选取(4)(4)相似性度量与分类相似性度量与分类 (5)(5)性能评价性能评价(6)(6)识别系统设计过程识别系统设计过程【相似性度量与分类】(1)(1)相似性度量相似性度量【相似性度量与分类】(1)(1)相似性度量相似性度量距离值越小,相似性越高距离值越小,相似性越高【相似性度量与分类】2. 用各种距离距离度量相似性相似性: 已知两个样本已知两个样本: Xi=(xi1
37、, xi2 , xi3,xin)T Xj=(xj1, xj2 , xj3,xjn)T(,)1|ijikjknijd XXkdxx 绝对值距离绝对值距离(街坊距离或街坊距离或Manhattan距离):距离):【相似性度量与分类】 欧几里德欧几里德(Euclidean)距离距离明考夫斯基明考夫斯基(Minkowski)距离距离 其中当其中当q=1q=1时为绝对值距离,当时为绝对值距离,当q=2q=2时为欧氏距离时为欧氏距离2(,)1ijikjknijd XXkdxx( )(,)11|ijqijikjknqqdXXkqdxx其中Xi ,Xj为特征向量, 为协方差矩阵。使用于N个样本的集合中两个样本之
38、间求M氏距离:1( )max |ikjkijk ndxx 1()(,)ijTijijijdMd XXXXXX1111()() ,1NNTiiiiiXX XXXXNN 切比雪夫切比雪夫(Chebyshev)距离:距离:是q趋向无穷大时明氏距离的极限情况 马哈拉诺比斯(马哈拉诺比斯(Mahalanobis)距离距离N样本个数1()(,)TijijijijdMdXXXXXX1111()(),1NNTiiiiiXXXXXXNN例:马哈拉诺比斯(例:马哈拉诺比斯(Mahalanobis)距离:距离:设X1=(0,0)T, X2=(0,1) T, X3=(1,0) T, X4=(1,1) T.则N=4,1
39、00110.51101010.5400.500.500.500.5100.500.510.510.54110NiiTTXXN 0.510.510.510.50.500.510.510.50.250.250.250.250.250.250.250.2510.250.250.250.250.250.250.250.253TT 103103 1j1121212113131310303,.1030303000,)()()3003010300,)()()00011030iTTTTXXXXXXXXXXXXXX 与间的距离:d(d(11414141232323213003001,)()()600301013
40、001,)()()61003101,1TTTTXXXXXXXXXXXXXX d(d(d(1424241343434013001)()()3110311113011,)()()3010301TTTTXXXXXXXXXX d(X1X2X3X4X10X20X30X40363366633333两点之间的马氏马氏距离X1X2X3X4两点之间的欧氏欧氏距离X1X2X3X4X1011X2101X3101X41102222都具对称性对称性。但数值不同。马氏距离的计算步骤:1.求样本均值样本均值;2.求协方差矩阵;协方差矩阵;3.求协方差矩阵的逆协方差矩阵的逆矩阵?;矩阵?;4.按公式求两点间马氏距离马氏距离。
41、5.优点:量纲无关,排除变量之间的相关性的干扰。马氏距离的优点1、用逆矩阵的原因是相当于除去scale对距离的影响。如一维的情况下,同样距离都是3,但对于方差大的数据,这个距离就算小了,所以要用距离再除以方差。高维情况就是协方差阵的逆。2、如:均值分别为a和b两个正态分布的总体,方差不一样,则图中的A点离哪个总体近呢?显然,A离左边的更近,属于左边总体的概率更大,尽管A与a的欧式距离远一些。【马氏距离的优点】即样本间夹角即样本间夹角小小的具有的具有相似性强相似性强。例:例: X1 , X2 , X3的夹角如图:因为的夹角如图:因为X1 , X2 的夹的夹角小角小,所以所以X1 , X2 最相似
42、。最相似。12211c o s(,)|ikjkijinknnkkTjijijxxCjkikXXXXXXxx XYX1X2X3 夹角余弦夹角余弦如:1,3,5,7,9与2,4,6,8,10的相关系数为1; 1,3,5,7,9与10,8,6,4,2的相关系数为-1;注意:在求相关系数之前,要将数标准化标准化0,=0ijr正 相 关, 不 相 关0,负 相 关12211jkjknijikkijnnijikkkxXxXrxXxXjiXX,*相关系数相关系数分别为Xi ,Xj的均值:其中,Xi=(xi1,xi2,xin), Xj=(xj1,xj2,xjn).1111,nniikjjkkkXxXxnn相关
43、系数的绝对值越大,则表明两向量相关度越高【相似性度量与分类】(2)(2)分类分类 (a)(a)不存在纯客观的分类标准,任何分类都是带有主观性的。不存在纯客观的分类标准,任何分类都是带有主观性的。 例如,鲸鱼在生物学角度属于哺乳类,应该和牛算作一类;例如,鲸鱼在生物学角度属于哺乳类,应该和牛算作一类;但从产业的角度,捕鲸属于水产业,而牛是畜牧业。但从产业的角度,捕鲸属于水产业,而牛是畜牧业。 (b)(b)分类问题不是纯数学问题。分类问题不是纯数学问题。【主要内容】(1)(1)模式识别的训练方法模式识别的训练方法 (2)(2)紧致性紧致性(3)(3)特征选取特征选取(4)(4)相似性度量与分类相似
44、性度量与分类 (5)(5)性能评价性能评价(6)(6)识别系统设计过程识别系统设计过程【性能评价】正确识别率正确识别率 = = 正确分类数正确分类数/ /总数总数错误识别率错误识别率 = = 错误分类数错误分类数/ /总数总数拒绝识别率拒绝识别率 = = 拒绝分类数拒绝分类数/ /总数总数【主要内容】(1)(1)模式识别的训练方法模式识别的训练方法 (2)(2)紧致性紧致性(3)(3)特征选取特征选取(4)(4)相似性度量与分类相似性度量与分类 (5)(5)性能评价性能评价(6)(6)识别系统设计过程识别系统设计过程【识别系统设计过程】数据采集:在开发一个模式识别系统总的费数据采集:在开发一个
45、模式识别系统总的费用中,数据采集部分占令人吃惊的比重,当用中,数据采集部分占令人吃惊的比重,当然采用较小的然采用较小的“典型典型”样本集对问题的可行样本集对问题的可行性进行初步研究是可以的,但在实际应用中性进行初步研究是可以的,但在实际应用中为了确保现场工作良好的性能,需要采集到为了确保现场工作良好的性能,需要采集到大量的数据。大量的数据。采集数据采集数据选择特征选择特征选择模型选择模型训练分类器训练分类器评价分类器评价分类器设计结束设计结束设计开始设计开始选择特征:选择有明显区分意义的特征选择特征:选择有明显区分意义的特征是设计过程关键的一步。是设计过程关键的一步。选择模型:用数学形式表达的
46、不同特征的描述选择模型:用数学形式表达的不同特征的描述。训练分类器:利用样本数据确定分类器的过程。训练分类器:利用样本数据确定分类器的过程。评价分类器:避免过拟合评价分类器:避免过拟合。总结:几个重要总结:几个重要问题问题 特征提取特征提取 噪声噪声 过拟合过拟合 模型选择模型选择 先验知识先验知识 特征缺失特征缺失 部分与整体部分与整体 分割分割 上下文上下文 不变性不变性 分类器集成分类器集成 代价与风险代价与风险 计算复杂性计算复杂性 特征提取 Feature Extraction:Which features are most promising problem and domain
47、dependent噪声噪声 Noise:any property of the sensed pattern due not to the true underlying model but instead to randomness in the world or the sensors. 噪声的影响:噪声的影响:降低特征值测量的可靠性降低特征值测量的可靠性过拟合过拟合 Overtting :While an overly complex model may allow perfect classification of the training samples, it is unlikel
48、y to give good classification of novel patternsAre there principled methods for finding the best complexity for a classier?模型选择模型选择 Model Selection:How do we know when to reject a class of models and try another one ?LinearNon-linear先验知识先验知识 Prior Knowledge:When there is not sufficient training data
49、, incorporate prior knowledge特征缺失特征缺失 Missing Features: How should the classifier make the best decision with missing features? How to train the classifier with missing features ?部分与整体部分与整体 Mereology:the problem of subsets and supersets, the study of part / whole relationships. It is related to prio
50、r knowledge and segmentation分割分割 Segmentation:How do we “group” together the proper number of elements? 上下文 Context:input-dependent information other than from the target pattern itself The same pattern within different context might have different meanings不变性 Invariance:translation invariance, rota