模式识别概述(精品).ppt

上传人:hyn****60 文档编号:82466720 上传时间:2023-03-25 格式:PPT 页数:58 大小:1.94MB
返回 下载 相关 举报
模式识别概述(精品).ppt_第1页
第1页 / 共58页
模式识别概述(精品).ppt_第2页
第2页 / 共58页
点击查看更多>>
资源描述

《模式识别概述(精品).ppt》由会员分享,可在线阅读,更多相关《模式识别概述(精品).ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、模式识别模式识别Pattern Recognition 参参 考考 书书模式识别模式识别 清华大学出版社清华大学出版社 边肇祺边肇祺 张学工张学工Pattern Classification (有中译本)(有中译本)R.O.Duda P.E.Hart D.D.Stork第一章 绪论1-1 模式识别和模式的概念模式识别和模式的概念 我们时时刻刻都在进行模式识别视觉:桌子、椅子;张三、李四(图像识别)声觉:听声辩物(猫叫)、何人在说(说话人识别)、说了什么(语音识别)嗅觉:炸带鱼、臭豆腐我们时时刻刻都在进行模式识别视觉:桌子、椅子;张三、李四(图像识别)声觉:听声辩物(猫叫)、何人在说(说话人识别

2、)、说了什么(语音识别)嗅觉:炸带鱼、臭豆腐模式的概念模式:存在于时间和空间中可观察的事物,如果我们可以区别它们是否相同或相似。注:模式不是指事物本身,而是指我们从事物获得的信息 模式识别的基本定义 模式识别(Pattern Recognition)-用计算机实 现人对各种事物或现象的分析,描述,判断,识别。模式识别是模拟人的某些功能 模拟人的视觉:计算机+光学系统 模拟人的听觉:计算机+声音传感器 模拟人的嗅觉和触觉:计算机+传感器模式识别的发展史模式识别的发展史1929年 G.Tauschek发明阅读机,能够阅读0-9的数字。30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础

3、。因此,在6070年代,统计模式识别发展很快,但由于被识别的模式愈来愈复杂,特征也愈多,就出现“维数灾难”。但由于计算机运算速度的迅猛发展,这个问题得到一定克服。统计模式识别仍是模式识别的主要理论。50年代 Noam Chemsky 提出形式语言理论 美籍华人付京荪 提出句法结构模式识别。60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别理论得到了较广泛的应用。80年代 Hopfield提出神经元网络模型理论。近些年人工神经元网络在模式识别和人工智能上得到较广泛的应用。90年代 Vapnik提出的小样本学习理论,支持向量机也受到了很大的重视。关于模式识别的国内、国际学术组织关于模式识别

4、的国内、国际学术组织1973年 IEEE发起了第一次关于模式识别的国际会议“ICPR”,成立了国际模式识别协会-“IAPR”,每2年召开一次国际学术会议。1977年 IEEE的计算机学会成立了模式分析与机器智能(PAMI)委员会,每2年召开一次模式识别与图象处理学术会议国内的组织有电子学会,通信学会,自动化学会,中文信息学会.。1-2 模式识别系统模式识别系统信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二维的图象如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值。预处理:包括AD,二值化,图象的平滑,变换,增强,恢复,滤波等,主要指图象处理。特

5、征抽取和选择:在模式识别中,需要进行特征的抽取和选择,例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。这就是特征提取和选择的过程。分类器设计:分类器设计的主要功能是通过训练确定判决规则,使按此类判决规则分类时,错误率最低。把这些判决规则建成标准库。分类决策:在特征空间中对被识别对象进行分类。1-3 模式识别的应用模式识别的应用1.字符识别:包括印刷体字符的识别;手写体字符的识别(脱机),各种OCR设备例如信函分拣、文件处理、卡片输入、支票查对、自动排板、期刊阅读、稿件输入;在线手写字符的识别(联机),各种书写输入板。2.医

6、疗诊断:心电图,脑电图,染色体,癌细胞识别,疾病诊断,例如关幼波肝炎专家系统。3.遥感:资源卫星照片,气象卫星照片处理,数字化地球,图象分辨率可以达到1米。4.指纹识别 脸形识别 虹膜识别5.检测污染分析,大气,水源,环境监测。6.自动检测:产品质量自动检测7.语声识别,机器翻译,电话号码自动查询,侦听,机器故障判断。8.军事应用1-4 模式识别的基本问题模式识别的基本问题一.模式模式(样本样本)表示方法表示方法1.向量表示:假设一个样本有n个变量(特征)=(X1,X2,Xn)T2.矩阵表示:N个样本,n个变量(特征)3.几何表示 一维表示 X1=1.5 X2=3 二维表示 X1=(x1,x2

7、)T=(1,2)T X2=(x1,x2)T=(2,1)T 三维表示 X1=(x1,x2,x3)T=(1,1,0)T X2=(x1,x2,x3)T=(1,0,1)T4.基元(链码)表示:在右侧的图中八个基元分别表示0,1,2,3,4,5,6,7,八个方向和基元线段长度。则右侧样本可以表示为 X1=006666这种方法将在句法模式识别中用到。二二.模式类的紧致性模式类的紧致性1.临界点(样本):在多类样本中,某些样本的值有微小变化时就变成另一类样本称为临界样本(点)。2.紧致集:同一类模式类样本的分布比较集中,没有或临界样本很少,这样的模式类称紧致集。3.紧致集的性质 要求临界点很少 集合内的任意

8、两点的连线,在线上的点属于同 一集合 集合内的每一个点都有足够大的邻域,在邻域内只包含同一集合的点4.模式识别的要求:满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变换的方法,满足紧致集.三三.相似与分类相似与分类 1.两个样本xi,xj之间的相似度量满足以下要求:应为非负值 样本本身相似性度量应最大 度量应满足对称性 在满足紧致性的条件下,相似性应该是点间距离的单调函数 2.用各种距离表示相似性:已知两个样本 xi=(xi1,xi2,xi3,xin)T xj=(xj1,xj2,xj3,xjn)T 绝对值距离 欧几里德距离明考夫斯基距离 其中当q=1时为绝对值距离,当q=2时为欧氏距离

9、 切比雪夫距离 q趋向无穷大时明氏距离的极限情况 马哈拉诺比斯距离 其中xi,xj为特征向量,为协方差。使用的条件是 样 本符合正态分布 夹角余弦 为xi xj的均值 即样本间夹角小的为一类,具有相似性例:x1,x2,x3的夹角如图:因为x1,x2 的夹角小,所以x1,x2 最相似。x1x2x1x2x3 相关系数 为xi xj的均值注意:在求相关系数之前,要将数据标准化3.分类的主观性和客观性 分类带有主观性:目的不同,分类不同。例如:鲸鱼,牛,马从生物学的角度来讲都属于哺乳类,但是从产业角度来讲鲸鱼属于水产业,牛和马属于畜牧业。分类的客观性:科学性判断分类必须有客观标准,因此分类是追求客观性

10、的,但主观性也很难避免,这就是分类的复杂性。四.特征的生成 1.低层特征:无序尺度:有明确的数量和数值。有序尺度:有先后、好坏的次序关系,如酒 分为上,中,下三个等级。名义尺度:无数量、无次序关系,如有红,黄两种颜色 2.中层特征:经过计算,变换得到的特征 3.高层特征:在中层特征的基础上有目的的经过运 算形成例如:椅子的重量=体积*比重 体积与长,宽,高有关;比重与材料,纹理,颜色有关。这里低、中、高三层特征都有了。五.数据的标准化 1.极差标准化,一批样本中,每个特征的最大值与最小值之差。极差 极差标准化 2.方差标准化 Si 为方差标准化的方法很多,原始数据是否应该标准化,应采用什么方法

11、标准化,都要根据具体情况来定。一个例子设想有一个鱼类加工厂,希望能将传送带上的鱼的品种的分类过程自动进行.目的:鲈鱼(See bass)种类鲑鱼(Salmon)问题分析 架设一个摄像机,拍摄若干样品的图像,来区分鲑鱼和鲈鱼长度光泽宽度鳍的数目嘴的位置、等等 这些就作为我们模式分类的特征 处 理 特 征 提 取 分 类 鲈鱼鲑鱼预处理使用分割操作,把每条鱼与其它鱼以及与背景分离开来把每条鱼的特征送到特征提取器,这个装置的目的在于缩减特征的冗余程度,使得剩下的特征都是对分类很有用的特征然后再把提取后的特征送到分类器归类 据说:鲈鱼要比鲑鱼长些选择长度作为一个的特征进行分类鲈鱼鲑鱼l 单独使用长度一

12、个特征,结果令人失望.不存在单一的阈值能够将两种鱼无歧义地分开。出现分类错误是不可避免的。图中的l*是一个最佳的阈值,从这里分类的平均误差率最小。l 因此,选取光泽度作为另外一个可能的特征.鲑鱼鲈鱼阀值界与代价的关系例:鱼类加工厂,顾客能接受表示着“鲈鱼”的罐头中偶尔混入了鲑鱼,却无法忍受鲈鱼出现在所谓的“鲑鱼”罐头中。把判决边界向光泽度更小的值移动,以减少将鲈鱼误判作鲑鱼的数目,使代价最小(以免引起顾客反感)决策论的任务若仍不满意,但又没有更好的图像特征了采用光泽度与宽度的复合Fish xT=x1,x2 光泽度 宽度误差率更小了,当然仍有一些错误因此,我们单独使用一个特征是不够的,我们需要复

13、合多个特征(一个特征向量)用于分类。注意,复合的特征之间应该是不相关的,最起码复合之后不应该使得分类效果反而更差了(例如把一个噪音特征复合到一个有用的特征当中)最理想的判决曲线应该能够提供最优的分类效果。如下图所示:然而,我们高兴得太早了,因为我们设计分类器的最终目标使用来正确归类新的样本。推广能力问题 (Generalization)上图判决曲线是对训练样本的分类性和分界面复杂度的一个最优折中,因而对将来的新的模式的分类性能也更好。传感器传感器-传感器的使用(摄像机和麦克风)问题的难度很大程度上依赖于传感器的特性和局限性,比如带宽、分辨率、灵敏度、失真、信噪比等等。分割和组织分割和组织-模式

14、应该是很好的分离,没有重叠现象模式识别系统模式识别系统特征提取特征提取最具有鉴别力的特征不变性:平移、旋转、尺度分类器分类器 根据特征提取器得到的特征向量来给一个被测对象赋一个类别标记后处理后处理采用上下文信息来改善系统的性能,而不仅仅是目标模式自身。模式识别系统模式识别系统 传感器将图片、声音或传感器将图片、声音或其他物理输入转换为信号数其他物理输入转换为信号数据,分隔器将物体与背景及据,分隔器将物体与背景及其他物体分开。特征提取器其他物体分开。特征提取器提取用于分类的物理属性。提取用于分类的物理属性。分类器根据特征给物体赋予分类器根据特征给物体赋予类别标记。最后,后处理器类别标记。最后,后

15、处理器作一些其他的考虑,如上下作一些其他的考虑,如上下文信息、错误代价等。文信息、错误代价等。模式识别系统模式识别系统设计循环设计循环数据采集数据采集特征选择特征选择模型选择模型选择训练训练评价评价数据采集总结:在开发一个PR系统总的费用中,数据采集部分占了令人吃惊的大比重。怎样才能知道已经采集到足够多有代表性的供训练和性能测试用的数据了呢?特征选择根据特定问题领域的性质,选择那些容易提取、对不相关变形保持不变、对噪音不敏感、以及对区分不同类别的模式很有效的特征集。模型选择对我们先前鱼分类器的性能不满意,因而想尝试一下完全不同类型的模型。训练利用样本数据来确定分类器的过程称为训练分类器。“基于

16、样本的学习基于样本的学习”的方法是设计分类器最有效的方法。本教材将以很大篇幅来讨论各种各样不同的训练和选择模型的算法。评价错误率(从一个特征集切换到另一特征集)计算复杂度计算复杂度和分类表现如何折中?例:光学字符识别 20 x20点阵图像(1e+120)计算复杂度是所采用的特征维数、模式的数目、或类别数的什么函数?学习和适应有监督学习 存在一个教师信号,对训练样本及中的每个输入样本能提供类别标记和分类代价,并寻找能降低总体代价的方向。无监督学习 无显示教师,系统对输入样本自动形成“聚类”或“自然的”组织。本章小结至此,大家或许被模式识别问题的数量、复杂度、和子问题的范畴搞得晕头转向了PR的进展至少在以下三重意义上传达出积极的信息:1)问题一定可以解决,因为人和生物体的识别能力就是最好的“存在性证明”2)其中一部分子问题已经得到很好的解决3)许多吸引人的未解问题依然存在,为进一步的研究发展提供了丰富的机遇。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁