《模式识别(1).pdf》由会员分享,可在线阅读,更多相关《模式识别(1).pdf(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别模式识别 自动化学院自动化学院 曾慧曾慧 课程介绍课程介绍 课程对象课程对象 自动化自动化学院学院自动化专业、智能自动化专业、智能专业专业 本科生本科生 选选修修 学习方法学习方法 着重理解基本概念、基本方法、算法原理着重理解基本概念、基本方法、算法原理 注重理论与实践结合注重理论与实践结合 教材与参考书教材与参考书 教材教材 张学工,张学工,模式识别模式识别,清华大学出版社,清华大学出版社,2010年,第年,第3版版 Ruchard O.Duda,Peter E.Hart,David G.Stock,Pattern Classification(模式分类),机械工业出(模式分类),机
2、械工业出版社,版社,2004年年 课件:课件:ustb_ key:ustb2014 考试考试 平时成绩:包括平时成绩:包括考勤(考勤(6%,3次)、实验报告(次)、实验报告(9%)考试:考试:85 最后成绩:平时成绩最后成绩:平时成绩+考试成绩考试成绩 第一章第一章 绪论绪论 模式识别模式识别 直观,无所不在,“直观,无所不在,“人以类聚,物以群分”人以类聚,物以群分”周围物体的认知:桌子、椅子周围物体的认知:桌子、椅子 人的识别:张三、李四人的识别:张三、李四 声音的辨别:汽车、火车,狗叫、人语声音的辨别:汽车、火车,狗叫、人语 气味的分辨:炸带鱼、红烧肉气味的分辨:炸带鱼、红烧肉 人和动物
3、的模式识别能力是极其平常的,但对计算机来说人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的。却是非常困难的。1.1 1.1 模式识别与模式的概念模式识别与模式的概念 模式识别是六十年代初迅速发展的一门学科。它所研模式识别是六十年代初迅速发展的一门学科。它所研究的理论和方法在很多科学和技术领域中得到了广泛究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动了人工智能技术及图像处理、信号处理、的重视,推动了人工智能技术及图像处理、信号处理、计算机视觉、多媒体技术等多种学科的发展,扩大了计算机视觉、多媒体技术等多种学科的发展,扩大了计算机应用的领域计算机应用的领域 模式识别(模
4、式识别(Pattern Recognition)输入原始数据并根据其类别采取相应行为的能力输入原始数据并根据其类别采取相应行为的能力 利用计算机实现人对各种事物或现象的分析、描述、判利用计算机实现人对各种事物或现象的分析、描述、判断、识别。断、识别。模式识别的定义模式识别的定义 什么是模式识别什么是模式识别?输入原始数据并根输入原始数据并根据其类别采取相应据其类别采取相应行为的能力。行为的能力。用计算机实现人用计算机实现人的模式识别能力。的模式识别能力。模式的基本定义模式的基本定义 广义地说,存在于时间和空间中可观察的物体,如果我们广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们
5、是否相同或是否相似,都可以称之为可以区别它们是否相同或是否相似,都可以称之为模式模式。模式所指的不是事物本身,而是模式所指的不是事物本身,而是从事物获得的信息从事物获得的信息,因此,因此,模式往往表现为具有时间和空间分布的信息。模式往往表现为具有时间和空间分布的信息。模式的直观特性模式的直观特性:可观察性可观察性 可区分性可区分性 相似性相似性 模式的基本定义模式的基本定义 何为“模式识别”何为“模式识别”Pattern Recognition the recognition of patterns 通过对事物的观察对其某种性质的认识。通过对事物的观察对其某种性质的认识。面对某一具体事物时,将
6、其正确地归入某一类别。面对某一具体事物时,将其正确地归入某一类别。例如:硬币分类例如:硬币分类 六类:六类:1分、分、2分、分、5分、分、1角、角、5角、角、1元元 特征:重量、颜色、体积、文字、图案、特征:重量、颜色、体积、文字、图案、.何为“模式识别”何为“模式识别”模式识别发展简史模式识别发展简史 1929年年 G.Tauschek发明阅读机发明阅读机,能够阅读,能够阅读0-9的数字。的数字。30年代年代 Fisher提出统计分类理论,奠定了统计模式识提出统计分类理论,奠定了统计模式识别的基础。别的基础。50年代年代 Noam Chemsky 提出形式语言理论提出形式语言理论傅京荪傅京荪
7、 提出句法结构模式识别。提出句法结构模式识别。60年代年代 L.A.Zadeh提出了模糊集理论,模糊模式识别提出了模糊集理论,模糊模式识别方法得以发展和应用。方法得以发展和应用。80年代以年代以Hopfield网、网、BP网为代表的神经网络模型导网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应致人工神经元网络复活,并在模式识别得到较广泛的应用。用。90年代小样本学习理论,支持向量机也受到了很大的重年代小样本学习理论,支持向量机也受到了很大的重视。视。关于模式识别的国内、国际学术组织关于模式识别的国内、国际学术组织 1973年年 IEEE发起了第一次关于模式识别的国际会议
8、发起了第一次关于模式识别的国际会议“ICPR”,成立了国际模式识别协会,成立了国际模式识别协会-“IAPR”,每,每2年年召开一次国际学术会议。召开一次国际学术会议。1977年年 IEEE的计算机学会成立了模式分析与机器智能的计算机学会成立了模式分析与机器智能(PAMI)委员会,每)委员会,每2年召开一次模式识别与图象处理年召开一次模式识别与图象处理学术会议。学术会议。国内:中科院模式识别国家重点实验室,中科院计算所,国内:中科院模式识别国家重点实验室,中科院计算所,微软研究院,清华大学等等。微软研究院,清华大学等等。模式识别的应用模式识别的应用 生物学 自动细胞学、染色体特性研究、遗传研究
9、天文学 天文望远镜图像分析、自动光谱学 经济学 股票交易预测、企业行为分析 医学 心电图分析、脑电图分析、医学图像分析 模式识别的应用模式识别的应用 工程 产品缺陷检测、特征识别、语音识别、自动导航系统、污染分析 军事 航空摄像分析、雷达和声纳信号检测和分类、自动目标识别 安全 指纹识别、人脸识别、监视和报警系统 模式识别的应用模式识别的应用 生物特征识别生物特征识别 模式识别的应用模式识别的应用20082008奥运奥运 2008年北京奥运会将全面运用人脸识别系统,这种技术能从人群中快速辨认恐怖分子和其他可能引发犯罪的人员,防止其进入敏感区域。全国政协委员、北京奥运会安全专家委员会委员马昕说,
10、届时,相关数据库将收入包括中国公民和国际人士在内的共计13亿多人的面部信息,利用技术进行比照核对。“有关国家将提供给我们一些详细资料,比如哪些人是恐怖分子,哪些可能是闹事的足球流氓等等”。据介绍,人们在进入奥运场馆时,人脸识别系统会对其面部特征进行快速核对,安全保卫人员可以在最短时间内发现各类“危险人物”。遇到问题时,安保人员会很快发现“危险人物”在哪里。马昕说:“人脸识别系统主要特点为吞吐量很大,动态抓拍能力强,最快反应速度仅为0.01秒。目前这一技术正在推广应用,比如正广泛应用于地铁。”记者了解到,近两年北京还将有500个大型商场安装这一系统。1.2 1.2 模式识别系统实例(一)模式识别
11、系统实例(一)在传送带上用光学传感器件对鱼按品种分类在传送带上用光学传感器件对鱼按品种分类 鲈鱼鲈鱼(Seabass)品种品种 鲑鱼鲑鱼(Salmon)数据获取:架设一个摄像机,采集一些样本图像,获取样数据获取:架设一个摄像机,采集一些样本图像,获取样本数据本数据 预处理:去噪声,用一个分割操作把鱼和鱼之间以及鱼和预处理:去噪声,用一个分割操作把鱼和鱼之间以及鱼和背景之间分开背景之间分开 1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)特征提取和选择:对单个鱼的信息进行特征选择,从而通特征提取和选择:对单个鱼的信息进行特征选择,从而通过测量某些特征来减少信息量过测量某些特征来减少信
12、息量 长度长度 亮度亮度 宽度宽度 鱼翅的数量和形状鱼翅的数量和形状 嘴的位置,等等嘴的位置,等等 分类决策:把特征送入决策分类器分类决策:把特征送入决策分类器 1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)鲑鱼和鲈鱼鲑鱼和鲈鱼:特征长度、光泽、宽度、鳍的数目和形状、嘴的位置。图像本身差异光照、鱼的位置、拍摄噪声等。1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)两种鱼的长度特征直方图两种鱼的长度特征直方图 1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)两种鱼的光泽度特征直方图两种鱼的光泽度特征直方图 1.2 1.2 模式识别系统实例(一)模式识别系统实
13、例(一)目标:确定一种决策,使该代价函数最小。目标:确定一种决策,使该代价函数最小。寻找其他的更利于分类的特征或组合运用多种特征寻找其他的更利于分类的特征或组合运用多种特征 光泽度光泽度x1和宽度和宽度x2 分类分类 1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)两种鱼的光泽度特征和宽度特征的散布图两种鱼的光泽度特征和宽度特征的散布图 1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)过份复杂的模型将导致复杂的判决曲线过份复杂的模型将导致复杂的判决曲线 泛化能力?泛化能力?1.2 1.2 模式识别系统实例(一)模式识别系统实例(一)图中标注的判决曲线是对训练样本的分类性
14、能和分界面复杂度的一图中标注的判决曲线是对训练样本的分类性能和分界面复杂度的一个最优折中。因而对将来的新模式的分类性能也很好个最优折中。因而对将来的新模式的分类性能也很好 1.2 1.2 模式识别系统实例(二)模式识别系统实例(二)19名男女同学进行体检,测量了身高和体重,但事后发现其中有4人忘记填写性别,试问(在最小错误的条件下)这4人是男是女?体检数值如下:1.2 1.2 模式识别系统实例(二)模式识别系统实例(二)待识别的模式:性别(男或女)待识别的模式:性别(男或女)测量的特征:身高和体重测量的特征:身高和体重 训练样本:训练样本:15名已知性别的样本特征名已知性别的样本特征 目标:希
15、望借助于训练样本的特征建立判别函数目标:希望借助于训练样本的特征建立判别函数(即数学模型)(即数学模型)1.21.2模式识别系统实例(二)模式识别系统实例(二)由训练样本得到的特征空间分布图由训练样本得到的特征空间分布图 1.21.2模式识别系统实例(二)模式识别系统实例(二)从图中训练样本的分布情况,找出男、女两类特征各自的从图中训练样本的分布情况,找出男、女两类特征各自的聚类特点,从而求取一个判别函数(直线或曲线)。聚类特点,从而求取一个判别函数(直线或曲线)。只要给出待分类的模式特征的数值,看它在特征平面上落只要给出待分类的模式特征的数值,看它在特征平面上落在判别函数的哪一侧,就可以判别
16、是男还是女了。在判别函数的哪一侧,就可以判别是男还是女了。1.21.2模式识别系统实例(三)模式识别系统实例(三)问题:如何利用对图像的结构信息描述,识别如问题:如何利用对图像的结构信息描述,识别如下所示图片:下所示图片:1.21.2模式识别系统实例(三)模式识别系统实例(三)将整个场景图像结构分解成一些比较简单的子图将整个场景图像结构分解成一些比较简单的子图像的组合;像的组合;子图像又用一些更为简单的基本图像单元来表示,子图像又用一些更为简单的基本图像单元来表示,直至子图像达到了我们认为的最简单的图像单元直至子图像达到了我们认为的最简单的图像单元(基元);(基元);所有这些基元按一定的结构关
17、系来表示,利用多所有这些基元按一定的结构关系来表示,利用多级树结构对其进行描述(这种描述可以采用形式级树结构对其进行描述(这种描述可以采用形式语言理论)。语言理论)。1.21.2模式识别系统实例(三)模式识别系统实例(三)多级树描述结构多级树描述结构 1.21.2模式识别系统实例(三)模式识别系统实例(三)训练过程:训练过程:用已知结构信息的图像作为训练样本,先识别出基元(比用已知结构信息的图像作为训练样本,先识别出基元(比如场景图中的如场景图中的X、Y、Z等简单平面)和它们之间的连接关系等简单平面)和它们之间的连接关系(例如长方体(例如长方体E是由是由X、Y和和Z三个面拼接而成),并用字母三
18、个面拼接而成),并用字母符号代表之;符号代表之;然后用构造句子的文法来描述生成这幅场景的过程,由此然后用构造句子的文法来描述生成这幅场景的过程,由此推断出生成该场景的一种文法。推断出生成该场景的一种文法。1.21.2模式识别系统实例(三)模式识别系统实例(三)识别过程:识别过程:先对未知结构信息的图像进行基元提取及其相互结构关系先对未知结构信息的图像进行基元提取及其相互结构关系的识别;的识别;然后用训练过程获得的文法做句法分析;然后用训练过程获得的文法做句法分析;如果能被已知结构信息的文法分析出来,则该幅未知图像如果能被已知结构信息的文法分析出来,则该幅未知图像与训练样本具有相同的结构(识别成
19、功),否则就不是这与训练样本具有相同的结构(识别成功),否则就不是这种结构(识别失败)。种结构(识别失败)。1.3 1.3 模式识别系统模式识别系统 模式识别系统的基本构成:模式识别系统的基本构成:训练过程:训练过程:对作为训练对作为训练样本的测量数据进行特样本的测量数据进行特征选择与提取,得到它征选择与提取,得到它们在特征空间的分布,们在特征空间的分布,依据这些分布决定分类依据这些分布决定分类器的具体参数,也就是器的具体参数,也就是设计分类器的过程。设计分类器的过程。识别过程:识别过程:分类决策的分类决策的过程,则是在特征空间过程,则是在特征空间中用统计方法把被识别中用统计方法把被识别对象归
20、为某一类别。对象归为某一类别。模式识别系统构成及功能模式识别系统构成及功能 1.数据获取:数据获取:用计算机可以运算的符号来表示所研究的用计算机可以运算的符号来表示所研究的对象。对象。二维图像:文字、指纹、地图、照片等二维图像:文字、指纹、地图、照片等 一维波形:脑电图、心电图、机械震动波形等一维波形:脑电图、心电图、机械震动波形等 物理参量和逻辑值:体温、化验数据、参量正常与否的物理参量和逻辑值:体温、化验数据、参量正常与否的描述描述 用话筒将声音信号转换成电信号,表现出电压(电流)随时间变化的复杂波形。景物信息在摄像机靶面成像并转换成二维的象素矩阵,每个像素(矩阵元素)的电信号与物体表面反
21、射的光强或颜色信息呈现函数关系 通过测量、采样和量化,用矩阵或向量表示二维图像或一维波形。通过测量、采样和量化,用矩阵或向量表示二维图像或一维波形。模式识别系统构成及功能模式识别系统构成及功能 2.预处理:预处理:去除所获取信息中的噪声,增强有用的信去除所获取信息中的噪声,增强有用的信息,及一切必要的使信息纯化的处理过程。息,及一切必要的使信息纯化的处理过程。预处理这个环节内容很广泛,与要解决的具体问题有关,预处理这个环节内容很广泛,与要解决的具体问题有关,例如,从图象中将汽车车牌的号码识别出来,就需要先将例如,从图象中将汽车车牌的号码识别出来,就需要先将车牌从图像中找出来,再对车牌进行划分,
22、将每个数字分车牌从图像中找出来,再对车牌进行划分,将每个数字分别划分开。做到这一步以后,才能对每个数字进行识别。别划分开。做到这一步以后,才能对每个数字进行识别。以上工作都应该在预处理阶段完成。以上工作都应该在预处理阶段完成。模式识别系统构成及功能模式识别系统构成及功能 3.特征选择特征选择和提取和提取 功能功能:对所获取的信息实现从:对所获取的信息实现从测量空间测量空间到到特征空间特征空间的的转换。转换。将所获取的原始测量数据转换成最能反映事物本质,将所获取的原始测量数据转换成最能反映事物本质,并将其最有效分类的特征表示并将其最有效分类的特征表示。输入输入:原始的测量数据:原始的测量数据(经
23、过必要的预处理经过必要的预处理),例如由声,例如由声波变换成的电信号,表现为电压电流幅度随时间的变波变换成的电信号,表现为电压电流幅度随时间的变化,二维图像每个像素所具有的灰度值等。化,二维图像每个像素所具有的灰度值等。输出输出:将原始测量数据转换成有效方式表示的信息,将原始测量数据转换成有效方式表示的信息,从而使分类器能根据这些信息决定样本的类别从而使分类器能根据这些信息决定样本的类别。模式识别系统构成及功能模式识别系统构成及功能 特征选择和提取就是说选择什么样的方法来描述事特征选择和提取就是说选择什么样的方法来描述事物,从而可以有效、牢靠地把事物正确地区分开。物,从而可以有效、牢靠地把事物
24、正确地区分开。例:印刷体数字大多通过扫描仪输入,或从图像中获取。这样,一个数字往往用例:印刷体数字大多通过扫描仪输入,或从图像中获取。这样,一个数字往往用一个一个NM的数组表示。如果的数组表示。如果N5,M7,则一个数字就用,则一个数字就用57共共35个网格是黑个网格是黑是白来表示。是白来表示。如令是黑为“如令是黑为“1”,是白为“,是白为“0”,那么一个数字就可用,那么一个数字就可用35维的二维的二进制向量表示。这就是典型的进制向量表示。这就是典型的特征向量表示法特征向量表示法。缺点:这种表示与网格的尺寸有关,与字的笔划粗细有关,更缺点:这种表示与网格的尺寸有关,与字的笔划粗细有关,更主要的
25、是字在网格中的不同位置与转向有关。这个字在网格中主要的是字在网格中的不同位置与转向有关。这个字在网格中略为偏一点,其特征向量表示就会有很大的不一样。这就说明略为偏一点,其特征向量表示就会有很大的不一样。这就说明了这种表示的稳定性差。了这种表示的稳定性差。另一种方法则是将数字用笔划表示,也就是将它分成一横加上一斜杠表示。这另一种方法则是将数字用笔划表示,也就是将它分成一横加上一斜杠表示。这种表示方法属于种表示方法属于结构表示法结构表示法范畴。这种方法没有前一种方法的缺点,但提取这范畴。这种方法没有前一种方法的缺点,但提取这种结构信息也不是一件容易方便的事。种结构信息也不是一件容易方便的事。模式识
26、别系统构成及功能模式识别系统构成及功能 4.分类器分类器设计与分类决策设计与分类决策 分类器设计:将该特征空间划分成由各类占据的子空分类器设计:将该特征空间划分成由各类占据的子空间,确定相应的决策分界和判决规则,使按此类判决间,确定相应的决策分界和判决规则,使按此类判决规则分类时,错误率最低。把这些判决规则建成标准规则分类时,错误率最低。把这些判决规则建成标准库。库。分类决策:分类器在分界形式及其具体分类决策:分类器在分界形式及其具体 参数都确定后,用相应的决策分界对待参数都确定后,用相应的决策分界对待 分类样本进行分类决策的过程。分类样本进行分类决策的过程。1.4 1.4 模式识别的若干问题
27、模式识别的若干问题 模式模式(样本样本)的表示方法:的表示方法:对一种模式或样本,用特对一种模式或样本,用特征向量表示,特征向量中的每个分量体现某一个特征向量表示,特征向量中的每个分量体现某一个特征:征:1.向量表示向量表示:假设一个样本有n个变量(特征)=(X1,X2,Xn)T 2.矩阵表示矩阵表示:N个样本,n个变量(特征)变量 样本 x1 x2 xn X1 X11 X12 X1n X2 X21 X22 X2n XN XN1 XN2 XNn 1.4 1.4 模式识别的若干问题模式识别的若干问题 3.几何表示几何表示:一维表示 X1=1.5 X2=3 二维表示 X1=(x1,x2)T=(1,
28、2)T X2=(x1,x2)T=(2,1)T 三维表示 X1=(x1,x2,x3)T=(1,1,0)T X2=(x1,x2,x3)T=(1,0,1)T 1.4 1.4 模式识别的若干问题模式识别的若干问题 4.基元(链码)表示基元(链码)表示:在右侧的图中八个基元 分别表示0,1,2,3,4,5,6,7,八个方向 和基元线段长度。则右侧样本可以表示为 X1=006666 这种方法将在句法模式识 别中用到。1.4 1.4 模式识别的若干问题模式识别的若干问题 模式类的紧致性模式类的紧致性 紧致集:同一类模式类样本的分布比较集中,没有或临界样本很少,这样的模式类称紧致集。(a)、(b)与与(c)分
29、别表示了两类在空间分布的三种状况。其中分别表示了两类在空间分布的三种状况。其中(a)中两类样中两类样本存在各自明确的区域,它们之间的分界线本存在各自明确的区域,它们之间的分界线(或面,超曲面或面,超曲面)具有简单的形具有简单的形式,因而也较易区分,式,因而也较易区分,(b)中两类虽有各自不同的区域,但分界面的形式中两类虽有各自不同的区域,但分界面的形式比较复杂,因而设计分类器的难度要大得多,如果遇到比较复杂,因而设计分类器的难度要大得多,如果遇到(c)类的情况则简类的情况则简直到了无法将它们正确分类的地步。直到了无法将它们正确分类的地步。(a)(b)(c)1.4 1.4 模式识别的若干问题模式
30、识别的若干问题 临界点临界点(样本):在多类样本中,某些样本的值有微小变化时就变成另一类样本称为临界样本(点)。紧致集的性质紧致集的性质 要求临界点很少 集合内的任意两点的连线,在线上的点属于同 一集合 集合内的每一个点都有足够大的邻域,在邻域内只包含同一集合的点 模式识别的要求:满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变换变换的方法,满足紧致集。1.4 1.4 模式识别的若干问题模式识别的若干问题 距离和相似性度量距离和相似性度量 在特征空间中用特征向量描述样本的属性,把在特征空间中用特征向量描述样本的属性,把相似性度量相似性度量用距离量表示用距离量表示。两个样本xi,xj之间
31、的相似性度量满足以下要求:应为非负值 样本本身相似性度量应最大 度量应满足对称性 在模式类满足紧致性的条件下,相似性应该是点间距离的单调函数 1.4 1.4 模式识别的若干问题模式识别的若干问题 在各种空间中,只要定义任何一种距离度量,就可用在各种空间中,只要定义任何一种距离度量,就可用这种距离的非增函数作为相似性度量。这种距离的非增函数作为相似性度量。如在如在D D维欧几里得空间,可以选择某个随距离增加而维欧几里得空间,可以选择某个随距离增加而下降的函数下降的函数 f 作为相似性度量。作为相似性度量。)(),(12Dijikijkxxfxx)(),(1DijikijkxxfxxjkjTkjk
32、XXXXxx1cos),(欧氏距离的减函数 绝对值偏差的减函数 偏差的夹角 1.4 1.4 模式识别的若干问题模式识别的若干问题 特征的生成特征的生成 1.低层特征:无序尺度:有明确的数量和数值。有序尺度:有先后、好坏的次序关系,如酒 分为上,中,下三个等级。名义尺度:无数量、无次序关系,如有红,黄两种颜色 2.中层特征:经过计算,变换得到的特征 3.高层特征:在中层特征的基础上有目的的经过运算形成 例如:椅子的重量=体积*比重 体积与长,宽,高有关;比重与材料,纹理,颜色有关。这里低、中、高三层特征都有了。1.5 1.5 本章小结本章小结 模式识别与模式的概念模式识别与模式的概念 模式识别系统模式识别系统 四个组成部分?模式识别的若干问题模式识别的若干问题 模式的表示方法 模式类的紧致性 距离和相似性度量 特征的生成