《模式识别讲义第一章.ppt》由会员分享,可在线阅读,更多相关《模式识别讲义第一章.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别讲义第一章现在学习的是第1页,共28页第一章第一章 引言引言模式识别基本概念模式识别的发展模式识别的方法模式识别系统的基本原理模式识别的基本问题现在学习的是第2页,共28页例子例子1 1:医生诊病过程:医生诊病过程 1)测量病人的体温和血压,化验血沉,询问临床表现;2)通过综合分析,抓住主要病症;3)医生运用自己的知识、经验,根据主要病症、测量化验结果,作出正确的诊断。在模式识别技术中,常用的术语有:样本、模式、特征、类型等等,对照医生诊病过程,有:a.样本:医院里的众多患者,每个患者都是一个样本;单一样本:医生诊断的某一患者,就是样本空间中的一个单一样本;样本值:某一患者的化验、检查
2、结果与表征现象。b.模式:各样本值按一定的数据准则综合的结果;模式样本:具有某种模式的样本;模式采集:获取某样本的测量数值的过程;现在学习的是第3页,共28页医生诊病过程医生诊病过程c.特征:患者某些具有显著特征的化验数据及表征;特征选择与提取:能表征(疾病)特异性的化验结果与表征;d.判决:医生运用知识、病例经验综合分析给出诊断;判决准则/规则:医生的知识 判决结果:将患者明确(或以概率)确定为某一种病症(或多种/并发病症)的患者(及病患严重程度)事实上,最后的结果也成为分类。因此有预先知道类别(已知病症)与未知类别(未知病症)的区别。模式识别:就是以计算机为工具、各种传感器为信息来源,数据
3、计算与处理为方法,对各种现象、事物、状态等进行准确地分析、判断识别与归类。现在学习的是第4页,共28页模式模式:是一个物体或感兴趣实体的定量的或结构的描述。模式类模式类:是具有某些共同特性的模式的集合。模式识别:模式识别:从不相关的细节背景中,抽取数据的有意义的特征或属性,根据这些特征和属性对数据进行分类,把特征和属性相同的数据归成同一类。具体项目的识别具体项目的识别:识别字符、图画某些其他、音乐及周围事物的过程,分为视觉和听觉识别。抽象项目的识别抽象项目的识别:不靠外界的感官刺激而识别一个古老的论点或某个问题的解答。基基 本本 概概 念念现在学习的是第5页,共28页模式识别的发展模式识别的发
4、展1929年 G.Tauschek发明阅读机,能够阅读0-9的数字。30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。因此,在6070年代,统计模式识别发展很快,但由于被识别的模式愈来愈复杂,特征也愈多,就出现“维数灾难”。随着计算机运算速度的迅猛发展,这个问题得到一定克服。目前,统计模式识别仍是模式识别的主要理论。50年代 Noam Chemsky 提出形式语言理论,在此基础上,美籍华人付京荪 提出句法结构模式识别。60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别理论得到了较广泛的应用。现在学习的是第6页,共28页模式识别的发展模式识别的发展80年代 Hopfiel
5、d提出神经元网络模型理论。近些年人工神经元网络在模式识别和人工智能上得到较广泛的应用。90年代 小样本学习理论,支持向量机也受到了很大的重视。1973年 IEEE发起了第一次关于模式识别的国际会议“ICPR”,成立了国际模式识别协会-“IAPR”,每2年召开一次国际学术会议;1977年 IEEE的计算机学会成立了模式分析与机器智能(PAMI)委员会,每2年召开一次模式识别与图象处理学术会议;国内的组织有电子学会,通信学会,自动化协会,中文信息学会.。现在学习的是第7页,共28页模式识别的发展模式识别的发展模式识别的应用领域更加广泛:模式识别的应用领域更加广泛:生物、医学、军事、农业、工业、社会
6、、教育、航天、航空、经济、金融、生物认证、数字水印基于语音:重点人物通信监控语音识别系统/规模音频资料检索基于图像:光学字符识别(Optical Character Recognition OCR)/车牌识别(Vehicle License Plate Recognition VLPR)/人脸识别/指纹识别/签名认证/支票认证/表情和手势识别/农作物分类与害虫识别/生物信息学:DNA识别/航空与卫星遥测遥感数据资源调查/军用目标的图像识别/基于图形模式识别的机器人控制等基于工程数据:振动模式分析与故障诊断/石油钻井数据分析与事故预报/基于状态模式的智能控制/数据挖掘与知识发现等现在学习的是第8
7、页,共28页模式识别的发展模式识别的发展模式识别的计算手段更加先进:模式识别的计算手段更加先进:海量存储技术、高速计算/并行计算技术、网格技术、网络技术、新型前端器件(激光、红外、MEMS、传感器网络)模式识别的新型算法层出不穷:模式识别的新型算法层出不穷:Computation with word(Zadeh)Soft Computation DNA Computation国内外模式识别的学术活动从未间断国内外模式识别的学术活动从未间断:小波/模式识别国际会议、机器学习/模式识别国际会议、图像处理/模式识别国际会议、数据挖掘/模式识别国际会议现在学习的是第9页,共28页模式识别的方法模式识别
8、的方法决策理论方法(统计识别法):以判别函数为基础,利用判别函数对模式进行分类。决策理论方法(统计识别法):以判别函数为基础,利用判别函数对模式进行分类。句法模式识别(结构模式识别):将对象分解为若干个基本单元句法模式识别(结构模式识别):将对象分解为若干个基本单元基元,用基元,用基元和他们的结构关系描述对象,运用形式语言理论进行句法分析,根据其是否基元和他们的结构关系描述对象,运用形式语言理论进行句法分析,根据其是否符合某一类的文法而决定其类别。符合某一类的文法而决定其类别。模糊模式识别:运用模糊数学的理论和方法解决模式识别问题,适用于分类识模糊模式识别:运用模糊数学的理论和方法解决模式识别
9、问题,适用于分类识别对象本身或要求的识别结果具有模糊性的场合。别对象本身或要求的识别结果具有模糊性的场合。人工神经网络法:是由大量简单的神经元相互连接而构成的非线性动态系统,具人工神经网络法:是由大量简单的神经元相互连接而构成的非线性动态系统,具有学习、自组织、联想能力,在学习中具有自动提取特征,进行识别、决策。有学习、自组织、联想能力,在学习中具有自动提取特征,进行识别、决策。人工智能方法:人工智能研究如何使机器具有人工智能方法:人工智能研究如何使机器具有人脑功能的理论和方法。将学习、人脑功能的理论和方法。将学习、知识表示、推理等用于模式识别。知识表示、推理等用于模式识别。现在学习的是第10
10、页,共28页统计模式识别统计模式识别统计模式识别:是以决策函数为基础,对模式向量进行分类。例w1,w2判别函数:d(X)=w1x1+w2 x 2+w3=0 式中w为参数,x1,x2是模式的坐标变量并且d(X)代表d(x1,x2),把任何落在分界线上的观测值X代入上述方程式都得到d(X)=0,任何来自w1类的模式X,在代入d(X)时,得一负数,而w2则位于正数一边。N维情况下:w1w2X1X2+-i=1dk(X)=Wkll(X)k=1,2nk现在学习的是第11页,共28页模式识别系统的基本原理模式识别系统的基本原理 信息的获取:信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二
11、维的图象如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值等等。预处理:预处理:包括A/D,二值化,图象的平滑,变换,增强,恢复,滤波等。特征抽取和选择:特征抽取和选择:在模式识别中,需要进行特征的抽取和选择,如,一幅64*64的图象可以得到4096个数据,这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。这就是特征提取和选择的过程。分类器设计:分类器设计:主要功能是通过训练确定判决规则,使按此类判决规则分类时,错误率最低。把这些判决规则建成判决规则标准库,这一过程称为分类器设计。分类决策:分类决策:在特征空间中对被识别对象进行分类。现在学习的是
12、第12页,共28页模式识别的基本问题模式识别的基本问题模式模式(样本样本)表示方法表示方法模式类的紧致性模式类的紧致性相似与分类相似与分类特征的生成特征的生成数据标准化数据标准化现在学习的是第13页,共28页模式表示法模式表示法_ _向量表示法向量表示法模式向量模式向量:以数量信息为特征的模式表示。即以模式的以数量信息为特征的模式表示。即以模式的n n个个特征量测值组成一个特征量测值组成一个n n维特征矢量维特征矢量 X=(xX=(x1 1,x,x2 2,x,xn n)T T表示表示模式。模式。例:例:字符识别机,辨别每个输入,判断它是属于哪一种字符,字符识别机,辨别每个输入,判断它是属于哪一
13、种字符,A AZ Z、0 09 9、拒绝类,共、拒绝类,共26+10+1=3726+10+1=37个模式类。采用光电个模式类。采用光电阵列把字符变成二值的图象,如阵列把字符变成二值的图象,如6666方阵,方阵,X=xX=x1 1x x2 2x x3 3x x3636 T T。现在学习的是第14页,共28页矩阵表示矩阵表示:N:N个样本,个样本,n n个变量个变量(特征特征)现在学习的是第15页,共28页几何表示几何表示一一维表示维表示 X1=0.5 X2=3 二维表示二维表示 X1=(x1,x2)T=(1,2)T X2=(x1,x2)T=(2,1)T三维表示三维表示 X1=(x1,x2,x3)
14、T=(1,1,0)T X2=(x1,x2,x3)T=(1,0,1)T现在学习的是第16页,共28页符号串表示法(符号串表示法(1 1)定义了一定的模式基元,用模式基元的连接表示模式定义了一定的模式基元,用模式基元的连接表示模式。ba阶梯模式:ababab 即(ab)n,n1现在学习的是第17页,共28页符号串表示法(2)定义算子定义算子,增加串的表示能力增加串的表示能力 请给出串对应的模式:(a+b)*c*d+c+(d)baa+bbaabbaa*bbb习题:a模式基元:cbda模式基元:ba-bba现在学习的是第18页,共28页树表示法任何一个分层有序系统都导致树结构,引入任何一个分层有序系统
15、都导致树结构,引入“在内部在内部”关系、关系、“由由组成组成”关系。关系。abcdefghi$a$bcihgdfeR2R1R3T1T2墙(W)地板F立方体C锥体P锥体P$景物物体背景地板F墙W立方体CT1T2R1R2R3现在学习的是第19页,共28页网表示法网表示法:网是无向带标志的点图。在上图中,我们在引入网表示法:网是无向带标志的点图。在上图中,我们在引入“与与连连接接”,就可以得到图所示的网。,就可以得到图所示的网。R2R1R3 T1 T2墙(W)地板F立方体C锥体P$景物物体背景地板F墙W锥体P立方体CT1T2R1R2R3现在学习的是第20页,共28页二二.模式类的紧致性模式类的紧致性
16、1.1.紧致集:同一类模式类样本的紧致集:同一类模式类样本的分布比较集中,没有临界样本分布比较集中,没有临界样本或者临界样本很少,这样的模或者临界样本很少,这样的模式类称紧致集。式类称紧致集。2.2.临界点临界点(样本样本):在多类样本中,某些样本的值有微小变化时就变成另一类样在多类样本中,某些样本的值有微小变化时就变成另一类样本称为本称为临界样本(点)临界样本(点)。3.3.紧致集的性质紧致集的性质 要求临界点很少要求临界点很少.集合内的任意两点的连线集合内的任意两点的连线,在线上的点属于同在线上的点属于同 一集合一集合.集合内的每一个点都有足够大的邻域集合内的每一个点都有足够大的邻域,在邻
17、域内只包含同一集合的点在邻域内只包含同一集合的点.4.4.模式识别的要求模式识别的要求:满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变换的方法换的方法,满足紧致集满足紧致集.现在学习的是第21页,共28页相似与分类相似与分类1.1.两个样本两个样本 x xi i 和和 x xj j 之间的相似度量满足以下要求:之间的相似度量满足以下要求:应为非负值。样本本身相似性度量应最大。度量应满足对称性。在满足紧致性的条件下,相似性应该是点间距离的单调函数。2.2.用各种距离表示相似性:用各种距离表示相似性:已知两个样本 xi=(xi1,x
18、i2,xi3,xin)T xj=(xj1,xj2,xj3,xjn)T 常用的距离有欧氏距离、马氏距离等常用的距离有欧氏距离、马氏距离等现在学习的是第22页,共28页 绝对值距离绝对值距离 欧几里德距离欧几里德距离明考夫斯基距离明考夫斯基距离其中当q=1时为绝对值距离,当q=2时为欧氏距离.切比雪夫距离切比雪夫距离 q趋向无穷大时明氏距离的极限情况.马哈拉诺比斯距离马哈拉诺比斯距离其中xi,xj为特征向量,为协方差.使用的条件是样本符合正态分布.现在学习的是第23页,共28页 夹角余弦夹角余弦xi xj样本(向量)间夹角越小,两个样本越具有相似性.例:x1,x2,x3,x4的夹角如图:x1和x2
19、间的夹角最小,所以x1,x2 最相似,可以归为同一类.x3x1x2x4现在学习的是第24页,共28页 相关系数相关系数为xi xj的均值.注意:在求相关系数之前,要将数据标准化.3.3.分类的主观性和客观性分类的主观性和客观性 分类的主观性:分类的主观性:目的不同,分类不同。例如:鲸鱼,牛,马从生物学的角度来讲都属于哺乳类,但是从产业角度来讲鲸鱼属于水产业,牛和马属于畜牧业。分类的客观性:分类的客观性:科学性判断分类必须有客观标准,因此分类是追求客观性的,但主观性也很难避免,这就是分类的复杂性。现在学习的是第25页,共28页四四.特征的生成特征的生成 1.低层特征:低层特征:无序尺度:无序尺度
20、:有明确的数量和数值.有序尺度:有序尺度:有先后、好坏的次序关系,如酒分为上,中,下三个等级.名义尺度:名义尺度:无数量、无次序关系,如有红,黄两种颜色.2.中层特征:中层特征:经过计算,变换得到的特征.3.高层特征:高层特征:在中层特征的基础上有目的的经过运算形成.例如:椅子的重量=体积*比重.体积与长,宽,高有关;比重与材料,纹理,颜色有关。这里低、中、高三层特征都有了。现在学习的是第26页,共28页五五.数据的标准化数据的标准化1.1.极差标准化极差标准化:一批样本中,每个特征的最大值与最小值之差为极差。极差极差标准化2.2.方差标准化:方差标准化:Si 为方差标准化的方法很多,原始数据
21、是否应该标准化,应采用什么方法标准化,都要根据具体情况来定。现在学习的是第27页,共28页模式识别常用资源列表模式识别论文IEEE Transactions on Neural Networks http:/www.ieee-nns.org/pubs/tnn/Journal of Machine Learning Research http:/www.jmlr.org/Pattern Recognition,Elsevier Science Pattern Recognition Letters,Elsevier Science 实验数据UCI machine learning repository http:/www.ics.uci.edu/mlearn/MLRepository.htmlData for Evaluating Learning in Valid Experiments(DELVE)http:/www.cs.utoronto.ca/delve/StatLib Datasets Archive http:/lib.stat.cmu.edu/datasets/现在学习的是第28页,共28页