《第03章:信息获取与提取精选文档.ppt》由会员分享,可在线阅读,更多相关《第03章:信息获取与提取精选文档.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第03章:信息获取与提取本讲稿第一页,共二十八页第第3章:信息获取与提取章:信息获取与提取 3.1信息感知信息感知信息感知指人或人造的系统所具有的对环境与目标信息的获取、探测、提取、识别、测量等技术的总称。多数情况下侧重利用信息产生的目标对象的物理特性、光学特性、电声特性、化学特性等,如压力、温度、湿度、位移等等,采用无线电、电容、静电、光、声、冲击、震动等方式实现。在实现的过程中,通过特征提取、数据融合、智能信号处理等方法来提高信息感知效果。感知的结果经过认知、预测、决策、响应及可视化技术等构成一个完整的应用系统。本讲稿第二页,共二十八页3.1信息感知信息感知测量是按照某种规律,用数据来描述
2、观察到的现象,即对事物作出量化描述。测量是对非量化实物的量化过程。测量学的定义:研究三维空间中各种物体的形状、大小、位置、方向和其分布的学科。测量是利用合适的工具,确定某个给定对象(object)在某个给定属性(Attribute)上的量的程序或过程。作为测量结果的量通常用数值表示。该数值是在一个给定的量纲或尺度系统下,由属性的量和测量单位的比值决定的。本讲稿第三页,共二十八页3.1信息感知信息感知测量学的内容包括测定和测设两个部分。(1)测定是指使用测量仪器和工具,通过测量和计算,得到一系列测量数据,或把测量数据绘成形图。(2)测设是指把规划设计好的目标在指定尺度下和位置下标定出来,作为下一
3、步工做的依据。本讲稿第四页,共二十八页3.1信息感知信息感知测量具有四个要素(1)测量客体,即测量对象。它是客观世界中所存在的事物或者现象,是人们要用数字或符号来进行表达、解释和说明的对象。(2)测量内容,即测量客体的某种属性或特征。实际上,在任何一种测量中,人们所测量的对象虽然是某一客体,但所测量的内容却并不是客体本身,而是这一客体的特征或属性。(3)测量法则,即用数字和符号表达事物各种属性或特征的操作规则。也可以说,它是某种具体的操作程序和区分不同特征或属性的标准。(4)数字和符号,即用来表示测量结果的符号集。本讲稿第五页,共二十八页3.1信息感知信息感知传感技术是关于从自然信源获取信息,
4、并对之进行处理(变换)和识别的一门多学科交叉科学,它涉及传感器(又称换能器)、信息处理和识别等技术领域。传感技术同计算机技术与通信技术一起被称为信息技术的三大支柱。传感器的智能化主要侧重传感信号的处理、识别技术与方法和装置的自校准、自诊断、自学习、自决策、自适应和自组织等能力。智能传感器与人工智能技术结合,可以进一步发展智能制造、智能机器和智能制造系统。本讲稿第六页,共二十八页3.1信息感知信息感知获取信息靠各类传感器,它们有各种物理量、化学量或生物量的传感类型。传感器的功能与品质决定了传感系统获取自然信息的信息量和信息质量,高品质传感技术是系统构造的关键,它决定通过传感器获取的信息描述信号的
5、质量,即信息获取的质量。信息处理包括信号的预处理、信号分析、特征提取、后处理等。识别的主要任务是对经过处理的信息进行辨识与分类。它利用被识别(或诊断)对象与特征信息间的关联关系模型对输入的特征信息进行辨识、比较、分类和判断。因此,传感技术是遵循信息论和系统论的。本讲稿第七页,共二十八页3.1信息感知信息感知德国物理学家W.K.海森堡于1927年提出不确定性原理又名“海森堡测不准原理”(Heishenberg Uncertainty Principle)。海森堡测不准原理海森堡测不准原理:测量行为与被测量物之间往往会产生相互作用和相互干扰,因此某些物理量很难通过仪器测量的方法得到准确的测量。所有
6、传感与测量技术都受制于不确定性原理。测不准原理告诉人们真值找不到,人们只能尽一切努力,找到真值的近似值。这也是感知与测量技术科学发展的动力。本讲稿第八页,共二十八页3.2信息的表示与识别信息的表示与识别信息感知或测量获得的数据可以用信号的形式展现。这些信号可以是电量波形,也可以是其它的表现形式。多数情况下以波形来描述。根据奈奎斯特取样定理,任何连续信号均可以表示成离散样值符号序列的形式,存储于现代的数字系统中。奈奎斯特取样定理:模拟信号离散化取样频率在大于信号最高频率的二倍时,可以无失真地恢复原模拟信号。本讲稿第九页,共二十八页3.2信息的表示与识别信息的表示与识别信号是反映(或载有)信息的各
7、种物理量,一维信号以波形的形式表示,二维信号体现为一帧图像。对信号进行分析,找到信号波形或图像的结构特征或统计特征,就完成了信号的分析工作。信号是信息系统直接进行加工、变换以及实现通信(信息交互)的对象。按照奈奎斯特取样定理把反映物理量变化的连续模拟信号转换成一系列数值表示就完成了模拟信号向数字信号的转换。数字信号用向量或矩阵来表示。本讲稿第十页,共二十八页3.2信息的表示与识别信息的表示与识别对数字信号进行分析与处理的各种方法就是数字信号处理技术研究的内容。由于数字信号用向量或矩阵表示,因此,数字信号处理技术离不开向量和矩阵的运算。在数字信号处理技术中很多基本理论与方法是以线性代数或称矩阵论
8、为基础的。信号分析的目的是找到信号的结构特征或统计特征,通过分析信号的特征,一是为了获取信号的结构描述,利用信号结构描述可以近似的再现(恢复)原信号;另一个目的就是把信号用特征近似表示原信号,有利于进一步的计算或为进一步的信号识别提供依据。本讲稿第十一页,共二十八页3.2信息的表示与识别信息的表示与识别以再现(恢复)原信号为主要目标的信号分析方法主要用于数据压缩(又称限失真信号编码)领域。数据压缩就是在一定的事先指定的失真条件下用尽可能少的数据量来表示原信号,它追求的是数据量的减少,同时保持原信号的质量,即再现(恢复)信号与原信号之间的失真满足一定要求。本讲稿第十二页,共二十八页3.2信息的表
9、示与识别信息的表示与识别以获取信号的特征为目标的信号分析方法主要应用于信号识别(又称模式识别)领域。模式是某类事物或现象共有的属性。模式分成抽象的和具体的两种形式。抽象的模式如意识、思想、议论等,属于概念识别研究的范畴。本书所指的模式主要是语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象,这些对象属于具体模式。模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。本讲稿第十三页,共二十八页3.2信息的表示与识
10、别信息的表示与识别模式识别技术就是解决让机器知道“是什么”、“是哪个”、“是谁”等问题的一类技术。生物信息识别与认证技术包括声纹识别、指纹识别、虹膜识别、人脸识别、掌纹识别、步态识别等子领域。声纹识别技术具有独特的方便性、经济性和准确性等优势,成为人们日常生活和工作中重要的安验认证方法。手掌、手指、脚、脚趾内侧表面的皮肤凹凸产生的纹路所形成的各种各样的图案,对不同人这些图案的的断点和交叉点均不相同,具有唯一性。依靠这种唯一性,将一个人同他的生物鉴别信息对应起来,通过比较人的生物鉴别信息与预存的信息是否一致,就可以确定人的真实身份。本讲稿第十四页,共二十八页3.3知识提取与知识学习知识提取与知识
11、学习模式识别又常称作模式分类。人对模式进行分类的能力是人在成长过程中不断学习和积累的结果,在知识积累的过程中,当有人告诉你什么是什么,那个物体叫什么时,类似的过程称为有监督的(Supervised)学习。在有监督的学习过程中,各实验样本所属的类别是否预先已知的。因此,有监督的学习需要提供大量已知类别的样本,这个要求在实际问题中是存在一定困难的。与有监督的学习对立的是无监督(Unsupervised)的学习。本讲稿第十五页,共二十八页3.3知识提取与知识学习知识提取与知识学习学习能力是智能行为的一个非常重要的特征。机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行
12、为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。学习是知识获取的过程。完成模式识别任务的基本条件是系统具有关于被识别事物的知识,根据知识的描述确定某个模式的所属类别。本讲稿第十六页,共二十八页3.3知识提取与知识学习知识提取与知识学习机器学习系统的基本结构如图3-1 所示。环境向系统的学习部分提供某些信息,学习部分利用这些信息修改或建立知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。本讲稿第十七页,共二十八页3.3知识提取与知识学习知识提取与知识学习影响学习系统设计的最重要的因素是环境向系统提供的信息。知识库里存放
13、的是指导执行部分动作的一般原则,但环境向学习系统提供的信息却是各种各样的。如果信息的质量较高,与一般原则的差别较小,则学习部分比较容易处理。如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息,则学习系统需要在获得足够数据之后,删除不必要的细节,进行总结推广,形成指导动作的一般原则并放入知识库。这样学习部分的任务就比较繁重,设计起来也较为困难。本讲稿第十八页,共二十八页3.3知识提取与知识学习知识提取与知识学习基于决策理论的模式识别(又称统计模式识别方法)系统结构如图3-2所示。本讲稿第十九页,共二十八页3.3知识提取与知识学习知识提取与知识学习被识别对象首先数字化,变换为适于计算机处理
14、的数字信息。许多模式识别系统在数字化环节之后还进行预处理,用于除去混入的干扰信息并减少某些变形和失真。随后是进行特征抽取,即从数字化后或预处理后的输入模式中抽取一组特征。所谓特征是选定的一种度量,它对于一般的变形和失真保持不变或几乎不变,并且只含尽可能少的冗余信息。本讲稿第二十页,共二十八页3.3知识提取与知识学习知识提取与知识学习特征抽取过程将输入模式从对象空间映射到特征空间。这时模式可用特征空间中的一个点或一个特征矢量表示。这种映射不仅压缩了信息量,而且易于分类。在决策理论方法中,特征抽取占有重要的地位,但尚无通用的理论指导,只能通过分析具体识别对象决定选取何种特征。特征抽取后方可进行分类
15、,即从特征空间再映射到决策空间。本讲稿第二十一页,共二十八页3.3知识提取与知识学习知识提取与知识学习在模式分类器中,存在关于各类模式的知识库,同时引入鉴别函数用于判断输入模式与知识库中存放的各类模式信息的距离,即对输入特征矢量与知识库中存放的各类代表矢量之间计算出相应于各类别的鉴别函数值,在满足要求的条件下,具有最小距离的类别就是判断结果。通过鉴别函数值的比较实现分类功能。分类器设计功能实现对所有已知模式的样本进行分析,完成从训练样本中提取模式知识的功能,即实现知识抽取与机器学习功能。本讲稿第二十二页,共二十八页3.3知识提取与知识学习知识提取与知识学习统计模式识别(Statistic Pa
16、ttern Recognition-SPR)的基本原理是:具有相似性的样本在模式空间中互相接近,并形成“集团”,即“物以类聚”。分析方法是根据模式所测得的特征向量集 Xi=(xi1,xi2,xid)T,(i=1,2,N),将一个给定的模式x归入C个类1,2,C中,然后根据模式之间的距离函数D来判别分类。其中,T表示转置;N为样本点数;d为样本特征数。假设鉴别函数为D(X,),则判断输入模式属于j类的鉴别条件为:对所有的类别k,有D(Xi,j)D(Xi,k)成立 此处(1,2,C)为经过机器学习获取的关于C类模式的知识信息。本讲稿第二十三页,共二十八页3.4信息的自组织形式信息的自组织形式信息组
17、织形式要求信息组织的有序化与优质化,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和排序,实现无序信息流向有序信息流的转换,从而使信息集合达到科学组合,实现有效流通,促进用户对信息的有效获取和利用。信息组织的表现形式应当具有整体性、关联性、层次性、相对性、目的性、动态性。本讲稿第二十四页,共二十八页3.4信息的自组织形式信息的自组织形式信息组织整体性反映信息的总体表象,是信息的外在形式体现;信息组织关联性反映信息内在的联系,是人们感兴趣的新的发现;信息组织层次性反映信息内部的划分规律,是信息结构化的内在规律体现;信息组织相对性反映事物相对关系在一定条件下的互相转化;信息组织
18、目的性反映人类对信息的表示追求一定的简单和有效原则,客观事物也是以最为简介的方式给出表象,其中的原理正是人类探索的基本出发点;信息组织动态性反映信息随时间变化、随环境变化、随客观条件变化,随各种因素的变化而变化,无时不变、无事不变是根本;本讲稿第二十五页,共二十八页3.4信息的自组织形式信息的自组织形式信息组织的内容包括信息选择、信息分析、信息描述与揭示、信息存贮四个方面;信息选择:对采集到的无序状态的信息流进行预处理,提取出有用的信息、剔除无用的信息是信息组织过程的第一步。信息分析:按照一定的逻辑关系从语法、语义和语用上对选择过的信息内、外特征进行细化、挖掘、加工整理并归类的信息活动。信息描
19、述与揭示:根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动(又称信息资源描述)。信息存贮:将经过加工整理序化后的信息按照一定的格式和顺序存贮在特定的载体中的一种信息活动。本讲稿第二十六页,共二十八页3.4信息的自组织形式信息的自组织形式知识组织理论最早由英国著名的分类法学家布利斯(Bliss)提出。所谓知识组织,是指对知识客体进行诸如整理、加工、揭示、控制等一系列组织化过程,是关于知识组织的理论与方法。知识组织可分为主观知识的组织和客观知识的组织。主主观知识的组织观知识的组织在人的大脑中进行,表现为复杂的神经生理活动,人工智能、认知心理学等重点研究主观知识组织的内在机理;客观知识的组织客观知识的组织是通过人的认知进行分类,并凭借一定的方法完成的。信息组织主要关注客观知识的组织活动。本讲稿第二十七页,共二十八页3.4信息的自组织形式信息的自组织形式自组织系统是指不借助外部控制而能实现从无序到有序的转变,并维持稳定有序状态的系统。自组织信息是指作为信息系统组成要素的信息。自组织过程是信息系统无需外界指令而能自行组织信息,自我有序化和优化的过程。是由系统各个要素之间存在的相关性、协同性和默契性而形成特定结构与功能的过程。本讲稿第二十八页,共二十八页