《第二章 Web信息资源的文档类型及基于内容的多媒体信息检索.ppt》由会员分享,可在线阅读,更多相关《第二章 Web信息资源的文档类型及基于内容的多媒体信息检索.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第2章章 Web信息资源的文档类型信息资源的文档类型 及基于内容的多媒体信息检索及基于内容的多媒体信息检索 本章目录21 HTML文档22 XML语言23元数据24多媒体信息与文件格式25基于内容的多媒体信息检索11/19/20221主要知识点主要知识点Web信息和数据在互联网中是以各种文档形式存储和组织并进行传输的。因此,本章重点讨论了Web 信息资源最常见的几种文档类型,包括HTML、XML文档以及图像、音频、视频等多媒体文档。同时,对元数据即数据的数据也展开了探讨,其主要原因是Web信息的查找主要是对后台数据库的访问和搜索,目前Web数据库主要分为字段数据库和全文数据库,其中字段数据库
2、实际上存储的主要是结构化数据,其中包括设计视图中的元数据,这些常常是采用SQL语言进行查找匹配的重要对象。此外,对于多媒体信息以及基于内容的多媒体信息检索也进行了概要性的探讨,重点讨论了基于内容的多媒体信息检索的特点、结构模型和检索方法及常见的CMIR系统。11/19/2022221 HTML文档文档本节要点:211 HTML概述212 HTML的编写规则11/19/20223211 HTML概述概述 HTML即HyperText Markup Language,是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。从本质上来说,它并不是一种程序设计语言,而是一种页面描述语言。HTML文
3、件需要加标记(tag),描述段落、标题、图像、动画等。当用户通过浏览器如IE 等浏览HTML文件时,浏览器负责解释HTML文件中的各种标记,并以此为根据显示文件的内容。目前较新的版本有HTML 4.0和HTML 4.01。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括首部(Head)、主体(Body)两大部分,其中首部描述浏览器所需的信息,而主体则包含所要说明的具体内容。11/19/20224212 HTML的编写规则的编写规则 1HTML首部2HTML中JavaScript的书写3HTML中元素的书写3HTML中元素
4、的书写11/19/20225演示演示Html文档演示 11/19/2022622 XML语言语言221 XML概述222 XML的编写规则11/19/20227221 XML概述概述XML(Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)的子集,是W3C组织于1998年2月发布的标准。它克服了HTML缺乏灵活性和伸缩性的缺点以及SGML过于复杂、不利于软件应用的不足。XML的用途主要有两个:一是作为元标记语言,定义各种实例标记语言标准;二是作为标准
5、交换语言,起描述交换数据的作用。XML是Internet环境中跨平台的、依赖于内容的技术,是当前处理结构化文档的有力工具。它使用一系列简单的标记描述数据,从另一角度来说,XML又是一种简单的数据存储语言。XML与Access、Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,如数据索引、排序、查找等,XML仅仅是展示数据。其次,XML与HTML的设计区别是:XML是用来存储数据的,重在数据本身,并可以描述数据本身。而HTML是用来定义数据的,重在数据的显示模式。XML易于在任何应用程序中读写数据,这使XML很快成为数据交换的公共语言,虽然不同的应用软件也
6、支持其它的数据交换格式。正因为如此,基于XML的Web应用程序可以更容易地与Windows、Mac OS、Unix/Linux以及其他平台下产生的信息结合,然后可以很容易加载XML数据到程序中并进行分析,最后以XML格式输出结果。11/19/20228222 XML的编写规则的编写规则1XML文档的组成(1)标记:尖括号之间的文本。(2)元素:开始标记、结束标记以及位于二者之间的所有内容。(3)属性:即元素的值,用“”引起来。2XML文档的显示对于xml文档,因为标记都是自定义的,它只是显示了数据的内容,因而要显示xml文档,必须要有另一个文件告诉浏览器如何显示,即由XML专门的样式文档来执行
7、,一般就要使用格式化技术如xsl和css两种方式。(1)使用CSS显示xml文档。(2)使用XSL文件显示xml文档。XSL 的全称是 Extensible Stylesheet Language(可扩展样式语言),它是设计XML文档显示样式的主要文件类型,它本身也是基于 XML 语言的。11/19/20229222 XML的编写规则(续)的编写规则(续)3XML的撰写语法一个结构良好的XML文档,至少要符合以下规则:(1)文档的第一行必须是XML文档声明或说明,如以下anli.xml文件中的第一行:,即声明XML文档的版本和中文编码字符集。(2)文档必须包含至少一个元素(或标记)。(3)每个
8、开始标记和结束标记必须配套使用,对于没有内容的标记允许使用格式。(4)文档中必须包含唯一的打开和关闭标记,即包含一个根元素,文档中的所有其他标记都必须包含在这两个标记中,如下例中的标记。(5)各个标记之间爱女不能重叠,不能交叉定义。(6)元素区分大小写 11/19/202210演示演示Anli.xml11/19/20221123元数据元数据 本节主要内容:231元数据概述232各专业领域中的元数据标准233元数据开发应用的标准化框架 11/19/202212231元数据概述元数据概述简言之,元数据(Meta Data)即“data about data”,是关于数据的数据。它在不同领域或专业,
9、相应地就有不同的定义和应用。在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。它常有两方面的用途:(1)能提供基于用户的信息,如业务描述信息的元数据能帮助用户使用数据。(2)元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。在数据库系统中,元数据通常指描述数据库中表的结构的有关数据和信息。在图书馆与信息管理领域,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。11/19/202213232各专业
10、领域中的元数据标准各专业领域中的元数据标准以下是各学科各专业领域已有的元数据标准:(1)网络资源:Dublin Core、IAFA Template、CDF、Web Collections;(2)文献资料:MARC(with 856 Field),Dublin Core(3)人文科学:TEI Header(4)社会科学数据集:ICPSR SGML Codebook(5)博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core(6)政府信息:GILS(7)地理空间信息:FGDC/CSDGM(8)数字图像:MOA2 metadata、CDL metadat
11、a、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images(9)档案库与资源集合:EAD(10)技术报告:RFC 1807(11)连续图像:MPEG-7 11/19/202214233元数据开发应用的标准化框架元数据开发应用的标准化框架1.Meta data应用目的(1)查询和检索(Discovery identification(2)标引和著录(Cataloging(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据字段除比较全面的著录描述信息外,还包括权利
12、管理(Rights/Privacy Management)、数字签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。(4)资源保护与存档(Preservation and Archiving),支持对资源进行长期保存,数据字段除对资源进行描述和确认外,还包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。11/19/202215233元数据开发应用的标准化框架元数据开发应用的
13、标准化框架(续续)2元数据结构(1)总体结构Metadata格式一般由多层次的结构定义构成:内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。语义结构(Semantic Structure),定义Metadata元素的具体描述方法。11/19/202216233元数据开发应用的标准化框架元数据开发应用的标准化框架(续续)(2)内容结构 内容结构定义Metadata的构成元素,包括描述性元素、技术性元素、管理性元素、结构性元素,如与编码语言、Namespa
14、ce、数据单元等的链接。此外,元数据内容结构中还包含对数据选取标准的说明,例如MARC记录所依据的ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。(3)句法结构句法结构定义其格式结构及其描述方式,如元素的分区分段组织、元素选取使用规则、元素描述方法(如Dublin Core采用ISO/IEC 11179标准),元素结构描述方法(如MARC记录结构、SGML结构、XML结构)、结构语句描述语言如EBNF Notation等。有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数据存在但以一定形式与数据对象链
15、接,还可能描述与定义标准、DTD结构和Namespace等的链接方式。(4)语义结构语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。有些元数据格式本身定义了语义结构,而另外一些则由具体采用单位规定语义结构,例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数据格式可采用MIME、识别号可采用URL或DOI或ISBN。11/19/202217233元数据开发应用的标准化框架元数据开发应用的标准化框架(续续)5元数据互操作性(1)元数据互操
16、作性问题 由于不同的领域往往存在多个元数据格式,当用不同元数据格式进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability)即多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。(2)标准描述框架解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式。实际上,XML和RDF从不同角度起着类似的作用。XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML_DTD定义的Metadata格式,
17、从而解决对不同格式的释读问题。RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对关系进行具体描述。RDF通过抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制。11/19/20221824多媒体信息与文件格式多媒体信息与文件格式241多媒体信息的特点242多媒体信息的基本属性11/19/202219241多媒体信息的特点多媒体信息的特点 多媒体是
18、指运用现代计算机、网络等信息技术实现两种或两种以上信息媒体的集成和一体化,并通过建立逻辑联系达到交互式应用的技术。多媒体信息具有的显著特点包括:(1)集成性:主要表现在促成了文本、声音、图形、视频、动画等多种媒体的有机融合,完成各类媒体信息的表示和组织的有效统一和整合。(2)交互性:主要指可为用户呈现多种有效的干预信息处理的方法和手段,同时用户在处理和使用多媒体信息的过程中,成为主动的实施者,并可以融合个人的理解和感性认识,即人机交互性。(3)时基性:即多媒体多为时基媒体(如视频、动画、声频等),在时间上具有可持续性、同步性、依赖性等特征,而多媒体信息则是基于时间序列的数据流。在运行多媒体系统
19、的过程中,往往需要遵循较为严格的时序要求,同时要达到一定的速度标准。(4)数据量大:与于纯文本信息相比,多媒体信息量是非常大的,因此,在保证多媒体重构信息质量的基础上,需要采取各种压缩手段以尽量少的比特数表述多媒体数据与信息,从而降低信息处理和存储成本。11/19/202220242多媒体信息的基本属性多媒体信息的基本属性1图像信息与数据(1)图像的描述方式经量化的数字图像,可以由一个像素矩阵表示:矩阵中的元素被称为像素,并与图像的点对应;而像素值则与该点的灰度值或颜色值对应,并以灰度值或颜色值大小区分图像的逼真程度。一般而言,用每单位长度上水平方向和垂直方向上的像素数分辨率描述数字图像的质量
20、,如某一图像的分辨率为800*600;用图像中每个像素所占的颜色位数描述图像深度,并以此颜色位计算图像的颜色数,如颜色位数为8,则颜色数为28个;用图像分辨率与图像深度的乘积量度图像的数据量大小,如图像的分辨率为320*240,图像深度为8,则该图像的数据量为320*240*8=614400bit。(2)图像的色彩特性图像的色彩空间是指用数学的形式表示亮度和颜色,并以此描述图像的方法。色彩空间具有一致性、完整性、自然性、紧凑性等四个特征。所有的色彩都可以用RGB(Red、Green、Blue,即红绿蓝)加色原理或CYMK(Cyan、Yellow、Magenta、Black,即青黄红黑)减色原理
21、来实现。加色原理是将三基色RGB按不同强度相加,使得总的光强增强,并可得到任何一种颜色。而减色原理是利用滤光特性相减混色,即在白光中减去不需要的彩色,留下所需要的颜色,从而调出任何一种颜色。11/19/202221242多媒体信息的基本属性多媒体信息的基本属性(续续)(3)图像信息的内容特征分析与表示.颜色特征在图像检索领域,颜色特征是最基本和应用最多的一种视觉特征,原因在于它的稳定性,即一方面颜色特征往往只与图像中的场景有关,至于图像的自身变化对其影响较小;另一方面,可以通过一定的色彩空间明确界定颜色特征,而且特征抽取非常容易。目前,颜色特征的分析和表示方式主要有颜色直方图、颜色一致性矢量、
22、颜色相关图等。纹理特征纹理特征(即图像上的花纹或线条)被定义为图像的局部同性质的某一空间信息分布的视觉感知,往往由一系列的基本元素纹理基元组成,并且具有局部不规则性和客观上的规律性,具体体现为粗糙度、对比度、方向性、规整性、周期性等。因此,纹理特征可以独立于图像的颜色和亮度。11/19/202222242多媒体信息的基本属性多媒体信息的基本属性(续续)形状特征通常来说,形状特征有两种表示方法,即轮廓特征和区域特征,前者是对图像中物体或场景的外在陈述,而轮廓的获得必需针对图像的边界进行不断地检测和细化;后者的着眼点是形状所在的整个区间。在实际的表示时,轮廓特征可以用傅立叶形状作为描述符,而区域特
23、征一般用形状无关矩。空间关系特征空间关系表征为图像中物体的物理位置以及不同物体之间的相对位置,它形象地展现了图像中各组成部分的显性联系,能够作为图像信息检索的重要参考依据。11/19/202223242多媒体信息的基本属性多媒体信息的基本属性(续续)语义特征语义特征为蕴含了检索用户对图像内容的认识和理解的高层次特征,需要通过经验知识人为地逻辑推理得来。鉴于语义特征的复杂性和不唯一性,可以将其刻画为三个层次:“特征语义层,通过图像的颜色、纹理和形状等低层特征及其组合提取相关语义描述;对象语义层,通过识别和推理找出图像中的具体对象(物体)及其相互之间的关系,然后给出语义表达;抽象语义层,通过对图像
24、所描对象、场景的含义和目标进行高层推理,得到相关的语义描述。”11/19/202224语义特征的层次模型语义特征的层次模型 11/19/202225242多媒体信息的基本属性多媒体信息的基本属性(续续)(4)Web上常见图像文件的格式BMP图像文件格式BMP是英文Bitmap(位图)的简写,它是Windows操作系统中的标准图像文件格式,能够被多种Windows应用程序所支持。这种格式的特点是包含的图像信息较丰富,几乎不进行压缩,但由此导致了占用磁盘空间过大的缺点。所以,目前BMP图在单机上比较流行,其图像深度可选lbit、4bit、8bit及24bit等。GIF图像文件格式GIF(Graph
25、ics Interchange Format)即“图像互换格式”,是CompuServe公司在 1987年开发的图像文件格式。GIF文件的数据,是一种无损压缩格式,其压缩率一般在50左右,它不属于任何应用程序。在Web上大量使用GIF图像文件。GIF最多支持256种色彩、支持动画、支持透明色。JPEG文件格式JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件扩展名为JPG或JPEG,是目前网络上流行的图像格式,属有损压缩格式,能够将图像压缩在很小的储存空间,图像中重复或不重要的资料会被丢失,容易造成图像数据的损伤。JPEG格式压缩的主要是高
26、频信息,对色彩的信息保留较好,适合应用于互联网,可减少图像的传输时间,可以支持24bit真彩色,也普遍应用于需要连续色调的图像。11/19/202226242多媒体信息的基本属性多媒体信息的基本属性(续续)PNG图像文件格式PNG(Portable Network Graphics,可移植性网络图像),是Web支持的图像文件格式。PNG能够提供长度比GIF小30的无损压缩图像文件。它同时提供24位和48位真彩色图像支持以及其他诸多技术性支持。(5)其它常见图像文件格式TIFF图像文件格式TIFF(Tag Image File Format)图像文件是为桌上出版系统研制开发的一种较为通用的图像文
27、件格式,也是对色彩通道图像来说最有用的格式,非常适合于印刷和输出。PSD文件格式这是Photoshop图像处理软件的专用文件格式,文件扩展名为PSD,可以支持图层、通道、蒙板和不同色彩模式的各种图像特征,是一种非压缩的原始文件保存格式。扫描仪不能直接生成该种格式的文件。它可以保留所有原始作图信息。WMF文件格式WMF(Windows Metafile Format)是Windows中常见的一种图元文件格式,属于矢量文件格式。它具有文件短小、图案造型化的特点,整个图形常由各个独立的组成部分拼接而成,其图形往往较粗糙。11/19/202227242多媒体信息的基本属性多媒体信息的基本属性(续续)2
28、音频信息音频属于听觉媒体的范畴,是以信号形式存在并传播的声音。从声音存在形式和信息载体的角度看,音频可分为三类:波形音频,它是将波形声音的模拟信号数字化后得到的数据流;语音,是指与人类语言具体相关的各种声音的集合,具有高度抽象的特点,经过语音识别等技术可以转换为文本信息;音乐,它是声音以乐谱的形式符号化的产物,往往具有较强的旋律感,而音乐的播放也就是符号化数据流向声音信息转化的过程。从整体的角度看,音频内容可分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级。(1)音频信息的特征经采样等预处理操作后,连续的音频信号将变成离散信号,并且形成m(m1)个采样数据。为了使提取的特征
29、呈现出较好的稳定性,往往将提取的时间限定在一个短时刻内,即短时音频帧内,其特点是帧的长度为4毫秒左右,而相邻帧之间的迭加长度为2-3微妙。在进行短时刻限定时,可以将采样数据划分成n(n1)组,并认定每一组为一个短时音频帧,而每帧内必然存在m/n个采样点。因此,可以从采样点中提取相关特征,如时域特征、频域特征和时频特征等作为音频检索的依据。另一方面,可以从音频语义的持续时间内提取特征,此时,将在持续时间内的音频片段视为音频例子,而从中提取的特征视为音频例子特征。11/19/202228242多媒体信息的基本属性多媒体信息的基本属性(续续)(2)常见Web音频文件格式WAVE文件,即扩展名为WAV
30、,该格式记录声音的波形。只要采样率高、采样字节长、机器速度快,利用该格式记录的声音文件就能和原声基本一致,质量非常高,但文件较大。MOD文件,即扩展名为MOD,它主要存放乐谱和乐曲使用的各种音色样本,具有回放效果明确,音色种类无限等优点。目前只有MOD及一些游戏程序中尚在使用。MPEG-3文件,扩展名MP3,现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD唱片相比,音质不能令人非常满意。RA(Real Audio)文件,这种格式真可谓是网络的灵魂,强大的压缩量和极小的失真使其在众多格式中脱颖而出。它与MP3相同,是为了解决网络传输带宽资源而设计的,因此主要目标是
31、压缩比和容错性,其次才是音质。CMF(Creative Musical Format)文件,Creative公司的专用音乐格式,和MIDI差不多,只是音色、效果上有些特色,专用于FM声卡,但其兼容性较差。CDA(CD Audio)文件,音乐CD唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正、HIFI。但缺点是无法编辑,文件长度太大。MIDI(Musical Instrument Digital Interface,乐器数字接口)文件,扩展名MID,是目前成熟的音乐格式,实际上已经成为音乐工业的数据通信标准,其文件的长度相对较小。11/19/202229242多媒体信息的基本属性
32、多媒体信息的基本属性(续续)3视频信息根据视觉惰性原理,在多幅连续图像的变化速度超过每秒24帧时,人眼将无法辨识出单幅的静态图像,并以为实现了平滑连续的视觉效果。我们把这种连续的图像序列流称为视频。(1)视频的特点视频具有多媒体信息的公共特点,如作为一种时基媒体更适合表现事件的过程,具有极强的信息表现能力;是一系列持续的、非结构化的图像序列流,因此数据量非常大,需要进行压缩编码操作才能更有利于传播、存储和检索等方面的利用。另外,视频信息流的数据结构由故事单元、场景、镜头、帧等构成,并可以由一定的时间结构反映,从而为视频检索奠定了基础,这一点与图像检索和音频检索有明显的不同。11/19/2022
33、30242多媒体信息的基本属性多媒体信息的基本属性(续续)(2)常见的视频文件格式微软视频:WMV、ASF、ASXReal Player:RM、RMVBMPEG视频:MPG、MPEG、MPE Apple视频:MOV Sony视频:MP4、M4V 其他常见视频:AVI、DAT、MKV、FLV、VOB 11/19/20223125基于内容的多媒体信息检索基于内容的多媒体信息检索251基于内容的多媒体信息检索的特点252 CMIR系统的结构模型253基于内容的图像信息检索方法254基于内容的音频检索方法255基于内容的视频信息检索方法11/19/202232251基于内容的多媒体信息检索的特点基于内
34、容的多媒体信息检索的特点基于内容的信息检索(Content-Based Retrieval,CBR)于20世纪90年代进入信息检索的研究领域。所谓基于内容的多媒体信息检索是指利用相关媒体处理技术将媒体对象进行处理,并分析其内容,从而析取出能够充分且真正表现媒体对象的内容特征项,如语义特征、时间或空间特征(结构)、感觉(主要是视觉和听觉)特征、相关联系特征等,并依照这些特征进行基于相似性匹配的信息检索技术。11/19/202233251基于内容的多媒体信息检索的特点(续)基于内容的多媒体信息检索的特点(续)(1)从信息检索的角度看,其特点有:特征提取方式实现了实质性突破直接从媒体对象的内容中寻找
35、特征痕迹,并且实现了特征提取与索引构建的计算机自动化(2)从应用的角度看,基于内容的多媒体信息检索在多媒体处理和操纵领域得以广泛应用,例如,可应用于数字图书馆中、可用于辅助犯罪活动侦查以及应用于对安全性要求较高的商务领域,而在移动商务的应用前景更为看好。(3)从技术实现的角度看,基于内容的多媒体信息检索技术是一项技术的综合体,将多媒体处理和理解技术、模式识别技术、计算机视觉技术、交互式技术、智能技术、认知科学等与传统的信息检索技术相结合。11/19/202234252 CMIR系统的结构模型系统的结构模型一般而言,可以将一个基于内容的多媒体信息检索(CMIR)系统的核心结构划分成四个有机组成部
36、分:媒体处理子系统、数据库子系统、检索子系统和知识辅助子系统。1媒体处理子系统媒体处理子系统的主要任务是预先处理媒体对象,并给予一定的识别标识;提取媒体对象的特征;将多媒体原始数据、特征等内容输入到数据库子系统中存储。2数据库子系统针对于多媒体数据或信息的特点,在建立数据库子系统时,至少需要考虑到三个构成部分媒体数据库、媒体特征库以及相关的数据库管理系统,才能保证多媒体对象的有效存储和管理。3检索子系统4知识辅助子系统11/19/202235CMIR系统的结构模型图系统的结构模型图 11/19/202236253基于内容的图像信息检索方法基于内容的图像信息检索方法1视觉特征检索2语义特征检索3
37、组合特征检索4示例检索5浏览检索11/19/202237253基于内容的图像信息检索方法基于内容的图像信息检索方法基于内容的图像信息检索系统(1)QBIC图像检索系统 QBIC系统,即Query By Image Content,它是图像检索系统商业化的先行者,由IBM公司于20世纪90年代设计成功。在特征分析和获取方面,QBIC系统使用三个主要的图像特征颜色、纹理和形状。在检索方式方面,系统提供示例检索、相关的特征检索以及文本检索等多种方法。(2)MARS系统 MARS系统,即Multimedia Analysis and Retrieval System,由美国伊利诺斯大学Urbana C
38、hampain校区的研究人员制作而成(3)Image Rover图像检索系统 Image Rover是一种面向Web图像导航与检索系统,由两大子系统图像采集子系统和图像检索子系统构成,并且将图像信息和相关文本信息以HTML文件的方式整合在一起。(4)VisualSEEK和WEBSEEKVisualSEEK和WEBSEEK皆由哥伦比亚大学Image and Advanced Television实验室研制,11/19/202238254基于内容的音频检索方法基于内容的音频检索方法1波形音频检索对于一般意义上的波形音频的检索,如鼓掌声、脚步声、动物叫声、鸣笛声、哨音、风雨声、铃声等,当前的研究更多
39、地通过分析、抽取和描述一些基于听觉的声学特性,并依据这些听觉特征的相似性匹配实现检索。所以,波形音频检索又可称为基于听觉特征的检索。2语音检索语音检索是借助于语音识别技术而实现以语音为中心的信息检索技术,语音检索可分成四种类型:利用大词汇语音识别技术进行检索、基于子词单元进行检索、基于关键词发现进行检索、基于说话人辨识进行分割的检索。3音乐检索与其它音频数据相比,音乐具有很多独特的音频特征,如音乐是由不同的乐器打击而成,音乐有很强的节奏感和旋律感、音乐多以音符和乐谱表示并具体化为一系列的音乐事件等。具体而言,音乐特征可以分为基本特征、复杂特征和整体特征等三种 11/19/202239254基于
40、内容的音频检索方法基于内容的音频检索方法4音频例子检索音频例子检索需要解决三方面的问题:音频例子的表达;特征陈述;高效的匹配机制。参考实现原理的差异,本书将音频例子检索分为两类基于模板的音频例子检索和基于模糊聚类的音频例子检索。5基于内容的音频检索系统简介(1)SoudFisher音频检索系统SoudFisher由Audible Magic 公司旗下的Muscle Fish LLC工作组研制的一款商用音频管理系统,可以实施基于内容的音频识别和检索。(2)MELDEX系统MELDEX系统是由新西兰Waikato大学开发的基于旋律的哼唱音频检索,可以在线访问。该系统是在MT(Melody Tran
41、scription,旋律副本)系统的基础上整合了多种音频数据库,同时它提供了多种音频查询方式。11/19/202240255基于内容的视频信息检索方法基于内容的视频信息检索方法基于关键帧的方法、基于(镜头)运动特征的方法以及基于(场景)语义特征的方法。1基于关键帧的方法所谓基于关键帧的方法是指从用户输入的视频流中解析出关键帧特征,以此与特征库中的视频关键帧特征比较和匹配,找到相符的关键帧。2基于运动特征的方法视频检索与图像检索、音频检索的重要区别在于视频检索的着眼点是视频的运动特征,并以此作为相似性匹配的参照。根据运动特征的分类情况,可以将基于运动特征的检索方法细分为基于全局特征的视频检索和基
42、于局部特征的视频检索。3基于语义特征的方法在基于语义特征的检索中,最关键的步骤就是创建具备自动语义分析和提取功能的视频语义检索模型及语义特征的分析与提取技术。4视频浏览检索 11/19/202241255基于内容的视频信息检索方法(续)基于内容的视频信息检索方法(续)5基于内容的视频检索系统简介目前,已进入商用推广层面且非常实用的基于内容的视频检索系统还很少。(1)VideoSTAR系统VideoSTAR系统,即视频存储和检索系统,是挪威技术学院研发的一款基于视频语义的检索系统,适用于数字图书馆等领域的影视编辑和查询。(2)OVID系统OVID系统的设计机构是日本京都产业大学,它采用了视频对象
43、数据模型将每个视频对象表示成四个组件:首帧和尾帧构成的数据对集合、属性值集合、标识符和基本方法,并且可以通过与用户反馈的形式动态地定义视频对象。(3)Algebraic Video System即代数视频系统,是美国麻省理工学院多位学者的研究成果。该系统规划了一种代数视频数据模型来表示视频,通过提取颜色、纹理等视频帧特征和视频语义特征,以及基于特征和注释的索引机制达成基于内容的检索目的。11/19/20224226 本章小结本章小结Web信息和数据在互联网中是以各种文档形式存储和组织并进行传输的。因此,本章重点讨论了Web 信息资源最常见的几种文档类型,包括HTML、XML文档以及图像、音频、视频等多媒体文档。同时,对元数据即数据的数据也展开了探讨,其主要原因是Web信息的查找主要是对后台数据库的访问和搜索,目前Web数据库主要分为字段数据库和全文数据库,其中字段数据库实际上存储的主要是结构化数据,其中包括设计视图中的元数据,这些常常是采用SQL语言进行查找匹配的重要对象。此外,对于多媒体信息以及基于内容的多媒体信息检索也进行了概要性的探讨,重点讨论了基于内容的多媒体信息检索的特点、结构模型和检索方法及常见的CMIR系统。但并未深入讨论多媒体数据内容描述模型,比如音频内容模型、图像内容模型和视频内容模型。有关知识请参见相关的计算机类图书的介绍。11/19/202243