基于内容的多媒体信息检索(共4页).doc

上传人:飞****2 文档编号:14446500 上传时间:2022-05-04 格式:DOC 页数:4 大小:34KB
返回 下载 相关 举报
基于内容的多媒体信息检索(共4页).doc_第1页
第1页 / 共4页
基于内容的多媒体信息检索(共4页).doc_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《基于内容的多媒体信息检索(共4页).doc》由会员分享,可在线阅读,更多相关《基于内容的多媒体信息检索(共4页).doc(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上基于内容的多媒体信息检索摘要:基于内容检索是多媒体研究中的新兴热点,会逐渐在很多领域中得到广泛的应用,本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。关键词:基于内容的检索;多媒体;图像检索;视频检索引言随着信息时代的到来,信息多元化程度加深,人们不再满足于单一的文本交流。多媒体技术的出现,使得信息的表达方式更生动、更容易被人们所理解,因此必将成为信息存在的主要方式。多媒体技术的发展和不断成熟对传统的信息检索系统产生了巨大的冲击,同时也对图象信息的检索、声音信息的获得以及各种媒体

2、信息的检索查询等提出了新的挑战。于是,对多媒体信息的检索需要研究新的手段需要借助计算机对多媒体信息从底层到高层进行处理、分析和理解以有效获取其内容,并根据内容实现方便快捷的检索,基于内容的多媒体信息检索便应运而生了。基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解图像重要特征的算法。目前,基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状和空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题1。由此可见,这是一门涉及面很广的交叉学科,需要以图像处

3、理、模式识别、计算机视觉、图像理解等领域的知识为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。1基于内容检索的概述1.1概念所谓基于内容的检索,就是从媒体数据库中提取出特定的信息检索,然后根据这些线索从大量存储在数据库中的媒体进行查找,检索出具有相似特征的媒体数据2。1.2特点1.2.1从媒体内容中提取信息线索 基于内容的检索突破了传统的基于表达式检索的局限,它直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引,并进行检索。1.2.2基于内容的检索是一

4、种近似匹配 由于对内容的表示不是一种精确描述,因此,CBR采用相似性匹配方法逐步求精,以获得查询结果,即不断减小查询结果的范围,直到定位于要求的目标,这是一个迭代过程3。1.2.3大型数据库(集)的快速检索 实际的多媒体数据库(集)不仅数据量巨大,而且种类和数量繁多,因此,要求CBR技术也像常规的信息检索技术一样,能快速实现对大型库的检索。1.3查询和检索过程基于内容的查询和检索是一个逐步求精的过程,检索经历了一个特征调整、重新匹配的循环过程。(1)初始查询说明。用户查找一个对象时,最初可以用QBE或查询语言来形成一个查询。 (2)相似性匹配。将查询特征与特征库中的特征按照一定的匹配算法进行相

5、似匹配。(3)满足一定相似性条件的一组候选结果,按相似度大小排列后返回给用户。(4)特征调整。对系统返回的查询结果,用户可以通过遍历来挑选,直至得到满意的结果,或者从候选结果中选择一个示例,经过特征调整后,形成一个新的查询。(5)如此逐步缩小查询的范围,直到用户对查询结果满意为止4。2基于内容的图像检索计算机图像数码技术与互联网技术飞速发展的结合,使人们越来越多的接触到大量的图像信息。如何从浩瀚的图像数据库中快速、准确地找出自己所需要的图像,已成为一个受到广泛关注的研究课题。并成为数字化图书馆等重大研究项目中的关键技术。基于文本的图像检索技术可以追溯到70年代末,他通过对图像进行手工注解,然后

6、利用文本检索技术进行关键字检索。90年代,研究者们提出了基于内容的图像检索(Content Based ImagRetrieval,CBIR)。CBIR 使用了可以直接从图像中获得的客观的视觉内容特征,如颜色、纹理、形状等来判断图像之间的相似性。这种方法成了现有图像检索技术研究的主流。他的主要研究内容是在数字图像处理基础上的视觉特征提取、多维索引以及检索系统设计。这类系统主要支持基于范例检索(examplebased retrieval)、基于草图检索(sketchbased retrieval)和随机浏览及其组合的工作方式。就图像特征的作用域而言,CBIR 系统可分为:基于全局特征的检索和基

7、于区域特征及其空间关系的检索。基于全局特征的内容检索不区分图像的前景和背景,通过整幅图像的视觉特征进行图像相似度匹配;而基于区域特征及其空间关系的检索需先进行图像分割,图像的整体相似性不仅要考虑到分割出的区域间的相似性,还要考虑区域空间关系的相似性。CBIR的主要特点是他主要只利用了图像本身包含的客观的视觉特征,图像的相似性不需要人来解释,体现在视觉相似性上。这导致了他不需要或者仅需要少量的人工干预,在需要自动化的场合取得了大量的应用5。在各种网站的搜索引擎中,图像检索系统成为重要工具;医学CT,X射线检索系统中,可以为医生诊断提供重要的参考;商标检索系统中,可在收录了已注册商标库中查找是否有

8、欲注册商标类似的,防止商标的雷同;公安系统中,根据嫌疑犯面部特征在照片库中进行查找类似人员等。 2.1基于内容的图像检索常用的关键技术2.1.1颜色特征提取 颜色内容包含2个一般的概念,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素个数并构造颜色灰度直方图来实现,这对检索具有相似总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,他考虑了颜色的分类与一些初级的几何特征。比如Smith等提出了颜色集合方法来抽取空间局部颜色信息并提供颜色区域的有效索引6。2.1.2纹理特征提取 纹理可以视为某些近似形状的近似重复分布,纹理描

9、述的难点在于他与物体形状之间存在密切的关系,千变万化的物体形状与嵌套式的分布使纹理的分类变得十分困难。在70年代初期,Haralick等人提出了纹理特征的共生矩阵表示。他首先根据象素间的方向和距离构造一个共生矩阵,然后从共生矩阵中抽取有意义的统计量作为纹理表示。Tamura等人则从视觉的心理学角度提出了纹理表示方法,表示的所有纹理性质都具有直观的视觉意义,这使得Tamura纹理表示在图像检索中极具吸引力,而且可提供一个更友好的用户界面。2.1.3形状特征提取 一般说来,形状的表示可分为基于边界的和基于区域的2类,前者使用形状的外部边界,而后者使用整个区域。2.1.4相关反馈 仅基于图像低层特征

10、很难给出令人满意的结果,主要原因是图像低层特征和高层语义间存在着很大的差距。为了解决这个问题,一方面需要研究出更好更有效的图像表示方法;另一方面可以通过人机交互的方式来捕捉和建立低层特征和高层语义之间的关联,这就是所谓的相关反馈技术。相关反馈技术最初用于传统的文本检索系统中,其基本思想是,在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更能满足用户的要求。基于内容检索中的相关反馈技术大致可分为4种类型: 参数调整方法、聚类分析方法、概率学习方法和神经网络方法7。3基于

11、内容的视频检索视频是多媒体数据库中的一种重要的数据,它由连续的图像序列组成。视频主要是由镜头组成的,每一个镜头包含一个事件或一组连续的动作,要对视频序列进行检索。可以通过全局和局部两种特征来进行。全局特征包括视频的名字、制作人、拍摄时间、地点等,这些可由人工注释。局部特征包括镜头关键帧的颜色、纹理等。要获得局部特征,首先必须将视频序列分割为镜头,在镜头中找到若干关键帧来代表镜头的内容,然后再提取关键帧的视觉特征和运动参数并存人特征库中做为检索的依据。为完成镜头分割,必须检测出镜头的切换点。镜头的切换有两种方式,一种是突变,即镜头问没有过渡;另一种是渐变,即镜头间是缓慢过渡的,包括淡人、淡出、慢

12、转换、扫描等。3.1基于内容的视频检索常用关键技术3.1.1关键帧抽取与镜头分割 在视频流信息中,关键帧起着与关键词类似的作用。常用关键帧来标识场景、故事等高层语义单元。比帧高级一些的视频基本单元是镜头,通常视频流中的镜头由在时间上连续的视频帧组成,他代表一个场景中在时间和空间上连续的动作,对应着摄像机的一次纪录起停操作。镜头分割方法分为非压缩域和压缩域2类,非压缩域方法有基于帧差(frame difference)的点到点比较和直方图2种,由于点到点的帧差比较算法对于噪声过于敏感,目前大多非压缩域算法都是基于直方图的。压缩域方法基于视频帧图像的压缩基础之上,切分的依据是比较前后视频帧图像的压

13、缩系数(一般为DCT系数),当满足一定条件时把他们切分为2组镜头。3.1.2视频结构重构 视频结构重构的过程就是将语义相关的镜头组合聚类到一起。举例来说,假设有一段两人对话的视频段,在拍摄过程中,摄像机的焦点在两人之间来回切换,用前面所属的镜头分割技术必然会把这一段视频分割为多个镜头,然而在人类看来,这一组在时间上连续的镜头是相关的,因为这一组镜头是一个情节。显然,故事情节是一种比镜头具有更高抽象层次的结构。虽然可靠准确的镜头边界探测与关键帧抽取对于成功的视频分析很重要,但情节更符合人们在观看视频时对内容的理解方式8。4基于内容的多媒体信息检索的研究方向基于内容的多媒体信息检索已有十多年的发展

14、历史。人们对它的研究已取得了巨大的进展,出现了不少好的理论研究方向,如特征的提取与约减、相似度匹配模型、相关反馈机制等,也设计和实现了一些实验系统。但是,目前基于内容的多媒体信息检索技术在检索准确性、使用方便性等方面还难以达到实用的标准,存在不少需要进一步研究的问题。对它的发展、趋势和前景,许多人已进行了广泛的讨论,下面列举一些值得重视的研究方向。4.1 人机结合多媒体信息检索研究的一个根本性因素在于人的参与,这也是与其它领域研究如计算机视觉、模式识别等相区别的一个重要方面。人是多媒体信息检索系统中不可或缺的一个环节,但在计算机视觉或模式识别领域却并非必要。在多媒体信息检索的研究中,需要寻找一

15、条将人和计算机进行统一结合的最佳路径。早期的研究中人们强调的是如何实现“全自动的检索系统”,并力求寻找所谓“最优特征”。然而这条研究途径并没有带来令人满意的成果,失败的主要原因在于计算机视觉或模式识别技术并没有发展到全自动化所需的技术水平。因此,现在的研究人员把更多的精力投入到“交互式系统”和“人机结合”的课题上来。4.2高层语义和底层特征之间的差距人们在日常生活中习惯于使用高层的语义概念来检索信息。然而,目前的计算机技术能够处理的大多是多媒体内容的底层特征。在某些特定领域应用领域知识,是可能将图像底层特征和高层语义建立某种联系的。但是面向通用的一般的领域,底层特征与高层语义之间存在难以逾越的

16、鸿沟。为了缩小这两者间的差距,需要一些在线或离线的有效学习机制。离线学习可以通过监督学习、非监督学习或两者的结合完成,比如统计模型、神经网络等。在线学习需要设计一个交互学习的智能化查询界面。系统可以根据用户的行为进行再学习。4.3 面向万维网当今世界万维网(World Wide Web,WWW或Web)正在以难以想象的速度发展和扩张。每天都有数以万计的数据被增加到网上去,其中很大一部分是多媒体数据。为了能够有效地利用网上的各种信息,面向万维网的搜索引擎是十分必要的。目前已经有了许多技术成熟的文本搜索引擎,像Google、Yahoo这些搜索网站已经跻身于世界范围内访问量前茅的网站行列,充分说明了

17、人们对搜索引擎的迫切需求9。而对于多媒体信息搜索引擎,尽管已经有一些相关的研究项目,但要达到文本搜索引擎媲美的实用程度还需要技术上的突破。目前主要的技术障碍还是在于不能有效提取多媒体内容的语义。根据对用户使用多媒体搜索引擎习惯的研究,发现采用按主题分类浏览和基于文本(关键字)检索的操作远远高于基于底层特征的检索方式。人们更习惯基于语义的查询,但是目前多媒体搜索引擎的还不能很好的解决这一问题。此外,网上搜索引擎索要处理的是一个规模巨大的数据集,需要研究提高检索速度的技术,如高维数据索引。4.4多模式融合分析多模式融合分析代表了新的研究趋势。文本、图像、视频和音频是目前构成多媒体信息的主要部分。考

18、虑到多媒体信息各种媒体所包含的丰富信息,如果仅仅单独使用某个媒体如视觉或听觉特征进行分析,将导致信息缺失。一个语义事件常常是一个多模式的表达,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声,只对其中一个模式进行分析是不完整的,需要综合多个模式进行判断。更进一步,也是难点,则是要考虑各种模式信息之间的时序关系。综合文本、图像、视频和音频等各种模式的分析不仅在多媒体信息检索领域,而且在许多其他相关领域也是一个重要的研究热点。4.5 性能评价和测试集任何一项技术都是由该领域中相应的评价标准来推动的。就目前而言,多媒体信息检索领域的标准主要是借用了文本检索领域的查准率和查全率。尽管这一评

19、判标准在一定程度上反映了检索系统的某些性能指标,它们还远不能令人满意。一个重要原因在于选取评价标准关系到人们对多媒体内容的主观理解,难以实现完全客观的评价。与评价标准具有同等意义的一个课题是建立一个平衡的、大规模的测试数据集。一个好的测试集必须具有相当的规模,以便于对系统的处理速度和性能进行评价。另一方面测试集又必须是平衡的,即包含了各种类型的多媒体数据,以求对系统的整体性能进行客观的测试。目前在多媒体信息检索领域,还没有一个被广泛接受的评测方法和测试集。包括MPEG-7委员会、NIST(美国国家标准技术局)等在内一些机构正在进行这方面的工作。特别是NIST从2003年开始设立的视频检索评价大

20、赛(TRECVID)正在吸引越来越多人的注意。结束语多媒体信息检索技术是一门综合了数字视频/图像处理、语音识别/语言处理、多媒体数据库、模式识别、人工智能等学科计算机应用技术,随着这些学科发展,多媒体信息检索技术会不断成熟完善,对社会信息化产生巨大推动作用。在可预见的将来,基于内容的多媒体检索技术将会在以下领域中得到广泛应用: 多媒体数据库、知识产权保护、数字图书馆、网络多媒体搜索引擎、交互电视、艺术收藏和博物馆管理、遥感和地球资源管理、远程医疗、天气预报以及军事指挥系统等。参考文献1 赵海霞.基于内容的多媒体信息检索.图书馆杂志,2000,6.2 李国辉.基于内容的多媒体信息存取技术.计算机世界,2000,6.3 吴潇.多媒体信息检索研究.情报检索,2002,10.4 焦玉英,符绍宏,何绍华.信息检索.武汉:武汉大学出版社,2001,5.5 章毓晋.基于内容的视觉信息检索.科学出版社,2003,8.6 李向阳,鲁东明,潘云鹤.基于色彩的图像数据库检索方法研究J.计算机研究与发展,1999,36(3):359-363.7 黄晓倩.多媒体信息检索中的关键技术.图书情报工作,2000,10.8 罗斯青.MPEG-7与多媒体信息检索.电视技术,2002,5.9 庄越挺,潘云鹤,吴飞.网上多媒体信息分析与检索.清华大学出版社,2002.专心-专注-专业

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁