基于内容的视频分析与检索(共6页).doc-淘文阁

资源描述

《基于内容的视频分析与检索(共6页).doc》由会员分享，可在线阅读，更多相关《基于内容的视频分析与检索(共6页).doc（6页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上摘要文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况，并简要介绍了现阶段在这方面的研究热点及以后要做的工作。一、问题的提出：互联网的出现给人类带来了很大的便利，特别是实现资源共享之后的互联网，但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢？而90年代以来，多媒体技术和网络技术的突飞猛进，人们正快速的进入一个信息化社会。现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据，出现了数字图书馆、数字博物馆、数字电影、可视电话、交互电视、会议电视、点播视频服务、远程教育以及远程医疗等多种新的服务形式和信息交流手段，在众多

2、的多媒体信息中最大也是最主要的一种就是视频信息，人类接受的信息约有70%来自视觉，视频所携带的信息量远远大于语音和数据。在视频信息高度膨胀的今天，随之而来的问题就是对海量视频信息的高效检索和浏览，即人们如何快速有效地查看大量的视频信息，并从中找出自己感兴趣的内容。传统的视频信息检索方案是使用文字标示符进行检索，具体到对视频帧的查询是借助对帧图像的编号和注释来进行的，首先给帧图像加上一个对其描述的文字或数字注释，然后在检索时对注释进行检索，这样一来对帧图像的查询就变成了基于注释的查询。这种方法虽然简单，但不能完全满足对视频数据检索的需要，首先视频数据量很大，用手工方式添加注释工作量很大，而且效

3、率很低；其次视频内容丰富很难用文字标签完全表达；再次文字描述是一种特定的抽象，特定的标签只适合特定的查询；最后文字标签是靠观察者加上去的，因此受主观因素的影响，不同的观察者可能有不同的描述1。从而需要一种客观全面的视频自动检索方法，基于内容的视频检索(Content-Based Video Retrieval，CBVR)应运而生。它根据视频的内容及上下文关系，对大规模视频数据库中的视频数据进行检索。提供这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。区别于传统的基于关键字的检索手段。融合了图像理解、模式识别、计算机视觉等技术。近年来随着多媒体信息在娱乐、商业、生产、医学、

4、安全、国防、军事等领域的大量应用，基于内容的视频检索技术己经成为近年来国内外研究的热点问题研究视频数据的高效分类、处理和索引技术，建立和完善视频信息的快速浏览检索机制，开发功能强大、使用便捷的视频信息浏览检索系统，既具有极大的理论价值，也具有巨大的应用潜力。二、解决方案：视频标注:视频标注是通过人工的方式将某一段视频进行主观的属性标注，然后以文本的方法进行检索。视频标注技术己相当成熟，但有其固有的不足，第一，要人工手动完成，工作量极大，且效率很低。第二，某些视频和感知特征很难用文字来描述。第三，主观性很强，没有统一的标准，不同的人对同一段视频有不同的理解，必然导致不同的标注结果。视频摘要:

5、视频摘要以自动或半自动的方式，从原视频中提取有意义的部分，将它们合并而成的紧凑的、能充分表现视频语义内容的视频概要。视频摘要技术也有一定的发展，同时给基于内容的视频检索提供了思路，但与真正的基于内容的视频检索有一定的距离。基于非压缩域的视频内容检索:基于非压缩域的视频内容检索是以视频的低层特征为基础进行分析，特征提取等，最后以视频的本质特征为检索依据，完全实现检索的自动化。基于非压缩域的视频内容检索己有相当的研究成果，但由于其所有算法均要在完全解压的基础上进行，而视频数据不但数据量很大，而且运算量也很大，所以在具体实现时并不理想。基于压缩域的视频内容检索:基于压缩域的视频内容检索是在不完全

6、解压或不解压的前提下以视频流的低层特征为基础进行分析、特征提取等，最后以视频的本质特征为检索依据，完全实现检索的自动化。由于基于压缩域的视频内容检索在没有解压或没有完全解压的前提下进行，所以其优点是:第一，大大减小了数据量，第二，减少了数据运算量，从而大大提高了系统的效率。三、国外研究现状：1、QBIC是IBM研究中心开发的基于内容的检索系统，它是第一个功能齐全的视频数据库系统，也是基于内容检索系统的典型代表，对视频数据库发展有较远的影响。QBIC系统支持示例查询和用户草图查询，抽取颜色、纹理、形状特征、以及镜头和目标运动等信息，并采用R-tree作为高维索引结构，进而结合关键字对大型图像和视

7、频数据库进行检索。2、Infor media数字视频库工程是卡耐基梅隆大学(CMU)关于数字视频媒体的处理与管理的一个重大项目，是较为完整的基于内容视频分析原型系统的先驱。该系统率先将数字音频处理技术和文本处理技术运用到基于内容视频分析中，通过语音识别和文字识别获取视频语义、辅助视频分段、抽取有意义的视频片段生成视频摘要，支持自动的全方位的视频信息查询，以支撑基于内容的视频浏览、检索和服务。3、videoQ是一套全自动的面向对象的基于内容的视频查询系统，是由哥伦比亚大学的图像与高级电视实验室研制的一个原型系统。它拓展了基于关键词或主题浏览的传统检索方式，提出了全新的基于丰富视觉特征和时空关系的

8、查询技术，可以帮助用户查询视频中的对象，其目的在于探究视频中潜在的所有视觉线索并用于面向对象的基于内容的视频查询。目前VideoQ支持着一个巨大的视频数据库，同时，VideoQ又是一个面向Web的视频搜索系统。4、visual SEEK是一个视觉特征查询系统，WebSEEK是一个面向WWW的文本/图像/视频查询系统，它们是由哥伦比亚大学开发的。visualSEEK/WebSEEK的主要特点是根据图像区域的空间关系检索和从压缩域提取的视觉特征，它们采用的视觉特征是颜色集和基于小波变换的纹理特征，为了加快检索速度，使用了二叉树索引算法。这套系统具有某些概念强大的模块：基于内容的图像检索概念、根据用

9、户相似度反馈的查询优化、视觉信息的自动提取、查询结果视频/图像的缩微表示、图像/视频的主题浏览功能、基于文本的查找、对查询结果的操作等。5、CVEPS是COLUMBIA大学开发的视频检索和操作系统的软件原型，支持自动视频分割，基于关键帧和对象的视频检索和压缩视频编辑。6、JAKOB是意大利Plerm大学开发的视频数据库查询系统，该系统通过镜头提取器把视频数据分割成镜头，从每个镜头中选取一些具有代表性的帧。根据颜色和纹理描述这些代表帧，然后计算与这些短序列相关的运动特征并给出一个动态描述。当向该系统提交一个查询或是例子直接查询时，查询模型会对它做出解释，排列好匹配参数，给出最相似的镜头。用户可以

10、浏览这些结果，必要的话，改变参数，反复地进行查询。7、viSION是KANSAS大学开发的数字视频图书馆原型系统，在该系统中综合了视频处理和语音识别，根据基于视频和音频内容的两段式算法，自动把视频分成大量具有逻辑语义的视频剪辑，在系统中加入标题译码器和字指示器提取文本信息，通过他们索引视频剪辑。8、gnalgle足球视频搜索引擎是Alllsterdam大学开发的足球视频分析系统。该系统基于web应用，具有树型结构框架。用户可以很方便的找到如进球，黄牌，红牌警告，换人，或者搜索到特殊的球员。9、Rochester大学的体育视频分析系统，能较好的对体育比赛视频进行物体目标和事件的检测，并且最终形成

11、精彩镜头的视频摘要，该系统已用于2004年奥运会，将足球比赛视频处理，传送到用户的手机上。四、国内研究现状：1、Tv-FI(Tsinghua Video Find It)是由清华大学开发的视频节目管理系统，功能包括：视频数据入库，基于内容的浏览、检索等。2、iVideo是由中国科学院计算技术研究所数字化技术研究室开发的视频检索系统，是一套基于J2EE平台的具有视频分析、内容管理、基于Web检索和浏览等功能的视频检索系统。 3、Videowser是由国防科技大学胡晓峰教授和李国辉教授主持的研究组所开发的原型系统。该研究组的研究工作主要集中在视频的结构分析方面，他们对镜头分割、关键帧提取和镜头聚类

12、等问题进行了研究和探讨，最近该研究组开始了对音频特征提取和检索方面的研究。以及多媒体研究中心和系统工程系研究开发出了新闻节目浏览检索系统伽（New Video CAR)和多媒体信息查询和检索系统。 4、浙江大学潘云鹤院士和庄越挺教授研究组主要针对视频检索和视频相似度衡量等问题进行的研究，提出了基于镜头质心特征向量的视频相似度衡量方法，从而提供了一种从图像序列特征方面来进行视频检索的方法。另外，该研究组还试图从视频流中的闭路(Closed-Caption)中提取信息来进行视频检索。 5、北京大学高文教授主持的研究组主要进行在复杂背景下的人脸检测与跟踪系统方面的研究，他们设计并实现了一种基于特征子

13、脸(Eigen Subface)的人脸检测与跟踪系统，它首先利用模板匹配的方法进行粗检测(利用一种灰度分布的人脸模板)，并在此基础上收集有效的反例样本集(非人脸样本集)，来提高识别的精度。目前该研究组正在进行综合音频特征和图像序列特征的唇读(Lip-reading/Speech-reading)研究。 6、Ifind信息检索系统是微软亚洲研究院的张宏江博士所带领的小组研制出的系统，取得的成果最为突出。五、关键技术第一部分为镜头分割，第二部分为关键帧提取，第三部分为基于特征的视频索引与存储组织。镜头分割:镜头分割的主要思想为依据两帧图像的特征值的差值与给定阂值进行比较，如果差值大于给定的阂值，

14、说明两帧的特征变化较大，可以认为两帧为不同的主题，在此两帧之间进行镜头分割；如果差值小于给定的阂值，则说明两帧的特征变化较小，可以认为两帧为同一主题，可以继续进行下两帧的比较17。特征提取: 视频特征主要包括文本特征、声音特征和图像特征。从基于内容的角度来说，文本特征指的是由视频内容本身抽取出来的文本信息，主要是自动语音识别(ASR)和视频字符识别(VOCR)的结果。自动语音识别和视频字符识别所得到的文本信息可以像传统文本那样抽取特征和进行索引。基本的声音特征包括全局和局部的频谱信息，在此之上还可以获得响度、音调、亮度、带宽、调合性等信息，或者是安静、语音、音乐、汽车、爆炸等分类信息。基于这

15、些信息，人们可以进行基于声音的检索或者过滤。由于图像是视频中不可或缺的要素，同时图像检索已经有了相当长时间的研究，所以图像特征的研究较为广泛。对一个镜头，一般先根据某种标准来选取一个或几个关键帧，然后再对关键帧提取图像特征。常用的图像特征包括颜色、纹理和形状，这是当前基于内容的图像和视频检索中最常用的特征。近几年来，语义概念特征成为研究的热点。语义概念特征是指对视频的语义层次上的描述特征。它是通过机器学习的方法，利用文本、声音和图像等特征来自动建模和抽取的。语义概念特征能够允许人们自然地在语义层次上进行检索，同时对更有效的浏览也有很大的帮助。自动检索:在自动检索中，用户的有效的查询输入是第一个

16、问题，尽管它往往被简单地忽略。大多数基于内容的视频检索系统假定用户的查询输入为示例图片，当文本特征存在时，用户可以用文本做输入，以视频片断为输入的系统很少见，这种输入方式实际上并不是很现实和有效，因为用户不一定能找到合适的示例图片，而文本特征在基于内容的视频检索系统中并不总是存在的7。对用户给出的查询，基于抽取出来的特征，最常用的检索方法就是文本检索(文本特征、语义概念特征)，相似性检索(声音、图像特征、语义概念特征)和基于机器学习的检索(声音、图像特征、语义概念特征)。高维索引技术:许多检索算法的实验数据仅仅几百个或上千个，虽然采用顺序搜索，但感觉不出检索的响应时间。而对于大型媒体库，则肯定

17、需要建立索引，因此，需要研究新的索引结构和算法，以支持快速检索。目前，一般采用先减少维数，然后再用适当的多维索引结构的方法。虽然过去己经取得了一些进展，但仍然需要研究和探索有效的高维索引方法，以支持多特征、异构特征、权重、主键特征方面的查询要求2。六、展望目前国际标准化组织正致力于研究基于内容的编码，它将编码与基于内容的检索应用紧密地联系起来。MPEG-4已开始在一定程度上考虑基于内容检索的一些特点。目前，MPEG标准组织正致力于制定和完善多媒体内容描述标准MPEG-7。其目标是要制定一个标准化的多媒体内容描述的框架，以便于实现多媒体内容的有效表示和检索。MPEG-7从视听内容描述的不同的角

18、度定义了一系列的方法和工具。从总体上讲，研究者们己从CBVR系统的不同技术着手，取得了相应的成果。大部分研究沿袭了计算机视觉、模式识别、数据库索引等领域的研究思路，在研究更符合基于内容的视频检索自身特点的技术方面也取得了一些进展，如相关反馈、语义特征提取等。但这些研究还远不能满足实际应用的需要。所以今后很长一段时间内还有很多工作要做：（1）选取更为有效的视频特征。现有的颜色、纹理等特征还不能有效表示视频的内容。为了提高镜头和场景视频特征，在这些特征的选取过程中，可以结合用户反馈，通过机器学习自动完成。（2）多特征融合检索技术。目前的研究大部分集中在可视媒体，尤其是图像和视频方面。但我们生活的信

19、息环境是全方位的，多媒体信息还包括典型的音频媒体，以及图形、动画等媒体。随着信息化进程的深入，这些媒体数据将会越来越多，不可避免要面临检索问题。即需要对数字音频、语音和音乐进行基于内容的检索，对合成媒体如动画、VRML数据进行检索等。在研究单一媒体的检索同时，注意研究多种媒体的互相关联和互补关系，以提高检索算法的效率。（3）视频相关反馈。CBVR系统的一个重要特征就是信息获取过程的交互性，同时用户查询接口智能化是今后发展的一大趋势。查询接口应提供丰富的交互能力，为用户在主动的交互过程中表达对媒体语义的感知，调整查询参数及其组合，最终获得满意的查询结果。研究主要涉及如何转换用户的查询表达到可以执

20、行检索的特征矢量，如何从交互过程中获取用户的内容感知以便选择合适的检索特征等问题6。（4）在镜头检测方面。经过多年的发展，基于内容的视频检索技术在镜头的检测上已经取得了一定的进展，很多不同的算法被提出来，但是还有一些不完善的地方需要改进，特别是在镜头渐变检测方面由于镜头渐变类型很多而且很复杂，要完全准确检测出渐变镜头还有很多工作需要去做。（5）人机交互功能。视频检索系统最终的功能是给人提供一个方便的检索平台，因此一个人性化的人机交互平台是必不可少的。例如多种的输入手段、灵活的交互手段、有效的反馈机制等等，都是一个人性化的检索系统所必需考虑的，一个检索系统在人机交互上的好坏将是系统性能很重要的方

21、面，在这方面也有很多需要我们去研究的工作。（6）性能评价指标。目前对视频检索系统性能的评价还没有统一的标准可以遵循，而且检索系统的性能应考虑系统已具有或者应具有的各种性能。对于基于内容的视频检索系统，不仅搜索功能很重要，其他如浏览，组织和数据挖掘等方面的能力也很重要，所以对系统的衡量一定要全面。这方面的研究也正成为研究的热点，也有很多工作值得我们去做。（7）基于压缩域的检索。视频压缩技术的发展势头是非常迅猛的，尤其目前以HDTV为代表的压缩技术己经与市场紧密结合，影响日益扩大。视频数据经过压缩以后，其中的大部分冗余信息被消除，保留的信息正是反映视频特征的信息。这个领域的研究可以从两方面入手：其

22、一，挖掘现有的压缩算法所能够支持的视频内容分析技术，这样就可以直接在压缩码流上完成大多数视频分析工作；其二，不断开发新的面向视频检索应用的压缩算法，使得压缩视频能够直接体现视频的内容特征和语义规则。（8）基于网络的检索。网络的迅速发展和广泛应用，既推动了视觉信息检索的应用，也对视觉信息检索的技术提出了新的挑战。基于网络的文本检索技术基本成熟，baidu和google就是这一技术的典型代表，然而网络资源中的文本只是其中很小的一部分，而最有意义与最有说明力的资源是普遍存在于网络中的视觉信息，如图像和视频，但目前对于视觉信息的检索技术很不成熟，目前仍没有一种成熟的产品问世。（9）基于语义的检索。现在

23、的视觉检索系统在对图像内容进行描述时大多采用了文本的方法或低级图像特征，而建立在低级特征基础上的传统的图像描述模型中，对图像的描述一般以统计数据的形式出现，实际上，这些统计数据与人对图像内容理解存在很大差异。首先，人对图像内容的理解并不是仅靠统计进行的，人还有学习的能力，其次，图像内容具有“模糊”的特性，无法用简单的特征向量来表示，最后，人对视频信息的理解是建立在人类己有知识的基础之上的，而这些低级特征无法反映这些经验知识。由此可见，如何描述视觉信息内容，使其尽可能与人对图像内容的理解一致，是图像检索的关键所在，也是难点所在，从人的认识角度看，人对信息的描述与理解主要是在语义层进行的，因此，如何将语义特征结合到检索系统提高检索系统的性能己越来越受到关注。专心-专注-专业

展开阅读全文