《上海交通大学硕士论文-基于视频印记的同源视频检测.pdf》由会员分享,可在线阅读,更多相关《上海交通大学硕士论文-基于视频印记的同源视频检测.pdf(107页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、上海交通大学硕士学位论文基于视频印记的同源视频检测姓名:徐波申请学位级别:硕士专业:通信与信息系统指导教师:孙军20080101硕士学位论文 基于视频印记的同源视频检测基于视频印记的同源视频检测 摘 要 近年来,网络技术与多媒体技术的飞速发展和广泛应用使得数字视频的产生、拷贝、传播和发布变得越来越容易,数字视频的版权保护问题日益凸现出来。尽管也出现了一些用于多媒体内容保护的物理防拷贝技术和数字水印等技术,但这些技术仍旧无法有效的解决数字视频在已被传播之后的版权鉴定问题。由相同的源视频经拷贝或二次编辑而产生的视频称为同源视频,本文研究的就是同源视频的检测与鉴定。同源视频检测属于基于内容的视频防拷
2、贝(Content-based Copy Detection)技术的一种新的应用形式,该应用形式检测的主要技术手段包括:获取与视频内容相关的各种视频特征信息、采用适宜的特征表示方法、设计合理的特征比对策略以及根据比对结果判定视频之间的相似性等。目前,虽然许多广泛使用在视频检测(Video Retrieval)中的技术也可以在同源视频检测中使用,但由于视频在各种转换和编辑过程中引入的各种噪声,视频特征会发生较大变化,导致传统的视频特征提取和特征比对方法不能达到比较理想的检测效果。本文针对已有的特征提取方法和特征比对策略应用于同源视频检测中对于视频参数变化比较敏感的问题,提出了几种适用于同源视频检
3、测、比较稳定的视频特征选取方法,选择了视频印记这种表示形式,并有针对性地设计了相应的印记比对方法,对于多数常见的视频参数变化,都可以达到比较理想的同源视频检测效果。本文主要在以下方面展开研究工作并取得了一些成果:一、详细总结了与同源视频检测相关的理论知识,包括帧的特征选择以及视频序列的相似性度量模型;结合国内外学者在相关领域的研究成果,明确了目前同源视频检测中的要点与难点;针对同源视频检测,对比分析了现有视频相似性模型的不足,从而引出本文采用的基于视频印记的同源视频检测方法,并阐述了总体的系统检测框架。硕士学位论文 二、总结并分析了已有文献中使用的一些视频印记,针对它们应用在同源视频检测过程中
4、对于各种视频参数变化非常敏感的不足,提出了四种能够稳定反映视频内容的视频印记,它们与视频内容高度相关,并且不会由于视频参数的变化而发生明显的改变。文中通过实验证明了它们的有效性与鲁棒性。三、为了能够合理有效地根据视频印记的相似性判定视频间的同源性,本文引入了生物学中广泛使用的序列比对方法,设计了适用于视频印记比对的比对算法,并针对本文提出的几种视频印记,设计了不同的计分系统用于视频印记的比对。大量的实验数据表明,结合使用本文提出的视频印记和印记比对算法,可以更加有效的进行同源视频检测。关键词:内容保护,视频印记,同源视频,序列比对 硕士学位论文 DETECTION OF CODERIVATIV
5、E VIDEO USING VIDEO SIGNATURES ABSTRACT With the rapid development and wide-spreading use of networking and multimedia techniques,the production,duplication,transmission and publication of digital videos are becoming easier and easier,causing copyright protection of digital video a severer problem i
6、n the past few years.Although some techniques of content protection for multimedia have been investigated,like physical copy detection and digital waterprint,the copyright identification is still an issue for most content suppliers.The videos coming from the same source are called coderivative video
7、,and this thesis is focusing on the detection and identification of coderivative video.The detection of coderivative video is a new application pattern of CBCD for videos(Content-Based Copy Detection),it includes techniques like acquirement of characteristic information related to video content、empl
8、oying of proper characteristic-representing methods、design of appropriate alignment strategy and the coderivativity judging based on the alignment results.Currently,many techniques used in Video Retrieval are be used in coderivative video detection,with not-so-promising effect,caused by many noises
9、introduced by the transforming and editing of videos.In accordance with the sensitivity to degradation of videos by current characteristics extraction methods and alignment strategy,this thesis proposes several steady characteristics aquiring methods which are suitable to coderevitivity detection,us
10、ing the form of video signatures,and designs an accordingly alignment algorithm for these video signatures.It shows promising effect to most common variation of video parameters.The major work and achievements of this thesis include the following aspects:After reviewing most basic theories related t
11、o coderivative video detection,including the similarity measure of both frame and video sequence,the most difficult and important points of this procedure are 硕士学位论文 proposed with the study of achievements in relative fields both home and abroad.Aiming at coderevitivity detection,a detection framewo
12、rk using video signatures is elaborated based on deeply analysis of current video similarity model,which is proved by experiments in the following chapters.As to the signature choosing and production,four video signatures are proposed with the regard of sensitivity of known video signatures to degra
13、dation of video quality in coderevitivity detection,which all show their effectiveness and robustness by massive experiments both between coderivative videos and unrelated videos.Concerning the alignment of video signatures proposed in this thesis,famous sequence alignment algorithms in biology rese
14、arch are introduced,a specific sequence alignment algorithm is designed,along with several scoring functions based on the real meaning of the video signatures this thesis uses.A great amount of experiment data show that a combination of video signatures and the sequence alignment algorithm proposed
15、by this thesis will lead to a more promising coderivative detection result,compared to current coderivative video detection methods.KEY WORDS:Content Protection,Video Signature,Coderivative Video,Sequence Alignment 硕士学位论文 缩略语表 CBVR Content-Based Video Retrieval 基于内容的视频检索 CCV Color Coherence Vector 颜
16、色聚合矢量 硕士学位论文 图片目录 图 1 同源视频的定义.9 图 2 简单相似度模型 SVS.20 图 3 理想相似度模型 IVS.22 图 4 Voronoi 图相似度模型 VVS.24 图 5 Voronoi 图相似度模型示例.25 图 6 同源视频检测的系统框架.31 图 7 系统框架中的预处理流程图.32 图 8 视频序列的结构示意图.37 图 9 视频 Seq1 和 Seq2 的镜头长度印记图.39 图 10 视频 Seq1 与其同源视频 Seq1的镜头长度印记差异图.39 图 11 视频 Seq1 与其非同源视频 Seq2 的的镜头长度印记差异图.40 图 12 视频 Seq3
17、和 Seq4 的帧色差印记图.43 图 13 视频 Seq3 与其同源视频 Seq3的帧色差印记差异图.44 图 14 视频 Seq3 与非同源视频 Seq4 的帧色差印记差异图.44 图 15 色心示意图.45 图 16 色心的运动轨迹.47 图 17 联合印记生成图.49 图 18 局部比对示意图.62 图 19 视频印记比对示意图.75 图 20 视频印记匹配且同源度较高的例子.77 图 21 视频印记匹配但同源度较低的例子.78 图 22 同源度门限值的选取.85 硕士学位论文 表格目录 表 1 帧色差印记的生成过程示例.42 表 2 色心位移印记的生成过程示例.48 表 3 镜头长度
18、印记的有效性测试.52 表 4 帧色差印记、色心位移印记和联合印记的有效性测试.52 表 5 视频印记对比特率变化的敏感性.54 表 6 视频印记对分辨率变化的敏感性.54 表 7 视频印记对帧率变化的敏感性.54 表 8 各种视频印记的有效性比较.56 表 9 各种视频印记对比特率变化的敏感性比较.56 表 10 各种视频印记对分辨率变化的敏感性比较.57 表 11 各种视频印记对帧率变化的敏感性比较.57 表 12 点矩阵计分系统示例.63 表 13 四种计分函数的比较.80 表 14 系统有效性测试结果.82 表 15 系统有效性测试结果(2).83 上海交通大学 学位论文原创性声明 本
19、人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:徐 波 日期:2008 年 1 月 22 日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影
20、印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在_年解密后适用本授权书。本学位论文属于 不保密。(请在以上方框内打“”)学位论文作者签名:徐 波 指导教师签名:孙 军 日期:2008 年 1 月 22 日 日期:2008 年 1 月 22 日 硕士学位论文 1 1 绪论 1.1 本课题的研究意义 随着网络通信技术与多媒体技术的飞速发展,数字多媒体已广泛地应用于教育、医学、公共信息业、广告及娱乐等多个领域,数字电视、视频会议、多媒体广播等各种应用也已经逐步走入人们的日常生活中,网络播客、视频网站也正在被越来越多的人所认识和接受,视频己经逐步成为人类信息传播的主流载体之一。当用户希望从浩瀚的
21、视频数据库中检索出感兴趣的资源时,却发现传统的基于关键词的检索方法已经很难满足需要,经常会得到许许多多完全不相干的内容,其主要原因就在于:一方面,大多数已有的视频数据库都是通过人工的添加关键词或摘要来描述视频信息,而这种“主观”的描述在个体之间存在巨大的差异性;另一方面,这种“人工”描述和多媒体自身的描述本身也存在很大的不同。为了实现对视频、音频等多媒体信息的有效检索,人们开始研究这些多媒体中所包涵的具体“内容”,而基于内容的视频检索(Content-Based Video Retrieval,CBVR)技术也应运而生,并成为一个新的重要研究领域。基于内容的视频检索有很多应用形式,用户除了可以
22、根据关键词或是一张图片来寻找需要的视频外,有时候需要直接根据一段视频在数据库中检索含有相似或相同片段的视频;随着网络技术的告诉发展,数字视频的传播和发布变得越来越容易,数字版权的保护问题逐渐成为困扰诸多视频内容提供商的难题,尽管也随之产生了诸如物理防拷贝技术和数字水印等技术,但还是无法完全解决数字视频在已经被非法传播之后的版权鉴定问题;随着视频网站的发展,越来越多的用户可以更加便捷的上传各种合法或非法的视频至网络,政府相关部门有时需要对网络上的视频内容硕士学位论文 2 进行监管,及时屏蔽一些扰乱社会安定的非法内容所有这些,都需要能够鉴别两段视频的相似性,根据视频的内容特征来检测它们是否由相同的
23、数据源获得,或者是否含有相同或者高度相似的的子片段(Sub Segment)。我们把由相同的源(Source)视频经拷贝或者二次编辑而产生的视频称为同源视频段,比如,一段 50 分钟长的视频节目和其中包含的一段 15 秒钟的广告就是同源视频段;对于含有同源视频段的两段视频,如果同源视频段在其中某段视频中所占的比例高于一个门限值,就称这两段视频为同源视频。一部电影的剧场版和 DVD发行版的数字拷贝之间也是同源视频;而两部具有相同名字的完全无关的电影就不是同源视频。本文研究的主要内容就是同源视频检测。同源视频检测有着广阔的应用领域,例如:(1)视频广告检测 指的是在视频数据或在线视频码流中寻找先验
24、已知的特定内容的视频广告,至少有以下几种用途:?可以被电视台用于节目编辑制作。?可以由视频广告的提供商对电视台的广告播放状况进行检测和确认。?可以在客户端用以检测指定的广告码流,并进行广告剔除或替换处理。(2)视频内容监管 指的是相关行政部门对需要公开发行的视频内容进行的监管,目的往往是要保证视频内容中不能含有某些特定镜头或者某些特定内容的片段,尽量在视频发布之前做内容审查。另外,可以对网络中的视频内容进行抽样检查,对于含有某些特定内容的视频进行相应处理。(3)数字版权鉴定 指的是对于数字媒体进行相似性比较,并给出相似度参考值,从而对非法使用的同源视频进行鉴定。这是一种低成本的数字内容保护技术
25、,尤其用于数字媒体发行后期的版权保护问题,是物理防拷贝和视频水印技术的有利补充,为视频内容提硕士学位论文 3 供商提供全方位的技术保证。(4)视频精确检索系统 有别于现有的大多数视频检索系统会对用户的输入给出匹配度由高到低的模糊匹配的检索结果列表,精确的视频检索系统要求对用户的查询样本返回精确的匹配结果。(5)视频内容挖掘 对于广告制作者和电视台编辑部门,在大量的视频数据库中获取含有某些镜头或视频片段的大量数据,可以大大提高工作效率和效益。1.2 研究现状 近年来,国外已经开发出了一些用于商用的视频检索系统,其中的大多数是基于视频“语义”的检索系统。这些系统往往通过对一个视频数据进行结构化分析
26、,根据与其内容相关的特征信息提取“语义”特征,然后根据这些特征建立索引,并将视频数据按索引构建视频索引数据库,当用户检索时,同样根据用户提供的“语义”特征,与数据库中的视频特征之间进行相似性比对,并将数据库中“语义”特征满足检索要求的视频列表返回给用户。一些典型的图像和视频检索系统如:?QBIC(Query By Image Content)系统 由 IBM Almaden 研究中心开发的,是“基于内容”检索系统的典型代表。该系统允许使用示例图像、用户构建的草图和图画及其选择的颜色和纹理模式、镜头和目标运动等图形信息,对大型的图像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机
27、和对象运动来描述内容。?VideoQ 系统 一个哥伦比亚大学的研究项目,它允许用户使用静态视觉特征和时空关系来检索视频。它有以下几个特征:集成文本和视觉搜索方法;自动的视频对象分割和追踪;丰富的视觉特征库,包括颜色、纹理、形状和运动;可以通过互联网交互查询硕士学位论文 4 和浏览等。?JACOB 系统 一个基于内容的视频数据库查询系统,核心部分可以分为两个功能模块:第一个模块用于视频数据库中的分段,第二个模块用于数据库查询。视频序列通过镜头抽取模块划分为镜头,从每一个镜头中抽取一些代表帧,并通过它们的颜色和纹理内容对镜头加以描述。从视频中抽取的镜头以及从镜头中抽取的代表帧都存储在镜头数据库中。
28、在进行视频查询时,当一个直接查询或示例查询到达查询接口,匹配引擎就开始通过分析存储在特征数据库中的数据来查找最相似的一个代表帧,最终将根据用户选择的N值显示出N个最相似的代表帧。类似的视频检索系统还有很多,上面介绍的这些视频检索系统大多数针对的是视频“语义”相似性的检索,检索结果的要求是要在视觉特征上、内容的“含义”上相似,虽然这些技术也可以用来进行同源视频的检测,但往往并不十分有效。当然,也出现了一些学者将研究侧重点放在“非语义”的视频序列相似性的检测方法上。Lienhart1提出了一种在电视码流中检测商业广告61 62 63的方法,这些广告的内容是先验已知的。为了检测这些视频广告,Lien
29、hart 通过计算目标视频和查询样本中每一帧的颜色聚合矢量(Color Coherence Vector,CCV),对其产生一个数字指纹,然后计算两个视频的数字指纹之间的距离,即从查询样本的数字指纹变化至目标视频数字指纹所需要的编辑操作的次数,然后将这些距离的最小值与一个门限值进行比较,以此来判定两段视频间的相似性。这种方法的问题在于计算量非常庞大,基本上无法在现实环境中使用,同时,由于视频帧的颜色聚合向量特征对于视频的各种参数变化相当敏感,直接进行颜色聚合向量之间的比较使得检测算法的准确性大大降低。与此不同,Mohan2提出了另一种视频序列匹配59 67 68的方法,他在文中通过计算视频的每
30、一帧的序数度量(Ordinal Measure)特征,根据一帧中色彩的粗略硕士学位论文 5 空间分布信息产生一个矢量,用以进行视频序列间的相似性判定。文中使用了一个滑动窗口来对两个视频的特征向量进行比对,通过计算从目标视频滑动窗口的每一帧开始与查询样本的每一个位置特征向量的平均距离,来最终判定视频间的相似距离。由于图像的序数度量特征对于图像质量的变化不是很敏感,所以取得了比较好的效果,但这种方法同样面临一个问题:直接将两个高维的特征向量序列进行比对,对于检测过程中的空间存储量和计算量都是一个巨大的挑战,基本上很难做到在一般应用可以接受的时间内产生令人满意的结果。然而,这种检测方法本身却是一个很
31、好的尝试,也为本文使用的基于视频印记的同源视频检测提供了很好的思路。通过颜色直方图(Color Histogram)进行的同源视频比对方法也被很多学者反复的改进并付诸实践。其中,Naphade3提出了一种方法,使用视频的 YUV 颜色直方图信息产生一个数字表示,并使用滑动窗口来计算查询视频和目标视频序列间从任意一帧开始比对得到的距离,取所有距离中的最小值作为最佳匹配位置,然后与一个自定义的门限值进行比较,用以判定两段视频的相似程度。该方法虽然可行,但由于需要从两个视频的数字表示的任意一帧起都要计算出一个距离,复杂度太高,所以仅仅适合于对于较短的视频序列的相似性判定,而且同样也具有敏感性高的弊病
32、。与之类似,Adjeroh4通过计算一个视频序列中每一帧的颜色直方图也构建了该视频序列的一个数字表示,但不同的是,他并没有直接使用这个数字表示,而是通过一系列的函数映射由这个数字表示产生出了一个字符串。尽管字符串本身并没有意义,但它与这个视频的内容是息息相关的。接着,他使用了字符串匹配的方法来对两个视频的数字表示进行比较,取得了不错的效果。由此可见,直接根据视频帧的颜色直方图特征进行视频相似性判定的方法,往往避免不了由于颜色直方图本身对颜色变化的敏感性而造成的鲁棒性低下,而这种将直接的视频特征比对转化为数字表示间比对的方法同样为本文的同源视频检测方法提供了借鉴。Ng5也提出了一种同源视频的检测
33、方法。文5中首先对视频进行基于内容的结构化分析,使用到了镜头边界检测和基于内容的镜头聚类算法;然后,为两个进行比较的视频分别构建了结构树,并按照自顶向下的顺序对两个视频的结构树进行比硕士学位论文 6 对,其中每个节点的相似度被定义为其子节点的相似度之和,而最底端的叶子节点(表示镜头)的相似度则由组成这些镜头的关键帧的颜色直方图距离等特征来决定。可以看出,真正决定视频相似性的因素还是两个镜头间颜色直方图的距离,所以这种方法对颜色的变化仍然比较敏感;同时,由于需要对完整的视频进行分析来生成结构树,所以这种方法只能局限在对两段完整视频进行比较,而无法用于对持续视频流的相似性检测。Cheung 和 Z
34、akhor6提出的同源视频检测方法,在由每段视频的所有帧所组成的集合中,通过某种策略选取一个子集,用来产生一个表征该视频内容的数字表示,称为视频印记;然后,采用与 Adjeroh4类似的方法,通过两个视频印记的比对来判定视频序列的相似性。由于在产生视频印记时采用了“主观”的子集选取策略,所以构造的视频印记在很多时候并不能有效的反映视频的内容,这种方法只对某些类型的视频有效果。上面提到的许多方法中都存在计算量巨大的问题,而 Hoi7则提出了一种分级的检测框架:首先,利用较低层次特征产生的视频印记比对进行粗判,从而大大减少需要精确判断的范围;然后,使用一些含信息量较多的视频印记进行比对,由此获得最
35、佳的比对结果。文7中的实验表明,这种分级检测的方法可以在一定程度上有效的减少计算量。另外,Hampapur 和 Bolle8在他们提出的视频检索系统中使用到了索引技术,该系统允许两个视频间帧与帧的快速匹配,但不支持相似匹配,两个视频帧的数字表示必须完全相同才算匹配,而这种“完全相同”的条件在现实中很少可以满足,同源视频并不是完全相同的视频,从而造成了这种方法非常低的查全率。从目前的研究情况来看,当前同源视频的检测存在的主要问题可以总结如下:(1)直接对于两个视频的特征进行比对,造成系统存储空间和计算能力的巨大负担,检测效率低下。(2)在比对特征的选取时,多数都使用了视频帧的色彩特征间的直接比较
36、,造硕士学位论文 7 成对视频各种参数变化的高度敏感性,使得检测效果欠佳,鲁棒性不高。(3)对于两个特征序列的比对或是两个视频序列产生的数字表示的比对中,缺乏一种高效合理的序列比对方法,对于每个比对序列的每一个位置都需要进行一次序列之间的相似度计算,造成系统效率低下。(4)多数方法只能做出两个视频总体的相似性比较,很少有方法可以检测出只有部分视频段之间高度相似的同源视频。1.3 内容安排和主要工作 本文从现有的研究成果出发,使用了一种基于视频印记的同源视频检测方法。在比对特征的选取中,选择了能够有效体现视频内容变化的特征,并产生了高度压缩的视频印记来表征视频的内容,这就将视频的相似度判定转化为
37、视频印记的相似性判定。在基于视频印记的序列比对中,引入了基于动态规划的序列比对算法,根据视频印记的特点,设计了专门的序列比对算法和几种比对中至关重要的计分函数,很好的解决了视频印记高效准确的比对问题,从而可以有效的进行同源视频的检测。此外,本文的方法还可以检测出只有部分视频段同源的情况。本文的主要创新点和成果有如下几点:(1)详细总结了当前各种可以用于同源视频检测的技术,包括图像的特征选取、视频的相似性度量模型等;结合国内外学者相关领域的研究成果,明确了目前同源视频检测中的要点与难点;在此基础上,引出了本文使用的基于视频印记的同源视频检测方法,并阐述了总体的系统检测框架。(2)对已有视频印记进
38、行了总结,并分析了这些视频印记的不足;在此基础上提出了四种能够有效稳定的反映视频内容的视频印记,详细介绍了每种视频印记的选取与生成方法;通过实验验证了四种视频印记在同源视频检测中的有效性和鲁棒性。(3)针对本文提出的几种视频印记,结合生物学中基于动态规划的序列比对方硕士学位论文 8 法,设计了合理高效的印记比对算法;针对本文视频印记的特点,设计了几种不同的计分系统用于视频印记的比对;最后,通过大量的实验来证明本文同源视频检测方法的有效性。本文余下部分的结构如下:第二章详细介绍了同源视频检测的理论基础,包括同源视频检测的准确定义和要点分析、帧级别的特征选取以及视频序列的相似性度量模型;在此基础上
39、,引出了本文使用的基于视频印记的同源视频检测方法,并对难点进行了分析,最后给出了总体的的检测框架。第三章对已有视频印记进行了总结,分析了它们的不足,并在此基础上提出了四种能够稳定反映视频内容的视频印记,详细描述了每种视频印记的特点及生成方法,最后对这些视频印记进行了有效性和鲁棒性验证。第四章特别针对本文提出的视频印记,结合一般的序列比对方法,有针对性的设计了专门的印记比对算法,同时还讨论了几种不同的计分函数用于视频印记的比对,取得了良好的效果;最后通过大量的实验证明,本文提出的视频印记及其快速比对算法可以更好的用于同源视频检测。第五章对全文内容进行了总结,并对未来的研究工作进行了展望。硕士学位
40、论文 9 2 同源视频检测理论 2.1 同源视频检测概述 2.1.1 同源视频检测的定义 在绪论中我们提到了本文的研究对象同源视频的概念。简单的讲,有 A 和B 两个视频,如果它们含有同源视频段,并且同源视频段在A或B中占有很大的比重,则我们称A和B为同源视频。我们这样定义同源视频检测:给定一个目标视频 D,和一个查询样本 Q,其中目标视频是一个较长的参考视频,而查询样本一般是一个较短的视频,如图 19所示,我们需要知道是否存在一个属于 D 的帧序列12,.dd d=和一个属于 Q 的帧序列12,.qq q=并且 d 和 q 为同源视频段。图 1 同源视频的定义 Figure 1 Defini
41、tion of Coderivative Video Detection 在图 1 中,帧序列 q 和 d 是由相同的源视频 S 经过编辑产生的,很明显,由 S变成 q 和 d 分别经过了不同的操作处理,可能会包括色彩亮度的调整,编码格式的变化,分辨率调整或直接的删减等。尽管这些操作可能影响到视频的某些属性、参硕士学位论文 10 数等,但在总体内容上,q 和 d 仍然是相同的,我们应该可以根据 q 和 d 内容上的相似性来判定它们的同源性。同时,在判定了 q 和 d 的同源性之后,我们要考虑视频 D 和视频 Q 的同源性定义,这需要序列 q 在视频 Q 中占有比较大的比重,我们记为,称作视频
42、D 与视频 Q 的同源度,只有同源度高于一定的门限值,我们才认为视频 D 与视频 Q 同源,我们在后面的章节中还会专门对同源度进行更加详细的讨论。本文同源视频检测的目的就是要最终判定视频 D 与视频 Q 的同源性,并且给出其同源视频段的位置和同源度的大小。为了更好的理解同源视频的含义,我们举一些例子:(1)一段 50 分钟长的视频节目中,包含有一集电视节目和 10 支广告,那么任意一支广告视频本身与这个 50 分钟的视频中的相应区域就是同源视频段。(2)电影指环王的剧场版和它的 DVD 发行版就是同源视频,因为它们的内容绝大多数上完全相同,只是在 DVD 发行版中可能加入了一些花絮等。(3)两
43、部具有相同名字,但内容完全无关的电影不是同源视频,他们可能在“含义”上具有相似性,但视觉上没有任何相似性。(4)对同一个场景由不同摄像机拍摄出来的两段视频,它们可能在视觉上有非常相似的地方,但它们本身并不是由相同的源视频获得的,两个摄像机拍出来的是两个不同的源视频,所以它们也不是同源视频。对于任意两段视频,如果组成它们的视频帧当中存在大量在视觉感受上高度相似的连续帧,即使它们在色彩或某些其它细节上有所差别,但画面中的对象轮廓、对象的移动、画面的色彩构成等仍然会对人脑产生相似的刺激,使我们认为两个视频段间具有相似性。识别同源视频对于人脑来说相对容易,但对于计算机来说就完全不同。判断两张静态图片的
44、相似性可以从图像本身一些特性向量间的距离入手,当距离大于某个门限值就认为两张图像不同,而对于视频而言,它是图像帧的序列,两个序列的相似性该如何定义,如何保证在两个视频在比较过程中对应的帧能够对齐比较,如何快速有效的判定两个视频的相似性,这些都是本文要考虑的问题。硕士学位论文 11 同源视频段的来源,主要有以下两种情况:(1)两段视频由相同的源视频经过二次编辑获得。(2)两段视频由相同的源视频的拷贝经过二次编辑获得。无论是由原始视频获得,还是由其拷贝获得,在二次编辑过程中或者拷贝过程中,都会天然的或人为的引入各种额外的噪声和变换,包括有:编码方式的变化、量化误差、色彩空间转换、时间漂移、画面剪裁
45、、字幕嵌入、视频边界镜头切割、色彩漂移、额外视频插入等等。这些噪声和变换都会对视频内容产生一定的影响,给同源视频的检测带来困难。下面我们讨论同源视频检测的一些重要元素。2.1.2 同源视频检测的要素 在明确同源视频检测的目的之后,我们知道,同源视频并不是完全相同的视频,而是由相同的源视频经过各种变换、处理得到的视频序列。其特点在于:总体上的“语义”内容是相同的,包括视频中镜头的先后顺序、其中的各种对象轮廓、对象运动、色彩的相对强度和分布等;同时,又有一些东西是不同的,包括同样一帧的编码方式、比特率、色彩的亮度值、分辨率等等。而同源视频检测的目的就是从这些内容中找出不变的特征或变化不大的特征,提
46、取、比较,从而得知两个视频的总体相似性;另外,如果两个视频间有局部的高度相似部分,也希望能够检测出来。所以,同源视频检测主要包含两个要素:(1)从视频内容中提取出不易随视频参数变化而改变的特征。(2)对两个视频的相关特征进行相似性比对。对于第一个要素,由于视频本身是一个帧序列,其基本单位是帧,即图像,所以表征视频的特征在本质上仍然与图像相关;另一方面,由于视频是一个帧的序列,帧之间的变化信息往往也可以体现视频的内容特点。已经有很多相关文献28在帧特征的选取方面有所研究,取得了许多成果,而同源视频检测对于比对特征的选取则硕士学位论文 12 有着更为严格的要求,需要这些特征即使在视频经过各种变换、
47、处理和编辑之后,仍旧能够基本保持稳定,而不发生很大的变化,从而可以稳定反映视频的真实内容。就第二个要素来说,要对视频的特征进行相似性比对,将会涉及到两个视频之间相似性的定义、视频相似性与特征相似性的关系等等;另外,由绪论中提到的文12我们知道,即使选取的特征能够稳定的反映视频内容,直接进行特征的比对还是会造成系统存储空间和计算效率的巨大负担,所以一种更加合理有效的特征比对方法也是同源视频检测研究的重要内容。接下来,我们首先从帧的特征选取和视频的相似性度量模型来介绍同源视频检测的相关内容。2.2 帧的特征选取 帧的内容是通过图像的特征来反映的,可以将图像的特征分为两大类,即低层物理特征(如颜色、
48、纹理、形状、轮廓、图像内容的空间和时间关系等)和高层语义特征(是人们对图像内容概念的反映,一般是对图像内容的文字性描述)。图像的相似性主要通过其基本特征的相似性来判定,一般用到的特征包括颜色、纹理、形状、空间关系、图像的语义等。2.2.1 颜色特征 颜色是物体的一种重要视觉特征。每种物体都有其特有的颜色特征,也就是说同类事物往往具有相似的颜色特征,因而可以用颜色特征来区分相应物体进而建立相应的描述检索技术。目前基于颜色特征的相似性度量方法有两类:基于全局颜色的方法和基于局部颜色的方法35。(1)基于全局颜色的方法 基于全局颜色的方法目前主要采用的是颜色直方图的方法,如 Swain38提出的基于
49、图像色彩概率的颜色直方图方法,但该方法丢失了图像的空间信息;Pass13等硕士学位论文 13 人提出的基于颜色聚合矢量 CCV(color coherence vector)就是对 Swain 方法的修正,在一定程度上保留了图像颜色的空间信息;MStricker 和 Orengo15提出了基于累计颜色直方图与颜色矩的方法;Rickman67提出了基于颜色元组的直方图法等等,都是全局颜色直方图的典型代表。全局颜色方法是从整体上对图像特征的描述,是一种平均结果,同时对所有特征以相同重视程度对待,显然会在很大程度上丢失一些对特定用户有特殊作用的局部信息。下面简单介绍以上提到的其中几种方法:A.颜色直
50、方图12 对两幅图像,选定一种颜色空间,如HSV或者YUV,将颜色空间分为一个个离散的颜色小区间,计算每帧彩色图像落入每个小区间的象素数目直方图定义为:12K111()(),(),()kkkkkkH iH iH iH i=,(2.1),其中,()H i表示第i帧的直方图特征,()kH i(1,kK)表示第i帧第k维的直方图信息,K为直方图特征的维数。两幅图像直方图的相似度D可以定义为:121(,)DHistogramInterSection H H=(2.2)B.CCV(color coherence vector)13 对某一颜色分量,将其量化(如256个分量值量化成16种),应用到每一个像