《多媒体技术基础与应用(第3版)鄂大伟chap.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础与应用(第3版)鄂大伟chap.ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多媒体技术基础与应用第十章 运动图像压缩标准MPEG10.1 10.1 从从MPEG1MPEG1到到MPEG7MPEG7:MPEGMPEG标准简述标准简述10.2 MPEG10.2 MPEG的编码与实现过程的编码与实现过程10.3 10.3 基于对象编码技术的基于对象编码技术的MPEG-4MPEG-410.4 10.4 基于内容的信息存取与基于内容的信息存取与MPEG-7MPEG-710.5 H.26110.5 H.261与与H.263H.263多媒体技术基础与应用10.1从MPEG1到MPEG7:MPEG标准简述10.1.1 视频压缩技术历史概述视频压缩技术历史概述 视频能够压缩的根本原因在
2、于视频数据具有较高的冗余度。视频能够压缩的根本原因在于视频数据具有较高的冗余度。压缩就是指冗余的消除,主要基于两种技术:统计学和心理压缩就是指冗余的消除,主要基于两种技术:统计学和心理 视觉。消除统计冗余的基本依据是视频数字化过程在时间和视觉。消除统计冗余的基本依据是视频数字化过程在时间和 空间上采用了规则的采样过程。视频画面数字化为规则的像空间上采用了规则的采样过程。视频画面数字化为规则的像 素阵列,其密集程度适于表征每点最高的空间频率,而绝大素阵列,其密集程度适于表征每点最高的空间频率,而绝大 多数画面帧包含非常少甚至不含这种最高频率的细节。多数画面帧包含非常少甚至不含这种最高频率的细节。
3、多媒体技术基础与应用10.1.2 MPEG-110.1.2 MPEG-1MPEG-1MPEG-1标准标准 19921992年公布,其任务是在一种可接受的质量下,年公布,其任务是在一种可接受的质量下,把视频和伴音信号压缩到速率大约为把视频和伴音信号压缩到速率大约为1.5Mb/s1.5Mb/s或更高的单一的或更高的单一的MPEGMPEG数据流。它可对数据流。它可对SIFSIF(标准交换格式)分辨率(标准交换格式)分辨率(NTSC(NTSC制式为制式为352240352240;PALPAL制式为制式为352288)352288)的图像进行压缩,每秒播放的图像进行压缩,每秒播放3030帧,具有帧,具有
4、CDCD音质,图像质量基本与音质,图像质量基本与VHSVHS家用录像机相当。家用录像机相当。10.1.3 MPEG-210.1.3 MPEG-2它是一个直接与数字电视广播有关的高质量图像和声音编码标它是一个直接与数字电视广播有关的高质量图像和声音编码标准。准。MPEG2MPEG2所能提供的传输率在所能提供的传输率在3 310Mbit/s10Mbit/s之间,在之间,在NTSCNTSC制式制式下的分辨率可达下的分辨率可达720486720486,可提供广播级的图像质量和,可提供广播级的图像质量和CDCD级的级的音质。音质。MPEG-2MPEG-2主要针对高清晰度电视主要针对高清晰度电视(HDTV
5、)(HDTV)所需要的视频及伴所需要的视频及伴音信号,与音信号,与MPEG-1MPEG-1兼容。兼容。多媒体技术基础与应用10.1.4 MPEG-4MPEG-4MPEG-4旨在为视音频数据的通信、存取与管理提供一个灵活的旨在为视音频数据的通信、存取与管理提供一个灵活的框架与一套开放的编码工具。这些工具将支持大量的应用功能框架与一套开放的编码工具。这些工具将支持大量的应用功能(新的和传统的新的和传统的)。10.1.5 MPEG-710.1.5 MPEG-7MPEG-7MPEG-7既不同于基于波形压缩的表示方式如既不同于基于波形压缩的表示方式如MPEG-1MPEG-1和和MPEG-2,MPEG-2
6、,又不同于基于对象的表示方式如又不同于基于对象的表示方式如MPEG-4MPEG-4,而是将对各种不同类,而是将对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。相联系,以实现快速有效的搜索。MPEG-7MPEG-7的功能与其他的功能与其他MPEGMPEG标标准互为补充。准互为补充。多媒体技术基础与应用10.2 MPEG的编码与实现过程MPEGMPEG的数据分为的数据分为MPEGMPEG视频、视频、MPEGMPEG音频和同步信号三个部分,视音频和同步信号三个部分,视频流包含画面信息,音频流包含伴音
7、信息,所有播放频流包含画面信息,音频流包含伴音信息,所有播放MPEGMPEG图像图像和伴音数据所需的时钟信息都包含在同步信号流中。和伴音数据所需的时钟信息都包含在同步信号流中。图10-1 MPEG的组成 多媒体技术基础与应用10.2.1 MPEG10.2.1 MPEG编码的基本思想编码的基本思想MPEGMPEG数字视频编码技术实质上是一种统计方法。在时间和空间数字视频编码技术实质上是一种统计方法。在时间和空间方向上,视频序列通常包含统计冗余度。方向上,视频序列通常包含统计冗余度。MPEGMPEG压缩技术所依赖压缩技术所依赖的基本统计特性为帧内与帧间的相关性,这里包含这样的基本统计特性为帧内与帧
8、间的相关性,这里包含这样 一个设想:即在各连续帧之间存在简单的相关性平移运动。一个设想:即在各连续帧之间存在简单的相关性平移运动。图10-2 连续视频画面之间通常存在着较大的相关性 多媒体技术基础与应用10.2.2 MPEG的流结构的流结构MPEGMPEG为更好地表示编码数据,规定了一个分层的结构,为更好地表示编码数据,规定了一个分层的结构,自上到下分别是自上到下分别是:MPEG流(流(MPEG stream)图像组(图像组(GOP,Group of Pictures)图像(图像(Image)宏块(宏块(Macro block)块(块(Block)多媒体技术基础与应用图10-3 MPEG流的分
9、层结构 多媒体技术基础与应用MPEGMPEG流(流(MPEG streamMPEG stream)包含音频流和视频流。视频流)包含音频流和视频流。视频流是由图像组(是由图像组(GOPGOP)构成的图像序列,有表示开始的图)构成的图像序列,有表示开始的图像序列头和表示结束的图像终止码。像序列头和表示结束的图像终止码。图像组(图像组(GOPGOP)是为方便随机存取而加的,其结构和长)是为方便随机存取而加的,其结构和长度均可变。图像组是随机存取视频单位。一个度均可变。图像组是随机存取视频单位。一个GOPGOP由一由一串串IBPIBP帧组成,起始为帧组成,起始为I I帧。帧。GOPGOP的长度是一个的
10、长度是一个I I帧到下一帧到下一个个I I 帧的间隔。帧的间隔。图像图像(Image)(Image)是独立的显示单位,也是基本编码单位。是独立的显示单位,也是基本编码单位。宏块(宏块(Macro blockMacro block)是进行运动补偿的基本单位。由)是进行运动补偿的基本单位。由一个一个1616 1616像素的亮度信息和两个像素的亮度信息和两个8 8 8 8像素的色度信息像素的色度信息组成的块称为宏块。组成的块称为宏块。块(块(BlockBlock)是由)是由8 8 8 8像素组成的基本单位,是进行像素组成的基本单位,是进行DCTDCT运算的单位,块可分为亮度块或色度块运算的单位,块可
11、分为亮度块或色度块(图图10-4)10-4)。多媒体技术基础与应用图10-4 块可分为亮度块或色度块 图10-5 宏块是进行运动补偿的基本单位 多媒体技术基础与应用10.2.3 10.2.3 信号的采样信号的采样在进行视频编码前,在进行视频编码前,R R、G G、B B信号需变换为亮度信号信号需变换为亮度信号Y Y和色差和色差信号信号CbCb、CrCr的形式(图的形式(图10-610-6)。色差定义了颜色的两个方面)。色差定义了颜色的两个方面色调与饱和度,分别用色调与饱和度,分别用CrCr和和CbCb来表示。来表示。图10-6 在编码前,RGB信号分解成Y,Cr和Cb信号分量 多媒体技术基础与
12、应用10.2.4 MPEG10.2.4 MPEG图像的类型图像的类型MPEGMPEG由三种类型的图像组成(如下图):由三种类型的图像组成(如下图):I I图(帧内图图(帧内图Intra PictureIntra Picture)是对整幅图像采用)是对整幅图像采用JPEGJPEG编码的图编码的图像,它是一个独立的帧,其信息由自身画面决定,不需要参照像,它是一个独立的帧,其信息由自身画面决定,不需要参照其他画面而产生,它是其他画面而产生,它是P P图和图和B B图的参考图。图的参考图。P P图(前向预测帧图(前向预测帧Predicted PicturePredicted Picture),它参照前
13、一幅它参照前一幅I I或或P P图图像做运动补偿编码。像做运动补偿编码。B B图像图像(双向预测双向预测 Bidirectional Prediction)Bidirectional Prediction),它参照前一幅,它参照前一幅和后一幅和后一幅I I或或P P图像做双向运动补偿编码。图像做双向运动补偿编码。多媒体技术基础与应用10.2.5 MPEG10.2.5 MPEG的帧序列的帧序列一个典型的一个典型的MPEG帧序列帧序列 图10-8 一个典型的MPEG帧序列 多媒体技术基础与应用一个一个MPEG在解码播放时的实际帧序列在解码播放时的实际帧序列 图10-9 MPEG在解码播放时的实际帧
14、序列多媒体技术基础与应用10.2.6 10.2.6 运动预测与补偿运动预测与补偿运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之一。运动补偿工作于宏块一级,主要是消除预测图与插补图在一。运动补偿工作于宏块一级,主要是消除预测图与插补图在时间上的冗余,以提高压缩比。运动补偿是一种预测,它不是时间上的冗余,以提高压缩比。运动补偿是一种预测,它不是对每个像素预测,而是以对每个像素预测,而是以1616 1616的图像宏块为单位的预测。的图像宏块为单位的预测。图10-10 运动补偿的例子 多媒体技术基础与应用10.2.7 10.2.7 运动补偿
15、编码器的结构运动补偿编码器的结构运动补偿预测编码器的结构如下图所示。图中应用了延迟时间运动补偿预测编码器的结构如下图所示。图中应用了延迟时间可变的预测存储器。该存储器有一个帧的容量,一帧前的图像可变的预测存储器。该存储器有一个帧的容量,一帧前的图像被存储起来。可以通过以宏块为单位,检测出画面中的运动部被存储起来。可以通过以宏块为单位,检测出画面中的运动部分。分。图10-11 运动补偿预测编码器的结构示例多媒体技术基础与应用10.3 基于对象编码技术的MPEG-410.3.1 10.3.1 传统传统MPEGMPEG编码技术的局限编码技术的局限在传统的视频压缩中,以一连串的影像在传统的视频压缩中,
16、以一连串的影像(image)为压缩对象,为压缩对象,也就是对于一整张画面也就是对于一整张画面(帧帧frame)做数据压缩。如此会将整张做数据压缩。如此会将整张画面不重要的部分(如单调的背景)也一起压缩进去而占有一画面不重要的部分(如单调的背景)也一起压缩进去而占有一定程度的数据量。另外,将图像固定地分成相同大小的块,在定程度的数据量。另外,将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应。高压缩比的情况下会出现严重的块效应,即马赛克效应。未能考虑信息获取者的主观意义与人类视觉系统(未能考虑信息获取者的主观意义与人类视觉系统(HVS,Human Visual Sy
17、stem)主观特性,未能考虑事件本身的特)主观特性,未能考虑事件本身的特性如具体含义、重要性以及后果等等,不能对图像内容进行访性如具体含义、重要性以及后果等等,不能对图像内容进行访问、编辑和回放等工作;问、编辑和回放等工作;缺乏一套有系统与有效率的标准。缺乏一套有系统与有效率的标准。多媒体技术基础与应用10.3.2 10.3.2 何谓对象编码何谓对象编码基于对象编码,是指依赖于对视频场景中任意形状对象检测的基于对象编码,是指依赖于对视频场景中任意形状对象检测的编码机制。编码机制。MPEG-4MPEG-4是目前基于对象编码机制,是对运动图像和是目前基于对象编码机制,是对运动图像和伴音编码的算法。
18、伴音编码的算法。图10-12 基于对象编码技术的场景示例 多媒体技术基础与应用10.3.3 MPEG-410.3.3 MPEG-4核心编码技术核心编码技术-AV-AV对象对象AV对象是对象是MPEG-4为支持基于内容编码而提出的重要概念。对为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。据其独特的纹理、运动、形状、模型和高层语义为依据。MPEG-4对对AV对象的操作主要有:对象的操作主要有:1采用采用AV对象来表示听觉、视觉或者视听组合内容。对象来
19、表示听觉、视觉或者视听组合内容。2允许组合已有的允许组合已有的AV对象来生成复合的对象来生成复合的AV对象,并由此生对象,并由此生成成AV场景。场景。3允许对允许对AV对象的数据灵活地多路合成与同步,以便选择合对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些适的网络来传输这些AV对象数据。对象数据。4允许接收端的用户在允许接收端的用户在AV场景中对场景中对AV对象进行交互操作。对象进行交互操作。5MPEG-4支持支持AV对象知识产权与保护。对象知识产权与保护。多媒体技术基础与应用10.3.4 10.3.4 基于场景的对象分割与编码技术基于场景的对象分割与编码技术MPEG-4MPEG
20、-4实现基于内容交互的首要任务就是把视频实现基于内容交互的首要任务就是把视频/图像分割成图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。象采用相应编码方法,以实现高效压缩。MPEG-4MPEG-4的编码理念是:在编码时将一幅景物分成若干在时间和的编码理念是:在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需输到接收端,然后再对不同的对象分别解码,
21、从而组合成所需要的视频和音频要的视频和音频,其过程如图所示。其过程如图所示。多媒体技术基础与应用视频对象平面视频对象平面-VOP-VOP我们根据人眼感兴趣的一些特性如形我们根据人眼感兴趣的一些特性如形 状、运动、纹理等,将状、运动、纹理等,将图像序列中每一帧中的场景,看成是由不同视频对象平面图像序列中每一帧中的场景,看成是由不同视频对象平面VOP VOP(Video Object Plane)(Video Object Plane)所组成,而同一对象连续的所组成,而同一对象连续的VOPVOP称为视称为视频对象频对象VOVO。VOPVOP是视频场景的语法对象,除轮廓信息外,主要由亮度和是视频场景
22、的语法对象,除轮廓信息外,主要由亮度和,色色度分量(度分量(Y,U,VY,U,V)组成。)组成。VOPVOP可以是任意形状,可由半自动分割可以是任意形状,可由半自动分割来检测。来检测。图10-14 为实现基于内容交互,人物由简单到复杂的轮廓物征提取 多媒体技术基础与应用视频对象平面(视频对象平面(VOPVOP,Video Object PlaneVideo Object Plane)是视频对象)是视频对象(VOVO)在某一时刻的采样,)在某一时刻的采样,VOPVOP是是MPEG-4MPEG-4视频编码的核心概念。视频编码的核心概念。图10-15 VOP视频编码技术 多媒体技术基础与应用10.3
23、.6 10.3.6 运动估计与运动补偿技术运动估计与运动补偿技术 MPEG-4MPEG-4采用运动预测和运动补偿技术来去除图像信息中的时间采用运动预测和运动补偿技术来去除图像信息中的时间冗余成分,而这些运动信息的编码技术可视为现有标准向任意冗余成分,而这些运动信息的编码技术可视为现有标准向任意形状的形状的VOPVOP的延伸。的延伸。VOPVOP的编码有的编码有3 3种模式,即帧内种模式,即帧内(Intra-(Intra-frame)frame)编码模式编码模式(I-VOP)(I-VOP),帧间,帧间(Inter-frame)(Inter-frame)预测编码模式预测编码模式(P-VOP)(P-
24、VOP),帧间双向,帧间双向 (Bidirectionally)(Bidirectionally)预测编码模式预测编码模式(B-VOP)(B-VOP)。图10-16 MPEG-4的运动预测和运动补偿技术多媒体技术基础与应用10.4基于内容的信息存取与MPEG-710.4.1 MPEG-710.4.1 MPEG-7概述概述MPEG-7 的产生是为了解决上述问题,其重点在于影音内容的的产生是为了解决上述问题,其重点在于影音内容的描述和定义,以有弹性、具延伸性、多层次及明确的数据结构描述和定义,以有弹性、具延伸性、多层次及明确的数据结构和语法来定义影音数据的内容,经由和语法来定义影音数据的内容,经由
25、 MPEG-7 的定义格式,的定义格式,使用者可以有效率地搜寻、过滤和定义想要的影音数据。使用者可以有效率地搜寻、过滤和定义想要的影音数据。10.4.2 MPEG-7:10.4.2 MPEG-7:基于信息内容的搜索引擎基于信息内容的搜索引擎MPEG-7MPEG-7是属于信息方面的检索和搜寻,而所谓信息,则可以是是属于信息方面的检索和搜寻,而所谓信息,则可以是影像或音乐;换句话说,影像或音乐;换句话说,MPEG-7MPEG-7在本质上来说就是我们常常在在本质上来说就是我们常常在网上使用的搜索引擎,只不过它提供的是多媒体的信息查询服网上使用的搜索引擎,只不过它提供的是多媒体的信息查询服务。务。多媒
26、体技术基础与应用10.4.3 MPEG-710.4.3 MPEG-7中的主要概念中的主要概念 数据数据(Data)是用是用MPEG-7描述的视听资料,不考虑它们描述的视听资料,不考虑它们的存储、编码、显示、传输、媒介或技术。的存储、编码、显示、传输、媒介或技术。特征特征(Feature)(Feature)指数据的特性。特征本身不能比较,指数据的特性。特征本身不能比较,而要用有意义的特征表示而要用有意义的特征表示(描述子描述子)和它的实例和它的实例(描述值描述值)。描述子描述子(Descriptor(Descriptor,D)D)是特征的表示。它定义特征是特征的表示。它定义特征表示的句法和语义,
27、可以赋予描述值。表示的句法和语义,可以赋予描述值。描述值描述值(Descriptor Value)(Descriptor Value)是描述子的实例。是描述子的实例。描述模式描述模式(Description Scheme(Description Scheme,DS)DS)说明其成员之间说明其成员之间的关系结构和语义。的关系结构和语义。多媒体技术基础与应用描述描述(Description)(Description)一个描述由一个描述模式一个描述由一个描述模式(结构结构)和一组描述值组成。和一组描述值组成。编码的描述编码的描述(Coded Description)(Coded Descriptio
28、n)是对已完成编码的是对已完成编码的描述,满足诸如压缩效率、差错恢复和随机存取的相描述,满足诸如压缩效率、差错恢复和随机存取的相关要求。关要求。描述定义语言描述定义语言(Description Definition Language(Description Definition Language,DDL)DDL)是一种允许产生新的描述模式和描述子的语言,是一种允许产生新的描述模式和描述子的语言,允许扩展和修改现有的描述机制。允许扩展和修改现有的描述机制。多媒体技术基础与应用图10-18 MPEG-7应用的表示 多媒体技术基础与应用10.4.4 MPEG-710.4.4 MPEG-7的范围的范围
29、 MPEG-7MPEG-7是针对存储形式是针对存储形式(在线、脱机在线、脱机)或流形式或流形式(如如 InternetInternet上的广播、推拉模型上的广播、推拉模型)的应用而制定的,并且可以在实时和非的应用而制定的,并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时,信息是实时环境中操作。一个实时环境意味着当采集资料时,信息是与内容相关的。与内容相关的。下下 图是图是MPEG-7处理过程的一种高度抽象示意图,用于解释处理过程的一种高度抽象示意图,用于解释MPEG-7的范围。它包括特征抽取的范围。它包括特征抽取(分析分析)、描述本身和搜索引、描述本身和搜索引擎擎(应用应用)。
30、多媒体技术基础与应用10.5 H.261与H.263H.261H.261视频编码标准是视频编码标准是CCITTCCITT(国际电报电话咨询委(国际电报电话咨询委员会)的建议,这个建议支持实时动态图像的压缩员会)的建议,这个建议支持实时动态图像的压缩编解码,应用目标是可视电话和电视会议。编解码,应用目标是可视电话和电视会议。H.263H.263是是ITU-TITU-T的关于低于的关于低于64kb/s64kb/s比特率的窄带通道比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输视频编码建议,其目的是能在现有的电话网上传输活动图像。活动图像。H.263H.263是在是在H.261H.261建议的基础上发展起来的,其信源建议的基础上发展起来的,其信源编码算法仍然是帧间预测编码算法仍然是帧间预测/DCT/DCT混合编码,但混合编码,但H.263H.263与与H.261H.261不同的是,它采用半象素的分辨率进行运不同的是,它采用半象素的分辨率进行运动补偿,而且,动补偿,而且,H.263H.263还提供了还提供了4 4种可协商选择的编种可协商选择的编码方法:无限制范围的运动矢量、基于语法的算法码方法:无限制范围的运动矢量、基于语法的算法编码方法、先进预测和编码方法、先进预测和PBPB帧。帧。