《多媒体通信的数字视频压缩技术研究209888.pdf》由会员分享,可在线阅读,更多相关《多媒体通信的数字视频压缩技术研究209888.pdf(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1/45 毕业论文(设计)多媒体通信的数字视频压缩技术研究 学 生 姓 名:袁勐 指导教师:李春晖(讲师)合 作 指 导 教 师:专业名称:通信工程 所在学院:信息工程学院 2011 年 6 月I/45 目录 摘要I AbstractII 第一章前言1 1.1 研究的目的和意义 1 1.2 研究的内容和方法 1 1.3 国内外的研究现状 1 第二章数字视频压缩技术简介3 2.1 数字视频和视频压缩 3 2.2 数字视频压缩技术的发展历程 7 2.3 MPEG 标准及其主要形式 9 2.4 H.261 标准和 H.263 标准 17 2.5 其他的多媒体压缩方式 19 第三章电视广播数字视频22
2、 3.1 电视信号制式的概述 22 3.2 主要的电视信号制式 23 3.3 电视广播用数字视频标准 29 第四章新一代视频压缩编码标准 H.264/AVC32 4.1 H.264/AVC 标准简介 32 4.2 H.264/AVC 的特点 33 4.3 H.264/AVC 的关键技术 34 II/45 4.4 H.264/AVC 的应用前景 36 第五章结论39 致谢40 参考文献41 3/45 摘要 当今,信息技术和计算机互联网飞速发展,多媒体信息已成为人类获取信息的最主要载体,同时也成为电子信息领域技术开发和研究的热点。多媒体信息经数字化会产生大量的数据,这对信息存储设备及通信网络提出了
3、很高要求,因此研究高效的多媒体数据压缩编码方法,对多媒体信息的存储和传输具有重要意义。本文结合当前通信领域和计算机领域的技术,对多媒体通信的数字视频压缩技术进行研究,介绍了数字视频压缩技术的意义,发展和现状。并对多媒体视频信息传送和处理中的压缩编码技术进行了重点研究。关键词:多媒体通信,数字视频,视频压缩编码技术,视频压缩编码标准 4/45 Abstract Nowadays,as therapid development of information technology and Internet,multimedia information has bee the most importa
4、nt vector of human access to information,as well as the development and research focus of electronics and information technology.The digital multimedia information will produce large amounts of data,this information storage devices and munication networks has placed enormous demands,therefore,the re
5、search of efficient multimedia data pression methods shows great significance in storage and transmission of multimedia information.This paper bines munication technology and puter technology,and conduct an investigation into digital video pression technology of multimedia munication,describes the s
6、ignificance,development and current situation of digital video pression technology,and the study focus on pression coding technology in the transmission and processing of multimedia video information.Keywords:multimedia munications,digital video,video coding technology,video coding standards 1/45 第一
7、章 前言 1.1 研究的目的和意义 进入新世纪以来,全球经济以飞快的速度增长,在发展经济的同时,与人们工作生活息息相关的科学技术也越来越受到人们重视,而得以前所未有迅猛之势发展和进步,并更加广泛的普及应用到日常生活之中。随着人民生活水平的不断提高,人们对其工作和生活中的科技含量的诉求也越来越高,开始追求更为高效、方便和舒适的工作生活环境,更高端的工作生活水平。21 世纪是一个信息化的世纪,信息的处理和传递渗透在人们生活的方方面面,信息种类的多样化使得多媒体通信的意义日渐重大。众所周知,视觉是包括人类在内的许多高等生物获取外界信息最重要最直观的方式,通过视觉,人和动物感知外界物体的大小、明暗、颜
8、色、动作,获得对机体生存具有重要意义的各种信息,对人类来说,至少有 80%的外界信息经由视觉获得。视觉是可以说是人类最重要的感官,那么在信息时代中,作为传递视觉信息的主要载体之一,视频技术就显得尤为重要了。通过对视频技术的研究,提高视频技术的技术水平,可以大大增加视频信息在人们生活的作用 X 围和效率,帮助人们进行更为高效的多媒体信息处理和传递。而在现今信息数字化的趋势之下,多媒体通信的数字视频压缩技术意义重大。1.2 研究的内容和方法 多媒体通信 X 畴比较广阔,但视频技术是其中比较重要的一个领域,而在信息数字化的时代,数字视频压缩技术更是重中之重。和模拟视频相对,数字视频就是以数字形式记录
9、的视频。数字视频的压缩即通过改变编码方式,将某个视频格式的文件转换成另一种视频格式文件,从而实现减小体积方便传输等预期的目的。对数字视频压缩技术的研究,主要从信号的制式、标准和视频的压缩编码两个方面入手。前者包括 SMPTE 和 IEEE 开发和管理非压缩的数字视频标准,这些标准包括:PAL、NTSC 和 SECAM 标准分辨率的电视广播用数字视频标准 CCIR-601;传输CCIR-601 的 SMPTE 259M;传输 HDTV 的 SMPTE 292M。为了利用廉价的低比特率链路进行数字视频信号传输,或者存储数字形式的视频,必须对原始数字视频信号进行高效的压缩编码。目前视频流传输中最为重
10、要的编解码标准有国际电联的 H.261、H.263,运动静止图像专家组的M-JPEG 和国际标准化组织运动图像专家组的 MPEG 系列标准,除此之外 Real-Networks 公司的Real Video、Microsoft 公司的 Windows Media Video 等在互联网上被广泛应用。1.3 国内外研究现状 随着数字技术的发展,世界视频技术发展已经进入了从模拟视频技术到数字视频技术的转型期。与以往传统的模拟视频技术相比,数字视频技术的特点在于采用了全数字的图像和声音处理技术。随着各种数字视频技术的不断发展和日趋成熟,针对各个不同的应用领域,一系列相应的数字视频音频编码标准也迅速制定
11、并且不断的得到完善。目前国际上比较流行的视频编码技术主要2/45 有两套标准,即国际标准化组织(ISO)制定的 MPEG 标准和国际电信联盟(ITU)所制定的 H.26x系列标准。而国内也顺应趋势出台了具有自主知识产权的数字视频音频编码解码标准 AVS。目前的数字视频编码技术主要以国际标准化组织制定的 MPEG-2 为基础,该标准已经使用了十几年,虽然应用广泛使用稳定,但是发展空间已经所剩无多。国际电信联盟与国际标准化组织于 2003年联合开发了新一代的视频压缩标准 H.264,该标准可以提供更高的数据压缩率,在视频图像的质量相同的条件下,H.264 的数据压缩率比之前的 H.263 和 MP
12、EG-2 高 2 倍,比 MPEG-4 高 1.5 倍,在同等数据量的情况下可以获得更好的图像质量,效果非常不错,日后将很有可能会取代 MPEG-2成为主要的数字视频信源编码标准。而在我国,具备自主知识产权的 AVS 的标准也随着产业链的逐步完善而得到了进一步的推广。在国外,由于 MPEG-2 的技术已经比较成熟,所以国外厂商纷纷投入大量的精力在 H.264 的研究上。虽然 H.264 压缩效率很高,但高压缩率带来的问题是压缩算法的较高复杂度,H.264 的解码比传统的 MPEG-2 复杂 2 到 3 倍。国外的众多厂商对 H.264 技术进行了大量研究并形成了多种 H.264 编解码方案,实
13、现 H.264HPL4 级别的实时解码。目前主要有基于专用芯片的结构(SoC+ASIC)、基于 DSP+ARM 的结构和基于 x86 的结构等。其中基于专用芯片的结构因为使用专用芯片,因此成本低廉而易于推广,但是无法对软件进行升级,而且每个编码器都需要单独的硬件来支持,浪费资源;基于 DSP+ARM 的结构因其可编程的特性,可以对不同的压缩标准进行解码,可集成丰富的外围设备,易于开发,但部分模块效率低功耗高;基于 x86 的结构拥有丰富的应用程序,开发周期短,但是价格昂贵不易普及。在国内,数字电视的推广以及 IPTV 等新媒体的不断涌现使得人们对视频传输带宽的要求逐渐提高。MPEG-2 等第一
14、代音视频编解码标准技术虽然目前仍是主流,但由于技术水平及收费等原因发展空间日渐减小;MPEG-4 的专利许可政策较为苛刻,推广前景不被看好。H.264 编码标准很有可能会取代 MPEG-2 成为主要的数字视频信源编码标准,而我国具有自主知识产权的 AVS 标准也正在得到推广。国内很多企业对 H.264、AVS 等新型视音频编码标准技术的产品化进行了投入,形成了各自的技术。我国数字电视采用的仍是 MPEG-2 编解码技术,而且国外规模较大的公司对市场的垄断导致目前国内相应的基于 H.264 技术的解码芯片的研究较多,但产品较少。投入研究的单位主要包括清华大学、XX 交通大学、国防科技大学、XX
15、暨南大学等。在数字技术的推动下,视频设备市场已经进入从模拟视频向数字视频的转型期,由此引发对数字解码芯片巨大的市场需求,数字视频压缩技术和相应的设备将带来巨大的经济效益。3/45 第二章数字视频压缩技术简介 2.1 数字视频和视频压缩 2.1.1 数字视频 数字视频是指以数字信号进行存储和传输的视频资料,数字视频在采集过程中将影像的颜色和亮度等信息转变为电信号,再对电信号进行编码,然后再记录储存介质中或进行传输。英文对应的词组是 Digital Video。和数字视频相对应的是使用模拟信号的模拟视频。数字视频有不同的产生方式,存储方式和播出方式。比如通过数字摄像机直接产生数字视频信号,存储在数
16、字带,存储卡,光盘或者磁盘上,从而得到不同格式的数字视频。然后通过计算机或者其他的播放器等播放出来。为了存储视觉信息,模拟视频信号的山峰和山谷必须通过模拟/数字(A/D)转换器来转变为数字的“0”或“1”。这个转变过程就是我们所说的视频捕捉,或称之为采集过程。如果要在电视机上观看数字视频,则需要一个从数字到模拟的转换器将二进制信息解码成模拟信号,才能进行播放。模拟视频的数字化包括不少技术问题,如电视信号具有不同的制式而且采用复合的 YUV 信号方式,而计算机工作在 RGB 空间;电视机是隔行扫描,计算机显示器大多逐行扫描;电视图像的分辨率与显示器的分辨率也不尽相同等等。因此,模拟视频的数字化主
17、要包括色彩空间的转换、光栅扫描的转换以及分辨率的统一。根据电视信号的特征,亮度信号的带宽是色度信号带宽的两倍。因此其数字化时可采用幅色采样法,即对信号的色差分量的采样率低于对亮度分量的采样率。用 Y:U:V 来表示 YUV 三分量的采样比例,则数字视频的采样格式分别有 4:2:0,4:1:1、4:2:2 和 4:4:4 多种。电视图像既是空间的函数,也是时间的函数,而且又是隔行扫描式,所以其采样方式比扫描仪扫描图像的方式要复杂得多。分量采样时采到的是隔行样本点,要把隔行样本组合成逐行样本,然后进行样本点的量化,YUV到 RGB 色彩空间的转换等等,最后才能得到数字视频数据。如果数字视频一直保持
18、在同样的格式下,而不被压缩,那么数字视频是一种无损的格式。这是相对于模拟视频而言的,对模拟视频的复制、传输甚至播放都会导致视频质量损失;而数字视频,即使经过反复的复制,视频的质量也和原始视频保持一致。所以越来越多的模拟视频被转化为数字视频来存储。但是在进行这种转换的时候,由于某些视频采集卡的速度或者计算机的速度问题,有可能造成采集时候的丢帧状况。在这种情况下通常视频在人类主观的感受上质量并不会与原始视频有较大的差异,但是伴随的音频有时候会出现较为明显的错误。所以在进行此类转换的时候,尽可能选用功能完善的设备。数字视频的编辑通常是通过非线性编辑(NLE,Non-Linear Editing)系统
19、进行的。这种系统是专为视频和音频的编辑而设计的,通常它可以导入模拟或者数字的视频及音频源,但是其功能仅限于编辑。人们日常生活中的电视,电影等视频几乎都是用非线性编辑系统制作的。随着计算机技术的发展和普及,现在在个人计算机上也可以进行数字视频的编辑,是要具备视频编辑所需的硬件和相应的软件即可。越来越多的人利用计算机自己制作数字视频。4/45 为了在 PAL、NTSC 和 SECAM 电视制式之间确定共同的数字化参数,国家无线电咨询委员会(CCIR,Consultative mittee of International Radio)制定了广播级质量的数字电视编码标准,称为CCIR 601 标准。
20、在该标准中,对采样频率、采样结构、色彩空间转换等都作了严格的规定,主要有:(1)采样频率为 f s13.5MHz (2)分辨率与帧率 (3)根据 f s 的采样率,在不同的采样格式下计算出数字视频的数据量 这种未压缩的数字视频数据量对于目前的计算机和网络来说无论是存储或传输都是不现实的,因此在多媒体中应用数字视频的关键问题是数字视频的压缩技术。2.1.2 视频压缩 视频压缩是指运用压缩技术将数字视频信息中的冗余信息去除,降低表示原始视频所需的信息量,以便视频信息的传输与储存。英文对应的词组为 Video pression。实际上,原始视频信息的信息量往往非常之大,例如未经压缩的电视品质视频资料
21、的比特率高达 216Mbps,绝大多数的设备难以处理如此庞大的信息量,因此视频压缩是十分必要的。数据压缩是通过去除数据中的冗余信息而达成。就视频信息而言,资料中的冗余信息可以分成四类:(1)时间上的冗余信息(temporal redundancy):在视频信息中,相邻的帧(frame)与帧之间通常有很强的关联性,这样的关联性即为时间上的冗余信息。(2)空间上的冗余信息(spatial redundancy):在同一帧之中,相邻的像素之间通常有很强的关联性,这样的关联性即为空间上的冗余信息。(3)统计上的冗余信息(statistical redundancy):统计上的冗余信息指的是将要进行编码
22、的符号(symbol)的机率分布是不均匀(non-uniform)的。(4)感知上的冗余信息(perceptual redundancy):感知上的冗余信息是指在人在观看视频时,肉眼无法察觉到的信息。视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处,但是运动的视频还有其自身的特性,因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念:(1)有损和无损压缩 在视频压缩中有损(Lossy)和无损(Lossless)的
23、概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用 RLE 行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。(2)帧内和帧间压缩 帧内(Intraframe)压缩也称为空间压缩(Spatial pression)。当压缩一帧图像时,仅考虑本帧的
24、数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压5/45 缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporal pression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame diffe
25、rencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。(3)对称和不对称编码 对称性(symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视
26、频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段三分钟的视频片断可能需要 10 多分钟的时间,而该片断实时回放时间只有三分钟。视频压缩通常包含了一组编码器(encoder)和解码器(decoder)。编码器将原始的视频信息转换成压缩后的形式,以便进行传输与储存。解码器则是将压缩后的形式转换回视频信息输出。一组成对的编码器与解码器通常被合称为编解码器(CODEC,enCOder/DECoder)。一个典型的视频编码器(如图 1 所示)在进行当前信号编码时,编码器首先会产生对当前信号做预测的信号,称作预测信号(predicted signal),预测的方式可以是时间上的预测(inter
27、 prediction),也就是使用先前帧的信号做预测,或是空间上的预测(intra prediction),也就是使用同一 X 帧之中相邻像素的信号做预测。得到预测信号后,编码器会将当前信号与预测信号相减得到残余信号(residual signal),并只对残余信号进行编码,如此一来,可以去除一部份时间上或是空间上的冗余信息。接着,编码器并不会直接对残余信号进行编码,而是先将残余信号经过变换(通常为离散余弦变换)然后量化,以进一步去除空间上和感知上的冗余信息。量化后得到的量化系数会再透过熵编码,去除统计上的冗余信息。6/45 图 1 典型的视频编码器 而在解码端,透过类似的相反操作,可以得到
28、重建的视频信息。视频经过压缩后,存储和传输时会更方便。在多数情况下数字视频压缩以后并不会对视频的最终视觉效果产生太大的影响,压缩往往影响人的视觉不能感受到的那部分视频。例如,有数十亿种颜色,但是我们只能辨别大约 1024 种。所以当我们觉察不到一种颜色与其邻近颜色的细微差别的时候,就没必要将每一种颜色都保留下来。还有冗余图像的问题,如果在一个持续数帧的视频中每帧图像中都有位于同一位置的同一物体,则没有必要在每帧图像中都保存这把椅子的数据,压缩视频的过程实质上就是去掉我们感觉不到的那些东西的数据。标准的数字摄像机的压缩率为 5:1,有的格式可使视频的压缩率达到 100:1。但过分压缩也不是件好事
29、。因为压缩得越多,丢失的数据就越多。如果丢弃的数据太多,产生的影响就显而易见了,过分压缩的视频会导致严重失真以致无法辨认。衡量数字视频压缩技术的优劣,可以从运算复杂度和压缩品质两方面来看。在运算复杂度这一方面看来,理想的编码器的运算复杂度是越低越好。而在压缩品质这一方面看,必须同时考虑压缩后视讯的比特率和失真程度。压缩后的比特率和失真程度皆为越低越好,两者之间存在一个折衷(trade-off)关系,理想的编码器旨在追求能够提供比特率和失真程度间的最佳折衷关系。一般情况下,编码器的运算复杂度和压缩品质之间也存在一个折衷关系,根据应用的不同而有所抉择。例如当视频信息的应用方式倾向于储存时,可以选择
30、运算复杂度和压缩品质较高的压缩编码方案;而当视频信息应用方式为视频会议或是手机视频通话等情况的时候,由于即时(real-time)通讯的特性需求或是视频信息传输途径有限的情况下,可能会选择运算复杂度和压缩品质较低的压缩编码方案。由于编码后的视频的品质往往是由人眼所判断的,在衡量失真程度时,应使用与人类视觉感知大致相符的品质衡量标准。然而,传统所使用的衡量标准像是峰值信噪比(PSNR)和人类视觉感知相关度较低。近几年已有基于人类视觉感知的影像品质衡量标准被提出,例如结构相似性指标(structural similarity index,SSIM index)与视觉资讯忠诚(visual info
31、rmation fidelity,VIF),并且在编码器的设计中被使用,进一步提升了压缩后的影像品质。表 1 常见的视频编码方式及其应用 编码方式 应用 CCIR-601 MPEG-1 MPEG-2 MPEG-4 H.261 H.263 H.264 在电视广播中广泛使用 使用在VCD中 使用在DVD和SVCD中 是用于在线发布的视频资料 使用在视频和视频会议中 使用在视频和视频会议中 也就是MPEG-4 第十部分,或者 AVC。具有非常广泛的应用X围。2.2 数字视频压缩技术的发展历程 信息技术对于硬件有很大的依赖性,计算机对信息的处理能力在很大程度上左右这诸多技术7/45 的发展进程,所以数
32、字视频的发展与计算机技术的发展是密切相关的。自上个世纪 40 年代计算机诞生以来,计算机经历了数值计算和数据处理这两个阶段的发展,随着电子器件的进展,尤其是各种图形、图像设备和语音设备的问世,终于步入了多媒体阶段。信息载体扩展到文、图、声等多种类型,计算机的应用领域进一步扩大。由于视觉,即图形、图像,最能直观明了、生动形象地传达有关对象的信息,因而在多媒体计算机中占有重要的地位。在多媒体阶段,计算机与视频就产生了联姻。数字视频的发展可以大致分为三个阶段。在第一阶段,台式计算机上增加了简单的视频功能,可以简单的利用电脑来处理活动画面,但是计算机设备尚未普及到人们的日常生活之中,所以这时的视频功能
33、都是面向制作视频制作领域的专业人员。在普通 PC 用户中并未得到广泛应用。在第二个阶段,数字视频在计算机中得到广泛应用,成为主流的计算机应用。但是此时的数字视频技术发展并不快,数字视频拥有非常庞大的数据量,一般计算机很难处理如此多的数据。在此阶段中取得的重大突破是计算机可以捕获活动影像,并保存到计算机中,日后随时可以从硬盘上播放视频文件。能够捕获视频得益于数据压缩。为了能够交换由计算机获得的视频数据,就需要一个标准来规 X 这些数据从而使任何计算机都可读取这些数据,播放视频文件。其关键是压缩编码技术。压缩使得将视频数据的占用的空间比以前少了许多,让视频数据存储到硬盘上变得更加便捷。虽然可能带来
34、一些质量上的损失,但是活动的图像意义重大。在第三个阶段中个人计算机也进入了成熟的多媒体时代。数字视频已经进入了千家万户。可见数字视频能够走到今天的地步,数字视频压缩编码可谓功不可没。传统的压缩编码是建立在香农(Shannon)信息论基础上的,它以经典的集合论为基础,用统计概率模型来描述信源,但它未考虑信息接受者的主观特性及事件本身的具体含义、重要程度和引起的后果。因此,压缩编码的发展历程实际上是以香农信息论为出发点,一个不断完善的过程。从不同角度考虑,数据压缩编码具有不同的分类方式。按信源的统计特性可分为预测编码、变换编码、矢量量化编码、子带小波编码、神经网络编码方法等。按人眼的视觉特性可能基
35、于方向滤波的图像编码、基于图像轮廓纹理的编码方法等。按图像传递的景物特性可分为分形编码、基于内容的编码方法等。随着产业化活动的进一步开展,国际标准化组织于 1986 年、1998 年先后成立了联合图片专家组 JPEG 和运动图像压缩编码组织 MPEG。JPEG 专家组主要致力于静态图像的帧内压缩编码标准 ISO/IEC10918 的制定;MPEG 专家组主要致力于运动图像压缩编码标准的制定。九十年代初期,国际标准化组织制定的 JPEG 静态图像压缩标准和有关可视和会议电视的H.261 标准是视频压缩技术的基础。然而 H.261 标准只适合在 ISDN 等高速网络上传输,不能再公共网上传输。随着
36、个人通信和移动通信的迅猛发展,为了提供在低速率通信网上可以实现的可视和会议,ITU-T 与 1995 年底推出了 H.263 视频压缩标准。该标准的推出扩大了可视技术的应用领域,推动了个人多媒体通信的发展。随着多媒体技术的发展,迫切需要能够在数字存储媒体上有效存数和显示视频信息,且该信息可以以计算机数据的形式进行操作和处理,并且可以在多种网络上传输和被接收,MPEG-1 标准就是在这种情况的要求下产生的,MPEG-1 的产生使得计算机工业和消费电子工业结合了起来,8/45 促进了多媒体技术的进一步发展。几年后,随着视频领域的不断扩大,出现了广播卫星业务,有线电视,数字音频广播,家庭影院,高清晰
37、电视等多媒体业务,因而出现了几乎囊括视频各个领域的 MPEG-2 标准。因为其兼容性和通用性,MPEG-2 成为迄今为止最重要的视频压缩标准。随后,MPEG 专家组于 1999 年 2 月正式公布了 MPEG4(ISO/IEC14496)V1.0 版本。同年底 MPEG4V2.0 版本亦告完成,且于 2000 年年初正式成为国际标准。MPEG4 标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用普遍采用的统一数据格式,并根据不同的应用需求,现场配置解码器,开放的编码系统也可随时加入新的有效的算法模块。为支
38、持对视频内容的访问,MPEG4 提出了“视频对象”的概念。目前,MPEG 专家组又推出了专门支持多媒体信息且基于内容检索的编码方案 MPEG7 及多媒体框架标准 MPEG21。另外,由 ITUT 和 MPEG 联合开发的新标准 H.264 是最新的视频编码算法。为了降低码率,获得尽可能更好图像质量,H.264 标准吸取了 MPEG4 的长处,具有更高的压缩比、更好的信道适应性,必将在数字视频的通信和存储领域得到广泛的应用,其发展潜力不可限量。表 2 视频编码标准的发展 年份 标准 制定组织 主要应用 1984 1990 1993 1995 1996 1999 2003 H.120 H.261
39、MPEG-1第二部分 H.262/MPEG-2第二部分 H.263 MPEG-4第二部分 H.264/MPEG-4 AVC ITU-T ITU-T ISO/IEC ISO/IEC,ITU-T ITU-T ISO/IEC ISO/IEC,ITU-T 视讯会议、视讯通话 影音光碟(VCD)DVD影碟(DVD-Video)、蓝光(Blu-Ray)影碟、数位视讯广播(DVB)、SVCD 视讯会议、视讯通话、3G手机视讯(3GP)便携式多媒体播放器 蓝光(Blu-ray)影碟、数位视讯广播(DVB)、高画质DVD(HD DVD)现今视频技术的应用 X 围很广,如网上可视会议、网上可视电子商务、网上政务、
40、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、个人网上聊天、可视咨询等业务。但是,以上所有的应用都必须压缩。传输的数据量之大,单纯用扩大存储器容量、增加通信干线的传输速率的办法是不现实的,数据压缩技术是个行之有效的解决办法,通过数据压缩,可以把信息数据量减少,以压缩形式存储、传输,既节约了存储空间,又提高了通信干线的传输效率,同时也可使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目。可见,多媒体数据压缩是非常必要的。由于多媒体声音、数据、视像等信源数据有极强的相关性,也就是说有大量的冗余信息。数据压缩可以将庞大数据中的冗余信息去掉,保留相互独立的信息分量,因此,多媒体
41、数据压缩是完全可以实现的。9/45 图像编码方法可分为两代:第一代是基于数据统计,去掉的是数据冗余,称为低层压缩编码方法;第二代是基于内容,去掉的是内容冗余,其中基于对象(ObjectBased)方法称为中层压缩编码方法,其中基于语义(SyntaxBased)方法称为高层压缩编码方法。由瑞典的 Forchheimer提出的基于内容压缩编码方法代表新一代的压缩方法,是目前最活跃的领域。2.3 MPEG 标准及其主要形式 MPEG 的全名为 Moving Pictures Experts Group,中文译名是动态图像专家组。该小组是一个研究视频和音频编码标准的小组。现在我们所说的 MPEG 泛指
42、由该小组制定的一系列视频编码标准。该专家小组于 1988 年组成,专门负责为 CD 建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。MPEG 是 ISO 和 IEC 的工作组,它的官方头衔为:第一技术委员会第二十九子委员会第十一号工作组,英文头衔为 ISO/IEC JTC1/SC29 WG11。MPEG 大约每 2-3 个月举行一次会议,每次会议大约持续 5 天,在会议期间,新的建议和技术细节先在小组中讨论,成熟后进入标准化的正式审核程序。与MPEG工作组相关的其他几个视频标准化工作组包括ITU-T VCEG以及 JVT。MPEG 成功将声音和影像的记录脱离了传统的模拟方式,建
43、立了 ISO/IEC1172 压缩编码标准,并制定出 MPEG-x 格式,令视听传播方面进入了数码化时代。大家现时泛指的 MPEG-x,就是由 ISO 所制定而发布的视频、音频、数据的压缩标准。MPEG 标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用 DCT 技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。MPEG 视频编码是基于变换的有损压缩。光学信号线经过采样形成视频信号,视频信号基本的单位叫做帧,一个帧就是一个独立的图像,然后帧被分区成小块做变换编码,然后量化,最后进行熵编码。MPEG
44、 只规定媒体文件的格式与解码精确度,也就是规定了解码的方法,而任何人可依照 MPEG标准以不同方式实现编码器。除了可减少因编码专利造成的商业利益纠纷外,MPEG 标准的主要目的在于确保不同的编码器所产生的媒体文件只要符合其标准,即可被其他解码器正确的解码。MPEG 的制定人员们原本要开发四个版本:MPEG1-MPEG4,以适用于不同带宽和数字影像质量的要求。后由于 MPEG3 被放弃,所以现存只有三个版本的 MPEG:MPEG-1,MPEG-2,MPEG-4。总体来说,MPEG 在三方面优于其他压缩/解压缩方案。首先,由于在一开始它就是作为一个国际化的标准来研究制定,所以,MPEG 具有很好的
45、兼容性。其次,MPEG 能够比其他算法提供更好的压缩比,最高可达 200:1。更重要的是,MPEG 在提供高压缩比的同时,对数据的损失很小。目前已经制定了 MPEG-1、MPEG-2、MPEG-3(已放弃)、MPEG-4 和正在制定中的 MPEG-7 等多个标准。2.3.1MPEG-1 标准 MPEG-1 是 MPEG 组织制定的第一个视频和音频有损压缩标准。视频压缩算法于 1990 年定义完10/45 成。1992 年底,MPEG-1 正式被批准成为国际标准。MPEG-1 是为工业级标准而设计,可适用于不同带宽的设备,如 CD-ROM、Video-CD、CD-i。举例来说,一 X70 分钟的
46、 CD 光碟传输速率大约在 1.4Mbps,MPEG-1 采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为 1.2Mbps 传输速率进行了优化。MPEG-1 随后被 Video CD 采用作为核心技术。MPEG-1 可针对 SIF 标准分辨率(对于 NTSC 制为 352X240;对于 PAL 制为 352X288)的图像进行压缩,传输速率为 1.5Mb/s,每秒播放 30 帧,具有 CD 音质,质量级别基本与 VHS 相当。MPEG 的编码速率最高可达 4-5Mb/s,但随着速率的提高,其解码后的图象质量有所降低。MPEG-1 也被用于数字网络上的视频传输,如非对称数字用户线
47、路(ADSL),视频点播(VOD),以及教育网络等。同时,MPEG-1 也可被用做记录媒体或是在 Internet 上传输音频。MPEG-1 的特点:(1)随机访问(2)灵活的帧率(3)可变的图像尺寸(4)定义了 I-帧、P-帧和 B-帧(5)运动补偿可跨越多个帧(6)半像素精度的运动矢量(7)量化矩阵(8)GOF 结构(9)slice 结构 MPEG-1 的参数:(1)最大像素数/行:720(2)最大行数/帧:576(3)最大影格/秒:30(4)最大宏块/帧:396(5)最大宏块/秒:9900(6)最大位元率:1.86Mbps(7)最大解码缓冲区尺寸:376832bit。MPEG-1 资料结
48、构和压缩模式:MPEG-1 可以按照分层的概念来理解,一个 MPEG-1 视频序列,包含多个 GOP,每个 GOP 包含多个帧,每个帧包含多个 slice。帧是 MPEG-1 的一个重要基本元素,一个帧就是一个完整的显示图像。MPEG-1 编码图像被分为四类,分别称为 I 帧,P 帧,B 帧和 D 帧。I 帧(节点编码图像,intra coded picture)参考图像,相当于一个固定影像,且独立於其它的图像类型。每个图像群组由此类型的图像开始。编码时独立编码,仅适用帧内编码技术,因而解码时不参考其他帧,类似 JPEG 编码。P 帧(预测编码图像,predictive coded pictu
49、re)包含来自先前的 I 帧或 P 帧图像的差异信息。在编码的时候使用运动补偿和运动估计,采用前向估计,参考之前的 I 帧或 P 帧,去预测该 P 帧。11/45 B 帧(前后预测编码图像,bidirectionally predictive coded pictures)包含来自先前或之后的 I 帧或 P 帧的信息差。编码也使用运动补偿和运动估计,预估采用前向估计、后向估计或是双向估计,主要参考前面的或者后面的 I 帧或者 P 帧。D 帧(指示编码图像,DC direct coded picture)用於快速进带。仅由 DC 直流分量构造的图像,可在低比特率的时候做浏览用。实际编码中很少使用
50、。MPEG-1 的音频压缩技术:MPEG-1 的音频分三层,分别为 MPEG-1 Layer1、Layer2 和 Layer3,并且高层兼容低层。MPEG-1 Layer1 采用每声道 192kbit/s,每帧 384 个样本,32 个等宽子带,固定分割数据块。子带编码用离散余弦变换和快速傅立叶变换计算子带信号量化 bit 数。采用基于频域掩蔽效应的心理声学模型,使量化噪声低于掩蔽值。量化采用带死区的线性量化器,主要用于数字盒式磁带(DCC)。MPEG-1 Layer2 采用每声道 128kbit/s,每帧 1152 个样本,32 个子带,属不同的分帧方式。采用共同频域和时域掩蔽效应的心理声学