网络音视频压缩编码技术(共7页).docx-淘文阁

资源描述

《网络音视频压缩编码技术(共7页).docx》由会员分享，可在线阅读，更多相关《网络音视频压缩编码技术(共7页).docx（7页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上网络音视频压缩编码摘要：数字压缩技术不仅是视频通信的需要也是高效利用网络资源、降低用户通讯费用的有效途径，还是使数字视频走向实用化的关键技术之一，本文将从网络音视频压缩技术的必要性、可行性、压缩编码的分类、常用的压缩编码方法、编码标准、音频编码和编码策略方面系统的分析讲解网络音视频压缩编码。关键字：视频编码；音频编码1. 概述1.1 压缩的必要性数字压缩技术不仅是视频通信的需要也是高效利用网络资源、降低用户通讯费用的有效途径，还是使数字视频走向实用化的关键技术之一。数据压缩基本上是挤压数据使得它占用更少的空间和更短的传输时间。压缩的依据是中包含大量的重复，它将这些重复

2、信息用占用空间较少的符号或代码来代替。近几年随着移动电子设备的兴起,视频技术有了新的应用平台,各种移动视频设备层出不穷,如现在广泛流行的倒车影像、行车记录设备等。但由于视频信息庞大的数据量和移动电子设备有限的存储空间和处理能力,限制了其在移动领域的发展,于是人们尝试将已有的视频压缩方法移植到移动设备中来,在此过程中如何实现各种视频压缩方案在移动设备上的高效应用成为了研究的新热点。1.2 压缩的可行性音视频图像本身存在大量的冗余: 空间相关冗余，时间相关冗余，符号相关冗余，结构相关冗余，知识相关冗余，人眼的视觉冗余。空间冗余：视频图像通常与它周围的某些像素在亮度和色度上相近或非常相同，存在一定的

3、相关性。这些相关性的光成像结果在数字化图像中就表现为数据的空间冗余。时间冗余：时间冗余是指活动图像连续的帧之间的冗余。相邻两个帧之间的图像差别不大，往往背景相同只是移动的物体所在的空间位置略有不同，所以后一帧数据与前一帧数据有诸多相同之处，这就表现为了时间冗余。符号冗余：又称为编码冗余，对于实际图像数据的每一个像素，很难得到他的信息熵，因为是对每个像素采用相同的比特数来表示。这样就必然存在冗余，这样的冗余被称为符号冗余。结构冗余：许多图像存在较强的纹理结构，在图像的纹理区，图像的像素值存在明显的分布模式，如瓦片构成的屋顶、方格构成的地板图案等等。如果对相似对称的图案加以记录就会出现结构冗余。知

4、识冗余：由于多图像的理解和先前的知识有许多相似之处和相关性。例如：人脸的图像有同样的结构，嘴的上方有鼻子，鼻子上方有眼睛，鼻子在中线上等等。这些结构知识可由先验知识和背景知识得到，这类冗余称之为知识冗余。人眼的视觉冗余：人眼对事物细节的分辨力是有限度的；对颜色画面的分辨力低于对黑白画面的分辨力；对高频信号变化的分辨率低于低频信号的分辨率；对屏幕中心区失真的敏感度要高于屏幕四周的失真。人眼的视觉系统对色彩亮度变化比较敏感但是相对色度变化并不是很敏感，人类视觉系统并不是对任何图像变化都能感觉出来所以称之为视觉冗余。1.3 压缩编码的分类有损压缩：预测编码（DPCMADPCM运动补偿）变换编

5、码（DCT变换小波变换子带编码）模型编码（分形编码）基于重要性（滤波子采样矢量量化）混合编码（H.261MPEG）。有损压缩也成为信息量压缩方法，即解压缩后图像与源图像不一致。存在数据丢失现象，并且丢失的这些数据不可恢复，但可以利用人类的视觉特性使解压缩的后的图像看上去与源图像保持一致。有损压缩的压缩比一般为：200：1100：1。无损编码：霍夫曼编码、行程编码、算术编码、LZW编码。无损压缩是利用图像的统计特性对图像进行压缩，即解压缩后图像与源图像保持一致不存在任何失真。但压缩率受到数据统计冗余度的理论限制，一般为2：15：1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据（如指纹图

6、像和医学图像）的压缩。1.4 常用的压缩编码方法霍夫曼编码的具体步骤：将每个符号按其概率由大到小顺序排列起来。将最小的两个概率相加，并对其中较大的概率用“1”表示，较小的概率用“0”表示。反之也可，但赋值方式应保持一致。把求出的和值作为一个新的概率值再按重新排列。按照这样的步骤重复进行，直到概率加到1。分配码字。由概率为1处开始沿各点参加运算的分支线从后向前（从右向左）逐一写出“0”、“1”的代号（从高位到低位写）直到各符号为止。得到的代码就是各信源符号的码字。反之也可，从符号到汇合点p1（从左到右），但代码的写出是从低位到高位。xi： x1 x2 x3 x4 x5 x6 x7 x8 pi：0

7、.20 0.19 0.10 0.15 0.005 0.17 0.18 0.005再举例：符号A、B、C、D、E、F、G、H概率 0.10、0.18、0.40、0.05、0.06、0.10、0.07、0.04单义可译性：例如：接收到下面例子中的一串数据序列，则它只能惟一地分为下述码字：110，0，1011，0，11101，11101，110B，0A，1011G，0A，11101D，11101D。 2 编码标准2.1 MPEG标准MPEG标准主要有以下五个，MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年，专门负责为CD建立视频和音频标准，而成员

8、都是为视频、音频及系统领域的技术专家。及后，他们成功将声音和影像的记录脱离了传统的模拟方式，建立了ISO/IEC1172压缩编码标准，并制定出MPEG-格式，令视听传播方面进入了数码化时代。因此，大家现时泛指的MPEG-X版本，就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。 MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度，利用DCT技术以减小图像的空间冗余度，利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用，大大增强了压缩性能。 MPE

9、G-1 MPEG-1标准于1992年正式出版，标准的编号为ISO/IEC11172，其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。 MPEG-2 MPEG-2标准于1994年公布，包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。 MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准，MPEG-2按压缩比大小的不同分成五个档次(profile)，每一个档次又按图像清晰度的不同分成四种图像格式，或称为级别(level)。五个档次四种级别共有20种组合，但实际应用中有些组合不

10、太可能出现，较常用的是11种组合。这11种组合分别应用在不同的场合，如MPML(主档次与主级别)用在具有演播室质量标准清晰度电视SDTV中，美国HDTV大联盟采用MPHL(主档次及高级别)。 MPEG-4 MPEG-4在1995年7月开始研究，1998年11月被ISO/IEC批准为正式标准，正式标准编号是ISO/IEC14496，它不仅针对一定比特率下的视频、音频编码，更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等，对传输速率要求较低，在48006400bits/s之间，分辨率为176144。MPEG-4利用很窄的带宽，通过帧重建技术、数据压缩，以求用最少的数据

11、获得最佳的图像质量。利用MPEG-4的高压缩率和高的图像还原质量可以把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理，图像的视频质量下降不大但体积却可缩小几倍，可以很方便地用CD-ROM来保存DVD上面的节目。另外，MPEG-4在家庭摄影录像、网络实时影像播放也大有用武之地。 MPEG-7 MPEG-7(它的由来是1+2+4=7, 因为没有MPEG-3、MPEG-5、MPEG-6)于1996年10月开始研究。确切来讲，MPEG7并不是一种压缩编码方法，其正规的名字叫做多媒体内容描述接口，其目的是生成一种用来描述多媒体内容的标准，这个标准将对信息含义的解释提供一定的自由

12、度，可以被传送给设备和电脑程序，或者被设备或电脑程序查取。MPEG-7并不针对某个具体的应用，而是针对被MPEG-7标准化了的图象元素，这些元素将支持尽可能多的各种应用。建立MPEG-7标准的出发点是依靠众多的参数对图象与声音实现分类，并对它们的数据库实现查询，就象我们今天查询文本数据库那样。可应用于数字图书馆，例如图象编目、音乐词典等；多媒体查询服务，如电话号码簿等；广播媒体选择，如广播与电视频道选取；多媒体编辑，如个性化的电子新闻服务、媒体创作等。 MPEG21 MPEG在1999年10月的MPEG会议上提出了“多媒体框架”的概念，同年的12月的MPEG会议确定了MPEG-21的正式名称是

13、“多媒体框架”或“数字视听框架”，它以将标准集成起来支持协调的技术以管理多媒体商务为目标，目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。2.2 H.261编码标准H.261编码标准又称为P*64，其中P为64kb/s的取值范围，是1到30的可变参数，它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法，但不能与后者兼容。H.261在实时编码时比所占用的CPU运算量少得多，此算法为了优化带宽占用量，引进了在图像质量与运动幅度之间的平衡折中机制，也就是说，剧烈运动的图像比相对静止的图像质量要差。

14、因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。H.261使用来消除空域冗余，并使用了运动矢量来进行运动补偿。部分使用了一个8x8的离散余弦变换来消除空域的冗余，然后对变换后的系数进行阶梯量化，之后对量化后的变换系数进行Zig-zag扫描，并进行(使用Run-Level)来消除统计冗余。H.261标准仅仅规定了如何进行视频的解码，并没有定义的实现。编码器可以按照自己的需要对输入的视频进行任何预处理，解码器也有自由对输出的视频在显示之前进行任何后处理。H.261是1990年ITU-T制定的一个，属于。其设计的目的是能够在为64kbps的倍数的综合业务数字网(ISDN for I

15、ntegrated Services Digital Network)上传输质量可接受的视频信号。编码程序设计的码率是能够在40kbps到2Mbps之间工作，能够对CIF和QCIF分辨率的视频进行编码，即亮度分辨率分别是352x288和176x144，色度采用4:2:0采样，分辨率分别是176x144和88x72。在1994年的时候,H.261使用的技巧加入了一个能够发送分辨率为704x576的静止图像的技术。H.261是第一个实用的数字。H.261使用了混合编码框架，包括了基于运动补偿的，基于离散余弦变换的空域，量化，zig-zag扫描和。 H.261编码时基本的操作单位称为宏块。H.261

16、使用颜色空间，并采用4:2:0色度抽样，每个宏块包括16x16的亮度抽样值和两个相应的8x8的色度抽样值。3. 音频编码3.1音频信号的数字化采样模拟音频信号作为连续信号，数字化时必须先对这种连续信号进行采样，即按照一定的时间间隔（T）取值得到X(nT)n为整数。T称为采样周期，1/T称为采样频率，X(nT)是离散信号。量化量化的过程如下：量化器先将整个幅度划分为有限个小幅度的集合，把落入某个间隔内的样值归为一类，并赋予相同的量化值。量化间隔的数目称为量化集，量化过程存在量化误差，在还原信号的D/A转换后，这种误差作为噪声再生，称为量化噪声。量化级数越多。量化误差就越小，质量就越好。编码编码是

17、根据一定的协议或格式把模拟信息转换成二进制比特流的过程。多媒体信息数字化的过程中，最简单的就是直接用量化后的二进制数作为输出的数字信号，这种编码方式就是PCM编码。3.2MP3音频压缩编码MP3(MPEG-1 Layer3,MPEG-1的第3层)是目前最常用的音频压缩编码之一，他结合了MUSICAM和ASPEC两种算法，压缩比达到10：112：1能在低码率下保证音频的高品质，因而在网络视频中采用来对音频信号进行编码。MP3的优点有许多，主要有三点：一是由于大大了文件的体积，所以相同的空间能存储更多的信息；二是由于没有机械元件，全部是电子元件，所以不存在防震问题，更加适合运动时欣赏音乐；三是可以

18、随心所欲编辑自己喜爱的歌。有一利便有一弊，MP3也有一些缺点。MP3音频压缩技术是一种失真压缩，因为人耳只能听到一定频段内的声音，而其他更高或更低频率的声音对人耳是没有用处的，所以MP3 技术就把这部分声音去掉了，从而使得文件体积大为缩小。虽然听上去MP3音乐仍旧具有接近CD的音质，但毕竟要比CD稍逊一些。而且，由于技术比较落后，同样码率下音质会比AAC、OGG差一些。MP3文件有一个标准的格式，这个格式就是包括384.576.或者1152个采样点（随MPEG的版本和层不同而不同）的帧，并且所有的帧都有关联的头信息（32位）和辅助信息（9.17或者32字节，随着MPEG版本和立体声或者单通道的

19、不同而不同）。头和辅助信息能够帮助解码器正确地解码相关的霍夫曼编码数据。所以，大多数的解码器比较几乎都是完全基于它们的计算效率（例如，它们在解码过程中所需要的内存或者CPU时间）。4. 编码策略4.1选择正确的编码设置编码要符合用户的网络带宽要根据实际应用选择码率要根据应用形式选择编码方式要根据网站的管理需求选择编码方式4.2编码方式CBR编码使用CBR编码时，比特率在流的过程中基本保持恒定并且接近目标比特率。始终处于由缓冲区大小确定的时间窗内。CBR编码的缺点在于编码内容质量的不稳定，因为内容的某个片段要比其他片段更难压缩，所以CBR流的某个部分质量就比其他部分差。此外，CBR编码会导致相邻

20、流的质量不同，通常在较低比特率下，质量的变化更加明显。VER编码VBR编码是很有优势的：使用VBR编码时，复杂的内容（例如新闻播音）不会受益于VBR编码。对于混合内容使用VBR编码时，在文件大小相同的条件下，VBR编码的输出结果要比CBR编码的输出结果质量要好得多。在某些情况下，与CBR编码文件的输出结果质量相同的VBR编码文件，其大小可能只有前者的一半。两次通过编码对于一次通过编码，内容通过编码器的次数只有一次，并且在遇到内容时即进行压缩。而对于两次通过编码，则在第一次通过时分析内容，然后在第二次通过时根据第一次通过时收集的数据进行编码。两次通过编码可以生成质量更好的内容。智能流技术视频提供商为用户提供服务的方法有两种。一种方法是创建多个不同连接速率的文件，服务器依据用户连接状况发送相应文件，但这会带来制作和管理的困难，而且用户连接状况是动态变化的，服务器也无法实时协调。另一种方法是采用智能流技术（SureStream）。5总结通过这次资料的搜集和整理，深刻体会到学习和不断学习积累的重要性，作为一个即将毕业的硕士研究生在读书方面是远远不够的，需要更加努力。通过和老师讲解和同学们的讨论对音视频压缩编码有了深入了解不再是浮于表面的浅显了解。通过这次探讨课程论文的撰写一定会对我以后的学习和科研起到助力作用。专心-专注-专业

展开阅读全文