听觉系统的感知特性精.ppt-淘文阁

资源描述

《听觉系统的感知特性精.ppt》由会员分享，可在线阅读，更多相关《听觉系统的感知特性精.ppt（37页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、听觉系统的感知特性第1页，本讲稿共37页第九章第九章 MPEG声音声音MPEG Audio 与感知特性（与感知特性（P136）心理声学模型(其余内容不作为考试范围）第2页，本讲稿共37页第十章第十章 MPEG电视电视 Mpeg-1;Mpeg-2均采用图像块单元，进行变换、量化、移动补偿等处理电视图像的数据率（电视图像的数据率（P154）ITU-R BT.601标准数据率VCD电视图象数据率的估算 DVD电视图象数据率的估算第3页，本讲稿共37页第十章第十章 MPEG电视电视数据压缩算法（10.2）电视图象压缩利用的各种冗余信息（电视图象压缩利用的各种冗余信息（P156表）表）MPEG专家组

2、定义的三种图象：帧内图象专家组定义的三种图象：帧内图象I(intra)，预测图象，预测图象P(predicted)和双向预测图象和双向预测图象B(bidirectionally interpolated)，典型的排列如图，典型的排列如图10-01所示（所示（P156）第4页，本讲稿共37页第十章第十章 MPEG电视电视帧内图象I(intra)帧内图象I不参照任何过去的或者将来的其他图象帧，压缩编码采用类似JPEG压缩算法，它的框图如图10-02所示。如果电视图象是用RGB空间表示的，则首先把它转换成YCrCb空间表示的图象。每个图象平面分成88的图块，对每个图块进行离散余弦变换DCT(Dis

3、crete Cosine Transform)。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序，然后再使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM(Differential Pulse Code Modulation)，交流分量系数用行程长度编码RLE(run-length encoding)，然后再用霍夫曼(Huffman)编码或者用算术编码。第5页，本讲稿共37页第十章第十章 MPEG电视电视图10-02第6页，本讲稿共37页第十章第十章 MPEG电视电视预测图象预测图象P的压缩编码算法的压缩编码算法预测图象的编码也是以图象宏块(ma

4、croblock)为基本编码单元，一个宏块定义为IJ象素的图象块，一般取1616。预测图象P使用两种类型的参数来表示：一种参数是当前要编码的图象宏块与参考图象的宏块之间的差值差值，另一种参数是宏块的移动矢量第7页，本讲稿共37页要使预测图象更精度，就要求找到与参考宏块MRJ最佳匹配的预测图象编码宏块MPI。所谓最佳匹配是指这两个宏块之间的差值最小。第8页，本讲稿共37页第十章第十章 MPEG电视电视假设编码图象宏块MPI是参考图象宏块MRJ的最佳匹配块，它们的差值就是这两个宏块中相应象素值之差。对所求得的差值进行彩色空间转换，并作4:1:1的子采样得到Y，Cr和Cb分量值，然后仿照JPEG压缩

5、算法对差值进行编码，计算出的移动矢量也要进行霍夫曼编码。第9页，本讲稿共37页第十章第十章 MPEG电视电视10-04第10页，本讲稿共37页第十章第十章 MPEG电视电视双向预测图象双向预测图象B的压缩编码算法的压缩编码算法第11页，本讲稿共37页10.2.5 电视图象的结构电视图象的结构MPEG编码器算法允许选择I图象的频率和位置。I图象的频率是指每秒钟出现I图象的次数，位置是指时间方向上帧所在的位置。一般情况下，I图象的频率为2。MPEG编码器也允许在一对I图象或者P图象之间选择B图象的数目。I图象、P图象和B图象数目的选择依据主要是根节目的内容。例如，对于快速运动的图象，I图象的频率可

6、以选择高一些，B图象的数目可以选择少一点；对于满速运动的图象I图象的频率可以低一点，而B图象的数目可以选择多一点。此外，在实际应用中还要考虑媒体的速率。第12页，本讲稿共37页一个典型的I、P、B图象安排如图所示。编码参数为：帧内图象I的距离为N=15，预测图象(P)的距离为M=3。第13页，本讲稿共37页10.3 MPEG-2的配置和等级的配置和等级在MPEG-2标准化阶段，考虑到要适应不同数据速率设备的应用，MPEG专家组定义了三种质量不同的编码方式：信噪比可变性(SNR/Signal-to-Noise Scalability)，空间分辨率可变性(Spatial Scalability)

7、和时间分辨率可变性(Temporal Scalability)。第14页，本讲稿共37页信噪比可变性SNR(Signal-to-Noise scalability)是指图象质量的折中，对于数据率比较低的解码器使用比较低的信噪比，而对数据率比较高的解码器则使用比较高的信噪比；空间分辨率可变性(Spatial scalability)是指图象的空间分辨率的折中，对于低速率的接受器使用比较低的图象分辨率，而对于数据率比较高的接受器使用比较高的图象分辨率；时间分辨率可变性(Temporal Scalability)是指图象在时间方向上分辨率的折中，与空间分辨率类似。第15页，本讲稿共37页MPEG-2

8、为此引入了“配置(Profiles)”和参数“等级(Levels)的概念。每种配置定义一套新的算法，而每一个等级指定一套参数范围(如图象大小、帧速率和位速率)。第16页，本讲稿共37页10.4 MPEG-4电视图象编码 MPEG Video专家组建立了一个用来开发图象和电视图象编码技术的模型，叫做“试验模型(Test Model)”或者叫做“验证模型(VMVerification Model)”。这个模型描述了一个核心的编码算法平台，包括编码器、解码器以及位流(bitstream)的语法和语义.第17页，本讲稿共37页10.4.1 电视图象对象区的概念 MPEG-4 Video编码算法支持由M

9、PEG-1和MPEG-2提供的所有功能，包括对各种输入格式下的标准矩形图象、帧速率、位速率和隔行扫描图象源的支持。MPEG-4 Video算法的核心是支持内容基(content-based)的编码和解码功能，也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法。第18页，本讲稿共37页为了实现预想的内容基交互等功能，MPEG-4 Video验证模型引进了一个叫做“电视图象对象区(VOPVideo Object Plane)”的概念。MPEG-4 Video验证模型不像MPEG-1/-2 Video那样把电视图象都认为是一个矩形

10、区，而是假设每帧图象被分割成许多任意形状的图象区，每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容，这种区被定义为图象对象区VOP。第19页，本讲稿共37页第20页，本讲稿共37页编码器输入的是任意形状的图象区，图象区的形状和位置也可随帧的变化而改变。属于相同物理对象的连续的电视图象对象区(VOP)组成电视图象对象(VOVideo Objects)。MPEG-4可单独对属于相同电视图象对象(VO)的电视图象区(VOP)的形状、移动(motion)和纹理(texture)信息进编码和传送，或者把它们编码成一个单独的电视图象对象层(VOL Video Object Layer)。此外，需要标识

11、每个电视图象对象层(VOL)的信息也包含在编码后的位流(bitstream)中，这些信息包括各种电视图象对象层(VOL)的电视图象在接收端应该如何进行组合，以便重构完整的原始图象序列。这样就可以对每个电视图象对象区(VOP)进行单独解码，提供了管理电视图象序列的灵活性。第21页，本讲稿共37页10.4.2 电视图象编码方案 MPEG-4 Video验证模型对每个电视图象对象(VO)的形状、移动和纹理信息进行编码形成单独的VOL层，以便能够单独对电视图象对象(VO)进行解码。如果输入图象序列只包含标准的矩形图象，就不需要形状编码，在这种情况下，MPEG-4 Video使用的编码算法结构也就与MP

12、EG-1和MPEG-2使用的算法结构相同。第22页，本讲稿共37页MPEG-4 Video验证模型对每个电视图象对象区(VOP)进行编码使用的压缩算法是在MPEG-1和MPEG-2 Video标准的基础上开发的，它也是以图象块为基础的混合DPCM和变换编码技术(hybrid DPCM/Transform coding)。MPEG-4编码算法也定义了帧内电视图象对象区I-VOP(Intra-Frame VOP)编码方式和帧间电视图象对象区预测P-VOP(Inter-frame VOP prediction)编码方式，它也支持双向预测电视图象对象区B-VOP(B-directionally pre

13、dicted VOP)方式。在对电视图象对象区(VOP)的形状编码之后，颜色图象序列分割成宏块进行编码.第23页，本讲稿共37页第24页，本讲稿共37页图描绘了MPEG-4 Video的编码算法，用来对矩形和任意形状的输入图象序列进行编码。这个基本编码算法结构图包含了移动矢量(motion vector)的编码，以及以离散余弦变换为基础的纹理编码。第25页，本讲稿共37页第26页，本讲稿共37页第27页，本讲稿共37页10.4.3 电视图象分辨率可变编码“电视图象分辨率”是指电视图象空间分辨率(spatial resolution)和时间分辨率(temporal resolution)。空间分

14、辨率是指一帧图象包含的行数与每行显示的象素数之乘积，而时间分辨率是指每秒种显示或者传输的图象帧数。设置电视图象分辨率可变编码功能的一个重要目的是为了能够灵活支持性能不同(例如不同带宽)的各种电视接收或显示设备，或者支持要求浏览电视数据库等方面的应用。另一个目的是提供分层次的电视图象数据位流，这样可按应用所要求的先后次序进行传输。第28页，本讲稿共37页MPEG-2也有电视图象分辨率可变编码功能，但它是以图象的帧为基础进行编码。而MPEG-4电视图象分辨率可变编码是以任意形状的电视图象对象区(VOP)为基础进行编码。对那些没有能力或者不愿意接收高分辨率图象的接收器，它可以接收分辨率比较低的电视图

15、象，降低空间分辨率或者时间分辨率意味降低图象的质量。第29页，本讲稿共37页空间分辨率可变性(Spatial Scalability)和时间分辨率可变性(Temporal Scalability)的实现方法类似。图描述了多种分辨率电视图象编码(multiscale video coding)方案。该方案提供三个层次的编码/解码，每一层都支持在不同空间分辨率下进行编码/解码。从图中可以看到，多种空间分辨率的实现是通过降低输入电视信号的采样率来获得的。第30页，本讲稿共37页第31页，本讲稿共37页10.5 HDTV格式格式现在我们使用的电视格式再加上新制定的电视格式归纳在图10-16中。美国把

16、1280720格式称为高级电视ATV(advanced television)，把19201035称为高清晰度电视HDTV(high definition television)。第32页，本讲稿共37页第33页，本讲稿共37页1995年11月28日美国高级电视委员会ATSC(Advanced Television Systems Committee)向FCC咨询委员会(FCC Advisory Committee)提交了数字电视标准(Digital Television Standard)，并推荐作为高级电视广播标准。第34页，本讲稿共37页第35页，本讲稿共37页电视图象压缩以MPEG-2

17、 Video标准为基础，采样基本型配置(Main Profile)，等级从基本级（Main Level)到高级(High Level)。声音压缩以AC-3系统为基础，采样频率为48kHz，支持5个环绕声和1个超低频声道。该规格是1996年介绍的，由于近年来MPEG电视和声音标准的研究已有新的进展，因此该规格有可能在实行过程中会作修改。第36页，本讲稿共37页电视图象数据压缩的依据是什么？MPEG-1编码器输出的电视图象的数据率大约是多少？MPEG专家组在制定MPEG-1/-2 Video标准时定义了哪几种图象？哪种图象的压缩率最高？哪种图象的压缩率最低？有人认为“图象压缩比越高越好”。你对这种说法有何看法？有人说“MPEG-1编码器的压缩比大约是200:1”。这种说法对不对？为什么？说明电视规格MPML和HPHL各自的含义。电视图象的空间分辨率和时间分辨率是什么意思？第37页，本讲稿共37页

展开阅读全文