《最新多媒体技术原理及应用(马华东第二版)第二章PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新多媒体技术原理及应用(马华东第二版)第二章PPT课件.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多媒体技术原理及应用多媒体技术原理及应用(马华东马华东第二版第二版)第二章第二章2.1 数字音频编码MIDI音频文件 nMIDI音频文件是一串时序命令,它记录音乐的行为。 n命令消息分为频道消息(频道声音消息、频道模式消息)和系统消息(系统实时消息、系统通用消息与系统专用消息)。它是以某种乐器的发声为其数据记录的基础。n它的文件占用很少存储器空间,且可以做细部的修改,如修改节拍等。其声音效果不会因改变节拍而变调。nMIDI不适合编制口语旁白的音频。 n数字音频可从麦克风、录音带、CD、电视及其它来源获取。它把声音转换成储存体中数字信息。n数字音频较为稳定,容易保持一致性,音频品质也较易获得保证
2、。n缺点是记录非常详尽,数据量极大,文件较MIDI音频大出200倍以上。要修改数字音频细节非常困难,大大地增加了CPU的负担。n它可以适合任何一种音响,包括人的口语在内,故大多数节目仍采用这种音频。 3D音频3D音效可分为以下几类:n(1)扩展式立体声。 n(2)环绕立体声。 n(3)交互式音效。支持3D音频API种类:nDirectX DirectSound 3D; Aureal 3D; EAX; Sensaura; Qsound; 杜比AC-3; 数字化影院系统DTS 2.2 数字图像编码2.2.1 彩色空间n常见模型: n RGB彩色空间 n HSI彩色空间 n YUV彩色空间 n YI
3、Q彩色空间 RGB彩色空间nR、G、B是彩色最基本表示模型,也是计算机系统中所使用的彩色模型。 RGB5:5:5方式 用2个字节表示一个象素,具体位分配。RGB5:5:5方式 RGB8:8:8方式 R、G、B三个分量各占一个字节。T(1b) R(5b) G(5b) B(5b) HSI彩色空间n这种模型中, 用H(Hue,色调)、S(Saturation,饱和度)、I(Intensity,光强度)3个分量来表示一种颜色, 这种表示更适合人的视觉特性。YUV彩色空间nY为亮度信号,U、V是色差信号(B-Y,R-Y)。 PAL制式彩色空间即为YUV。优点是亮度和色差信号分离,容易使彩色电视系统与黑白
4、电视信号兼容。n国际无线电咨询委员会根据实验认为采用双倍度采样4:2:2方案效果较好, 提出CCIR601标准。n变换公式(YUVRGB) Y = 0.299*R + 0.587*G+ 0.114*B; U =-0.169*R - 0.332*G+ 0.500*B; V = 0.500*R + 0.419*G - 0.081*BYIQ彩色空间n广播电视系统另一种常用的亮度与色差分离的模型。NTSC制式彩色空间即为YIQ。这里Y是亮度, I和Q共同描述图象的色调和饱和度。n变换公式(YIQRGB) Y =0.299*R+ 0.587*G+ 0.114*B; I =0.211*R - 0.523*
5、G+ 0.312*B; Q =0.596*R - 0.275*G - 0.322*B2.2.2 数字图象文件格式 nTIF nPCXnGIF、TGA、BMP、DVI、JPEG等 TIF文件格式n由美国Aldus Developers Desk和Microsoft制定 n结构n文件头(8B) n参数指针表 n参数数据表 n图象数据 n文件头 含字节顺序(2B,表示存贮格式: II-Intel格式; MMMotorola格式); 标记号(2B, 版本信息); 指向第一个参数指针表的编码(4B)。n参数指针表 由每个长为12B参数块构成, 描述压缩种类、长宽、彩色数、扫描密度等参数。 较长参数(如调
6、色板)只给出指针, 参数放在参数数据表中。其结构定义如下: typedef struct int tag-type; int number-size; long length; long offset; TIF-FIELD;n图象数据 按参数表中描述的形式按行排列PCX文件格式n由Z Soft公司最初制定n结构n文件头(128字节)n数据部分(采用行程长度编码) n文件头结构定义 typedef struct char manufacture; /*always 0 xa0*/ char version; char encoding; /*always 1*/ char bits-per-pi
7、xel; /*color bits */ int Xmin, Ymin; /* image origin */ int Xmax, Ymax; /* image dimension */ int hres; /* resolution values */ int vres; char palette48; /* color palette */ char reserved; char color-planes; /* color planes */ int bytes-per-line; /* line buffer size */ int palette-type; /* grey or c
8、olor palette */ char filler58; PCXHEAD; 其中Version若为5,文件内有个256色调色板,数据768字节,在文件最后。 n文件体 对象素数据采用行程长度编码, 由包含Keybyte和Databyte的包组成。分2种情况: (1) 若Keybyte最高位为11, 则低6位为重复次数。但最多重复63次, 若再长重建一个包.PCX数据包的结构 (2) 若Keybyte最高位不是11,那么该Databyte按原样写入图象文件。对一个字符的表示用长度为1的包。11IndexDatabyte111Databyte2.3 数字视频编码数字视频编码数字视频的结构 n基
9、本单位是帧。n若干同一场景的帧构成镜头n若干镜头构成情节 n若干情节构成故事(节目)国际视频标准 nNTSCNTSC 美国研制,是目前广泛使用的电视制式。它以525条横扫描线来组成一个屏幕帧,每秒30帧,其图象改变采用偶数线与奇数线相互交错更新的方式,造成视觉动态图象。 nPALPAL 中国、英国等国采用制式,W.Bruch1963年发明的,其基本原理类似于NTSC制式。以625条扫描线,每秒25帧,也是以奇偶数扫描线交错方式造成动态图象。 nSECAMSECAM 法国、俄罗斯等国采用制式。同样采用625条线和25帧, 但与NTSC和PAL相比, 其基础技术是采用频率调制, 传播方式也不同于以
10、上两种。 2.4 常用数据压缩技术2.4.1 数据压缩的基本原理n传统上用模拟方式表示声音和图象信息 易出故障,常产生噪音和信号丢失,且拷贝过程中噪音和误差逐步积累; 模拟信号不适合数字计算机加工处理。n数字化处理:巨大的数据量n采样定理采样定理: : 仅当采样频率2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。n采用8bit数字化,从而1秒钟电视信号的数据量约为99.2Mbits。 即约为100Mbps。650MB的CD-ROM仅能存约1分钟的原始电视数据。若HDTV(1.2Gbps), 一张CD-ROM还存不下6秒钟的HDTV图象。 n人说话的音频一般在20Hz到4KHz
11、, 即人类语音的带宽为4KHz。依据采样定理, 设数字化精度为8b, 则1秒钟信号量为64Kbits。 因此, 人讲1分钟话的数据量为480KB。 数字化处理的关键问题数据压缩压缩的基础数据冗余 n空间冗余 n时间冗余 n信息熵冗余n结构冗余 n知识冗余 n视觉冗余 n其它冗余 空间冗余n这是图象数据中经常存在的一种冗余。n在同一幅图象中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成象结构在数字化图象中就表现为数据冗余。 时间冗余n这是序列图象和语音数据中所经常包含的冗余。n图象序列中的两幅相邻的图象之间有较大的相关性,这反映为时间冗余。n人在说话时发音音频是一连续的渐变过程,
12、而不是一个完全时间上独立的过程,因而存在时间冗余。 信息熵冗余n信息熵是指一组数据所携带的信息量,它定义为:H=-i=0N-1Pilog2Pi N为数据类数或码元个数, Pi为码元yi发生的概率.n为使信息编码单位数据量d接近于或等于H,应设:d=i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=b(yK-1).n例如, 英文字母编码码元长为7bit, 即b(y0)=b(y1)= =b(yK-1)=7, 这样d必然大于H, 由此带来的冗余称为信息熵冗余或编码冗余。 结构冗余n有些图象从大域上看存着非常
13、强的纹理结构,我们称它们在结构上存在有冗余.n例如布纹图象和草席图象知识冗余n有许多图象的理解与某些基础知识有相当大的相关性。n例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正脸图象的中线上等等。n这类规律性的结构可由先验知识和背景知识得到, 我们称此类冗余为知识冗余。视觉冗余n人类视觉系统对于图象场的任何变化,并不是都能感知的。n例如,对于图象的编码处理时,由于压缩或量化截断引入了噪声而使图象发生了一些变化,如果这些变化不能为视觉所感知,仍认为图象足够好。n事实上人类视觉系统一般分辨能力约为26灰度等级,而一般图象量化采用28灰度等级,这类冗余我们称为视觉
14、冗余。 其他冗余n例如由图象的空间非定常特性所带来的冗余。 2.4 常用的数据压缩技术 n根据解码后数据与原始数据是否完全一致,数据压缩方法划分为两类: 可逆编码可逆编码( (无失真编码无失真编码) ) 解码图象与原始图象严格相同,压缩大约在2:1到5:1之间。如Huffman编码、算术编码、行程长度编码等。不可逆编码不可逆编码( (有失真编码有失真编码) ) 还原图象与原始图象存在一定的误差,但视觉效果一般可以接受,压缩比可以从几倍到上百倍来调节。常用的有变换编码和预测编码 n根据压缩的原理分类: 预测编码预测编码 利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制(DPCM)和
15、自适应差分脉冲编码调制(ADPCM)。 变换编码变换编码 将图象时域信号变换到频域空间处理。时域空间有强相关信号, 反映在频域上是某些特定区域内能量集中, 从而实现压缩. 正交变换如离散余弦变换, 离散付立叶变换和Walsh-Hadamard变换. 量化与向量量化编码量化与向量量化编码 为了使整体量化失真最小, 就必须依照统计的概率分布设计最优的量化器。已知最优量化器是Max量化器。对象元点进行量化时, 也可以考虑一次量化多个点的向量量化。 信息熵编码信息熵编码 根据信息熵原理,让出现概率大的用短的码字表达,反之用长的码字表示。最常见的方法如Huffman编码、Shannon编码以及算术编码。
16、 子带子带编码编码 将图象数据变换到频域后,按频域分带,然后用不同的量化器进行量化,从而达到最优的组合。或者分步渐近编码,随着解码数据的增加,图象逐渐清晰。 模型编码模型编码 编码时首先将图象中边界、轮廓、纹理等结构特征找出来,保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图象。具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码、基于知识的编码、分形编码等。2.4.1 预测编码n线性预测-DPCM 基本原理是基于图象中相邻象素之间具有较强的相关性。每个象素可根据已知的前几个象素来作预测。因此在预测编码中,编码和传输的并不是象素采样值本身,而是这个采样值的预测值与其实际值之
17、间的差值n非线性预测(不讨论)DPCM系统原理框图 预测器 量化器编码器解码器 预测器信道接收端输出XNXNeNXNeNeNXN+输入XN发送端+-nXN为tN时刻的亮度采样值; XN为根据tN时刻以前已知X1,X2,XN-1对XN所作的预测值; eN=XN-XN为差值信号; eN为量化器输出信号; XN为接收端输出, XN =XN+eN 。n因为:XN-XN = XN-(XN+eN) = (XN-XN)-eN = eN-eNn所以,DPCM系统中的误差来源是发送端的量化器,而与接收端无关,若去掉量化器使eN=eN,则XN=XN,即实现信息保持编码。事实上,这种量化误差是不可避免的。2.4.2
18、 变换编码n输入图象G经正交变换U变换到频域空间,象素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。n对变换系数A中那些幅度大元素予以保留,其它数量多的幅度小的变换系数,全部当作零不予编码,再辅以非线性量化,进一步压缩图象数据。n由于量化器存在,量化后变换系数A和A间必然存在量化误差,从而引起输入图象G和输出图象G间存在误差。图中U是U的逆变换。 变换编码原理框图 变换量化编码器解码器逆变换信道输入发送端接收端输出GGUUAAn变换编码数据压缩主要是去除信源的相关性。n设信源序列为X=X0, X1, XN-1,表征相关性的统计特性就是协方差矩阵: X= 其中i,j
19、=E(Xi-EXi)(Xj-EXj).当协方差矩阵x 除对角线上元素之外各元素均为0时,就等效于相关性为0。n为了有效压缩,希望变换后的协方差矩阵为对角矩阵,并希望主对角线元素随i, j增加尽快衰减。 0,02 0,120,N-121,02 1,12N-1,021,N-12N-1,12 N-1,N-12 n已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使变换后的协方差矩阵满足或接近为一对角阵。nKarhunen-Loeve变换即是这样一种变换,又称为最最佳变换佳变换,它能使变换后协方差矩阵为对角阵,并且有最小均方误差。它的计算比较复杂。n实际应用中采用了一些准最佳变换如DCT,DFT
20、和WHT等,使用这些变换后的协方差矩阵一般都接近一对角阵。2.4.3 信息熵编码n又称为统计编码,它是根据信源符号出现概率的分布特性而进行的压缩编码。n基本思想: 在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。n如Huffman编码、算术编码。 Huffman定理n定理定理 在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。nHuffman定理是Huffman编码的理论基础 实现步骤 (1) 将信源符
21、号按概率递减顺序排列;(2) 把二个最小概率相加作为新符号的概率, 并按(1) 重排;(3) 重复(1)、(2), 直到概率为1;(4) 在每次合并信源时, 将合并的信源分别赋“0”和“1”(如概率大的赋“0”,概率小的赋“1”);(5) 寻找从每一信源符号到概率为1处的路径,记录下路径上的“1”和“0”;(6)写出每一符号的“1”、“0”序列(从树根到信源符号节点)。Huffman编码 信源符号信源符号概率概率编码过程编码过程码字码字码长码长(i)x1 x2x3x4x5x6x7x80.40 0.180.10 0.10 0.070.060.050.041 0010110000010001010
22、0010 000111 33444550101010.090.130.190.230.370.601010011 n上述编码的平均码字长度: R=Pii=0.401+0.183+0.103+0.104+0.074+0.064+0.055+0.045 =2.61算术编码n六十年代初,Elias提出了算术编码概念。n1976年, Rissanen和Pasco首次介绍了它的实用技术。其基本原理是将编码的信息表示成实数0和1之间的一个间隔(Interval),信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。 算术编码举例n采用固定模式符号概率分配如下: 字符: a e i o u
23、概率: 0.2 0.3 0.1 0.2 0.2 范围:0,0.2) 0.2,0.5) 0.5,0.6)0.6,0.8)0.8,1.0)n编码数据串为eai。令high间隔的高端, low为低端,range为间隔的长度, rangelow为编码字符分配的间隔低端, rangehigh为编码字符分配的间隔高端。 n初始high=1,low=0, range=high-low, 一个字符编码后新的low和high按下式计算: low=low+rangerangelow; high=low+rangerangehigh。(1) 在第一个字符e被编码时, e的rangelow=0.2, rangehig
24、h=0.5, 因此: low=0+10.2=0.2 high=0+10.5=0.5 range=high-low=0.5-0.2=0.3 此时分配给e的范围为0.2, 0.5) (2) 第二个字符a编码时使用新生成范围0.2,0.5), a的rangelow=0, rangehigh=0.2, 因此: low=0.2+0.30=0.2 high=0.2+0.30.2=0.26 range=0.06 范围变成0.2, 0.26) (3) 对下一个字符i编号, i的rangelow=0.5,rangehigh=0.6,range=0.06, 则: low=0.2+0.060.5=0.23 high
25、=0.2+0.060.6=0.236n结果结果:用0.23, 0.236)表示数据串eai,如果解码器知道最后范围是0.23, 0.236),它马上可解得一个字符为e, 然后依次得到唯一解a、i, 最终得到eai。 算术编码过程表示1e 0.5ea 0.26 0.2360.80.60.50.20uoieauoieauoieauoiea 0.2 0.2 0.23eai算术编码的特点n不必预先定义概率模型,自适应模式具有独特的优点;n信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码(约5%)。JPEG扩展系统采用。2.5 多媒体数据转换 n不同媒体表示不同的信息表示方式。研究媒体之间转换十分有意义。n有些媒体之间的转换是非常困难的事情,需要研究人类本身对各种媒体理解原理和解释过程。n有些媒体之间的转换则相对容易,几乎不用做什么工作。 部分媒体的转换关系转换转换位图图像位图图像图形图形语音语音音乐音乐文本文本视频视频数值数值位图图像位图图像*映射?*映射*冻结?图形图形 *轮廓或理解 * 波形*乐谱*矢量化?*可视化语音语音?*波形*语音合成?*合成音乐音乐?*识别*音乐合成?文本文本*文字识别*识别*语音识别*转换?*符号化视频视频*序列化*序列化?数值数值?*计算*识别?*转换?