《语音编码技术及其在通信系统中的应用.docx》由会员分享,可在线阅读,更多相关《语音编码技术及其在通信系统中的应用.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除多媒体技术基础期末论文题目:语音压缩编码及其在通信系统中的应用 专业: 通 信 工 程 姓名: 张 娴 学号: 1 2 3 0 7 1 3 0 4 4 9 2016年5月24日在现代通信中,随着科学技术的迅速发展,图像、数据等非话音信息在通信信息总量中所占的比例大大提高,而且这种提高的趋势仍然会继续下去。比如说,以前的手机基本上只可以打电话,发短信,不能接收文件,不能观看视频,但是现在的3G手机甚至4G手机,可以看视频,接发文件,还有很多的应用软件。语音信号所占的传输比例的确是大大减小。但是,到目前为止,在大多数通信系统中,传输最多的信息仍然是语
2、音信号。比如说我们经常打电话,用语音发微信,听音乐,看视频等等。在可以预见的未来通信中,尽管语音信号在通信信息总量中所占的比例会有所下降,但仍然会是传输最多的信息。语音信号是模拟信号,不能直接在数字通信系统中传输,必须先进行模/数转换再进行数/模转换,这种转换就称为语音编译码(简称语音编码),其作用是将语音模拟信号转换为数字信号,到了接收端,再将收到的语音数字信号还原为语音模拟信号。可见,语音编码技术在数字通信中具有十分重要的作用,随着计算机技术与超大规模集成电路技术的飞速发展和广泛应用,信号的数字处理、数字传输和数字存储日益显示出巨大的优越性。数字化技术的应用范围迅速扩大到各个科学技术领域,
3、渗透到工农业生产和社会生活的各个方面。因此,尽量减少信号占有带宽、持续时间和存储容积,以节省信号在传输、处理和存储中的开销,具有巨大的经济价值。所以,语音编码技术,尤其是语音压缩编码技术(编码速率在16kbit/s以下),近年来受到人们的广泛关注和重视,有着极为迫切的客观需求。正是在这种强大的客观需求推动下,近二十几年来,随着计算机技术、微电子技术、信号处理技术以及编码理论的发展和进步,语音编码技术取得了许多突破性的进展,提出了许多新的编码技术和算法,并迅速得到了广泛应用。由于各种通信网络工作的环境各不相同,传输信息也不完全一样,用户情况更是千差万别,因而对语音编码提出的要求也就不尽相同。综合
4、各种通信网络对语音编码的共同要求,大致有几下几点。(1)编码速率要适合在常用话音信道内传输,一般要求编码速率在2kbit/s到16kbit/s之间。(2)在一定的编码速率下,语音质量要尽可能高,即译码后的恢复语音的保真度要尽量高。(3)编译码时延要小。总时延一般要求不大于65ms。(4)编译码算法复杂度不能太大,以适用于大规模集成电路实现。(5)坚韧性好,有较好的抗误码性能。然而上述这些要求之间往往又是互相矛盾的。例如,为了使语音质量好,编码速率就应该要高一些,但这又会使其占用的信道带宽增大,信道带宽是有限的,编码速率过高就不能在信道内传输。因此,在实际应用中要根据具体情况综合分析和比较,在各
5、个要求之间进行一定的折衷,选择最佳的编码方案。目前语音编码已获得非常广泛的应用,语音编码系统的构成也多种多样。归纳起来可以分为两大类:第一类,编码存储回放系统,又称为数字语音录放系统,例如发声字典;第二类,编码传输译码系统,又称为数字电话通信系统。下图分别画出了这两种语音编码系统的原理方框图。语 音译码器数字存储媒介语 音编码器输入 输出语音 语音数字语音录放系统原理方框图 调制器信 道编码器语 音编码器输入语音传输设备及信道解调器信 道译码器语 音译码器输出语音数字电话通信系统原理方框图数字语音录放系统与模拟语音录放系统相比,具有灵活性高、可控性强、寿命长等有点。在这类语音编码系统中,对编码
6、实时性要求不高,但要求有较高的数据压缩率,以降低数字存储的容量。对译码器则要求算法尽量简单,成本尽量低,能够实时译码或基本实时译码,以减少响应时延。数字电话通信系统与模拟电话通信系统相比,具有抗干扰能力强、保密性好、易于集成化等优点。在数字电话通信系统中,一般都要求实时编码和译码,同时对算法复杂度、抗误码能力等都有一定要求。语音编码按照传统的分类方法通常分为3类:波形编码、参数编码和混合编码。波形编码是最基本的语音编码方式,也是最早提出和实现的编码技术,应用很广。它将时间或频域(或变换域)信号直接变换成数字信号,力求使重建语音波形保持原始语音信号的波形形状。具有语音质量好、抗干扰性能强等有点。
7、其缺点是所需用的编码速率高,一般在16kbit/s到64kbit/s之间。波形编码当其编码速率进一步降低时,其语音质量等性能指标下降很快,但是若编码速率过高,又会使占用的信道带宽增大。参数编码又称为声源编码或声码器,有时还称分析综合编码,它将信源信号在频域或其他变换域提取特征参数,然后对这些特征参数进行编码和传输,在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。参数编码通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形与原语音信号波形却相差甚远。参数编码的优点是可实现低速率语音编码,其编码速率可低至2.
8、4kbit/s一下。其缺点是语音质量差,自然度较低,即使是熟人一般也听不出讲话人是谁。此外,参数编码的坚韧性也不够好。混合编码是在采用线性预测编码(LPC)技术的语音参数编码的基础上,通过许多的改进措施,并引入波形编码的原理,使用合成分析法而形成的一种新的编码技术,它将波形编码和参数编码结合起来,克服了它们的缺点,借鉴了它们的长处,是近年来在语音编码技术上的一个突破性进展,它在4kbit/s到16kbit/s速率上能够得到高质量的合成语音。混合编码技术在现代通信系统中得到了广泛应用并正处于迅速发展之中,目前仍有许多新的编码算法不断出现。语音编码所要解决的基本问题,是在给定的编码速率条件下,如何
9、得到尽可能好的重建语音质量(或称编码质量),同时应尽可能减少编译码算法的复杂度和时延,并使编译码系统有较好的坚韧性;或是在给定编码质量、编译码复杂度和时延以及坚韧性要求的条件下,如何尽可能降低语音编码所需的速率等。这5个方面的要求,就是衡量语音编码性能的主要指标。在不同的应用中,对各个指标要求的侧重点也有所不同。编码速率可以用“比特/秒”(bit/s)来度量,它代表了编码的总速率,一般用V表示。编码速率也可以用“比特/样点”(bit/p)表示,它代表了平均每个语音样点用多少比特编码,一般用R表示,V和R可以通过取样速率联系起来: V=R其中的取样速率通常根据Nyquist定理由信号带宽决定。显
10、然,平均每样点比特数R越高,语音波形或参数量化就越精细,话音质量也就越好,相应地对传输带宽或存储容量的要求也就越高。编码和译码算法的复杂程度同语音编码的话音质量有非常密切的关系。在同样数码率的情况下,采用复杂一些的算法将会获得更好的话音质量;而对于相同的话音质量,采用复杂一点的算法能够降低编码所需的速率。编解码算法的复杂程度同硬件的实现也有密切关系,它将决定硬件实现的复杂程度、体积、功耗以及成本等。增加算法的复杂程度可以提高语音编码质量,但往往也伴随着增加编译码的时延。在实时语音通信系统中,语音编译码的时延对系统的通话质量有很大的影响。例如在卫星通信中,一跳传输时延约0.5s,讲话后再听到对方
11、回答需要1s,已明显感到对方反应“迟钝”。如果时延再大,正常交谈都会发生困难。时延影响通话质量的另一个原因是回声。当时延比较小时,回声同话机侧音及房间交混回响声想混,因而感觉不到。当往返总时延超过约100ms左右,发话就能够从手机中听到自己的回声。如果回声传输路径损耗不够大,就会听到多次回声,从而严重影响通话质量。近年来,一方面由于社会进步和科技发展所带来的强大客观需求的推动,另一方面由于计算机技术、通信技术、信号处理技术和微电子技术的飞速发展提供了良好的条件,语音编码技术在许多方面都取得了突破性的进展,有很多的研究和发展的热点课题。其中,倍受人们关注和重视、具有重要应用前景和价值的几个热点课
12、题是:极低速率语音编码技术;宽频带高音质声频编码技术。下面简要介绍这两个热点课题的研究和发展情况。一、极低语音编码技术编码速率低于1200bit/s的语音编码,称为极低速率语音编码。为了满足日益增长的对通信的巨大客观需求,现代通信一方面在努力建设新的通信线路,扩大通信信道的带宽,增大通信容量,实现宽带通信;另一方面也在努力压缩信号编码的速率,减少其传输占用的带宽,提高通信信道的利用率,增大通信容量。但是事实上,有的通信信道难以扩展并且质量很差,如短波通信;有的信道正在广泛应用,短期内无法或很难更新或扩展,如市话通信和载波通信;有的信号十分昂贵,如宇宙通信、卫星通信等,新建和扩展信道花费过大;在
13、这些情况下,低速率语音编码是一种最佳选择,每压缩一比特速率都会带来巨大的经济利益;还有些特殊的通信,如在强大人为干扰下或环境噪声极强条件下的军用通信、数字语音保密通信等,无法或极难新建或扩展信道,在这种条件下,极低速率语音编码就成为唯一选择。综上所述可见,在保证良好语音质量的前提下,大力压缩语音编码速率,实现极低速率语音编码,有重大的经济价值,具有巨大的吸引力和广阔的应用前景。1、1200bit/s到400bit/s的语音编码技术速率在1200bit/s到400bit/s的语音编码技术,其编码算法一般是在2.4kbit/s的声码器的基础上,利用帧间相关性和矢量量化技术进一步进行数据压缩,实现极
14、低速率的语音编码。(1) 帧填充技术在速率为2.4kbit/s的声码器的码序列中,其相邻帧之间仍存在较大的相关性,尤其是在语音的平稳段,如浊音段,帧与帧之间的变化不大。若每隔一帧作一次编码和传输,并通知接受端在空白帧(未编码传输帧)中填充哪一帧(是其前相邻帧或后相邻帧),即可将编码速率几乎压缩一半。根据这种思路,再配合采取一些其他的处理技术,就可以进一步压缩编码速率,并能使语音质量基本保持不变。 (2) 利用矢量量化技术 利用矢量量化(VQ)技术,可以进一步减小帧间参数的相关性。其基本思路是:把一帧或几帧需要编码传输的参数划分为一组,组成一个矢量,根据感觉加权最小失真原则,在一个已训练、设计好
15、的码书中,搜索该矢量对应的最佳码字,作为该矢量的量化矢量,对此码字的编码和传输则仅对该码字的序号(在码书中的标号或地址)进行编码传输。这样就可以进一步降低编码速率,又不会过多的影响语音质量。2、400bit/s以下的语音编码技术 虽然从信息论的观点来看,语音编码的信息速率下限是50bit/s左右,但是,大量的研究结果表明,若是将比特率降低到400bit/s以下,目前低速率语音编码中所使用的基于LP分析合成的各种算法都难以满足要求,其所提供的语音质量根本无法达到公众能够接受的程度。所以为使语音编码的速率降低至400bit/s以下,甚至逼近50bit/s左右的下界,只有采用语音识别与合成技术,构成
16、识别合成型声码器。 (1)识别合成型声码器的基本原理 识别合成型声码器,采用语音识别与合成技术对语音基元进行编码。语音基元可以是音素、音节或词,任何一种语言的音素或音节是一个有限数目的集合(比如说汉语拼音里面的声母、韵母等,又比如英语中的音标),用其作为基元进行编码,就可以实现无限词汇的语音编码。这种声码器在发送端采用语音识别技术进行语音基元识别和编码,接收端根据收到的语音基元代码和某些附加的韵律信息再重新合成语音。由于这种声码器需要编码传输的参数很少,而在接收端又是按规则合成语音,所以其传输速率很低,而且接收端恢复出的合成语音其质量非常好。目前已研制成功的汉语识别合成型声码器,其速率低于20
17、0bit/s,语句可懂度达95%以上。事实上,大量的研究证明,识别合成型声码器的编码速率还可以降低到150bit/s以下,仍可恢复出可懂度很高、自然度较好的合成语音。 一个无限词汇汉语识别合成型声码器的原理方框图如下图所示。连续语音识别系统语音 识别结果语音合成系统 合成语音韵律特征提取 韵律信息(2)关于识别合成型声码器编码速率的估计 汉语识别合成型声码器的编码速率究竟能降至多少?这可以根据现有的研究结果做如下估计。 在所有需要编码传输的信息当中,基音轮廓信息的编码是最重要的问题,若采用标量量化,每帧(10ms)用8bit对基音周期进行编码,编码速率将达到800bit/s。但是现在可以采用矢
18、量量化技术,使其比特率可降低到每个音节8bit,相当于每秒1640bit(每秒钟发音25个音节),加上每个音节的拼音和声调编码用11bit,音长和能量因子每音节各需用5bit,音联标志每秒用1bit,共需传输30bit/音节,则比特率为60bit/s150bit/s。这就是汉语识别合成型声码器所能降低的最低速率的下限。 二、宽频带高音质声频编码技术语音编码技术在沿着极低速率语音编码方向发展的同时,近年来又适应数字音频广播、电话会议、消费电子技术等方面的强大客观需求,朝着宽频带高音质声频编码的方向发展,这也是语音编码目前一个很重要的发展动向,受到人们的极大关注。宽频带声频有供人们娱乐和鉴赏的功能
19、,因此对于宽频带声频编码的重建语音的音质有很高的要求。目前的宽频带声频编码一般都是采用较高比特率的波形编码,以保证重建语音的质量能够达到要求。当然,这些波形编码可以是时域的,可以是频域的,还可以是变换域的。下面介绍一种实用的宽频带高音质声频编码器,即由日本索尼公司提出的“自适应变换声学编码器(Adaptive Transform Acoustic Coder,ATRAC)”。1. 编码系统的组成比特分配 参量 频谱恢复频谱量化信号分析PCM音响 量化频谱 频谱 信号信号合成 PCM音响图1 ATARC编、译码器原理方框图QMFBIMDCT-HMDCT-HQMFB 1122 H带频谱 1122P
20、CM 音响QMFBIMDCT-MMDCT-MQMFB 5.511 M带频谱 5.511MDCT-LIMDCT-L 05.5 L带频谱 05.5 PCM 音响 图2 ATARC信号分析-合成原理方框图 2.设计特点ATRAC的设计充分利用了人耳的以下听觉特性。(1)等响度 即对于同样声压级的声音,人耳实际感觉到的音量却是随频率而变化的。(2)同时掩蔽 即当几个跨度不同的声音同时存在时,强声使得较弱的声音难以听见。这种特性受掩蔽声音和被掩蔽声音之间的相对频率关系影响很大。(3)异时掩蔽 即不同时间先后产生的声音之间的掩蔽。强声音掩蔽其后产生的弱声音,称为“正向掩蔽”;弱声音短暂地被其后产生的强声音
21、所掩蔽,称为“反向掩蔽”。(4)对频谱形状的依赖 即如果信号能量相同,听觉对频谱宽阔平坦的类噪声信号的S/N敏感程度,要比之对陡峭的单音信号的敏感程度低得多。3.编码系统的工作原理ATRAC的工作按照下述步骤进行:(1)音频分帧 它将输入声音信号每512个样值分为一帧,构成一个声音帧,时间约为11.6ms,然后以帧为单位进行处理。(2)子带分割 用上面图2所示的两级QMFB将一帧信号分成高(H:1122kHZ)、中(M:5.511kHZ)、低(L:05.5kHZ)3个频段。(3)谱分析 利用MDCT得到各帧的频谱。为了更有效的利用音乐信号的非平稳性质和人耳的掩蔽效应,MDCT的变换长度是可变的
22、。在高、中、低3个频段均设长、短两个变换组长(窗)模式;若选择长模式,则无论在哪个频段均只做一次变换;若采用短模式,则在高频段要做8次MDCT,在中、低频段则做4次MDCT。(4)归一化 以各组频谱数据的最大绝对值为基准,将各参数的幅度变换至(-1,1)范围,然后按该编码单元的比特赋值进行量化。(5)比特分配 按照变换编码中有关比特分配的原则和方法进行比特分配。近年来,随着数字通信、计算机技术、信号处理技术、微电子技术等相关技术的迅速发展和广泛应用,语音编码技术的发展十分迅速,不断研发出了新的算法,相信随着相关科技的进一步发展,语音编码技术一定能取得更多的突破。参考文献(1)吴家安,张会生等编著.语音编码技术及其应用.北京:机械工业出版社,2006(2)吴家安主编.现代语音编码技术.北京:科学出版社,2008(3)鲍长春编著.数字语音编码原理.西安:西安电子科技大学出版社,2007(4)李烨,唐昆等编著.数字语音编码技术.北京:电子工业出版社,2013(5)姚天任编著.数字语音编码.北京:电子工业出版社,2011(6)王文兴. 语音编码技术的分析与应用. 焦作工学院学报(自然科学版),21(3)(7)王少勇,王秉均. 语音编码技术的现状与发展. 天津通信技术,第二期【精品文档】第 10 页