《数字通信中的语音编码技术.doc》由会员分享,可在线阅读,更多相关《数字通信中的语音编码技术.doc(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、摘 要随着数字移动通信的高速发展,尤其是第三代移动通信的发展,使得当今的信道环境变得极其复杂。如何在日趋恶劣的通信环境中保持良好的通话质量,增加通信系统容量,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会发展具有十分重大的意义。语音编码技术可以有效地压缩语音信号的传输带宽,增加通信系统的容量,给解决这一问题提供了一个有效的途径。本文首先简单介绍了语音编码技术的数学基础、基本概念和发展现状,并简单地分析了数字移动通信的特点,总结了适合数字移动通信的语音编码技术的特点。结合目前大家使用的中国移动(GSM)和中国联通(CDMA)数字移动通信系统,对其使用的RPE-LTP和QCELP
2、编码技术做了详细的讨论。并对正处于产业化发展阶段的3G三大主流技术拟采用的编码技术做了简单的介绍。关键词: 数字移动通信,语音编码,变速率编码,3GABSTRACTWith the rapid development of the digital mobile communication , especially the development of the 3G , the channel become extreme complex . How to keep a good quality of call in the more and more worsen communication
3、condition and improve the capacity of the system, it is very important for the development of the society .which make people to produce transfer , store and capture the information more efficient.The technology of speech coding offers a way to meet this challenge.It can efficiently compress the tran
4、smission bandwidth of speech signals,to improve the capacity of the system.First this text introduced the mathematics foundation,basic concept and the development conditions of speech coding in brief,and analyzed the characteristics of the digital mobile communication. At the foundation this text pu
5、t forward the charcateristics of speech coding that fit for the digital mobile communication system.Bond with CHINA MOBILE (GSM)and CHINA UNICOM(CDMA) we are currently using,and discuss the RPE-LTP and QCELP speech coders they used in detail.At last this text simple introduced the speech coders of t
6、hree essential techniques in 3G.KEYWORDS: Digital Mobile Communication,Speech Coding,Variable Rate Speech Coding ,3G前 言现代社会已步入信息时代,世界各国都在致力于现代通信技术的开发以及现代综合通信网的建设。数字移动通信是现代通信技术中不可缺少的部分。在移动通信中传输最多的信息是语音信号,因而语音编码的技术在数字移动通信中具有相当关键的作用。自八十年代末开始,我国的移动通信事业发展极为迅速,经历了第一代的模拟移动通信和第二代数字移动通信,到现在使用的二代半移动通信,还有即将投入使
7、用的第三代数字移动通信。目前介绍移动通信原理的文章、书籍很多,但都很少涉及信源编码这个方面。总结数字移动通信系统中使用的各种语音编码技术,全面,系统地分析它们的原理,技术及应用,不仅能够更好地了解当前的移动通信系统原理,还对促进通信和信号处理事业的发展,具有重要意义。本论文以具体所使用的数字移动通信系统为依据,以编码器和译码器为单元,主要以原理框图的形式,对所使用的各种语音编码技术的原理进行讨论。在讨论过程中,以各个语音编码标准的公布时间先后为线索,以编码技术的不同特点为切入点进行详细的讨论。本论文可分为三个单元,第一单元包括一、二章,主要对语音编码技术作一个简要的描述,在此基础上简单分析了移
8、动通信的特点,总结了适合数字移动通信的语音编码技术的特点。第二单元为三、四章,结合目前大家使用的中国移动(GSM)和中国联通(CDMA)数字移动通信系统,对其使用的RPE-LTP和QCELP编码技术做了详细的讨论。最后一个单元对正处于产业化发展阶段的3G三大主流技术拟采用的编码技术做了简单的介绍。第一章 语音编码概述在现代通信中,信息的传输都是以数字信号的形式进行的,因而在通信的发送端必须将模拟信号转换为数字信号,在接收端再将数字信号还原成模拟信号。随着科学技术的迅速发展,图像、数据等非话音信息在通信信息总量中所占的比例大大提高,而且这种提高的趋势仍然会继续下去。但是,到目前为止,在大多数通信
9、系统中,传输最多的信息仍然是语音信号。在可以预见的未来的通信中,尽管语音信号在通信信息总量中所占的比例会有所下降,但仍然会是传输最多的信息。因而语音编码技术在数字移动通信中具有相当关键的作用。语音编码为信源编码,它将模拟信号变成数字信号以便在信道中传播。这是数字移动通信网中的至关重要的一步。语音编码技术本身已发展多年,随着科学技术的迅速发展尤其是随着计算机技术、微电子技术、信号处理技术以及编码理论的发展和进步,语音编码技术取得许多突破性进展,研究出许多实用的编码技术,这些技术在不断研究、改进和应用中日趋成熟,形成了各种实用的语音编码技术,在各类通信网中得到了广泛的应用。1.1 语音信号的特性要
10、对语音信号进行压缩,就要了解语音信号的一些特性,根据这些对设计编码有用的特性,提出合适的编码技术。其中最常用的包括语音幅度的非均匀概率分布、连续语音抽样信号之间的非零相关性、语音频谱的非平坦特性、语音中的清音和浊音成分的存在、语音信号的类周期性。最基本的特性是语音信号是带限的。一个有限的带宽意味着它可以以一定的速率抽样,当抽样频率大于或等于2倍的信号最高频率成分fm时,就可以从抽样值中完全恢复原来的信号。语音信号的带限特性使信号的模数转换成为可能,同时前面提及的各种特性使量化操作(另一个在语音编码中很重要的处理)能以很高的效率实现。1.1.1 概率分布密度函数(PDF)语音幅度的非均匀概率分布
11、密度函数是另一个重要的语音信号特性。语音信号的PDF的一般特性是:在近零幅度处高概率分布,在幅度很高处低概率分布。在这两个极端之间单调递减。但是确切的分布依赖于输入带宽和录音条件。式(11)的双边指数函数,是电话质量语音信号的长时概率分布密度函数很好的近似表达式。 (11)注意到这个函数表明在零值时有一个最大值,这是由于语音经常性的暂停以及低频语音成分的存在。语音成分的短时PDF也是单峰函数,通常近似地认为是高斯分布。为了保持输入信号的PDF与量化电平分布相匹配,采用非均匀量化(包括矢量量化)方法,在高概率分布的地方安排更多的量化电平,而在概率低的地方安排较少的电平。1.1.2 自相关函数(A
12、CF)自相关函数是另一个语音信号中非常有用的特性,即在语音相连的抽样值之间存在很大的相关性。这就表明了,对每一个语音抽样,有很大的成分可以从以前的抽样值中预测,而且仅有很小的随机误差。所有的差分编码及预测编码的技术都是以研究该特性为基础的。自相关函数(ACF)是信号抽样值之间的作为抽样时间间隔函数相似性的定量测试。该函数的表达式如式(12)所示:(12)其中表示第k个语音抽样。自相关函数按照语音信号的方差归一化,这样,它的值在-1,1范围内,且。典型的信号存在一个连续抽样值的相关性,为0.85到0.9之间。1.1.3 功率谱密度函数(PSD)语音功率谱密度的非平坦特性,能够用来在频域内明显低压
13、缩语音编码。PSD非平坦特性基本上是非零自相关特性在频域中的典型表现。典型语音的长期平均PSD表明高频部分对整个语音能量作用很小。这说明在不同的频域上分别编码,可以产生明显的编码增益。虽然高频部分对能量作用不显著,但它也携带了语音信息,这样也需要在编码中充分表现出来。利用频谱平坦检测(SFM)研究语音频谱的非均匀特性方法,可以得到理论上最大的编码增益的定量分析。SFM被定义为PSD在频域轴上均匀间隔抽样点的算术平均与几何平均的比值。数学表达式为如式(13)所示: (13)其中是语音信号PSD在频域轴上第k个抽样值。语音信号的长期SFM的典型值为8,而短期值在2500之间。1.1.4 语音中的清
14、音和浊音根据发音的机制不同,语言的声音可分为浊音和清音两大类。浊音有称为有声音,英语中的元音和汉语中的韵母都是浊音。当气流通过声门时,如果声带振动并产生一个准周期的空气脉冲,这一空气脉冲激励声道,就得到浊音。声带振动的频率称为基音频率,周期为基音周期,基音频率一般在70300Hz的范围之内,相当于为315ms。基音周期时语音信号的主要特征之一。清音又称无声音,英语中的大多数辅音和汉语拼音中的大多数声母都是清音。如果声道在某处发生收缩,同时迫使空气以高速冲过这以收缩部分而产生湍流,就得到清音。发清音时声带不振动,此时是由湍流建立的宽带噪音源激励着声道。清音波形类似于噪音。1.2 语音编码的基本概
15、念语音编码技术通常分为三类:波形编码、参数编码和混合编码,其中波形编码和参数编码是两类基本类型。1.2.1 波形编码波形编码是将时间域信号直接变换成数字代码,其目的是尽可能精确地再现原来的话音波形。波形编码的基本原理是在时间轴上对模拟信号按奈奎斯特定律所确定的速率进行抽样,然后将幅度样本分层量化,并用二进制代码表示。在量化过程中,充分利用语音信号幅度的非均匀概率分布、连续语音抽样信号之间的非零相关性、语音频谱的非平坦等特性,提高了量化效率,改善了量化性能。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。对于比特速率较高的编码信号(例如从16kbit/s到64kbit/s),波形编
16、码技术能够提供相当好的话音质量。但对于低速率语音编码信号(即是比特率低于16kbit/s),波形编码的话音质量显著下降。脉冲编码调制(PCM)和增量调制()以及它们的各种改进型都属于波形编码技术。1.2.2 参数编码参数编码,又称为声源编码或声码器,有时又称为分析综合编码,它是将信源信号在频率域或其他正交变换域提取特征参数,并将其变换成二进制数字代码进行传输。这些参数主要包括基音周期、共振峰频率、语音强度、浊音清音判决。解码实为反过程,将接收到的数字信号经变换恢复特征参数,根据这些特征参数重建语音信号。具体来说,参数编码是以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参
17、数来描述这个模型。在发送端从模拟信号中提取各个特征参数并进行量化编码。在接收端,根据接收到的数字信号经变换恢复的滤波器系数和声源参数重建语音信号。参数编码通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形与原语音信号波形却相差甚远。这种编码技术可实现低速率语音编码,比特速率可低至2.4kbit/s以下,但语音质量中等,自然度较低,即使是熟人一般也听不出讲话人是谁。线性预测编码(LPC)及其各种改进型都属于参数编码。基于上述两种编码技术,可对现有的语音编码器作如图1-1的分类。图11 语音编码器的分类1.2.3 混合编码混合编
18、码是近二十年提出的一种新的语音编码技术,它将波形编码和参数编码结合起来,既保持了波形编码的高质量和参数编码的低速率的优点,又克服了两者各自的不足。混合编码数字语音信号中既包括若干语音特征参数又包括部分波形编码信息,其可将比特速率压缩到416kbit/s,在816kbit/s范围内能达到良好的话音质量。混合编码技术在现代通信系统中得到广泛应用。多脉冲激励线性预测(MPE-LPT)编码、规则脉冲激励线性预测(RPE-LPT)编码和码激励线性预测(CELP)编码等,都属于混合编码。混合编码技术仍然处于迅速发展之中,目前仍有许多新的编码算法不断出现。1.2.4 信息压缩技术要实现低速、高质量的语音编码
19、,必须采用信息压缩技术。一般说来,信息压缩技术可分为两大类:波形处理技术和量化技术。波形处理技术的目标是削减语音波形的冗余度,包括线形预测分析,频带分割、正交变换和分析合成等。量化技术的目标是在幅度量化上实现优化,包括自适应量化,自适应比特分配和矢量量化。典型的语音编码方式和信息压缩技术的关系见图12。图1-2 语音编码方式和信息压缩技术1.2.5 语音质量的评价在语音编码技术中,对语音质量的评价是一个重要的问题。语音质量的高低的直接感受者是听者的主观感觉,所以要客观地对语语音质量进行测量是一个长期存在的难题。目前,广泛采用的评定方法是所谓的主观评定等级(Subjective Opinion
20、Scale),也称为平均得分(Mean Opinion Score,MOS)。其方法是,由数十名试听者在不同信道环境中试听并给予评分,然后对评分进行统计处理,求出平均得分,分数等级采用五级分制。需要指出的是,听者对语音质量的主观感觉往往是其注意力集中的程度相联系的,因而,对应于主观评价等级,还有一个收听注意力等级(Listening Effort Scale)。表1-3给出了主观评定等级制的质量等级、分数和相应的收听注意力等级。表1-3 主观评定等级MOS判分质量级别收听注意力等级5优可完全松弛,不需要注意力4良需要注意,但不需要明显集中精力3满意需要中等程度注意力2差需要集中注意力1劣即使努
21、力去听,也很难懂实际上,任何语音编码都必须满足质量等级和收听注意力等级两者的最小要求,而在评价一种编码时,可仅基于质量等级。从用户角度看,通常认为语音质量得分在4分和4分以上者为高质量语音编码,达到长途电话网的质量要求,也常称之为网络质量。得分在3.5分左右称为达到通信质量的语音编码,这时听者能感到重建话音质量有所下降,但不影响正常通话,可以满足多数话音通信系统的使用要求。 得分在不超过3分者称为合成质量的语音编码,系指一些声码器合成的语音所能达到的质量。这种语音一般具有足够高的可懂度,但自然度较差,不容易识别出讲话者。1.3 语音编码技术的进展与现状语音编码技术首先应用于有线通信和保密通信,
22、其中最成熟的实用数字语音系统是64kbit/s的PCM。这是一种典型的波形编码技术,主要用于有线电话网,它的话音质量好,可以与模拟语音相比,达到网络质量。另一类型的波形编码是增量调制(Delta Modulation),较简单且能抗误码。当速率从32kbit/s至40kbit/s时,语音质量较好。当速率是8kbit/s至16kbit/s时,语音质量较差。还有一种实用系统是2.4kbit/s的声码器,这是典型的参量编码技术,优点是速率低。主要应用于军方的保密通信,语音质量仅能达到合成质量,且对背景噪声敏感。在数字通信发展的推动下,语音编码技术的研究进展迅速,提出了众多适合于数字移动通信的编码技术
23、。研究的方向主要有两个:一是降低语音编码的速率,这主要是针对语音质量好但速率高的波形编码,特别是64kbit/s的PCM。二是提高语音编码质量,这主要是针对速率低但语音质量较差的参数编码,特别是对2.4kbit/s的声码器。波形编码的改进主要有自适应差分PCM(ADPCM)(目前中国电信的小灵通系统的语音编码技术就是32kbit/s ADPCM)、子带编码(SBC)、自适应变换域编码(ATC)、时域谐波压扩(TDHS)等。这些编码的速率从9.6kbit/s至32kbit/s,语音质量也较好。这些技术大都利用数字信号处理技术提取某些语音特征参量来传输,以达到压缩速率的目的。所以,它们已不是单纯的
24、波形编码,而属于混合编码。参数编码的一项突出进展是提出了矢量量化编码技术,可进一步压缩速率。为改进参数编码语音质量,提出多脉冲激励线性预测编码(MPE-LPC)、规则脉冲激励线性预测编码(RPE-LPC)(GSM系统的语音编码技术)等。它们的速率从4.8kbit/s至16kbit/s,语音质量可达到中等。这些编码方式已不再属于单纯的参数编码。属于混合编码。其中,在CDMA系统中使用的码本激励线性预测编码(CELP)也是近年来提出的较好的编码技术。按速率不同可将语音编码器分成两大类:一类是所谓的低速率编码器,速率低于4.8kbit/s。另一类是所谓中速率编码器,速率从4.8kbit/s至32kb
25、it/s在语音编码技术的发展中,特别要提及的是数字信号处理器(DSP)的出现和应用。实际上,很多编码算法在理论上较早就提出来了,由于硬件方面上的困难,没能应用到实用系统中。DSP的出现改变了这种状况,许多复杂算法的实现已成为可能。目前,许多低速高音质编码器都是用DSP实现的。图1-4 语音质量与比特率关系将各种编码技术的语音质量与比特速率的关系都画在一张图中,可显示语音编码技术的概貌,见图14。图的横坐标为比特速率,纵坐标为语音质量的主观评定分数。图中用实线给出了PCM、ADPCM,线性预测编码LPC声码器以及混合编码器的质量速率曲线。虚线给出了研究目标。可以看出,目前语音编码的研究目标是在4
26、kbit/s至16kbit/s的速率范围内达到较高的语音质量(MOS分为4.0)。如图14可知,目前研制的混合编码最接近于研究目标。此外,近年来在数字声广播、消费电子技术以及电话会议迅速发展的推动下,语音编码也在朝着宽频带高音质声频编码的方向发展。这是语音编码技术目前一个很重要的发展动向,受到人们的广泛关注。第二章 移动通信特点对语音编码技术的要求2.1 无线通信信道的条件在数字移动通信中,由于无线信道的信道特点,会对所传输的数字信号带来各种影响,造成通信的准确性下降。下面主要讨论无线信道的某些特点,从而总结最适合于无线信道传输的语音编码技术的特点,提高数字移动通信的准确性。2.1.1 频率资
27、源有限在移动通信系统中,信道带宽是很珍贵的,如何在有限的可分配的信道带宽内容纳更多的用户,成为移动业务提供商所面临的问题。低比特率语音编码提供了解决该问题的一种方法。在编码器能够传送高质量语音的前提下,如果比特率越低,那么在一定的信道带宽内能容纳更多的语音信道。2.1.2 无线信道的衰落1慢衰落损耗:它是由于在电波的传播路径上受到建筑物及山丘等的阻挡所产生的阴影效应而产生的损耗。它反映了中等范围内数百波长量级接收电平的均值变化而产生的损耗,一般遵从对数正态分布,其变化率较慢故称为慢衰落。2快衰落损耗:它主要是由于多径传播而产生的衰落,它反映了微观小范围内数十波长量级接收电平的均值变化而产生的损
28、耗,一般遵从Reyleigh(瑞利分布)或Rician(莱斯)分布,其变化率比慢衰落快,故称它为快衰落,其中它又可分为以下三类:空间选择性衰落、频率选择性衰落与时间选择性衰落。所谓选择性是指在不同的空间,不同的频率和不同的时间其衰落特性是不一样的。慢衰落损耗,尤其是快衰落损耗会引起较高的信道误比特率,因此编码算法应有较好的抗误码能力。2.1.3 编码技术特点 另外从用户的辨别和舒适角度出发,还应该有较好的语音质量和较短的迟延。归纳起来,无线通信对数字语音编码技术的要求如下:1速率较低,纯编码速率要低于16kbit/s;2在一定的编码速率下语音质量应尽可能高;3编解码时延应较短,控制在几十毫秒之
29、内;4在强噪声环境中,算法应具有较高的抗误码性能,以保持较好的话音质量。5算法复杂程序适中,应易于大规模电路集成。2.2 激励源与混合编码从上节所述可知:波形编码速率太高,而参数编码能够实现低速率编码,但语音质量较差,都不适合在数字移动通信中选用。那么就有一种想法:能不能吸收波形编码语音质量好和参数编码低速率编码这两个优点,提出一种新的语音编码技术。其中一种思路是改善参数编码的语音质量。参数编码语音质量较差的原因是其激励函数比较粗糙,仅采用清音和浊音这种简单的激励模型,而实际语音是比较复杂的,这样就失去了许多的信息。针对这个问题,许多研究者提出了各种改善音质的方法。这些方法不尽相同,但主要思路
30、是一致的:即构成更精确的激励模型,作为语音合成器的激励源。很显然,激励源可以从语音波形信号本身来提取,这就构成了声激励声码器。这种系统包括了两种不同的传输途径。一条路径产生通常的线性预测参数(线性滤波器系数和增益等)并传送出去。另一条路径滤出波形信号的低频部分,并进行通常的波形编码传送出去。在接收端的语音合成器中,接收到的低频语音信号经过适当组合以及平滑处理后作为激励信号输入到数字滤波器中恢复语音,而数字滤波器由接收到的预测参数所确定。语音信号的低频部分包括所有有关激励源的必要信息。也就是说,在浊音段,它是周期信号,在清音段,它近似噪音。因此用这种方法产生激励信号就不需要进行浊/清音判决和基音
31、周期提取。当然,这种方法的代价是为了精确地描述信号的低频部分,必须在信道中传送更多的信息,因而其码元速率比一般的LPC声码器要高,通常在4kbit/s以上,已属中等速率编码。由于改善了激励信号,使之含有更多的语音信息,所以声激励声码器的语音质量改善了许多,并且对于不同的说话者和传输条件,语音质量更加一致。可以看出,这种改进的参数编码,不但对语音信号的特征参数进行编码,而且对原信号的部分波形进行编码。也就是说,它属于混合编码。由于混合编码吸收了波形编码和参量编码两者的优点,在编码信号速率和语音质量两方面都比较好。数字蜂窝移动系统中实用语音编码技术均采用混合编码。采用的激励源不同,就构成不同的编码
32、技术。GSM系统中的RPE-LTP编码技术采用规则脉冲作激励源,而CDMA系统中使用的QCELP编码技术采用码本激励的方法。第三章 GSM系统中的语音编码技术3.1 RPE-LTP概述RPE-LTP是规则脉冲激励长时预测的缩写,是欧洲移动通信特别小组(GSM)在多种技术中经过试验、比较,最后选定的语音编码技术,并作为GSM标准予以公布。目前它用于泛欧蜂窝移动通信系统。它的纯编码速率为13kbit/s,MOS得分为4.0。RPE-LTP采用间隔相等、相位和幅度优化的规则脉冲作为激励信号源,以便使合成波形接近于原信号。这种编码技术由于又使用了长时预测,进一步消除信号冗余度,使编码速率降低。同时,其
33、算法简单,计算量适中,易于硬件实现。GSM系统中的语音信号处理是分段进行的。发送端首先进行语音检测,将每个时间段分为有声段和无声段。在有声段,进行语音编码,产生编码语音帧;在无声段,对背景噪声进行估计,产生静寂描述帧(SID帧)。发射机采用不连续发射的方式工作,即仅在包含语音帧的时间段内才打开发射机。SID帧是在语音段结束时发射的,接收机根据收到的SID帧中的信号在无声段时间内插入舒适噪声。语音编码器的输入信号为速率8000样本/秒的语音信号抽样序列。编码处理是按帧进行的,每帧20ms,含160个语音样本,编码后为260bit的编码块。3.2 RPE-LTP编码器RPE-LTP编码器包括预处理
34、、线性预测分析、短时分析滤波、长时预测及规则激励码编码等五部分,每部分中又包括若干处理过程。图3-1给出了编码器的原理框图。图3-1 GSM系统的RPE-LTP编码器原理框图各部分的功能介绍如下:(1) 预处理部分语音信号进行编码前先要经过预处理,以消除信号中的直流分量并进行高频分量预加重。预处理的目的是为了更好地进行LPC分析。这部分包括了两个子处理块:偏移补偿和预加重。1偏移补偿输入信号通过一个陷波滤波器进行偏移补偿,得到无偏移信号。2预加重信号经过一阶FIR滤波器进行预加重,得到信号再进行分析处理。(2) LPC分析部分预处理之后的信号送入LPC分析部分,以便进行线性预测分析参数的提取。
35、这部分包括五个子处理器:分帧、自相关、Schur递归、反射系数映射至对数面积比变换以及对数面积比的量化编码。1分帧语音信号被分割为不交叠的帧来进行处理。每帧长度为,含有160个样本。然后,按帧进行8阶LPC分析。2自相关编码器采用自相关法求解LPC参数,由信号求出自相关值。3Schur递归采用Schur递归法求解线性方程组,从而由自相关值求出反射系数。在这里,反射系数就是线性滤波器的参数。4反射系数至对数面积比的映射研究表明,反射系数是一组稳定的参数,有,但其分布极不均匀。为了按合理的方式配置固定的量化比特,对其进行变换,变换后的参数称为对数面积比。对数面积比具有相当均匀的幅度分布,而且参数之
36、间的相关性很小,这对于数字传输十分有利。当采用这组参数时,每个对数面积比只需要5至6bit,即可保证一定的语音质量。5LAR量化与编码每个对数面积比参数具有不同的动态范围与分布密度,因而在量化时取值范围也是不相同的。表示量化和整数编码后的值。作为参数发送给解码器,同时又送给下一部分,作短时分析滤波用。(3)短时分析滤波语音信号的当前帧样本一直保存再存储器中直到完成LPC参数的计算。然后这些样本被读出并送到八阶短时分析滤波器中。滤波器系数是前一阶段LPC分析所得到的经过解码、插值及反变换求出来的。滤波结果是160个样本的短时残差信号。1量化对数面积比的解码这一模块就是将已量化编码的对数面积比参数
37、解码还原成抽样值。2对数面积比插值为了使处理后语音信号各帧之间能够平滑地衔接,需要对恢复后的预测参数进行线性插值,这涉及到相邻两帧的参数。经过插值处理后参数为。3对数面积比至反射系数的映射将经反变换后可以确定反射系数。 (4)长时预测一般来说,经过短时预测就可以了。但是,在RPE-LTP技术中,又进行一次长时预测,短时分析滤波器输出的短时残差信号再这里作长期预测(LPT)处理,进一步去除冗余度,达到最优化,降低编码速率。在这里,处理是按子帧进行的,每个帧分为四个子帧,每个子帧含40个样本。在每个子帧中对长时分析滤波器的参数LTP滞后和LTP增益进行估值和更新。(5)规则脉冲编码长时余量信号被送
38、入这一部分进行规则脉冲激励序列的提取跟编码,此后的处理也是按子帧进行。首先经过加权滤波,然后按1:3来抽取其序列,将一个子帧分成四个子序列,每个子序列中含有13个样本,其他样本均作为零值。选择4个子序列中能量最大的一个作为RPE脉冲序列,经自适应PCM(APCM)量化编码后发送出去。选中的RPE格点位置M和子块中的最大幅度也被量化编码并发送出去。上面的信息同时回送本地RPE解码和重建模块以恢复长时余量信号。被反馈到长时预测部分,用来恢复短时余量信号。1加权滤波每个子帧的40个样本首先要通过加权滤波。加权滤波后的信号记为。2RPE网格位置选取滤波后的信号进行1:3抽取,每个子帧分成四个子序列,每
39、个子序列有13个样本。由于在抽取位置上可以有四种不同的非零样点序列,称之为网格位置M,将能量最大的子序列的网格位置M用2bit量化为。3RPE序列的APCM量化优先选取能量最大的子序列作为规则脉冲激励(RPE)序列被量化,首先找到最大的非零点,将其用6比特编码。再将13个非零样点做归一化处理,即最大样值为1,其他样值均小于1。将其用APCM编码,每个样值各用3比特编码,共编39比特。这样,预测误差信号每20ms共编码4(6+39)=180比特。4APCM逆量化这个子块将归一化RPE样本的量化值解码,恢复子序列样本。解码过程中要用到最大值。5RPE网络位置恢复这个子块根据已解码的RPE样本值和最
40、佳网格位置来恢复长时余量信号。重构的被送回长时预测部分,以恢复短时余量信号。综上所述,编码器输入信号为每帧160个样本,每个样本是13bit,所以每帧总比特数为。经过编码处理后,每帧为260bit。每帧中编码信息的比特分配见表3-2。表3-2 每帧比特分配3.3 RPE-LTP解码器RPE解码器的原理图见图3-3。解码器包含四个部分:RPE解码、长时预测、短时合成滤波及后处理。其中大部分处理子块在编码器也要采用,前面都已介绍过。只有短时合成滤波器和去加重滤波器是新的子块。在图33中,有关的量和参数都增加了下标r,以区别于编码器中相应的量和参数。(1)RPE解码部分这部分包括APCM逆量化和RP
41、E网格位置恢复,从接收到的信息,和中恢复出长时余量信号。图3-3 GSM系统的RPE-LTP解码器原理框图(2) 短时合成滤波部分长时预测部分重构的长时余量信号送给长时合成滤波器进行处理以恢复短时余量信号供短时合成器使用。短时合成滤波器得系数从接收到的经过解码、插值、求反射系数等子块处理后得到的。它的输入为短时余量信号,输出为未加去加重的合成语音信号。(3) 后处理合成滤波器输出信号被送到IIR去加重滤波器进行处理,恢复出原来的语音信号。第四章 IS-96系统中的语音编码技术4.1 QCELP概述 IS-96 CDMA系统语音编码采用QCELP技术,即码激励线性预测的可变速率混合编码技术。这种
42、编码技术以线性预测编码为基础,使用码表矢量量化差值信号,算法基于码激励线性预测(CELP)的编码模式。它的特点有:根据信号能量和背景噪音动态调整编码速率,属于变速率编码,在基本不影响语音质量的前提下,能够明显地降低数据的平均速率;自适应码本搜索采用开环基音分析与闭环搜索相结合的模型;固定码本采用循环递归结构,减少了码本搜索的计算量和存储空间。QCELP语音压缩编码算法有8k和13k两种,在这里主要讨论在IS-96中使用的8k QCELP , 它的合成语音质量没有13kQCELP高,但平均速率低。8kQCLEP对输入的信号用8kHz采样,16比特线性PCM量化,每20ms分为一个语音帧,每帧包括
43、160个样本点,对这些样本点可以选择以下四种速率中的任一种进行编码:全速率,1/2速率、1/4速率、1/8速率。8kQCELP将每一帧又分为LPC子帧、基音子帧和固定码本子帧,编码速率不同,每帧中各子帧的数目、包含的样本点及其参数编码所占比特数也不相同。具体分配见表4-1。8k QCELP对每帧语音信号进行分析,确定该帧的编码速率,并提取各种参数(线性预测滤波器系数、基音延迟、基音预测增益、固定码本索引(或随机数种子)固定码本增益),然后将这些参数打包发送出去。在解码端,从接收到的比特流中恢复出各个参数,用固定码本索引从固定码本中得到固定码矢(或用随机数种子得到伪随机矢量),乘以固定码本增益得
44、到激励序列。用基音参数构成基音合成滤波器,用线性预测滤波器系数构成LPC合成滤波器。激励序列依次通过基音合成滤波器、LPC合成滤波器计算出合成语音,最后用后置滤波器进一步增强音质。表41 8k QCLEP 速率与各帧更新、所占比特的关系 * 1/8速率用伪随机激励代替固定码本,6比特包括4比特码本种子和2比特码本增益。4.2 8k QCELP编码器图42 8k QCELP编码原理框图8k QCELP编码器包括预处理、线性预测分析和量化、知觉加权、速率判决、自适应码本搜索、固定码本搜索、编码器的存储器更新、空帧和参数格式化输出等九个部分,其中每部分又包括若干处理过程。图42给出了8k QCELP
45、编码器原理框图。(1) 预处理输入信号按8kHz抽样后,将其分成许多20ms(160个样本点)长的帧。预处理主要是对输入信号帧去除直流分量和加窗。8k QCELP速率判决算法用每帧样本点的第一个自相关系数来估计该帧信号的能量。信号中的直流分量会使信号能量过大,导致速率判决算法失效。因此,需要去除输入信号中的直流分量。8k QCELP采用汉明窗,长度为160个样本点,窗的中心位于每帧的第139和第140个样本点的中间。(2) 线性预测分析和量化8k QCELP用10阶线性预测(LPC)合成滤波器做短时分析,LPC合成滤波器的传输函数为式(41): (41)其中,为短时线性预测误差滤波器,是线性预
46、测系数(LPC系数)。线性预测分析的目的就是求出10个LPC系数,将其转换成LSP参数,在LSP域内进行量化和内插。(3) 知觉加权 知觉加权滤波器是基于量化LPC系数,其传输函数为式(42): (42)其中,为线性预测误差滤波器,LPC参数是由当前子帧内插后的LSP参数转换而来的,加权因子。(4) 速率判决8kQCELP声码器有四种速率:全速率、1/2速率、1/4速率、1/8速率。声码器利用速率判决算法(RDA,Rate Decision Algorithm)来选择速率,即根据语音信号能量和背景噪声动态地调整编码速率,因而能够在不牺牲话音质量的前提下显著地降低数据的平均速率。1估计语音信号能
47、量8kQCELP声码器利用当前第帧输入信号的第一个自相关系数估计其能量。2确定三个门限8k QCELP声码器根据背景噪声确定三个门限,每一帧数据速率判决之前都要更新这三个门限。当前第帧的背景噪声电平由式(43)估计: (43)其中,min(x,y,z)是取x,y,z中的最小值,max(x,y)是取x和y的最大值。第一帧的背景噪声估计值初始化为16 000。如果编码器没有话音输入,当编码器重新有话音输入时,则背景噪声要重新初始化。这样做是为了防止语音输入前的无声被当作低噪声背景而使编码出错。如果背景噪声电平,则按式(44)计算三个门限: (44)如果背景噪声电平,则按下式计算三个门限: (45)3根据信号能量和门限决定数据速率当前帧的语音信号能量由下式计算: (46)其中是当前帧加窗后的语音信号。如果信号能量大于三个门限值,则选择全速率;如果信号能量大于其中两个门限值,则选择1/2速率;如果信号能量大于其中的一个门限值,则选择1/4速率;如果信号能量比三个门限值都小,则选择1/8速率。另外,速率判决还必须遵循以下的原则:A: 每一帧的速率只能比前一帧降低一阶,即如果前一帧速率为速率1,而当前帧的数据速率判决为1/4或1