《2022年通信中的语音信号处理复习大纲.docx》由会员分享,可在线阅读,更多相关《2022年通信中的语音信号处理复习大纲.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆通信中的语音信号处理复习大纲北科大版1、 明白语音信号处理的目的、实质和进展历史;实质 :是讨论用数字信号处理技术对语音信号进行处理的一门学科目的 :通过处理得到一些反映语音信号重要特点的语音参数以便高效地传输或储存语音信号所包含的信息;通过对语音信号进行某种运算以达到某种要求;进展历史 :1876 年电话的创造,贝尔(Bell);1939 年声码器的研制胜利声源声道;1947 年贝尔试验室创造语谱图仪语音识别讨论的开头;50 岁月第一台口授打字机和英语单词语音识别器;60 岁月显现了第一台以数字运算机为基础的孤立词语
2、音识别器和有限连续语音识别器;70 岁月动态规划技术、隐马尔可夫模型、线性猜测技术和矢量量化码书生成方法用于语音编码和识别;80、 90 岁月语音处理技术产品化IBM Tangora-5 和 Tangora-20英语听写机, Dragon Dictate 词汇翻译系统 70000,汉语听写机;CMU 语音组研制胜利 SPHINX系统( 997, 95.8%; 国内,清华高校、中科院声学所和中科院自动化所在汉语听写机讨论方面有肯定成果;(除了属于这种 LPC线性猜测分析法 的方法外, 仍开发了各种数字语音处理方法;到目前为止, 相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识
3、别等各种详细应用系统;)2、 懂得和把握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;1.语音 表示方法 的挑选: 要储存语音信号中的消息内容;表示形式要便于传输和储备、变换和处理, 不至于严峻损害消息的内容,有用信息更易于被提取;2. 语音信号数字表示的优点:数字技术能完成很多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特殊适合于数字处理;数字系统具有高牢靠性、价廉、紧凑、快速等特点,很简单完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输;3. 语音信号的数字表示方法:波形表示采样和量化,保持
4、波形;参数表示鼓励源和模型参数(其次章)语音信号的特点短时平稳性4. 处理方法 :短时时域处理方法短时能量、短时平均过零率以及短时自相关函数运算 短时频域分析短时傅立叶分析 线性猜测技术本质上属于时域分析方法,但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型5. PCM 编码:采样率: 8000 次/second,匀称量化:采样率12bps 信号速率96kbps,非匀称量化:采样率8bps 信号速率 64kbps ADPCM:采样率: 8khz 速率: 32kbps 3、 懂得语音信号的产生过程、发生气理和语音信号的声学特性;产生过程 :语音是说话人和听者之间相互传递的信号,传递
5、的媒介是声波,说话人的发音器官做动身声动作,接着空气振动形成 声波,声波传到听者的耳朵里,马上引起听者的听觉反应发生气理 :声学特性: 频率:与音高有关;振幅:与响度有关;4、 懂得和把握语音信号浊音的基音频率、共振峰,及共振峰的运算方法;浊音的基音频率 F0:由声带的尺寸、特性和声带所受张力打算,其值等于声带张开和闭合一次的时间的倒数;人类基音频率的范围在 60Hz 至 450Hz 左右;共振峰( formant :声道是一个谐振腔,当鼓励的频率达到至声道的固有频率,就声道会以最大的振幅振荡,此时的频率称之为共名师归纳总结 - - - - - - -振峰或共振峰频率;声道具有的一组共振峰,声
6、道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度;共振峰及其带宽取决于声道某一瞬时的外形和尺寸,因而不同的语音对应于一组不同的共振峰参数;实际应用中, 头三个共振峰最重要;第 1 页,共 6 页精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆抱负状态下共振峰的运算:假设声道截面是匀称的(此时可把声道看作一个粗细匀称的圆筒)离 L=17 cm,音速 c=340 m/s,就共振峰将发生在:F cn(2 n4 L 1)c 为第n个共振峰的波长 ,从喉到唇的距n ,1 2 ,运算 前三个共振峰:1 2F 1 c1 4 cL 4 17 34010 2 500 H
7、z P x n , 2 N 1 | X n , |j kF 2 c 3 c 1500 Hz , F 3 c 5 c 2500 Hz 其中,X n , k x k w n k e2 4 L 3 4 L w n 是长度为 2N1 的窗函数5、 懂得语音信号的时域、频域以及语谱图的表示方法;X n , 表示在时域以 n 点为中心的时域波形 :时间、振幅;频域波形 -频谱 :频率、分贝;一帧信号的傅立叶变换 在 处的大小语谱图 :用横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量在频域上,能量集中处就是共振峰 formant 之所在,在 语谱图 上就是颜色 较深 的位置
8、;语谱图能供应有关不同时间不同频率的相对音强的有价值的信息,如共振峰频率和基音周期;在发元音时,音强较大,声带振动而出现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频;假如是发辅音,而且声带不振动,就看不到谐振频率;通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频;如是在没有语音的空档,就语谱图上出现的,就是有一段空白;6、 (建立一个离散时域的语音信号产生的数字模型)懂得和把握语音信号的线性产生模型:鼓励模型、声道模型和辐射模型 (由于人类语音的频率范畴主要集中在300Hz3400Hz,数字模型中的信号取样率一般为8KHz;)由此模型框图,我们可将语音信号看成准周期序列或随
9、机噪声序列作为鼓励的线性非移变系统的输出,此模型可分为三个部 分: 1鼓励模型 2声道模型 3辐射模型 浊音 鼓励模型 Uz:发浊音时声带绷紧,声带不断张开和关闭产生的脉冲波,类似于斜三角波 清音 鼓励模型 :声带不发生振动,气流通过声门直接进入声道,气流被阻碍形成湍流,相当于随机白噪声(此处用均值为 0,方差 为 1 并在幅值上为平稳分布的序列)声道模型 Vz:两种建模方法:a声管模型:b共振峰模型: 共振峰模型将声道视为一个谐振腔,按此原就导出;基于各种音素发音的不同谐振特点可建立起三种有用的共振峰模型:a级联型(适用于一般单元音 ,认为声道是一组串联的二阶谐振器,谐振中心频率值等于共振峰
10、,如把语音的各个共振峰所对 应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性;)b并联型(适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必需在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型)3 到 5 级;H zU z V zR z级联或并联的级数取决于声道的长度,一般成人取c混合型辐射模型Rz:在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有r1,高通滤波 的特性;常用一个一阶的数字高通滤波器模拟这个现象R z 1rz1,r17、 懂得语音信号的短时特性的懂得,以及语音信号平稳性的懂得;语音信号从整
11、体上来看表征其本质特点的参数都是随时间变化的,这一点可以从语音信号的时域幅度波形上看出,故语音信 号是一个非平稳随机过程,不能用处理平稳随机信号的技术对其进行分析处理;由于语音信号是由人的口腔内一系列肌肉运动构成的发声模型产生的,而口腔肌肉的这种运动相对于语音频率来说是特别缓名师归纳总结 - - - - - - -慢的,故在一个短时间范畴内(一般认为1030ms),其特性基本保持不变,可以将其看作“ 准稳态随机过程”,这就是语音信号的“ 短时平稳性”;任何语音信号的分析处理都必需建立在短时平稳的基础上,即进行“ 短时分析” :将语音信号分为一段一段来分析其特点参数;其中每一段称为一帧(fram
12、e ),帧长一般取1030ms;这样对于语音信号的整体而言,分析出的就是每一帧参数组成的特点参数第 2 页,共 6 页精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆时间序列;8、 把握语音信号的采样和量化过程,如何运算量化器中每个比特字长对信噪比的奉献,以及通过动态范畴运算量化字长 ;采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值;量化:一个电位波形会有固定的电压范畴,一个取样值可以是在此电压范畴内的任何电位;假如只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量
13、化 quantization ,而转换之后只答应存在的几个电位值就是量化阶数 quantization level ;执行量化转换的硬件电路,就是量化器(quantizer ;匀称 量化的缺点 : 对于小信号,其信噪比太低量化器中每个比特字长对信噪比的 奉献大约为 6dB;当量化字长为 7bit 时,信噪比为 35dB,此时量化后的语音质量能满意一般通信系统的要求;如需要更大的动态范畴,例如 55dB,就语音信号的量化字长为 10bit 以上9、 懂得短时加窗中的矩形窗和汉明窗;用一个固定长度的窗口 window 套上去,只看窗口内的信号,对这些信号做运算,用以求出在这窗口内的语音特点 spe
14、ech features;这样的处理方式,就叫加窗 windowing ,而套上去的这一段语音即称为语音帧 frame ;通常窗口的长度是取 1040 毫秒 ms,窗口的移动距离,大约会取 520 ms,让前后的语音帧有部分重叠,这样能观看到语音特点转变的连续性以保证分析的精确性;矩形窗:汉明窗:汉明窗的第一个零值频率位置比矩形窗大一倍左右,即,汉明窗的带宽大约是同样宽度矩形窗带宽的两倍;同时,在通带外,汉明窗的衰减较相应的矩形窗大得多;10、懂得短时能量分析、短时平均过零率和短时相关的定义;信号 xn的短时能量定义:En 表示在信号的第 n 个点开头加窗函数时的短时能量,可以看作语音信号的平
15、方经过一个线性滤波器;作用:反映出语音的能量或语音振幅随时间缓慢变化的规律;(浊音段能量比清音段大的多)1)区分清音段和浊音段浊音能量高; 2)对声母和韵母分界 3)区分无声和有声的分界 信噪比较高的信号 ;4 区分连字的边界 5)用于语音识别En 的缺点:对高电平过于敏锐,给加窗宽度的挑选带来了困难;扩大了振幅不相等的任何两个相邻取样值 此处的取样值是指某语帧的短时平均能量值 之间的幅度差别,必需用较宽的窗函数才能平滑能量幅度的起伏;为了使 En 能精确反映语音能量的时变规律:数据窗 wn或滤波器 hn函数形式和宽度的挑选相当重要过零 :信号波形穿越时间轴或零值线;对于离散时间信号而言就是相
16、邻的取样值符号转变;过零的次数;平均过零率 :单位时间(或单位样本)内运算一个语音帧内单位时间(或单位样本)越过零线的平均次数,可以得出其 短时平均过零率 zero crossingrate或短时平均过零数;声 带振动时,是在发浊音,所以过零率低,声带不振动时,是在发清音,所以过零率就高,没有声音时如有噪音存在,也会有较高的过 零率;(浊音、清音过零率的高低不是肯定的,分布有交叉的情形,多种工具同时用)实际应用区分清、浊音在背景噪声较大的情形下,从噪声信号中找出语音信号,判定出语音的起点和终点;(语音的端点检测)相关函数可用于测定两个信号在时域内的相像 性;自相关函数:用于讨论信号本身;例如,
17、信号波形的同步性、周期性等;相互关函数:用于讨论不同信号之间的差异;例如,两个信号完全不同,就相互关函数 接近于零;语音信号处理的相关分析:短时自相关函数应用:分析语音信号的同步性和周期性;第 3 页,共 6 页名师归纳总结 - - - - - - -精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆短时自相关函数的缺陷:由于公式的求和上限是随k 均增加而减小,乘积和项也随之削减,其值随着推迟k 的增加而下降; 可看出浊音信号的周期性; 清音没有周期性,其性质类似于噪声; 浊音的周期性在采纳矩形窗时明显一些; 窗宽对浊音短时自相关周期性的影响;解决缺陷:11、把握语音
18、产生的数字模型及声道子模型建模方法;(同第六题)声道模型两种 建模方法 :a声管模型 b共振峰模型共振峰模型将声道视为一个谐振腔,按此原就导出;基于各种音素发音的不同谐振特点可建立起三种有用的共振峰模型:a级联型 b并联型 c混合型12、懂得短时傅立叶谱的定义、性质;短时谱的特点: 1时变性:既是角频率 的函数又是时间 n 的函数 2周期性:是关于 的周期函数,周期 2短时谱与短时功率谱及短时自相关函数的关系:13、懂得解卷、同态滤波、复倒谱和倒谱和相位卷绕的定义;一帧语音信号 = 声门鼓励信号 * 声道冲激响应为了求得语音信号的共振峰,必需知道声道的传递函数;为了判定语音信号是清音仍是浊音,
19、以及求得浊音情形下的基音频率,必须知道声门鼓励序列;为了提取反映声道特性的谱包络,必需通过解卷积 去掉鼓励信息;ARMA 模型),假如采纳最小均方误差准就对第一类:参数解卷方法;采纳的模型可以分为全极点模型(AR 模型)和零极点模型(AR模型进行估量,就得到线性猜测编码算法LPC;其次类:非参数解卷,即同态解卷;对语音信号进行同态分析后,将得到语音信号的倒谱参数;只需要用十几种倒谱参数就能较好地描述语音信号的声道参数同态信号处理法 就是设法将非线性问题转化为线性问题来处理的一种方法;根据被处理的信号来分类,大体上可以分为乘积同态信号处理和卷积同态信号处理(语音信号可以视为 声门鼓励信号 和声道
20、响应信号 的卷积结果)分别非加性组合 如乘性或卷积性组合 信号,常采纳 同态滤波技术 (利用广义叠加原理对同态系统进行滤波);非线性问题变换为线性的问题来解决对信号进行分析得出它的倒谱参数的过程称为同态处理不能仍原成自身, 由于 cn中只有幅值信息而无相位信息;复倒谱定义:倒谱定义:与复倒谱不同的是, 在倒谱情形下一个序列经过正逆两个特点系统变换后,倒谱等于复倒谱的偶对称部分,故有着与复倒谱相同的特性,且为偶函数;清音情形下,具有噪声特性,因而其复倒谱也没有明显的峰起点,且分布范畴很宽,从低时域延长到高时域;浊音的复倒谱仍旧只分布在低时域中;相位卷绕 :求复倒谱中的取对数运算存在的相位多值性问
21、题,我们称之为相位卷绕;它的不确定性将使复倒谱复原语音的运算产生错误;三种防止相位卷绕的方法(非取相位主值的方法):微分法,最小相位法,递推法;-杜宾递推算法;第 4 页,共 6 页14、把握语音信号线性猜测法(LPC)的基本原理,3 种模型, LPC声码器的概念以及莱文逊名师归纳总结 - - - - - - -精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆语音样本之间存在相关性,一个语音信号(现在或是将来)的样本可以用过去如干个样本的线性组合来靠近依据信号的 短时平稳特性 这一基础基于参数模型的谱估量方法和系统辨识有三种情形:AR模型:只有极点没有零点的情形,称
22、为自回来模型;线性猜测法正是基于AR 模型的假定,采纳时域均方最小误差准就 来估量模型参数的;MA 模型:只有零点没有极点的情形,称为滑动平均模型;ARMA 模型:既有零点也有极点的情形,称为自回来滑动平均模型;LPC声码器: 通过使线性猜测到的采样在最小均方误差意义上靠近实际语音采样,可以求出一组唯独的猜测系数;这种线性猜测分析最早应用在语音编码中,因此,通常称为 LPC方程两种解法:自相关法,协方差法LPC;(声码器用来实现电子化的人声成效)15、懂得语音编码的分类,以及各种语音编码的优缺点;保证语音音质和可懂度的条件下,采纳尽可能少的比特数来表示语音波形编码 PCM 编码)猜测编码及其自
23、适应(APC)自适应差分脉冲编码调制 ADPCM及自适应增量调制 ADM子带编码 SBC 从数码率的角度分类:高速率( 32Kbps)中高速率( 16 32Kbps)中速率( 4 8 16Kbps)4.8 低速率( 1.2 4.8Kbps)极低速率( 1.2Kbps 以下)据编码方式分为:波形编码(PCM、ADM、ADPCM、 APC);参数编码( LPC线性猜测编码) ;混合编码(子带编码) ;波形编码 :特点:利用抽样定理,复原原始信号的波形(用于较高的码率,并且具有高质量的语音)优点:抗噪性才能强,重建语音质量好;缺点:编码速率较高 16 64Kbps 参数编码 :提取语音的一些特点信息
24、进行编码,在接收端利用这些特点参数合成语音;(用于甚低码率,语音质量不太好,类似合成语音,在任何码率下都无法给出自然语音;)优点:编码速率低,速率通常是在 4.8kbit/s 以下缺点:语音的音质和自然度较差,辨别说话人是其讨论难题;(有肯定的可懂度 混合编码 :介于波形编码和参数编码的一种编码;即在参数编码的基础上引入了波形编码的一些特点;可在 4-16kb/s 范畴内达到良好的语音质量(:综合采纳波形编码和信源编码技术,在中等码率下具有较好的语音质量;)子带编码的优点:对低频段采纳较多的比特数来表示样值,高频段就采纳较少的比特数;子带编码的另一个优点是各个子带内的量化噪声相互独立,可以防止
25、输入电平较低的子带信号被其他子带的量化噪声所埋没16、子带编码存在的问题是:编解码的延时比较长,约在几10100ms 之间,这主要是滤波器组的延时造成的,懂得和把握语音合成和语音识别的定义;语音合成 :让运算机象人那样讲话;讨论目标是:可懂、清楚、自然、具有表现力两类方法:“ 分析 -储备 -合成” ;参数合成法(线性猜测系数、线谱对参数或共振峰参数等有限个参数,节省储备量);语音识别 :与机器进行语音沟通,让机器明白你说什么(孤立单词识别、连续语音识别)(特定人语音识别、非特定人语音识别)(有限词汇识别、无限词汇识别)语音处理应用:压缩编码、语音合成、识别、增强、说话人识别语音文件的参数:采
26、样率、数码率(bps: Bits per second or Bits per sample )第 5 页,共 6 页名师归纳总结 - - - - - - -精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆语音通道数:语音通道的个数说明语音产生的波形数,一般分为单声道和立体声道;单声道产生一个波形,立体声道就产生两个波形;采纳立体声道声音丰富,但储备空间要占用很多;由于语音的保真与节省储备空间是有冲突的,因此要挑选平稳点;取样精度:即每次取样信息量;取样通过模数转换器 AD 转换器 将每个波形垂直等分,如用 8 位 AD 转换器,可把取样信号分为256 等份;如用
27、16 位 AD 转换器,就可将其分为 65536 等份;明显后者比前者音质好;语音信号的特点短时平稳性短时时域处理方法短时能量、短时平均过零率以及短时自相关函数运算短时频域分析短时傅立叶分析线性猜测技术本质上属于时域分析方法,但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型音频信号经过数字化后产生的数据量相当大:(每秒)数据量=抽样频率 量化比特数声道数/8 单位:字节 储备一段时间的数字化音频所需的储备容量储备容量 =(每秒)数据量 声音连续时间语音分析的三种方法:(1)时域分析法时域波形图;三种常用的时域分析方法:(1)过零分析( 2)幅度分析 /能量分析( 3)相关分析(2
28、)频域分析法频谱图;频域分析包含:语音信号的频谱、功率谱、倒频谱、频谱包络、短时间谱等;常用的频域分析方法有:a.带通滤波器组法;b.傅里叶变换法; c.线性猜测法等;(3)语谱分析法语谱图;语谱图可以在二维(时间及频率)图上表示音强的关系,供应了有关不同时间不同频率的相对音强的有价值的信息;语音段起止端点判定 两级判决法短时能量短时平均过零率但其包含的信息对基音周期的估量来说有很多是余外基音周期的估量短时自相关函数是区分清、浊音和估量基音周期的有效方法,的; 先对语音信号进行低通滤波,再运算自相关函数;中心削波技术;用短时平均幅度差代替短时自相关函数;自相关函数常用来作以下两种语音信号特点的
29、估量:a. 区分语音是清音仍是浊音;b.估量周期性语音信号的周期;广义上,语音信号的 频域分析 包括: 1、频谱 2、功率谱 3、倒谱对数功率谱取傅里叶变换 4、自相关函数三种常用的频域分析方法:1、滤波器组法 2、傅里叶频谱分析 3、线性猜测频率辨论率 f、取样周期 T、加窗宽度 N 三者关系:窗外形对短时傅立叶变换的影响矩形窗主瓣窄,衰减慢;汉明窗主瓣宽,衰减快;窗宽对短时频谱的影响窗宽长频率辨论率高(对应时间辨论率低),能看到频谱快变化;窗宽短频率辨论率低(对应时间辨论率高),看不到频谱的快变化;我们通常使用 汉明窗 进行短时谱分析对语音信号 解卷的好处 :1 可对鼓励源进行讨论,因而可以明白语音段是属于浊音仍是清音,及确定浊音的基音频率2 可对声道冲激响应进行讨论,因而可以明白声道特性及共振峰名师归纳总结 - - - - - - -第 6 页,共 6 页