《语音专题第一讲麦克风阵列的语音信号处理技术.docx》由会员分享,可在线阅读,更多相关《语音专题第一讲麦克风阵列的语音信号处理技术.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、语音专题第一讲,麦克风阵列的语音信号处理技术转载自地平线机器人大讲堂主讲人徐荣强。2020年度11月毕业于英国爱丁堡大学通信与信号处理专业曾任诺基亚联想微软高级音频工程师。如今Horizon-Robotics负责语音相关硬件系统设计涉及远场高灵敏度麦克风阵列设计高精度音频硬件编解码器评估验证远场语音前处理算法的评估验证涉及声源定位波束形成盲信号别离回声抑制及平稳降噪等相关技术算法。前言随着人工智能与人们的生活越来越近语音技术的开展也备受关注。传统的近场语音已经无法知足人们的需求人们祈望可以在更远的间隔更复杂的环境中语音控制智能设备。因此阵列技术成为远场语音技术的核心。阵列麦克风对人工智能的意义
2、空间选择性通过电扫阵列等空间定位技术可以获取声源的有效位置智能设备在获取精准的声源位置信息让我们的语音更加智能通过算法获取高品质的语音信号质量。麦克风阵列可以自动检测声源位置跟踪讲话人同时可以获取多声源以及跟踪挪动声源的优势无论你走到任何位置智能设备都会对你的位置方向进展语音增强。阵列麦克风增加了空域处理对多信号空时频三维的处理弥补单信号在噪声抑制回声抑制混响抑制声源定位语音别离方面的缺乏让我们的智能设备在复杂的环境中都可以获取高质量的语音信号提供更好的智能语音体验。麦克风阵列技术的技术难点传统的阵列信号处理技术直接应用到麦克风阵列处理系统中往往效果不理想其原因在于麦克风阵列处理有不同的处理特
3、点阵列模型的建立麦克风主要应用途理语音信号拾音范围有限且多用于近场模型使得常规的阵列处理方法如雷达声呐等平面波远场模型不再适用在近场模型中需要更加精准的球面波需要考虑传播途径不同引起的幅度衰减不同。宽带信号处理通常的阵列信号处理多为窄带即不同阵元在承受时延与相位差主要表达在载波频率而语音信号未经过调制也没有载波且上下频之比拟大不同阵元的相位延时与声源本身的特性关系很大频率亲密相关使得传统的阵列信号处理方法不再完全适用。非平稳信号处理传统阵列处理中多为平稳信号而麦克风阵列的处理信号多是非平稳信号或短时平稳信号因此麦克风阵列一般对信号做短时频域处理每个频域均对应一个相位差将宽带信号在频域上分成多个
4、子带每个子带做窄带处理再合并成宽带谱。混响声音传播受空间影响较大由于空间反射衍射麦克风收到的信号除了直达信号以外还有多径信号叠加使得信号被干扰即为混响。在室内环境中受房间边界或障碍物衍射反射导致声音延续极大程度的影响语音的可懂度。声源定位声源定位技术在人工智能领域应用广泛利用麦克风阵列来形成空间笛卡尔坐标系根据不同的线性阵列平面阵列以及空间阵列来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强当智能设备获取你的位置信息可以结合其他的传感器进展进一步的智能体验比方机器人会听到你的呼唤走到你的身边视频设备会聚焦锁定讲话人等等。解析声源定位技术之前我们需要解析近场模型以及远场模
5、型。近场模型以及远场模型通常麦克风阵列的间隔为13m阵列处于近场模型麦克风阵列承受的是球面波而不是平面波声波在传播的经过中会发生衰减而衰减因子与传播的间隔成正比因此声波从声源到达阵元时候的幅度也各不一样。而远场模型中声源到阵元的间隔差相对较小可以忽略。通常我们定义2L/为远近场临界值L为阵列孔径为声波波长因此阵元承受信号不仅有相位延时还有幅度衰减。声源定位技术声源定位的方法包括波束形成超分辨谱估计以及TDOA分别将声源以及阵列之间的关系转变为空间波束空间谱以及到达时间差并通过相应的信息进展定位。电扫阵列通过阵列形成的波束在空间扫描根据不同角度的抑制不同来判断方向。通过控制各个阵元的加权系数来控
6、制阵列的输出指向进展扫描。当系统扫描到输出信号功率最大时所对应的波束方向就是认为是声源的DOA方向进而可以声源定位。电扫阵列的方式存在一定的局限仅仅适用于单一声源。假设多声源在阵列方向图的同一主波束内那么无法区分。而这种定位精度以及阵列宽度有关在指定频率下波束宽度以及阵列孔径成反比所以大孔径的麦克风阵列在很多场合的硬件上很难实现。超分辨谱估计如MUSICESPRIT等对其协方差矩阵相关矩阵进展特征分解构造空间谱关于方向的频谱谱峰对应的方向即为声源方向。合适多个声源的情况且声源的分辨率与阵列尺寸无关打破了物理限制因此成为超分辨谱方案。这类方法可以拓展到宽带处理但是对误差特别敏感如麦克风单体误差通
7、道误差合适远场模型矩阵运算量宏大。TDOATDOA是先后估计声源到达不同麦克风的时延差通过时延来计算间隔差再利用间隔差以及麦克风阵列的空间几何位置来确定声源的位置。分为TDOA估计以及TDOA定位两步1.TDOA估计常用的有广义相互关GCCGeneralizedCrossCorrelation以及LMS自适应滤波广义相互关基于TDOA的声源定位方法中主要用GCC来进展延时估计。GCC计算方法简单延时小跟踪才能好适用于实时的应用中在中等嘈杂强度以及低混响噪声情况下性能较好在嘈杂非稳态噪声环境下定位精度会下降。LMS自适应滤波在收敛的状态下给出TDOA的估值不需要噪声以及信号的先验信息但是对混响较
8、为敏感。该方法将两个麦克风信号作为目的信号以及输入信号用输入信号去逼近目的信号通过调整滤波器系数得到TDOA。2.TDOA定位TDOA估值进展声源定位三颗麦克风阵列可以确定空间声源位置增加麦克风会增高数据精度。定位的方法有MLE最大似然估计最小方差球形差值以及线性相交等。TDOA相对来讲应用广泛定位精度高且计算量最小实时性好可用于实时跟踪在目前大局部的智能定位产品中均采用TDOA技术做为定位技术。波束形成波束形成可分为常规的波束形成CBFConventionalBeamForming以及自适应波束形成ABFAdaptiveBeamForming。CBF是最简单的非自适应波束形成对各个麦克风的输
9、出进展加权求以及得到波束在CBF中各个通道的权值是固定的作用是抑制阵列方向图的旁瓣电平以滤除旁瓣区域的干扰以及噪声。ABF在CBF的根底之上对干扰以及噪声进展空域自适应滤波。ABF中采用不同的滤波器得到不同的算法即不同通道的幅度加权值是根据某种最优准那么进展调整以及优化。如LMSLS最大SNRLCMV线性约束最小方差linearlyconstrainedMinimumVariance。采用LCMV准那么得到的是MVDR波束形成器最小方差无畸变响应MinimumVarianceDistortionlessResponse。LCMV的准那么是在保证方向图主瓣增益保持不变的情况下使阵列的输出功率最小
10、说明阵列输出的干扰加噪声功率最小可以以理解为是最大SINR准那么进而能最大可能的接收信号以及抑制噪声以及干扰。CBF-传统的波束形成延时求以及的波束形成方法用于语音增强对麦克风的接收信号进展延时补偿声源到每个麦克风的时间差使得各路输出信号在某一个方向同相使得该方向的入射信号得到最大的增益使得主波束内有最大输出功率的方向。形成了空域滤波使得阵列具有方向选择性。CBFAdaptiveFilter增强型波束形成结合Weiner滤波来改善语音增强的效果带噪语音经过Weiner滤波得到基于LMS准那么的纯洁语音信号。而滤波器系数可以不断更新迭代与传统的CBF相比可以更有效的去除非稳态噪声。ABF-自适应
11、波束形成GSLC是一种基于ANC主动噪声对消的方法带噪信号同时通过主通道以及辅助通道而辅助通道的阻塞矩阵将语音信号滤除得到仅包含多通道噪声的参考信号、各通道根据噪声信号得到一个最优信号估计得到纯洁语音信号估计。阵列技术的将来开展麦克风阵列技术相对于单麦克风系统有很多优点已成为语音增强及语音信号处理的重要局部。语音增强以及声源定位已经成为阵列技术中不可缺少的局部在视频会议智能机器人助听器智能家电通信智能玩具车载领域都需要声源定位以及语音增强。各种信号处理技术阵列信号处理技术都陆续结合到麦克风阵列的语音处理系统当中并逐渐得到算法改良以及进一步的广泛应用。在复杂的噪声环境混响环境声学环境下强大的硬件处理才能也使得复杂算法实时处理语音增强成为了可能。在将来语音以及图像的严密结合会成为人工智能领域的新的打破口在人工智能的风口浪尖是谁能将语音识别语音理解阵列信号处理远场语音图像识别人脸识别虹膜识别声纹识别的技术巧妙并有机的结合在一起并将技术的本质以及与人为本的宗旨完美的结合让我们拭目以待。我把葡萄酿成酒