[发明专利]基于多头自注意力机制的语音增强方法有效

申请号：	201911012632.9	申请日：	2019-10-23
公开（公告）号：	CN110739003B	公开（公告）日：	2022-10-28
发明（设计）人：	常新旭;袁晓光;张杨;寇金桥;杨林;吴敏;王昕;徐冬冬;赵晓燕;闫帅	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/27;G10L25/03
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	王雪芬
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多头注意力机制语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于多头自注意力机制的语音增强方法，涉及语音增强技术领域。本发明本发明针对现有基于注意力机制的语音增强方法无法在注意力计算过程中明显抑制噪声的问题，基于对人类在听觉感知的过程中存在掩蔽效应的研究及利用，提出了一种基于多头自注意力机制的语音增强方法，该方法实现了在注意力机制运算的过程中抑制噪声部分，提高了语音增强性能。

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于多头自注意力机制的语音增强方法。

背景技术

语音增强技术作为信号处理过程当中一个基本环节，在语音识别、移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是提高被噪声污染语音的质量和可懂度。最近，随着深度学习技术的兴起，基于深度神经网络(Deep NeuralNetwork,DNN)的有监督语音增强方法取得了巨大的成功，特别是在低信噪比和非平稳噪声的情况下，相较于传统方法表现出了更强大的优势。

与机器相比，人类可以在吵闹的环境中与他人聊天时，忽略背景噪声的干扰而听到对方说话的声音。这是由于人类可以轻易地将注意力放在感兴趣的声音上从而忽略其他声音。这一现象也被称为鸡尾酒会效应。这一效应表明，听觉注意在人类处理复杂听觉场景时是至关重要的。因此，在语音增强任务中融入注意力机制应该能够有效提高增强语音的质量与可懂度。

目前，注意力机制已经被应用在语音增强领域并取得成功。基于注意力机制的语音增强方法，利用注意力机制计算当前待增强帧与过去多帧之间的相似度并为过去帧赋权，相较LSTM-RNN方法提升了增强语音的质量和可懂度。但是，由于输入模型的语音特征在每个时频单元上既包含干净语音的信息也包含噪声信息，该方法在赋权时相当于同时放大了干净语音信息和噪声信息，并没有明显地抑制噪声部分。

因此，如何在注意力机制运算的过程中抑制噪声部分，是提高语音增强性能的一个突破口，是当前需要解决的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何在注意力机制运算的过程中抑制噪声部分，提高语音增强性能。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于多头自注意力机制的语音增强方法，包括以下步骤：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：构建基于多头自注意力机制的语音增强模型；

步骤三：将步骤一提取的数据对所述语音增强模型进行训练；

步骤四：将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型，输出得到相应的干净语音特征估计；

步骤五：将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构，恢复语音信号。

优选地，步骤一具体为：