[发明专利]基于多头自注意力机制的语音增强方法有效
申请号: | 201911012632.9 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110739003B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 常新旭;袁晓光;张杨;寇金桥;杨林;吴敏;王昕;徐冬冬;赵晓燕;闫帅 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/27;G10L25/03 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多头 注意力 机制 语音 增强 方法 | ||
本发明涉及一种基于多头自注意力机制的语音增强方法,涉及语音增强技术领域。本发明本发明针对现有基于注意力机制的语音增强方法无法在注意力计算过程中明显抑制噪声的问题,基于对人类在听觉感知的过程中存在掩蔽效应的研究及利用,提出了一种基于多头自注意力机制的语音增强方法,该方法实现了在注意力机制运算的过程中抑制噪声部分,提高了语音增强性能。
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于多头自注意力机制的语音增强方法。
背景技术
语音增强技术作为信号处理过程当中一个基本环节,在语音识别、移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是提高被噪声污染语音的质量和可懂度。最近,随着深度学习技术的兴起,基于深度神经网络(Deep NeuralNetwork,DNN)的有监督语音增强方法取得了巨大的成功,特别是在低信噪比和非平稳噪声的情况下,相较于传统方法表现出了更强大的优势。
与机器相比,人类可以在吵闹的环境中与他人聊天时,忽略背景噪声的干扰而听到对方说话的声音。这是由于人类可以轻易地将注意力放在感兴趣的声音上从而忽略其他声音。这一现象也被称为鸡尾酒会效应。这一效应表明,听觉注意在人类处理复杂听觉场景时是至关重要的。因此,在语音增强任务中融入注意力机制应该能够有效提高增强语音的质量与可懂度。
目前,注意力机制已经被应用在语音增强领域并取得成功。基于注意力机制的语音增强方法,利用注意力机制计算当前待增强帧与过去多帧之间的相似度并为过去帧赋权,相较LSTM-RNN方法提升了增强语音的质量和可懂度。但是,由于输入模型的语音特征在每个时频单元上既包含干净语音的信息也包含噪声信息,该方法在赋权时相当于同时放大了干净语音信息和噪声信息,并没有明显地抑制噪声部分。
因此,如何在注意力机制运算的过程中抑制噪声部分,是提高语音增强性能的一个突破口,是当前需要解决的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何在注意力机制运算的过程中抑制噪声部分,提高语音增强性能。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于多头自注意力机制的语音增强方法,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于多头自注意力机制的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构,恢复语音信号。
优选地,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建用于训练网络的干净语音特征和含噪语音特征的数据对,其中,计算对数功率谱时的帧长为512个点,帧移为256点,所计算出的特征维度为257。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911012632.9/2.html,转载请声明来源钻瓜专利网。