[发明专利]基于局部注意力机制的语音增强方法、装置及介质有效
| 申请号: | 202010117498.5 | 申请日: | 2020-02-25 |
| 公开(公告)号: | CN111341331B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 方泽煌;康元勋 | 申请(专利权)人: | 厦门亿联网络技术股份有限公司 |
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
| 地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 局部 注意力 机制 语音 增强 方法 装置 介质 | ||
本发明公开了一种基于局部注意力机制的语音增强方法,包括:采集待处理语音,对待处理语音进行语音合成处理,得到待增强语音;对待增强语音进行特征提取,得到待增强语音的多维特征;建立基于局部注意力机制的RNN模型,并将多维特征输入至RNN模型;对RNN模型进行训练,得到语音增强模型;根据语音增强模型对多维特征进行计算得到时频掩蔽因子,根据时频掩蔽因子以及待增强语音的频谱,得到待增强语音的增强语音频谱;根据增强语音频谱得到语音增强波形。本发明提供的一种基于局部注意力机制的语音增强方法及系统,能够有效提高语音增强的效果,且能够有效提高语音增强的稳定性和可靠性。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于局部注意力机制的语音增强方法、装置及介质。
背景技术
语音增强是语音处理领域的一个重要课题,是指当语音信号被各种各样的噪声干扰、甚至覆盖后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。随着智能音箱和人机交互等相关应用的发展,在理想环境下,语音识别和说话人识别等算法已经具有较高的准确率,但是在实际场景中,噪声的存在使得这些语音应用的准确度极大降低,因此降低噪声对语音信号的干扰和增强语音信号是亟待解决的问题。
目前,现有的语音增强方法主要有谱减法、维纳滤波和基于最小均方误差的短时谱幅增强方法。
使用现有的语音增强方法,存在以下问题:
在很大程度上取决于噪声的估计,且这些方法适用场景少,未能充分考虑各个场景下的语音特性,不可避免地引入失真,造成语音增强效果不佳。
发明内容
本发明实施例提供的一种基于局部注意力机制的语音增强方法、装置及介质,能够有效提高语音增强的效果,且能够有效提高语音增强的稳定性和可靠性。
为解决上述问题,一方面,本发明的一个实施例提供了一种基于局部注意力机制的语音增强方法,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;
建立基于局部注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音增强模型;
根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
根据所述增强语音频谱得到语音增强波形。
进一步地,所述待处理语音包括纯净语音和噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待增强语音。
进一步地,所述对所述待增强语音进行特征提取,得到所述待增强语音的多维特征,具体为:
对所述待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;
对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征。
进一步地,所述对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征,具体为:
将所述每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;
将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较,并根据所述当前帧的特征得到36维特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门亿联网络技术股份有限公司,未经厦门亿联网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010117498.5/2.html,转载请声明来源钻瓜专利网。





