[发明专利]基于掩码时域解码器的实时语音降噪方法和装置有效
申请号: | 202110299114.0 | 申请日: | 2021-03-20 |
公开(公告)号: | CN113096682B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 李平平 | 申请(专利权)人: | 杭州知存智能科技有限公司 |
主分类号: | G10L21/0224 | 分类号: | G10L21/0224;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 掩码 时域 解码器 实时 语音 方法 装置 | ||
本发明提供一种基于掩码时域解码器的实时语音降噪方法和装置,该方法包括:将带噪语音通过Stft提取特征;将提取的特征输入预训练的神经网络得到掩码mask;将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音,其中,通过将一组加权函数(掩码)应用于时域解码器来处理带噪语音实现基于时域后处理的实时神经网络降噪,具有显着较小的模型尺寸和更短的最小等待时间,使其成为边缘设备实时降噪的合适解决方案。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于掩码时域解码器的实时语音降噪方法和装置。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术,简单来说,就是从含噪语音中提取尽可能纯净的原始语音。语音增强应用范围很广,对于处于特殊环境的语音系统,一般都要在不同程度上采取一些增强措施。例如直升机机舱内的通信语音处理、舰艇机舱内的通话系统等都需要用语音增强技术。经典的语音增强方法是频谱减法、维纳滤波、基于统计模型的方法、MCRA最小值递归平均方法、直方图方法等。
传统经典语音增强的方法往往有一定的先验假设,比如频谱减法中假设噪声是加性的,但真实情况中经常难以满足这些假设,就造成实际效果不如预期。而且,经典语音增强方法对于平稳噪声可以取得一定的效果,但在面临非平稳噪声和低信噪比等复杂场景却差强人意。
近年来,深度学习通过提高掩模估计的准确性,极大地提高了时频掩模方法的性能,每个声源的波形都是使用每个声源的估计幅谱图的逆短时傅立叶逆变换(iSTFT)以及混合声的原始相位或修改相位来计算的。首先,STFT/ISTFT准确地重建干净源的相位是一个不小的问题,并且相位的错误估计会在重建音频的准确性上引入上限。即使将理想的干净幅度谱图应用于混合物,也无法从源重构精度上看出这一问题。尽管可以应用相位重建方法来缓解此问题,但该方法的性能仍然欠佳。其次,从混合信号分解出干净信号,这需要较长的时间窗来计算ISTFT,增加了系统的最小延迟,限制了其在实时、低延迟应用中的通用性,例如在电信和可听设备中。
发明内容
针对现有技术中的问题,本发明提供一种基于掩码时域解码器的实时语音降噪方法和装置、电子设备以及计算机可读存储介质,能够至少部分地解决现有技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种基于掩码时域解码器的实时语音降噪方法,包括:
将带噪语音通过Stft提取特征;
将提取的特征输入预训练的神经网络得到掩码;
将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音。
进一步地,所述将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音,包括:
将所述掩码以及所述带噪语音输入时域解码器;
利用所述时域解码器对所述带噪语音在不同子带上用所述掩码进行滤波得到增强后的语音。
进一步地,所述掩码为代表各子带增益的多维的掩码。
进一步地,所述将带噪语音通过Stft提取特征,包括:
对所述带噪语音进行预加重、分帧、加窗以及傅里叶变换得到所述带噪语音的特征。
进一步地,所述将带噪语音通过Stft提取特征,还包括:
将所述带噪语音的频域划分为多个子带。
进一步地,所述神经网络的结构为[GRU(48),GRU(96),GRU(128),FC(512),FC(40)]。
进一步地,所述时域解码器为IIR带通滤波器或FIR滤波器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州知存智能科技有限公司,未经杭州知存智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299114.0/2.html,转载请声明来源钻瓜专利网。