[发明专利]一种基于加权语音损失的语音增强神经网络训练方法及装置有效
申请号: | 202111483345.3 | 申请日: | 2021-12-07 |
公开(公告)号: | CN113921030B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 苏家雨;王博;欧阳鹏 | 申请(专利权)人: | 江苏清微智能科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/30;G06N3/08 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
地址: | 211100 江苏省南京市江宁区麒麟*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 语音 损失 增强 神经网络 训练 方法 装置 | ||
本发明公开了基于加权语音损失的语音增强神经网络训练方法及装置其中,方法包括:提取训练样本中带噪语音的对数功率谱特征;将对数功率谱特征输入初始语音增强神经网络得到预估增益;基于预估增益和噪声,计算第一损失值;基于预估增益和目标语音帧,计算第二损失值;获取第一损失值和第二损失值的权值,并进行加权计算得到最终损失值;在最终损失值收敛的情况下,将初始语音增强神经网络作为用于语音增强的神经网络。本发明实施例提供的方案,使用GRU网络来预测语音增强增益,结合语音活动检测来获取加权语音失真损失,在实现去除噪声的同时减小语音失真。
技术领域
本发明涉及语音增强技术领域,特别涉及一种基于加权语音损失的语音增强神经网络训练方法及装置。
背景技术
语音增强算法的主要目的是改善带噪语音的语音质量和语音可懂度,这类算法在语音识别、通话等方面有着广泛的应用。对于一个单通道的带噪语音信号,经过傅里叶变换后,在频域可表示为
X(t,i)=S(t,i)+N(t,i) (1)
其中,X(t,i)、S(t,i)、N(t,i)分别表示t时刻的带噪语音、干净语音分量和噪声分量在第i个频带的频域表示,而语音增强的目的则是尽可能找到一个时变的增益函数G(t,i)使得
进而使得逼近S(t,i)。
目前,随着深度学习技术的发展,深度学习技术已经广泛应用到了语音增强领域,通过深度学习由神经网络估算一个语音增强增益或掩蔽实现对带噪语音的增强已成为现实,现有基于深度学习的语音增强方法中,通常是通过优化某一数学指标,如干净语音与带噪语音经过增强后的语音之间的均方误差,作为损失函数来完成神经网络反向优化,然而,这类损失函数难以很好地平衡去除噪声和语音主观听感质量,从而导致噪声去除不够好或者对语音的扭曲较大。
发明内容
针对上述问题,本发明实施例提供了一种基于加权语音损失的语音增强神经网络训练方法及装置。
第一方面,提供了一种基于加权语音损失的语音增强神经网络训练方法,包括:
提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;
基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;
获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;
在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
可选的,计算表征所述带噪语音噪声抑制效果的第一损失值的步骤,包括:
基于所述预估增益和噪声,通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值:
其中,表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
可选的,基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏清微智能科技有限公司,未经江苏清微智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483345.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可降解防震气泡膜及其制备方法
- 下一篇:一种器件结构及其制备方法