[发明专利]一种基于RefineNet和评价损失的语音增强方法在审

申请号：	201910913635.3	申请日：	2019-09-25
公开（公告）号：	CN110675888A	公开（公告）日：	2020-01-10
发明（设计）人：	蓝天;彭川;钱宇欣;刘峤;李萌;惠国强;李森;叶文政;吕忆蓝	申请（专利权）人：	电子科技大学
主分类号：	G10L21/02	分类号：	G10L21/02
代理公司：	51304 成都东恒知盛知识产权代理事务所(特殊普通合伙)	代理人：	何健雄;廖祥文
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	干净语音时频时域语音短时傅里叶变换模型训练频谱幅度损失函数语音增强融合可懂度连接层特征图残差卷积噪声输出个性
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于RefineNet和评价损失的语音增强方法，包括以下步骤：S1：通过短时傅里叶变换(STFT)从时域带噪声的语音s计算出幅度x和相位p；S2：通过ResNet从x提取多级时频特征，提取出的多级时频特征由RefineNet融合，并且使用x和RefineNet的输出之间的残差连接来促进模型训练；S3：将特征图输入全连接层以估计干净语音的频谱幅度S4：通过逆STFT(ISTFT)将p和重构成时域干净语音的估计其中，通过卷积层实现ISTFT，并且将语音质量和可懂度的多个性能指标融合作为损失函数。

技术领域

本发明属于语音增强技术领域，尤其涉及一种基于RefineNet和评价损失的语音增强方法。

背景技术

语音增强是一项提升语音质量与可懂度的技术，目前的工作表明，基于神经网络的非端到端方法能取得最好的质量与可懂度指标。关于网络结构设计，与前馈神经网络和循环神经网络相比，具有编码器-解码器架构的卷积神经网络可以用更少的参数实现更好的性能，但是用于语音增强的卷积神经网络缺乏融合深层抽象特征与浅层精细特征的设计，导致网络在前向传播过程中信息丢失。

在损失函数方面，最新的工作开始使用评价指标作为损失，根据语音质量与可懂度，在训练时给予模型正确的反馈。但是，这些评价指标损失缺乏语音相位误差成分，导致非端到端的方法无法针对语音相位调整对幅度的输出。

发明内容

本发明提供一种基于RefineNet和评价损失的语音增强方法，旨在解决上述存在的问题。

本发明是这样实现的，一种基于RefineNet和评价损失的语音增强方法，包括以下步骤：

S1：通过短时傅里叶变换(STFT)从时域带噪声的语音s计算出幅度x和相位p；

S2：通过ResNet从x提取多级时频特征，提取出的多级时频特征由RefineNet融合，并且使用x和RefineNet的输出之间的残差连接来促进模型训练；

S3：将特征图输入全连接层以估计干净语音的频谱幅度

S4：通过逆STFT(ISTFT)将p和重构成时域干净语音的估计其中，通过卷积层实现ISTFT，并且将语音质量和可懂度的多个性能指标融合作为损失函数。

进一步的，所述ResNet由25个卷积层组成，分为InputConv块和4个ResBlock，每个ResBlock包括2个瓶颈构建块和1个剩余连接；其中，输入特征图大小为512*512。

进一步的，所述RefineBlock由多分辨率融合(MRF)子块和链式残差池(CRP)子块组成。

进一步的，所述多分辨率融合(MRF)子块中，1×1卷积层和双线性插值上采样层将输入特征映射重塑为相同的形状，并通过求和将特征图融合为一个。

进一步的，所述链式残差池(CRP)子块包含一系列1×1卷积层和5×5最大池层以及残差连接，并从特征图中获得背景上下文。