[发明专利]一种语音增强方法、装置及存储介质有效

申请号：	202110540097.5	申请日：	2021-05-18
公开（公告）号：	CN113299300B	公开（公告）日：	2023-09-26
发明（设计）人：	王杰;田嘉怡;袁旻忞	申请（专利权）人：	广州大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0208;G10L21/0224;G10L21/0232;G10L25/30
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	黎扬鹏
地址：	510006 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音增强方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音增强方法、装置及存储介质，本发明通过将纯净语音数据输入判别网络进行训练，使得判别网络的输出结果表征真实结果，得到判别网络模型，根据噪声语音数据对生成网络进行训练，得到生成网络模型；生成网络模型的输出结果输入至判别网络模型使得判别网络模型的输出结果表征真实结果，通过引入生成对抗网络保证生成网络模型输出结果为所需要的真实结果，从而使得待处理语音输入生成网络模型后得到的增强语音为去除噪声的纯净语音；而通过时域卷积网络对判别网络以及生成网络中的至少一个进行训练，可以使得所训练过程稳定，训练过程中能够保留更加长期的记忆且更加灵活。本发明作为可广泛应用于语音处理领域。

技术领域

本发明涉及语音处理领域，尤其是一种语音增强方法、装置及存储介质。

背景技术

目前，手机、服务机器人和翻译机等等具有语音交互功能的电子产品的应用范围越来越广泛，能应用于不同的环境中。而在使用语音交互功能时，环境当中会具有噪声从而影响用户的体验。相关技术中，为了消除噪声，将带噪声的语音输入至深度神经网络模型(例如CNN(Convolutional Neural Networks，卷积神经网络)进行训练，利用训练后的深度神经网络模型进行语音噪声的过滤。然而，现有的深度神经网络模型的训练过程中，当网络模型的层次达到一深度后，其只能保留短期记忆，存在无法灵活输出等长序列的问题，因此有必要设计一种新的语音处理方法。

发明内容

有鉴于此，为了解决上述技术问题，本发明的目的是提供一种语音增强方法、装置及存储介质。

本发明采用的技术方案是：

一种语音增强方法，包括：

获取训练数据集；所述训练数据集包括纯净语音数据以及噪声语音数据；

将所述纯净语音数据输入判别网络进行训练，使得所述判别网络的输出结果表征真实结果，得到判别网络模型；

根据所述噪声语音数据对生成网络进行训练，得到生成网络模型；所述生成网络模型的输出结果输入至所述判别网络模型使得所述判别网络模型的输出结果表征真实结果，所述判别网络以及所述生成网络中的至少一个基于时域卷积网络进行训练；

将待处理语音输入所述生成网络模型，得到增强语音。

进一步，所述根据所述噪声语音数据对生成网络进行训练，得到生成网络模型，包括：

对噪声语音数据进行数据处理，得到噪声语音数据的幅度谱和相位谱；

将所述幅度谱输入所述生成网络提取语音特征；

根据所述相位谱和所述语音特征进行语音重构；