[发明专利]一种音视频语音增强处理方法及模型在审
| 申请号: | 202110441281.4 | 申请日: | 2021-04-23 |
| 公开(公告)号: | CN112951258A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 陈航;杜俊;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L25/03;G10L25/30;G10L25/57 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈颖 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 语音 增强 处理 方法 模型 | ||
1.一种音视频语音增强处理方法,其特征在于,包括:
从带噪语音中提取出帧级别的音频嵌入数据;
从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;
将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;
基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;
基于所述预测掩膜和所述带噪语音得到增强语音。
2.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述从带噪语音中提取出帧级别的音频嵌入数据,包括:
采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。
3.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据,包括:
采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。
4.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据,包括:
将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接,得到嵌入拼接数据;
采用2层的双向门控循环单元融合包含音频模态和视频模态的所述嵌入拼接数据,得到多模态嵌入数据。
5.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜,包括:
将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理,得到特征拼接数据;
依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理,得到所述带噪语音的预测掩膜。
6.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述基于所述预测掩膜和所述带噪语音得到增强语音,包括:
将所述预测掩膜和所述与所述带噪语音的幅度谱相乘,得到相乘结果;
基于所述相乘结果和所述带噪语音的相位重建出增强语音。
7.根据权利要求1-6任一项所述的音视频语音增强处理方法,其特征在与,还包括:
对所述音视频语音增强处理方法进行优化。
8.根据权利要求7所述的音视频语音增强处理方法,其特征在于,所述对所述音视频语音增强处理方法进行优化,包括:
采用随机梯度算法或随机梯度算法的改进算法,最小化神经网络模型在训练集的损失函数来进行神经网络参数的训练,所述神经网络模型为所述音视频语音增强处理方法对应的神经网络模型。
9.一种音视频语音增强处理模型,其特征在于,包括:
音频嵌入提取模块,用于从带噪语音中提取出帧级别的音频嵌入数据;
视频嵌入提取模块,用于并从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;
嵌入融合模块,用于将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;
增强处理模块,用于基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;
增强确定模块,用于基于所述预测掩膜和所述带噪语音得到增强语音。
10.根据权利要求9所述的音视频语音增强处理模型,其特征在于,所述音频嵌入提取模块、视频嵌入提取模块和所述嵌入融合模块属于嵌入提取模块,所述嵌入提取模块和所述增强处理模块使用相同的数据和不同的标签分开训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441281.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:三维存储器件
- 下一篇:一种用于大型箱梁制作车间的悬臂、除尘设备





