[发明专利]基于注意力驱动循环卷积网络的环境自适应语音增强算法有效

申请号：	201910166373.9	申请日：	2019-03-06
公开（公告）号：	CN110223706B	公开（公告）日：	2021-05-07
发明（设计）人：	葛檬;王龙标;党建武	申请（专利权）人：	天津大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0216;G10L25/30;G10L25/03
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	程小艳
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于注意力驱动循环卷积网络的环境自适应语音增强算法，包括以下步骤：步骤一，选择语音增强任务数据库，进行输入数据准备；步骤二，提取语音的振幅信息和环境信息，其中语音的环境信息是通过采用权重预测误差方法(WPE)提取，语音的振幅信息主要通过傅里叶变换提取的语谱图信息；步骤三，深度模型的构建和训练；步骤四，语音重构，将步骤三中预测得到的语音振幅转换成语音波形。本发明考虑语音的环境信息，提高了算法在不同环境下的环境自适应性和算法鲁棒性；在真实语音信号保留方面，本发明融入注意力机制构建注意力驱动的循环卷积网络，更加精确地刻画语音的时序上下文信息，有效提高了语音增强的性能。
搜索关键词：	基于注意力驱动循环卷积网络环境自适应语音增强算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于注意力驱动循环卷积网络的环境自适应语音增强算法，其特征在于，包括以下步骤：步骤一，语音增强任务数据库的选取及数据准备：步骤二，振幅特征及环境特征提取：符号描述：令原始语音信号为s，对语音信号分帧、加窗、短时傅里叶变换，得到的语谱图特征为X；1)振幅信息提取：直接取语谱图的绝对值，并取log作为语音振幅特征，具体如下：x_振幅＝log|X|2)环境信息提取：基于权重预测误差方法(WPE)来提取语音的环境信息特征；步骤三，深度模型的构建及训练：本发明构建环境自适应的端对端深度网络EDANet；步骤四，语音波形重构：将步骤三预测得到的语音log振幅特征转换成语音波形，转换公式如下：至此，就可以将验证集和测试集的语音进行增强，得到干净的语音波形。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910166373.9/，转载请声明来源钻瓜专利网。

上一篇：语音转换方法、装置、设备及可读存储介质
下一篇：显示装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力驱动循环卷积网络的环境自适应语音增强算法有效

专利文献下载