[发明专利]基于注意力驱动循环卷积网络的环境自适应语音增强算法有效
| 申请号: | 201910166373.9 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN110223706B | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 葛檬;王龙标;党建武 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/30;G10L25/03 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,包括以下步骤:步骤一,选择语音增强任务数据库,进行输入数据准备;步骤二,提取语音的振幅信息和环境信息,其中语音的环境信息是通过采用权重预测误差方法(WPE)提取,语音的振幅信息主要通过傅里叶变换提取的语谱图信息;步骤三,深度模型的构建和训练;步骤四,语音重构,将步骤三中预测得到的语音振幅转换成语音波形。本发明考虑语音的环境信息,提高了算法在不同环境下的环境自适应性和算法鲁棒性;在真实语音信号保留方面,本发明融入注意力机制构建注意力驱动的循环卷积网络,更加精确地刻画语音的时序上下文信息,有效提高了语音增强的性能。 | ||
| 搜索关键词: | 基于 注意力 驱动 循环 卷积 网络 环境 自适应 语音 增强 算法 | ||
【主权项】:
1.一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,包括以下步骤:步骤一,语音增强任务数据库的选取及数据准备:步骤二,振幅特征及环境特征提取:符号描述:令原始语音信号为s,对语音信号分帧、加窗、短时傅里叶变换,得到的语谱图特征为X;1)振幅信息提取:直接取语谱图的绝对值,并取log作为语音振幅特征,具体如下:x振幅=log|X|2)环境信息提取:基于权重预测误差方法(WPE)来提取语音的环境信息特征;步骤三,深度模型的构建及训练:本发明构建环境自适应的端对端深度网络EDANet;步骤四,语音波形重构:将步骤三预测得到的语音log振幅特征
转换成语音波形,转换公式如下:
至此,就可以将验证集和测试集的语音进行增强,得到干净的语音波形。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910166373.9/,转载请声明来源钻瓜专利网。
- 上一篇:语音转换方法、装置、设备及可读存储介质
- 下一篇:显示装置





