[发明专利]基于注意力驱动循环卷积网络的环境自适应语音增强算法有效
| 申请号: | 201910166373.9 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN110223706B | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 葛檬;王龙标;党建武 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/30;G10L25/03 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 驱动 循环 卷积 网络 环境 自适应 语音 增强 算法 | ||
1.一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,包括以下步骤:
步骤一,语音增强任务数据库的选取及数据准备:
步骤二,振幅特征及环境特征提取:
符号描述:令原始语音信号为s,对语音信号分帧、加窗、短时傅里叶变换,得到的语谱图特征为X;
1)振幅信息提取:直接取语谱图的绝对值,并取log作为语音振幅特征,具体如下:
x振幅=log|X|
2)环境信息提取:基于权重预测误差方法(WPE)来提取语音的环境信息特征;
步骤三,深度模型的构建及训练:
构建环境自适应的端对端深度网络EDANet;
步骤四,语音波形重构:
将步骤三预测得到的语音log振幅特征转换成语音波形,转换公式如下:
至此,就可以将验证集和测试集的语音进行增强,得到干净的语音波形。
2.根据权利要求1所述的一种基于注意力驱动循环卷积网络的环境自适应语音增强算法,其特征在于,所述步骤三中EDANet网络主要分为三个部分:卷积网络,注意力驱动双向循环网络,以及全连接网络,EDANet网络具体的构建细节如下:
1)卷积网络
卷积网络部分,采用了Encoder-DecoderCNN网络,采用了9层卷积层,每层滤波器的数目分别是4,8,16,32,64,32,16,8,4;同时,每个滤波器的大小是3*3;最后经过卷积操作,总共产生4个2D的特征图,每个特征图的大小是514*7;
2)注意力驱动双向循环网络
将卷积网络产生的所有2D特征图按时间方向拼接在一起,产生特征H(x),并接着通过注意力驱动的双向循环网络部分;
注意力驱动的双向循环网络细节为给定每个时间步的特征Ht:=Ht(x),计算各帧特征对于目标帧语音的贡献αt如下:
然后,将带权的各帧特征输入到双向循环网络BLSTM,得到融合上下文的时序特征V(x),具体公式如下:
其中,实验设置的BLSTM层数是2,每层的隐藏单元个数是300;
3)全连接网络
采用全连接网络结合Dropout策略,Dropout是对神经网络进行优化的方法,在学习的过程随机将隐含层的部分权重或者输出归零,降低节点的相互依赖性,从而实现神经网络的正则化,避免模型过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910166373.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音转换方法、装置、设备及可读存储介质
- 下一篇:显示装置





