[发明专利]一种基于混合掩蔽学习目标的语音增强方法有效

专利信息
申请号: 201911385421.X 申请日: 2019-12-28
公开(公告)号: CN111128209B 公开(公告)日: 2022-05-10
发明(设计)人: 张涛;王泽宇;朱诚诚 申请(专利权)人: 天津大学
主分类号: G10L21/02 分类号: G10L21/02;G10L21/0208;G10L25/24;G10L25/30;G06N20/00
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 杜文茹
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混合 掩蔽 学习 目标 语音 增强 方法
【权利要求书】:

1.一种基于混合掩蔽学习目标的语音增强方法,其特征在于,包括,如下步骤:

1)进行语音信号的传统特征提取,包括将获取的语音信号分为训练集和测试集,分别提取训练集和测试集的语音信号的传统特征;

2)分别提取训练集和测试集的语音信号的STFT域的幅度谱特征;

3)构建深度堆叠残差网络;

4)构建学习目标;所述的构建学习目标包括:

(1)利用如下公式分别计算训练集的混合语音信号的理想二值掩蔽学习目标IBM和理想浮值掩蔽学习目标IRM:

其中,LC设置为20dB;SNR(m,f)为定义了时间帧为m,频率为f的时频单元的局部信噪比,f取80Hz到5000Hz;S(m,f)2和N(m,f)2分别表示第m时间帧和频率f处的语音能量和噪声能量;

(2)将理想二值掩蔽学习目标IBM和理想浮值掩蔽学习目标IRM进行点乘,得到混合掩蔽学习目标MM,构成最终的学习目标:

其中,x1,1…xm,n分别表示一段混合语音信号中每个时频单元内的理想浮值掩蔽值;x1,1…xm,1分别表示第一帧混合语音信号的理想浮值掩蔽;y1,1…ym,n分别表示一段混合语音信号中每个时频单元内的理想二值掩蔽值;y1,1…ym,1分别表示第一帧混合语音信号的理想二值掩蔽;x1,1*y1,1…xm,n*ym,n分别表示一段混合语音信号中每个时频单元内的理想混合掩蔽值;

5)利用提取到的训练集的传统特征和STFT域的幅度谱特征以及学习目标训练深度堆叠残差网络;

6)将提取的测试集的传统特征和STFT域的幅度谱特征输入到训练好的深度堆叠残差网络,得到预测的学习目标,对预测的学习目标通过ISTFT得到增强后的语音信号,计算语音信号的PESQ值。

2.根据权利要求1所述的一种基于混合掩蔽学习目标的语音增强方法,其特征在于,步骤1)包括:从TIMIT语料库的训练部分随机抽取1500段语音,与从NOISEX-92语料库抽取的9种噪声随机混合,在-5~5dB的连续变化信噪比下生成1500段混合语音信号构成训练集,从TIMIT语料库的测试部分随机选择500段纯净的语音,与从NOISEX-92语料库抽取的15种语音随机混合,在-10、-8、-6、-4、-2、0、2、4、6、8dB 10种不同信噪比环境下生成500段混合语音信号构成测试集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911385421.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top