[发明专利]一种基于混合掩蔽学习目标的语音增强方法有效

申请号：	201911385421.X	申请日：	2019-12-28
公开（公告）号：	CN111128209B	公开（公告）日：	2022-05-10
发明（设计）人：	张涛;王泽宇;朱诚诚	申请（专利权）人：	天津大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0208;G10L25/24;G10L25/30;G06N20/00
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	杜文茹
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合掩蔽学习目标语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混合掩蔽学习目标的语音增强方法，其特征在于，包括，如下步骤：

1)进行语音信号的传统特征提取，包括将获取的语音信号分为训练集和测试集，分别提取训练集和测试集的语音信号的传统特征；

2)分别提取训练集和测试集的语音信号的STFT域的幅度谱特征；

3)构建深度堆叠残差网络；

4)构建学习目标；所述的构建学习目标包括：

(1)利用如下公式分别计算训练集的混合语音信号的理想二值掩蔽学习目标IBM和理想浮值掩蔽学习目标IRM：

其中，LC设置为20dB；SNR(m,f)为定义了时间帧为m，频率为f的时频单元的局部信噪比，f取80Hz到5000Hz；S(m,f)²和N(m,f)²分别表示第m时间帧和频率f处的语音能量和噪声能量；

(2)将理想二值掩蔽学习目标IBM和理想浮值掩蔽学习目标IRM进行点乘，得到混合掩蔽学习目标MM，构成最终的学习目标：

其中，x_1,1…x_m,n分别表示一段混合语音信号中每个时频单元内的理想浮值掩蔽值；x_1,1…x_m,1分别表示第一帧混合语音信号的理想浮值掩蔽；y_1,1…y_m,n分别表示一段混合语音信号中每个时频单元内的理想二值掩蔽值；y_1,1…y_m,1分别表示第一帧混合语音信号的理想二值掩蔽；x_1,1*y_1,1…x_m,n*y_m,n分别表示一段混合语音信号中每个时频单元内的理想混合掩蔽值；

5)利用提取到的训练集的传统特征和STFT域的幅度谱特征以及学习目标训练深度堆叠残差网络；

6)将提取的测试集的传统特征和STFT域的幅度谱特征输入到训练好的深度堆叠残差网络，得到预测的学习目标，对预测的学习目标通过ISTFT得到增强后的语音信号，计算语音信号的PESQ值。

2.根据权利要求1所述的一种基于混合掩蔽学习目标的语音增强方法，其特征在于，步骤1)包括：从TIMIT语料库的训练部分随机抽取1500段语音，与从NOISEX-92语料库抽取的9种噪声随机混合，在-5～5dB的连续变化信噪比下生成1500段混合语音信号构成训练集，从TIMIT语料库的测试部分随机选择500段纯净的语音，与从NOISEX-92语料库抽取的15种语音随机混合，在-10、-8、-6、-4、-2、0、2、4、6、8dB 10种不同信噪比环境下生成500段混合语音信号构成测试集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911385421.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种金属丝线加工防断裂过线轮装置
下一篇：一种可根据桩体大小调节的建筑基础桩紧固装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混合掩蔽学习目标的语音增强方法有效

专利文献下载