[发明专利]一种基于性别融合信息的语音降噪方法有效

申请号：	201710139644.2	申请日：	2017-03-09
公开（公告）号：	CN108573698B	公开（公告）日：	2021-06-08
发明（设计）人：	李军锋;李煦;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L15/20	分类号：	G10L15/20
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	王宇杨;陈琳琳
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于性别融合信息语音方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于性别融合信息的语音降噪方法，所述方法包括：步骤1)采集大量语音训练数据，训练得到男性说话人DNN‑NMF模型和女性说话人DNN‑NMF模型；步骤2)提取测试语音的频谱，确定测试语音说话人的性别；步骤3)根据步骤2)确定的性别，将测试语音的幅度谱输入相应的DNN‑NMF模型，得到降噪后的语音。本发明的方法将引入性别信息，提出了一种新的性别鉴定算法，并且针对不同性别的训练语音训练不同的DNN‑NMF模型，提高的模型的学习能力；而且模型结合DNN和NMF的优点，能够同时利用DNN的学习优势以及NMF对于语音频谱的描述能力，提高了降噪效果。

技术领域

本发明涉及一种语音降噪方法，更具体地说，本发明涉及一种基于性别融合信息的语音降噪方法。

背景技术

在很多应用场景中(如语音通信，自动语音识别，助听器)语音信号不可避免地受到周围干扰的影响，如路噪，周围非目标说话人干扰等，因此需要对设备采集到的带噪语音信号进行降噪处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号，算法需要从一个混合语音中去除噪声信号，进一步增加了问题的解决难度。近年来，基于数据驱动的算法已经被提出来解决单传声器语音降噪问题，如基于非负矩阵分解(non-negative matrix factorization,NMF)的语音降噪算法和基于深度神经网络(deepneural networks,DNN)的降噪算法等。在基于NMF的降噪算法中，NMF首先被用于语音和噪声训练数据得到对应的字典描述语音和噪声的频谱结构；然后在降噪阶段，混合语音幅度谱被分解为字典矩阵和权重矩阵的乘积；最后，通过语音字典和对应权重矩阵的乘积来重构增强后的语音信号。然而在很多实际场景中，语音和噪声字典张成的子空间可能会重叠，导致很难准确估计权重矩阵以及有效抑制噪声信号。而在基于DNN的语音降噪算法中，语音降噪被当做是一个有监督的学习问题，通过监督学习的算法训练DNN模型预测目标语音。由于人类发声的机理，语音频谱具有很强的时频结构特性，如浊音的谐波结构等。然而很多基于DNN的降噪算法并没有考虑这种语音频谱结构特性。

发明内容

本发明的目的在于克服传统的基于NMF降噪算法和基于DNN降噪算法存在的问题，提出了一种新的融合性别信息的基于DNN-NMF的单传声器降噪方法，提高了降噪效果。

为了实现上述目的，本发明提供了一种基于性别融合信息的语音降噪方法，所述方法包括：

步骤1)采集大量语音训练数据，训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型；

步骤2)提取测试语音的频谱，确定测试语音说话人的性别；

步骤3)根据步骤2)确定的性别，将测试语音的幅度谱输入相应的DNN-NMF模型，得到降噪后的语音。

上述技术方案中，所述步骤1)具体包括：

步骤101)采集大量语音训练数据，所述语音训练数据包括：不含噪声的语音训练数据和纯噪声语音训练数据；

步骤102)对语音训练数据进行预处理，然后通过快速傅里叶变换提取语音训练数据的频谱；

步骤103)对不含噪声的语音训练数据按照性别进行分类：男性说话人训练数据和女性说话人训练数据，然后分别对男性说话人训练数据幅度谱和女性说话人训练数据幅度谱和进行非负矩阵分解：

从中得到男性说话人和女性说话人对应的字典矩阵和

步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解，得到噪声字典W_N；