[发明专利]基于强约束字典和深度神经网络的两阶段单通道语音分离方法在审

申请号：	202210532215.2	申请日：	2022-05-09
公开（公告）号：	CN114898769A	公开（公告）日：	2022-08-12
发明（设计）人：	孙林慧;龚艾飞;袁硕;步云怡	申请（专利权）人：	南京邮电大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0308;G10L25/30
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	叶江栩
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于约束字典深度神经网络阶段通道语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法。首先，基于字典学习的语音分离方法常出现“交叉投影”问题，本发明提出了强约束的优化函数，在此函数约束下构建更具有区分性的联合字典，来减少“交叉投影”。其次，为了提高两个相似信号的分离效果，本发明提出两阶段单通道语音分离方法，第一阶段利用强约束字典实现语音分离，得到初步估计信号。第二阶段利用映射能力强的深度神经网络，通过联合约束实现语音与交叉投影残余的分离，去除交叉投影残余的影响，得到精细估计信号。本发明实现了对语音分离系统性能的提升，使系统分离出的语音在五种测量指标上均有提升，适用于智能人机交互。

技术领域

本发明属于语音分离技术领域，具体涉及一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法。

背景技术

日常生活中涉及到语音分离技术的产品越来越多，如手机、助听器、智能家居控制系统、军用对讲机等，随着通信技术的快速发展，人们对这些产品的语音质量有了更高的追求。如何从被干扰的语音中最大限度地获取纯净语音信号或将干扰信号的影响最小化是语音分离领域的研究重点内容之一。国内外众多学者对语音分离问题进行研究，提出了许多不同的方法。早期的传统信号处理方法有谱减法和维纳滤波器，这些方法通常适用于连续平稳的高信噪比环境。在此基础上提出的基于模型的方法根据源信号和混合过程构建模型，以数学推导的方式推算得到估计的源信号，如基于隐马尔科夫模型和高斯混合模型的方法都取得不错的效果。另外，NMF方法通过建立混合信号到目标信号的线性映射，也广泛应用于语音分离领域，但是信号结构复杂时并不能很好地表达。

基于字典的信号稀疏表示方法也常用来解决语音分离问题，信号稀疏表示就是用尽可能少的过完备字典原子来表示信号，学者们主要在字典构造方法和信号稀疏分解算法方面进行重点研究。Aharon等人最早提出了K-SVD算法，在该算法基础上一些学者通过增加字典约束条件来优化分离性能。Sigg等人利用干净语音信号和干扰信号分别训练得到语音字典和干扰字典，将两个字典拼接成联合字典进行稀疏编码，从混合语音分离纯净语音取得了较好的性能。Zhang等人研究了语音信号间的关联和字典间的交叉干扰，提出了一种将语音字典和干扰字典联合学习的语音增强方法，能减少源失真和混淆，提高语音质量，且在输入信噪比较低时增强效果更为明显。Tian等人提出了一种基于学习字典的源分离方法，将公共子字典合并到常规的联合字典中，以确保特定源的子字典能捕获对应源的判别信息，并且设计了一种任务驱动学习算法来优化所提出的联合字典和用于分配公共信息的权重，实验结果表明该算法可以获得比传统算法更好的分离性能。

近年来，深度学习技术凭借其强大的学习能力在语音分离领域日益突出。基于深度学习的语音分离通过训练学习混合信号与目标信号之间的非线性映射关系，这种方法不需要大量的先验知识，而且在低信噪比或非平稳信号环境下仍然有不错的泛化能力。Geoffrey Hinton教授对传统的神经网络算法进行了优化，最早提出了深度神经网络的概念。Han等人提出了通过训练DNN从受损语音的幅度谱中学习干净语音的幅度谱，达到去混响和去噪的目的。在训练DNN时，不同的训练目标会影响网络模型的分离效果，Wang等人分析比较了常用的训练目标包括IBM和IRM等的增强效果，整体上掩蔽技术取得了较好的效果。Li等人提出了一种频谱变化感知损失函数的DNN语音分离算法，结果表明所提出的损失函数能提高语音清晰度和信噪比增益。我们团队提出的联合约束算法不仅惩罚残差平方和，而且利用输出之间的联合关系来训练双输出DNN，与基本损失函数相比该方法能获得更好的性能。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法，第一阶段进行初步估计，利用强约束字典学习实现语音与语音的分离，获取信号的粗略估计。第二阶段进行精细估计，利用映射能力强的DNN对第一阶段分离重构信号进行增强，通过联合约束实现语音与交叉投影残余的分离，使得最终估计的信号与目标信号更接近，从而提高分离语音的质量。

本发明提供一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法，包括如下步骤，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210532215.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强约束字典和深度神经网络的两阶段单通道语音分离方法在审

专利文献下载