[发明专利]一种基于深度聚类的多通道与说话人无关语音分离方法有效

申请号：	201911230647.2	申请日：	2019-12-04
公开（公告）号：	CN110970053B	公开（公告）日：	2022-03-15
发明（设计）人：	张晓雷;杨子叶;谭旭	申请（专利权）人：	西北工业大学深圳研究院;西北工业大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0208;G10L21/0216;G10L21/0224;G10L21/0232;G10L25/18;G10L25/27;G06K9/62
代理公司：	西北工业大学专利中心 61204	代理人：	常威威
地址：	518000 广东省深圳市南山区粤海***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度通道说话无关语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于深度聚类的多通道与说话人无关语音分离方法。首先，对语音信号进行短时傅里叶变换提取其幅度谱特征，再计算不同通道间相位差的余弦值作为空间特征，并将两个特征联合起来作为训练深度聚类网络的输入特征；然后，对双向长短时记忆网络进行训练，并利用该网络得到不同说话人的估计掩膜；最后，再利用空间协方差矩阵计算MVDR波束形成器的系数，将混合语音与所得波束形成器系数相乘，得到分离开的说话人语音信号。本发明较好地利用了语音信号的空间信息，并利用深度聚类网络估计得到高质量的掩模，可以实现混响环境下多个说话人混合语音信号的分离处理，并具有较好的语音分离性能。

技术领域

本发明属语音信号处理技术领域，具体涉及一种基于深度聚类的多通道与说话人无关语音分离方法。

背景技术

语音分离属于信号领域中一种较为基础的任务，是声源分离的一种特殊情况，其目标就是将目标语音从背景噪声当中分离出来。语音分离可以应用到许多方面，包括听力假体、通信、自动语音处理和说话人语音识别等等。对于人类的听力系统来说，即使是在鸡尾酒场景下，我们也可以很轻易地从其他人的说话声音以及周围嘈杂的背景噪声当中听到一个人的说话内容。所以，语音分离问题也常被称为“鸡尾酒会问题”。但人类之所以可以轻易的分离语音，是因为声音信号在传入人类的听觉中枢之前，首先会经过人耳听觉系统的高端处理，从而实现目标语音与背景干扰的分离。这个类似于人耳听觉中枢的分离系统就是语音分离的任务，然而建立起一个能够媲美人类听力的系统并不是一件容易的事情。

语音分离算法根据麦克风的数量，可以分为单通道语音分离算法(单个麦克风)和多通道语音分离算法(多个麦克风，也称阵列语音分离)。单通道语音分离主要是通过目标语音和干扰语音的声学以及统计学特性的计算，从带噪语音中分离目标语音。其中两种较为传统的方法是语音增强和计算场景分析。这些算法能够很好的解决与说话人相关的语音分离问题，即对目标说话人的要求非常高，需要已知目标说话人的一些信息。但是对于与说话人无关的语音分离问题，这些传统的算法往往无法解决。

为了解决了对于与说话人无关的语音分离这个非常具有挑战性的问题，又出现两种主要方法：置换不变性训练算法(PIT,Permutation Invariant Training)和深度聚类算法。这两种算法在理想环境下能有效地解决与说话人无关的语音分离问题，但在实际情况下，说话人的位置往往是无法确定的，并且还会存在混响等情况，这使得两者的性能大大下降。

以上所述均为单通道语音分离算法，但是基于单个麦克风的算法是无法考虑到空间信息这一重要特征的。空间化的信息就是指在实际生活中两个说话人的位置大概率是随机的。而多通道语音分离算法就能够获得这些空间信息，进而从目标位置或方向提取说话人语音，这样既能降低混响的干扰，又能有效利用空间信息来提高性能。目前主要的两种算法是基于波束形成的深度聚类算法和基于空间信息提取的深度聚类算法。但前者的鲁棒性较差，后者则有较大的非线性失真，因此都不是特别理想，仍有一定的提升空间。

发明内容

为了克服现有技术的不足，本发明提供一种基于深度聚类的多通道与说话人无关语音分离方法。首先，对语音信号进行短时傅里叶变换提取其声谱图，并计算不同通道间相位差的余弦值，以其联合特征作为训练深度聚类网络的空间特征；然后，对双向长短时记忆网络进行训练，并利用该网络得到不同说话人的估计掩膜；最后，再利用空间协方差矩阵计算最小方差无失真响应(Minimum Variance Distortion-less Response，MVDR)波束形成器的系数，将混合语音与所得波束形成器系数相乘，得到分离开的说话人语音信号。本发明同时在深度聚类网络的输入和输出端探知空间信息，同时，利用基于深度聚类的波束形成器估计了高质量的掩模，可以提升恶劣环境下语音分离器的性能，实现在说话人信息未知的情况下，对混响环境中有多个说话人语音混合的语音信号进行较好地分离处理。

一种基于深度聚类的多通道与说话人无关语音分离方法，算法的主要步骤如下：

步骤1，基于空间特征的深度聚类：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学深圳研究院;西北工业大学，未经西北工业大学深圳研究院;西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911230647.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于区块链对智能家居进行安全配网的方法
下一篇：一种燃气机的空滤测试台

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度聚类的多通道与说话人无关语音分离方法有效

专利文献下载