[发明专利]一种基于深度聚类的多通道与说话人无关语音分离方法有效

专利信息
申请号: 201911230647.2 申请日: 2019-12-04
公开(公告)号: CN110970053B 公开(公告)日: 2022-03-15
发明(设计)人: 张晓雷;杨子叶;谭旭 申请(专利权)人: 西北工业大学深圳研究院;西北工业大学
主分类号: G10L21/0272 分类号: G10L21/0272;G10L21/0208;G10L21/0216;G10L21/0224;G10L21/0232;G10L25/18;G10L25/27;G06K9/62
代理公司: 西北工业大学专利中心 61204 代理人: 常威威
地址: 518000 广东省深圳市南山区粤海*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 通道 说话 无关 语音 分离 方法
【权利要求书】:

1.一种基于深度聚类的多通道与说话人无关语音分离方法,算法的主要步骤如下:

步骤1,基于空间特征的深度聚类:

对每一个通道接收到的音频信号分别进行STFT变换,得到P个STFT声谱图{yi,1(t,f),yi,2(t,f),…,yi,P(t,f)},P为通道数量,i为时频元序号,i=1,…,n,n为STFT声谱图中的时频元总数,yi,p(t,f)表示第p个声谱里的第i个时频元,t为其时域坐标,f为其频域坐标,p=1,…,P;

对每一个时频元yi,p(t,f),p=1,…,P,i=1,…,n,先按照下式计算得到其对数幅度谱zi,p

zi,p(t,f)=log|yi,p(t,f)| (1)

再按照下式计算得到不同通道间的相位差θi,p,q(t,f):

θi,p,q(t,f)=∠yi,p(t,f)-∠yi,q(t,f) (2)

其中,yi,q(t,f)表示第q个通道的第i个时频元,p≠q,q=1,…,P,i=1,…,n;

再对相位差θi,p,q(t,f)进行余弦变换得到余弦相位差δi,p,q(t,f):

δi,p,q(t,f)=cos(θi,p,q(t,f)) (3)

以第p个通道所有时频元的余弦相位差和对数幅度谱构成的特征mi,p(t,f)=[zi,p(t,f),δi,p,q(t,f)]T为输入,i=1,…,n,对双向长短时记忆网络进行训练,网络输出为嵌入向量vi,p(t,f);网络最小化如下损失函数:

其中,||·||F表示F-范数运算,Vp(t,f)=[v1,p(t,f),…,vn,p(t,f)]是一个n×k维的矩阵,k为映射到高维空间的维度,Bp(t,f)=[b1,p(t,f),…,bn,p(t,f)]是一个n×U维的真实数据标签矩阵,bi,p(t,f)=[bi,p,1(t,f),…,bi,p,u(t,f),…,bi,p,U(t,f)]T,i=1,…,n,每一个元素bi,p,u(t,f)的值为:

其中,u为说话人的编号,u=1,…,U,U为说话人的总数,p=1,…,P;

然后,将混合语音信号STFT变换后所有时频元的余弦相位差和对数幅度谱构成的特征输入到训练好的双向长短时记忆网络,并使用k均值聚类算法将网络输出的嵌入向量划分为U个簇,即每个通道生成U个估计的二元时频掩模表示该通道的主导者为说话人u,表示该通道的主导者为其他说话人,u为说话人编号,u=1,…,U,U为说话人的总数;

所述的双向长短时记忆网络为4层网络,每层包含300个隐藏单元,采用随机梯度下降法进行训练,设定动量为0.9,用于训练的固定学习率为10-5,训练前对网络参数随机加入均值为0、方差为0.6的高斯噪声,并设定不同的嵌入维度进行训练,嵌入维度的取值在5~60之间;

步骤2,基于深度聚类的波束形成:

按照下式计算得到第u个说话人的语音及其受到的干扰的空间协方差矩阵

其中,y(t,f)为输入的经过STFT变换的所有通道的混合语音信号,y(t,f)=[y1(t,f),y2(t,f),...,yP(t,f)]T,yp(t,f)为第p个通道混合语音信号,p=1,…,P;上标H表示计算y(t,f)的共轭转置矩阵;ηu(t,f)表示二元估计掩模对第u个说话人的加权,按照计算得到;T为采样时间的最大值;

然后,按照下式计算得到第u个说话人的MDVR波束形成器的系数wu(f),u=1,…,U:

其中,是的第一主成分;

最后,按照计算得到分离开的第u个说话人的语音信号xu(t,f),u=1,…,U。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学深圳研究院;西北工业大学,未经西北工业大学深圳研究院;西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911230647.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top