[发明专利]一种无重叠子带划分快速独立向量分析语音盲分离方法及系统有效
申请号: | 201910438961.3 | 申请日: | 2019-05-24 |
公开(公告)号: | CN111986695B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 冷艳宏;柯雨璇;郑成诗;李晓东 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;李彪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 重叠 划分 快速 独立 向量 分析 语音 分离 方法 系统 | ||
1.一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离;
所述方法具体包括:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号为:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号中心化处理得到混合信号
其中,i为序列长度的序号,计算中心化处理后混合信号的协方差矩阵,其中对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号相乘即得到白化预处理后的混合语音信号
步骤3)对白化预处理后的混合语音信号在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
其中D1和D2分别表示要排序的两段子带,分别为相应子带的功率比质心,表示第m个声源在排序中为第i位;表示第m'个声源在排序中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号估计值:
其中,是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号变换回时域,得到最终估计的时域声源信号。
2.根据权利要求1所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910438961.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种连续模具的下模板
- 下一篇:一种防破裂的建筑幕墙铝板