[发明专利]一种无重叠子带划分快速独立向量分析语音盲分离方法及系统有效
申请号: | 201910438961.3 | 申请日: | 2019-05-24 |
公开(公告)号: | CN111986695B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 冷艳宏;柯雨璇;郑成诗;李晓东 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;李彪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 重叠 划分 快速 独立 向量 分析 语音 分离 方法 系统 | ||
本发明提出一种无重叠子带划分快速独立向量分析语音盲分离方法,包括:将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;然后进行无重叠子带划分,根据采样率调整划分子带数和子带大小;采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;再根据功率比相关调整分离矩阵的子带排序;根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。本发明的方法能更好地利用相邻频点之间的高阶相关性,保证子带内部排序的一致性,提高快速独立向量分析算法鲁棒性和语音分离性能。
技术领域
本发明属于频域语音盲分离中的子带划分方式和排序不确定性解决装置领域,具体而言,涉及一种无重叠子带划分快速独立向量分析语音盲分离方法。
背景技术
房间中的传声器接收到的是来自多说话人的混合语音信号,各独立的语音信号之间相互干扰,给语音识别等技术带来困难。
盲源分离在只有混合信号的情况下,利用信号的统计特性等信息对源信号进行分离。盲源分离典型的应用是解决“鸡尾酒会问题”,即分离室内传声器接收到的来自多个声源的卷积混合语音信号,其在医学核磁共振信号分离和振动故障检测等方面也有重要应用。
混合信号可分为两类,无时延的直达声传输到传声器混合而成是瞬时混合信号,然而实际环境中不仅存在直达声,还有经过不同路径的时延和衰减的反射声传输到传声器,形成卷积混合信号,如图1所示。针对卷积混合的语音信号,时域算法计算量较大,通常将语音信号转换到时频域进行处理。
独立分量分析是一种应用广泛的盲源分离算法,主要基于信号的高阶统计特性,通常对瞬时混合的非高斯信号有较好的分离性能。在频域分离卷积混合信号时,独立分量分析算法假设每个频点信号满足独立性,在每个频点中单独进行信号分离。然而频域独立分量分析算法会因频点间的排序不确定性导致算法性能下降,因此需要在信号反变换回时域前解决排序不确定问题。
独立向量分析算法仍然在每个频点中单独更新分离矩阵,同时该算法在每个频点的更新中都利用了所有频点之间的高阶相关性,从原理上能有效解决频域盲源分离算法中的排序不确定问题。并且基于牛顿梯度的快速独立向量分析算法的收敛速度快于基于自然梯度的算法。
不同频点之间的高阶相关性的强弱并不相同,相邻频点之间的相关性较强,距离较远的频点之间的相关性较弱。重叠频带划分的快速独立向量分析利用频带之间的重叠部分来传递高阶相关性,但是这种方法不可靠,容易导致频带之间产生排序错乱。并且该类算法的声源假设基于多变量拉普拉斯分布,不能根据声源性质调整算法的相应参数,限制了算法的分离性能。
发明内容
本发明的目的在于解决现有语音识别技术由于时域算法计算量大、频点间排序的不确定性以及算法性能下降和不可靠导致语音分离性能差的问题;
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,特别涉及快速独立向量分析算法的子带划分以及解决子带之间排序不确定性问题,该方法在快速独立向量分析中利用无重叠子带划分来确保子带内部的排序一致性然后采用功率比相关法调整子带之间的排序,基于调整子带排序后的频域声源信号,根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910438961.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种连续模具的下模板
- 下一篇:一种防破裂的建筑幕墙铝板