[发明专利]基于频域卷积传递函数的多通道非负矩阵分解方法及系统有效
申请号: | 202210031383.3 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114220453B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 王泰辉 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L19/26;G10L19/02;G10L25/18;G10L25/24;G06F17/14;G06F17/15 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;李彪 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 传递函数 通道 矩阵 分解 方法 系统 | ||
本发明属于盲源分离技术领域,具体地说,涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统,该方法包括:对传声器阵列每一个通道采集的时域观测信号进行分帧并做短时傅里叶变换,得到时频域的观测信号;基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;将时频域的分离信号进行短时傅里叶逆变换、合成得到时域的分离信号。
技术领域
本发明属于盲源分离(Blind source separation,BSS)技术领域,具体地说,涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统。
背景技术
盲源分离是在没有声源和声源到麦克风之间的传递函数等先验信息的情况下,仅利用麦克风的接收信号来估计各个声源信号的方法。音频盲源分离在自动语音识别、自动音乐转录和噪声环境下的目标说话人提取等领域具有重要的应用。
在生物医学信号或图像处理等领域,观测信号是时域的瞬时混合模型。但是,在音频信号处理的应用领域中,由于房间内早期反射声和后期混响的存在,观测信号符合时域的卷积混合模型,这比时域的瞬时混合模型更加难处理。有些研究工作,直接利用时域卷积模型来处理盲音频分离问题。但是这些工作的复杂度较高,且很难处理具有较长混响时间的混合信号。
目前,广泛采用的解决思路是利用短时傅里叶变换将时域的卷积混合模型转换为频域瞬时混合模型,这种转换依赖于窄带假设。需要强调的是窄带假设成立的条件是短时傅里叶变换的窗长要充分长于混响时间。大多数的多通道盲源分离方法需要一个空间模型和一个声源模型,其中空间模型来编码声源到麦克风之间的传递函数,声源模型来编码每个声源的功率谱密度。在窄带假设的前提下,可以证明空间模型是一个秩为一的空间协方差矩阵。独立成分分析(Independent component analysis,ICA)、独立向量分析(Independent vector analysis,IVA)和独立低秩矩阵分析(Independent low-rankmatrix analysis,ILRMA)都是基于秩一空间模型得到的,不同的是这些方法采用了不同的声源模型。ICA假设每个频点独立地服从单位方差的超高斯分布。但在ICA中,每个频点是单独分离的,这导致了乱序问题,需要增加排序算法作为后处理来解决序列对齐问题。IVA假设每个声源的所有频点符合多维超高斯分布,这样解决了ICA存在的排序问题。但是,IVA采用的声源模型不够灵活,没有充分利用声源的功率谱特征。ILRMA假设每个时频点服从零均值的复高斯分布,并且采用一个低秩的声源模型来建模声源的功率谱,同样也避免了排序问题。ILRMA采用的声源模型比IVA的更加强大,因而更能够描述功率谱密度的丰富细节,在音乐分离任务重取得了比IVA更好的分离性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210031383.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微变形雷达自动标定系统
- 下一篇:一种耳鼻喉科护理用鼻腔异物取出器