[发明专利]盲信号分离方法、装置和电子设备有效
申请号: | 201811045478.0 | 申请日: | 2018-09-07 |
公开(公告)号: | CN110890098B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 胡玉祥;朱长宝 | 申请(专利权)人: | 南京地平线机器人技术有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0272 |
代理公司: | 北京市正见永申律师事务所 11497 | 代理人: | 黄小临;冯玉清 |
地址: | 210046 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信号 分离 方法 装置 电子设备 | ||
公开了一种盲信号分离方法、装置和电子设备。该方法包括:使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;基于所述概率密度分布来更新盲信号分离模型;以及,使用更新后的盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。这样,可以通过基于复数高斯分布获得的声源的概率密度分布更新盲信号分离模型,从而有效地提升盲信号分离算法在特定场景下的分离性能。
技术领域
本申请涉及音频处理技术,且更为具体地,涉及盲信号分离方法、盲信号分离装置和电子设备。
背景技术
“鸡尾酒会”问题是语音增强系统中极具挑战性的问题之一,其难点在于要求从包含音乐、车辆噪声以及其他说话人声的嘈杂环境中,分离提取期望说话人的语音信号,而人类听觉系统能够从这一环境中轻易地提取感兴趣的音频信号。
现有的解决方案是使用盲信号分离系统来模拟人类的听觉系统,即识别和增强来自特定声源的声音。
但是,现有的盲信号分离系统仍存在诸如针对特定场景的适应性的问题。例如,基于多元拉普拉斯分布的盲信号分离算法可以作用于大多数声信号,并且可以扩展到实时处理场景,但是对于一些有特定频谱结构的信号,例如具有谐波结构的音乐信号,多元拉普拉斯模型无法很好地描述此类信号。此外,基于谐波模型的盲信号分离算法可以有效地分离语音和音乐的混合信号,但是谐波模型假设分离信号的方差为1,需要白化操作,因此只适用于离线场景,无法扩展到实时处理场景。
因此,仍期望提供改进的盲信号分离方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种盲信号分离方法、装置和电子设备,其通过基于复数高斯分布获得的声源的概率密度分布更新盲信号分离模型,从而有效地提升盲信号分离算法在特定场景下的分离性能。
根据本申请的一个方面,提供了一种盲信号分离方法,包括:使用复数高斯分布对声源进行建模,以确定声源的概率密度分布;基于所述概率密度分布来更新盲信号分离模型;以及使用更新后的盲信号分离模型对音频信号进行分离,以获得多个分离的输出信号。
在上述盲信号分离方法中,所述盲信号分离模型的代价函数为:
其中W(k)为第k个频点的分离模型,yi表示第i个声源的分离信号,G(yi)为对照函数,其表示为log q(yi),q(yi)是第i个声源的概率密度分布。
在上述盲信号分离方法中,使用复数高斯分布对声源进行建模包括离线建模、在线建模、或者二者的组合。
在上述盲信号分离方法中,所述离线建模包括:使用与要分离的音频信号中的声源相同类型的声源的干净语音信号进行建模,以获得所述声源的概率密度分布。
在上述盲信号分离方法中,还包括:基于所获得的多个分离的输出信号来更新所述盲信号分离模型。
在上述盲信号分离方法中,所述在线建模包括:对上一帧音频信号分离得到的多个输出信号进行建模,以获得各个声源的概率密度分布。
在上述盲信号分离方法中,所述离线建模和在线建模的组合包括:对要分离的音频信号中的部分声源进行离线建模;以及,对要分离的音频信号中的其余声源进行在线建模。
在上述盲信号分离方法中,所述部分声源是已知声源,所述其余声源是未知声源。
在上述盲信号分离方法中,使用所获得的盲信号分离模型对音频信号进行分离包括:将所述音频信号转换为频域信号,以在频域进行分离,所述多个分离的输出信号是频域信号。
在上述盲信号分离方法中,还包括:将所述多个分离的输出信号中的至少一个转换为时域信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京地平线机器人技术有限公司,未经南京地平线机器人技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811045478.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石墨炭化系统
- 下一篇:一种血液样本的分析方法和血液细胞分析仪及存储介质