[发明专利]一种多人语音的分离方法和装置有效
| 申请号: | 201810904488.9 | 申请日: | 2018-08-09 |
| 公开(公告)号: | CN110164469B | 公开(公告)日: | 2023-03-10 |
| 发明(设计)人: | 陈联武;于蒙;钱彦旻;苏丹;俞栋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/27 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 人语 分离 方法 装置 | ||
本发明实施例公开了一种多人语音的分离方法和装置,用于实现在多人语音场景下的语音与语音之间的分离。本发明实施例提供一种多人语音的分离方法,包括:从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号。
技术领域
本发明涉及信号处理技术领域,尤其涉及一种多人语音的分离方法和装置。
背景技术
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着多个不同的人声以及其他杂音。在这种声学环境下,人类的听觉系统能一定程度地听清楚目标语言,而机器在这方面的能力还远不如人类。因此,如何在多个人声混杂的声学环境中分离出目标语音一直是语音信号处理领域的重要研究方向。
现有技术提供的语音降噪方案主要适用于语音和噪声的分离,由于语音和噪声的特性差别很大,现有语音降噪方案已经能很好地完成语音降噪任务。而由于不同说话人的语音特性非常接近,语音分离的技术难度明显大于语音降噪。如何将语音和语音进行分离,仍是未解决的问题。
发明内容
本发明实施例提供了一种多人语音的分离方法和装置,用于实现在多人语音场景下的语音与语音之间的分离。
本发明实施例提供以下技术方案:
一方面,本发明实施例提供一种多人语音的分离方法,包括:
从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;
使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;
使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号。
另一方面,本发明实施例还提供一种多人语音的分离装置,包括:
特征提取模块,用于从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;
掩蔽矩阵生成模块,用于使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;
语音分离模块,用于使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号。
在前述方面中,多人语音的分离装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤,详见前述对前述一方面以及各种可能的实现方式中的说明。
另一方面,本发明实施例提供一种多人语音的分离装置,该多人语音的分离装置包括:处理器、存储器;存储器用于存储指令;处理器用于执行存储器中的指令,使得多人语音的分离装置执行如前述一方面中任一项的方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810904488.9/2.html,转载请声明来源钻瓜专利网。





