[发明专利]一种多人语音的分离方法和装置有效
| 申请号: | 201810904488.9 | 申请日: | 2018-08-09 |
| 公开(公告)号: | CN110164469B | 公开(公告)日: | 2023-03-10 |
| 发明(设计)人: | 陈联武;于蒙;钱彦旻;苏丹;俞栋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/27 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 人语 分离 方法 装置 | ||
1.一种多人语音的分离方法,其特征在于,包括:
从样本数据库中获取混合语音样本和干净语音样本;
从混合语音样本中提取出混合语音样本特征;
通过生成网络模型对所述混合语音样本特征进行掩蔽系数提取,得到N种人声对应的样本掩蔽矩阵;
使用所述生成网络模型对所述样本掩蔽矩阵和所述混合语音样本进行语音分离,输出分离语音样本;
在本次训练判别网络模型时,固定所述生成网络模型;
使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数;
通过最小化所述判别网络模型的损失函数,优化所述判别网络模型;
在下一次训练所述生成网络模型时,固定所述判别网络模型;
使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数;
通过最小化所述生成网络模型的损失函数,优化所述生成网络模型;
从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;
使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵,所述生成对抗网络模型包括所述生成网络模型和所述对抗网络模型;
使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号;
其中,所述使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数,包括:
根据所述分离语音样本和所述混合语音样本确定第一信号样本组合;
使用所述判别网络模型对所述第一信号样本组合进行判别输出,得到第一判别输出结果,以及获取所述第一判别输出结果与所述判别网络模型的第二目标输出之间的第三失真度量,所述第二目标输出为目标输出true;
对所述分离语音样本和所述干净语音样本进行置换不变性计算,得到所述分离语音样本和所述干净语音样本之间的对应关系结果;
根据所述分离语音样本和所述干净语音样本之间的对应关系结果获取到第四失真度量;
根据所述第三失真度量和所述第四失真度量获取所述生成网络模型的损失函数。
2.根据权利要求1所述的方法,其特征在于,所述使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数,包括:
根据所述分离语音样本和所述混合语音样本确定第一信号样本组合,以及根据所述干净语音样本和所述混合语音样本确定第二信号样本组合;
使用所述判别网络模型对所述第一信号样本组合进行判别输出,得到第一判别输出结果,以及获取所述第一判别输出结果与所述判别网络模型的第一目标输出之间的第一失真度量,所述第一目标输出为目标输出false;
使用所述判别网络模型对所述第二信号样本组合进行判别输出,得到第二判别输出结果,以及获取所述第二判别输出结果与所述判别网络模型的第二目标输出之间的第二失真度量;
根据所述第一失真度量和所述第二失真度量获取所述判别网络模型的损失函数。
3.根据权利要求1或2所述的方法,其特征在于,所述从待分离的混合语音信号中提取出混合语音特征,包括:
从所述混合语音信号中提取出单通道语音信号的时域特征或者频域特征;或者,
从所述混合语音信号中提取出多通道语音信号的时域特征或者频域特征;或者,
从所述混合语音信号中提取出单通道语音特征;或者,
从所述混合语音信号中提取出多通道间的相关特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810904488.9/1.html,转载请声明来源钻瓜专利网。





