[发明专利]从多个说话者中分离目标语音的方法和装置在审
申请号: | 202110273782.6 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113808610A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 张世雄;徐勇;于蒙;俞栋 | 申请(专利权)人: | 腾讯美国有限责任公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 陈美娥;王琦 |
地址: | 美国加利福尼亚州*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 分离 目标 语音 方法 装置 | ||
1.一种从多个说话者中分离目标语音的方法,其特征在于,所述方法包括:
接收与所述多个说话者相关联的视频数据;
接收与至少一个说话者中的每个说话者相关联的音频数据;
从所述接收的视频数据中提取视频特征数据;
基于所述接收的音频数据和所述提取的视频特征数据,从所述多个说话者中识别所述目标语音。
2.根据权利要求1所述的方法,其特征在于,所述提取的视频特征数据包括与所述至少一个说话者相对应的方向数据。
3.根据权利要求1所述的方法,其特征在于,所述提取的视频特征数据包括与所述至少一个说话者中的每个说话者相对应的唇部运动数据。
4.根据权利要求3所述的方法,其特征在于,所述唇部运动数据包括与所述至少一个说话者中每个说话者的嘴部相对应的修剪后的图像。
5.根据权利要求1所述的方法,其特征在于,所述音频数据包括与所述至少一个说话者中的每个说话者相关联的登记话语。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述识别所述目标语音包括为目标说话者生成时频掩码。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述视频特征数据使用卷积神经网络来提取。
8.一种从多个说话者中分离目标语音的装置,其特征在于,所述装置包括:
第一接收模块,被配置为接收与所述多个说话者相关联的视频数据;
第二接收模块,被配置为接收与至少一个说话者中的每个说话者相关联的音频数据;
提取模块,被配置为从所述接收的视频数据中提取视频特征数据;
识别模块,被配置为基于所述接收的音频数据和所述提取的视频特征数据从所述多个说话者中识别所述目标语音。
9.一种非易失性计算机可读介质,其特征在于,其上存储计算机程序,当所述计算机程序被至少一个计算机处理器执行时,使得所述至少一个计算机处理器执行所述权利要求1-7任一项所述的方法。
10.一种计算机设备,其特征在于,包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有至少一条程序指令,所述至少一条程序指令由所述至少一个处理器加载并执行,以实现所述权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司,未经腾讯美国有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110273782.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有双自由层磁性隧道结的二维磁记录读取器
- 下一篇:半导体装置及其制造方法