[发明专利]使用说话者嵌入和所训练的生成模型的说话者日志在审
申请号: | 201880094528.6 | 申请日: | 2018-09-25 |
公开(公告)号: | CN112262431A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 伊格纳西奥·洛佩斯·莫雷诺;路易斯·卡洛斯·科博鲁斯 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/20;G10L15/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 说话 嵌入 训练 生成 模型 日志 | ||
1.一种由一个或多个处理器实现的方法,所述方法包括:
生成针对人类说话者的说话者嵌入,其中,生成针对人类说话者的说话者嵌入包括:
使用所训练的说话者嵌入模型来处理与所述人类说话者相对应的一个或多个说话者音频数据实例,以及
基于一个或多个输出实例生成所述说话者嵌入,每个输出实例基于使用所训练的说话者嵌入模型来处理所述一个或多个说话者音频数据实例中的相应实例而生成;
接收音频数据,所述音频数据捕获所述人类说话者的一个或多个话语,并且还捕获不是来自所述人类说话者的一个或多个附加声音;
生成所述音频数据的细化版本,其中,所述音频数据的细化版本将所述人类说话者的一个或多个话语与不是来自所述人类说话者的一个或多个附加声音分离,并且其中,生成所述音频数据的细化版本包括:
使用所训练的生成模型顺序地处理所述音频数据,并且在顺序地处理期间,在确定所训练的生成模型的层的激活中使用所述说话者嵌入,以及
基于所述顺序地处理来顺序地生成所述音频数据的细化版本作为来自所训练的生成模型的直接输出;以及
对所述音频数据的细化版本执行进一步处理,执行所述进一步处理包括以下中的一者或两者:
对所述音频数据的细化版本执行语音到文本处理,以生成针对所述人类说话者的一个或多个话语的预测文本,以及
基于与所述音频数据的细化版本中的音频的至少阈值水平相对应的一个或多个时间部分,将单个给定的说话者标签分配给所述音频数据的所述一个或多个时间部分。
2.如权利要求1所述的方法,其中,所训练的生成模型的层包括扩张因果卷积层的堆叠,并且其中,在确定所训练的生成模型的层的激活中使用所述说话者嵌入包括:在所述顺序地处理中,在确定所述因果卷积层的激活中使用所述说话者嵌入。
3.如权利要求1所述的方法,其中,所述音频数据经由客户端设备的一个或多个麦克风而被捕获,并且其中,生成针对所述人类说话者的说话者嵌入发生在经由所述客户端设备的所述一个或多个麦克风捕获所述音频数据的至少一部分之后。
4.如权利要求3所述的方法,其中,在生成所述说话者嵌入中使用的一个或多个说话者音频数据实例包括基于所述音频数据的实例,并且进一步包括:
基于来自在所述音频数据中的语音活动检测的初始发生的实例来识别所述实例。
5.如权利要求4所述的方法,进一步包括:
确定与所述一个或多个附加声音的附加人类说话者相对应的音频数据的附加部分,其中,确定所述附加部分是基于来自所述音频数据中的语音活动检测的附加发生并且不与所述音频数据的细化版本中的音频的至少阈值水平相对应的附加部分;
生成针对所述附加人类说话者的附加说话者嵌入,其中,生成针对所述附加人类说话者的附加说话者嵌入是基于使用所训练的说话者嵌入模型来处理所述音频数据的所述附加部分;
生成所述音频数据的附加细化版本,其中,所述音频数据的所述附加细化版本将所述附加人类说话者的一个或多个附加说话者话语与所述人类说话者的一个或多个话语分离并且与不是来自所述附加人类说话者的一个或多个附加声音中的任何一个分离,并且其中,生成所述音频数据的附加细化版本包括:
使用所训练的生成模型顺序地处理所述音频数据,并且在顺序地处理期间,在确定所训练的生成模型的层的激活中使用所述附加说话者嵌入,以及
基于所述顺序地处理来顺序地生成所述音频数据的附加细化版本作为来自所训练的生成模型的直接输出;
对所述音频数据的附加细化版本执行进一步处理。
6.如权利要求1所述的方法,其中,音频数据序列经由客户端设备的一个或多个麦克风而被捕获,并且其中,生成针对所述人类说话者的说话者嵌入发生在经由所述客户端设备的所述一个或多个麦克风捕获所述音频数据序列之前。
7.如权利要求6所述的方法,其中,在生成所述说话者嵌入中处理的所述说话者音频数据包括在利用数字系统注册期间由所述人类说话者说出的一个或多个注册话语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880094528.6/1.html,转载请声明来源钻瓜专利网。