[发明专利]通过预测以讲话者表示为条件的隔离音频信号在音频记录中按来源分离语音在审
申请号: | 202180003714.6 | 申请日: | 2021-02-08 |
公开(公告)号: | CN113994427A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 尼尔·泽格多尔;大卫·格朗吉耶 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L21/0208;G10L25/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 预测 讲话 表示 条件 隔离 音频 信号 记录 来源 分离 语音 | ||
1.一种方法,包括:
获得包括来自多个讲话者的语音的记录;
使用讲话者神经网络来处理所述记录,所述讲话者神经网络具有讲话者参数值并且被配置成依照所述讲话者参数值处理所述记录以生成多个每记录讲话者表示,每个讲话者表示表示所述记录中的相应所识别的讲话者的特征;以及
使用分离神经网络来处理所述每记录讲话者表示和所述记录,所述分离神经网络具有分离参数值并且被配置成依照所述分离参数值处理所述记录和所述讲话者表示,以针对每个讲话者表示生成对应于所述记录中的讲话者之一的语音的相应预测的隔离音频信号。
2.根据权利要求1所述的方法,进一步包括联合地训练所述讲话者神经网络和所述分离神经网络,包括:
计算(i)由所述分离神经网络使用输入记录中的并且从所述讲话者神经网络生成的说话者的预测的每记录讲话者表示生成的预测的隔离音频信号与(ii)每个对应于所述输入记录中的所述讲话者中的一个的隔离语音并依照目标函数的地面实况音频信号之间的误差;以及
依照所计算的误差来更新所述讲话者神经网络的讲话者参数值和所述分离神经网络的分离参数。
3.根据权利要求2所述的方法,其中,联合地训练所述讲话者神经网络和所述分离神经网络进一步包括:
针对所述记录的每个时间步,生成多个每时间步讲话者表示,每个每时间步讲话者表示表示在所述时间步的所述记录中相应识别的讲话者的特征;以及
根据预定的排序来聚合所述每时间步讲话者表示以生成多个每记录讲话者表示。
4.根据前述权利要求中的任一项所述的方法,
其中,使用所述讲话者神经网络处理所述记录包括:针对所述记录的每个时间步,生成多个每时间步讲话者表示,每个每时间步讲话者表示表示在所述时间步的所述记录中相应识别的讲话者的特征;并且
其中,所述讲话者神经网络被配置成通过针对每个所识别的讲话者聚合生成的每时间步讲话者表示以针对所识别的讲话者生成相应的讲话者表示来生成所述多个每记录讲话者表示。
5.根据权利要求4所述的方法,其中,所述聚合包括对每个讲话者的所述每时间步讲话者表示执行k-均值聚类以生成相应的每记录讲话者表示。
6.根据前述权利要求中的任一项所述的方法,其中,至少所述讲话者神经网络已经在定义第一记录和第二记录的训练数据上被训练,其中,所述第二记录包括来自所述第一记录的音频分段。
7.根据权利要求6所述的方法,其中,所述第二记录进一步包括来自第一记录的音频分段,所述音频分段已经通过根据随机采样的增益修改器修改所述分段的增益而被扩增。
8.根据前述权利要求中的任一项所述的方法,其中,所述讲话者神经网络和所述分离神经网络中的一个或两者是卷积神经网络。
9.根据权利要求8所述的方法,其中,所述讲话者神经网络和所述分离神经网络中的一个或两者是扩张卷积神经网络。
10.一种系统,包括一个或多个计算机和一个或多个存储设备,在所述存储设备上存储有指令,所述指令可操作为在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至9中的任一项所述的方法。
11.一种编码有指令的一个或多个计算机可读存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至9中的任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180003714.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:存储器及其操作方法、存储器系统
- 下一篇:高层建筑空气加湿系统