[发明专利]语义音频表示的无监督学习在审
申请号: | 201880070177.5 | 申请日: | 2018-10-26 |
公开(公告)号: | CN111433843A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 阿伦·扬森;马诺伊·普拉卡尔;理查德·钱宁·莫尔;肖恩·赫尔希;拉泰特·潘德亚;瑞安·里夫金;刘家洋;丹尼尔·埃利斯 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 音频 表示 监督 学习 | ||
1.一种方法,包括:
获得训练数据,其中所述训练数据包括多个声音记录;
生成多个训练三元组,其中,所述多个训练三元组中的每个训练三元组包括来自所述多个声音记录的相应锚音频片段、正音频片段和负音频片段,其中,生成所述多个训练三元组包括:(i)执行第一三元组采样操作以生成所述多个训练三元组的第一训练三元组子集;以及(ii)执行第二三元组采样操作以生成所述多个训练三元组的第二训练三元组子集,其中所述第二三元组采样操作是与所述第一三元组采样操作不同的三元组采样操作;
将所述多个训练三元组中的每个训练三元组的每个音频片段映射到n维特征空间中的相应特征向量;以及
基于所确定的特征向量来更新所述映射,使得损失函数减小,其中所述损失函数包括多个项的总和,其中所述多个项中的每个项对应于所述多个训练三元组中的相应训练三元组,并且其中当第一距离不小于第二距离至少指定的阈值量时,通过相对于所述第二距离增加所述第一距离来增加与特定训练三元组相对应的损失函数的项,其中,所述第一距离在所述特定训练三元组的锚音频片段的特征向量和所述特定训练三元组的正音频片段的特征向量之间,并且其中,所述第二距离在所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的负音频片段的特征向量之间。
2.根据权利要求1所述的方法,其中,将给定音频片段映射到所述n维特征空间中的对应特征向量包括:
基于所述给定音频片段来确定声谱图;以及
将所确定的声谱图映射到所述n维特征空间中的所述对应特征向量。
3.根据权利要求1-2中的任一项所述的方法,其中,执行所述第一三元组采样操作包括:
从所述多个声音记录中为所述第一训练三元组子集中的特定训练三元组选择锚音频片段;
通过将噪声添加到所述特定训练三元组的所述锚音频片段来确定所述特定训练三元组的正音频片段;以及
通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的负音频片段。
4.根据权利要求1-2中的任一项所述的方法,其中,执行所述第一三元组采样操作包括:
从所述多个声音记录中为所述第一训练三元组子集中的特定训练三元组选择锚音频片段;
通过对第一训练三元组的所述锚音频片段应用频移或时移中的至少一个来确定所述第一训练三元组的正音频片段;以及
通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的负音频片段。
5.根据权利要求1-2中的任一项所述的方法,其中,执行所述第一三元组采样操作包括:
从所述多个声音记录中为所述第一训练三元组子集中的特定训练三元组选择锚音频片段;
通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的负音频片段;以及
通过确定所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述负音频片段的加权组合来确定所述特定训练三元组的正音频片段。
6.根据权利要求1-2中的任一项所述的方法,其中,执行所述第一三元组采样操作包括:
从所述多个声音记录中为所述第一训练三元组子集中的特定训练三元组选择锚音频片段;
通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的正音频片段,其中所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述正音频片段对应于所述训练数据的第一声音记录的相应片段;以及
通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述正音频片段都不相同的音频片段来确定所述特定训练三元组的负音频片段,其中所述特定训练三元组的所述负音频片段对应于所述训练数据的第二声音记录的片段,其中所述第二声音记录不同于所述第一声音记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880070177.5/1.html,转载请声明来源钻瓜专利网。