[发明专利]语义音频表示的无监督学习在审
申请号: | 201880070177.5 | 申请日: | 2018-10-26 |
公开(公告)号: | CN111433843A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 阿伦·扬森;马诺伊·普拉卡尔;理查德·钱宁·莫尔;肖恩·赫尔希;拉泰特·潘德亚;瑞安·里夫金;刘家洋;丹尼尔·埃利斯 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 音频 表示 监督 学习 | ||
提供了用于生成训练三元组的方法,该训练三元组可用于训练多维嵌入以表示存在于音频记录的语料库中的非语音声音的语义内容。这些训练三元组可以与三元组损失函数一起使用以训练多维嵌入,使得可以将嵌入用于对音频记录的语料库的内容进行聚类,以便于从语料库中按示例查询,从而允许少量的手动标注的音频记录被一般化,或有助于一些其他音频分类任务。三元组采样方法可以单独使用或一起使用,并且每种方法都表示有关音频记录的语义结构的启发式方法。
相关申请的交叉引用
本申请要求于2017年10月27日提交的美国临时专利申请No.62/577,908的优先权,其通过引用合并于此。
背景技术
可以训练人工神经网络来识别和/或分类音频记录的内容。此类分类可用于确定记录的语义内容或上下文,确定记录的位置,识别记录的目的,生成记录的内容标记,为记录选择一个或多个音频处理步骤或提供一些其他好处。音频记录的内容可能包括语音或其他声音。为了训练这样的分类器,可以为音频记录提供手动生成的标签。但是,这种手动标签的生成可能很昂贵。另外,在手动标注过程开始之前,此类手动标签可能需要用于要生成的音频内容的可能标签的专用集合;这样的专用集合可能缺少用于音频记录的所有声音内容的标签。
发明内容
本公开的一方面涉及一种方法,包括:(i)获得包括多个声音记录的训练数据;(ii)生成多个训练三元组,其中,多个训练三元组中的每个训练三元组包括来自多个声音记录的相应锚音频片段、正音频片段和负音频片段,其中生成多个训练三元组包括执行第一三元组采样操作、第二三元组采样操作、第三三元组采样操作或第四三元组采样操作中的一个;(iii)将多个训练三元组中的每个训练三元组的每个音频片段映射到n维特征空间中的相应特征向量;以及(iv)基于所确定的特征向量来更新映射,使得损失函数减小。损失函数包括多个项的总和,其中多个项中的每个项对应于多个训练三元组中的相应训练三元组。当第一距离不小于第二距离至少指定的阈值量时,通过相对于第二距离增加第一距离来增加对应于特定训练三元组的损失函数的项,其中,第一距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的正音频片段的特征向量之间,并且其中,第二距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的负音频片段的特征向量之间。执行第一三元组采样操作包括:从多个声音记录中为多个训练三元组中的第一训练三元组选择锚音频片段;通过将噪声添加到第一训练三元组的锚音频片段来确定第一训练三元组的正音频片段;通过从多个声音记录中选择与第一训练三元组的锚音频片段不同的音频片段来确定第一训练三元组的负音频片段。执行第二三元组采样操作包括:从多个声音记录中为多个训练三元组中的第二训练三元组选择锚音频片段;通过对第二训练三元组的锚音频片段应用频移或时移来确定第二训练三元组的正音频片段;通过从多个声音记录中选择与第二训练三元组的锚音频片段不同的音频片段来确定第二训练三元组的负音频片段。执行第三三元组采样操作包括:从多个声音记录中为多个训练三元组中的第三训练三元组选择锚音频片段;通过从多个声音记录中选择不同于第三训练三元组的锚音频片段的音频片段来确定第三训练三元组的负音频片段;通过确定第三训练三元组的锚音频片段和第三训练三元组的负音频片段的加权组合来确定第三训练三元组的正音频片段。执行第四三元组采样操作包括:从多个声音记录中为多个训练三元组的第四训练三元组选择锚音频片段;通过从多个声音记录中选择不同于第四训练三元组的锚音频片段的音频片段来确定第四训练三元组的正音频片段,其中第四训练三元组的锚音频片段和第四训练三元组的正音频片段对应于训练数据的第一声音记录的相应片段;通过从多个声音记录中选择与第四训练三元组的锚音频片段和第四训练三元组的正音频片段都不相同的音频片段来确定第四训练三元组的负音频片段,其中第四训练三元组的负音频片段对应于训练数据的第二声音记录的片段,其中第二声音记录与第一声音记录不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880070177.5/2.html,转载请声明来源钻瓜专利网。