[发明专利]文本到视觉机器学习嵌入技术在审
申请号: | 202010182685.1 | 申请日: | 2020-03-16 |
公开(公告)号: | CN112015940A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 林哲;S·莫蒂安;P·阿加沃尔;B·法伊塔 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06T11/60;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 视觉 机器 学习 嵌入 技术 | ||
本公开的实施例涉及文本到视觉机器学习嵌入技术。描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。这些技术包括:使用基于查询的训练数据,这可以扩展可用于训练模型的训练数据的可用性和类型。还描述了负数字图像样本的生成,所述生成可以在使用机器学习来训练模型时提高准确性。还描述了一种损失函数,所述损失函数也例如,分离地通过在正样本嵌入或者负样本嵌入与文本嵌入之间的损失来支持提高的准确性和计算效率。
技术领域
本公开的实施例涉及数字图像领域,并且更具体地涉及数字图像机器学习嵌入技术。
背景技术
为了返回准确的搜索结果,数字图像搜索系统面临许多技术挑战,特别是在涉及基于文本的搜索的实例中。例如,常规的数字图像搜索系统依赖于与数字图像相关联的图像标签,这些图像标签可以被手动指定或者自动推断,例如,使用基于机器学习的图像标签技术。因此,为了执行搜索,被包括在文本查询中的文本与关联于数字图像的标签相匹配。然而,这些常规的系统和技术容易出错,特别是当文本查询包括大量文本时,并且通常是由于缺少支持灵活的语言描述变化的能力。
在一个常规示例中,包括文本“在海滩边抱着狗坐在椅子上的人”的文本查询被接收。基于标签的常规数字图像搜索系统通常返回具有也被包括在文本查询中的标签中的任何一个标签的搜索结果。因此,这些常规系统的用户通常面临只包括人、狗(狗可以包括犬或者食物)、椅子或者海滩的搜索结果。该搜索结果还与这些标签的子组合混合,例如,有狗的人、吃热狗的人、在海滩上的椅子等。进一步地,一些常规系统(例如,基于库存图像的搜索系统)甚至可能由于文本查询的长度而无法返回结果。因此,常规数字图像搜索系统可能需要用户手动浏览(navigate)搜索结果中的数百个数字图像以找到感兴趣的数字图像,可能迫使用户发起具有不同文本组合的大量搜索,等等。这由于浏览的效率低下以及数字图像搜索系统对用于传送、执行和重复这些搜索的网络和计算资源的使用的效率低下而导致用户感到沮丧。
发明内容
描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。在一个示例中,通过使用训练数据生成模块生成训练数据来执行这一点,该训练数据提高了使用机器学习而被训练的模型的准确性。例如,可以基于被用于发起搜索数字图像和从搜索结果中选择数字图像的文本查询来生成基于查询的训练数据。按照这种方式,可以针对大量数字图像和文本确定文本查询与数字图像的关联。还可以通过使用基于标题的训练数据来扩展对基于查询的训练数据的使用作为多任务学习的一部分,这通过限制在基于查询的训练数据中的噪声来提高训练准确性,并且支持使用长文本序列。
训练数据生成模块还被配置为生成在使用机器学习来训练模型时提高准确性的负数字图像样本。通过生成以下负数字图像样本来执行这一点:该负数字图像样本具有与正数字图像样本相似的语义含义和/或视觉含义,但是不具有与正数字图像样本完全相同的组成部分。
在一个示例中,通过从数字图像的子集中选择负数字图像样本来执行这一点,这些数字图像不止具有一个文本项,文本项不包括停用词,还被包括在与正数字图像样本相关联的文本中。在另一示例中,通过从数字图像的子集中选择负数字图像样本来执行这一点,这些数字图像不具有每个文本项,文本项不包括停用词,还被包括在与正数字图像样本相关联的文本中。然后,该训练数据可以被用于生成支持单个统一的文本和数字图像嵌入空间的模型,该模型被配置为将文本和数字图像视为同一实体,并且因此,克服了仅基于文本的常规技术的限制。
还描述了一种利用损失函数来训练模型的机器学习训练模块。与常规的损失函数相比较,该损失函数通过以下方式来支持提高的准确性和计算效率:与在从负数字图像样本生成的负图像嵌入和以下文本嵌入之间计算出的损失分开地处理在从正数字图像样本生成的正图像嵌入与该文本嵌入之间计算出的损失:基于与正数字图像样本相关联的文本而计算出该文本嵌入。这允许在正图像嵌入与文本嵌入之间的距离随着时间的推移而减少(在训练期间),而在负图像嵌入与文本嵌入之间的距离增加,从而与常规的训练技术相比较,提高了模型准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010182685.1/2.html,转载请声明来源钻瓜专利网。