[发明专利]使用经过训练的生成模型生成查询变体有效
申请号: | 201880028212.7 | 申请日: | 2018-04-27 |
公开(公告)号: | CN110574021B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 于尔基·阿拉奎亚拉;克里斯蒂安·巴克;扬尼斯·布利安;马西米利亚诺·恰拉米塔;沃伊切赫·加耶夫斯基;安德烈亚·杰斯蒙多;尼尔·霍尔斯比;王玮 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 经过 训练 生成 模型 查询 变体 | ||
与为提交查询生成查询变体有关的系统、方法和计算机可读介质。在许多实现中,查询变体是利用生成模型生成的。生成模型是有效的,因为它可以基于查询的令牌应用于生成模型并可选地基于将附加输入特征应用于生成模型来主动生成查询的变体。
背景技术
在搜索系统的查询处理组件中已经利用了基于规则的搜索查询的重写。例如,一些基于规则的重写可以通过从查询中移除某些停止词(例如“该”、“一个”等)来生成查询的重写。然后可以将重写的查询提交给搜索系统,并且响应于重写查询的搜索结果返回。
此外,在搜索系统中已经利用了类似查询的集合,以例如推荐与所提交的查询有关的附加查询(例如,“人们也在搜索X”)。与给定查询类似的查询通常由导航群集确定。例如,对于查询“有趣的猫图片”,可以基于用户在提交“有趣的猫图片”之后正频繁提交的类似查询来确定“带有字幕的有趣的猫图片”的类似查询。因此,给定查询的类似查询通常是预定义的。
发明内容
本说明书的实现涉及与生成用于所提交查询的查询变体有关的系统、方法和计算机可读介质。在许多实现中,查询变体是在运行时利用经过训练的生成模型生成的。生成模型是有效的,因为它可以基于查询的令牌应用于生成模型并可选地基于将附加输入特征应用于生成模型来主动生成查询的变体。以这种方式,即使没有基于查询来训练生成模型,也可以利用生成模型来生成任何查询的变体。因此,生成模型可以被用于生成新颖查询和所谓的“尾巴”查询(即,具有低于阈值的提交频率和/或提交量的查询)的变体。结果,由于更丰富的查询输入可以导致更有效地标识相关结果,因此可以更有效地处理查询。例如,仅由于提交频率低和/或提交数量少而不能排除查询。效率的提高取决于能够获得相关结果的速度,因为在初始查询未生成任何相关结果的情况下,不需要用户重新提交修改后的查询。所公开的实现使得能够自动测试多个查询变体。还可以经由训练用于生成变体的模型来确保结果的收敛,从而不仅可以通过同时处理多个查询,而且可以通过有针对性的查询变体生成来提高效率。从而通过本发明的实现优化了处理查询所需的技术资源的使用,包括实现所公开的方法的处理器的处理能力和功耗。
在一些实现中,生成模型是神经网络模型,诸如具有一个或多个“存储器层”的神经网络模型。存储层包括一个或多个循环神经网络(RNN)单元,诸如长短期记忆(“LSTM”)单元和/或门控循环单元(“GRU”)。
在生成模型是具有存储层的神经网络模型的一些实现中,生成模型是序列到序列模型。例如,序列到序列模型可以是一种模型,其中,可以将查询的令牌作为输入应用到模型(例如,在逐个令牌的基础上或在组合的基础上)以及在网络的层上生成的令牌的编码。此外,可以在网络的其他层上对生成的编码进行解码,其中,所得的解码(直接或间接)指示查询的变体。例如,可以将所得的解码应用于网络的一个或多个softmax层,以生成查询的变体。在那些实现的一些版本中,生成模型与序列到序列神经机器翻译模型具有相同或相似的架构,并利用查询变体特定的训练数据被训练。查询变体特定的训练数据可以例如基于:查询对,每个查询对具有对在相同文档上的“点击”(例如,以训练等效的查询变体生成);连续提交的查询对(例如,用于训练用于跟进查询变体生成);以及/或者原始的典范化查询对(例如,用于训练以用于典范化查询变体生成)。可以基于翻译训练数据可选地对这种模型进行预训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880028212.7/2.html,转载请声明来源钻瓜专利网。