[发明专利]使用搜索日志训练的意图编码器在审
申请号: | 202080019154.9 | 申请日: | 2020-01-31 |
公开(公告)号: | CN113544661A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 张泓非;宋夏;熊辰炎;C·L·罗赛特;P·N·本内特;N·E·克拉斯维尔;S·K·蒂瓦里 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/9032 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 搜索 日志 训练 意图 编码器 | ||
本文描述了一种计算机实现的技术,该技术接收用户提交的输入表达,该输入表达具有达成某个目标的意图。然后,该技术使用经机器训练的意图编码器组件将输入表达映射成输入表达意图向量(IEIV)。IEIV对应于向量意图向量空间内与输入表达相关联的意图的分布式表示。然后,该技术利用意图向量来促进某个下游应用任务,诸如信息的检索。一些应用任务还使用邻居搜索组件来找到表达与输入表达相似意图的表达。训练系统基于如搜索引擎搜索日志中所记录的查询与用户点击之间的联系,来训练意图编码器组件。
背景技术
各种计算机实现的系统采用经机器训练的模型来解释用户的输入查询和其他语言学表达。例如,搜索引擎可以采用一个或多个经机器训练的模型来解释用户经由网络浏览器输入的搜索查询。类似地,聊天机器人可以采用一个或多个经机器训练的模型来解释用户以口头或基于文本的形式输入的问题和命令。
虽然系统提供方已经开发了越来越复杂的经机器训练的模型,但是这些模型有时可能产生不令人满意的结果。无法向用户提供相关结果的系统(诸如信息检索引擎)可能会使用户感到沮丧。关于与实现系统的服务器相关联的资源,以及用户用来与系统交互的用户设备两者,它还使计算资源的使用效率低下。
发明内容
本文描述了一种计算机实现的技术,其接收用户提交的输入表达(inputexpression),该输入表达具有达成某个目标的意图。然后,该技术使用经机器训练的意图编码器组件将输入表达映射成输入表达意图向量(IEIV)。IEIV对应于与输入表达相关联的意图在连续意图向量空间内的分布式表示。然后,技术利用意图向量来促进某个下游应用任务,诸如从搜索引擎检索信息。
根据一个说明性方面,训练系统部分地通过从由搜索引擎产生的搜索日志来制定训练示例来训练意图编码器组件。训练示例包括正例和负例。每个正例描述了引起对相同文档(即相同URL)的选择的一对先前查询。每个负例描述了没有引起对相同文档的选择的一对先前查询。通过迭代地减少意图向量空间中与正例相关联的意图向量之间的距离、并且迭代地增加意图向量空间中与负例相关联的意图向量之间的距离,该技术生成经机器训练的模型,以供意图编码器组件使用。
根据另一说明性方面,应用可以使用邻居搜索组件来找到关于输入表达的一个或多个相关表达,每个相关表达具有在IEIV的规定距离内的邻居表达意图向量(NEIV)。
根据另一说明性方面,意图编码器包括:经机器训练的词项(term)嵌入组件和经机器训练的混合编码器组件。词项嵌入组件针对输入表达的每个词项生成词项向量。它这样做是基于对词项作为整体的考虑和对组成该词项的个体字符的考虑。混合编码器组件包括顺序编码器,顺序编码器基于由词项嵌入组件生成的词项向量,来生成与表达相关联的意图向量。
以上概述的技术可以在各种类型的系统、设备、组件、方法、计算机可读存储介质、数据结构、图形用户界面呈现、制品等中得到体现。
提供本发明内容来以简化形式介绍一些概念;这些概念将在以下具体实施方式中进一步被描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
图1示出了一个说明性计算环境,该计算环境使用意图编码器组件将输入查询(或任何其他种类的语言学表达)映射成意图向量。然后,计算环境处理意图向量来产生一些特定于应用的输出结果。
图2示出了意图向量空间的简化描绘,图1的意图编码器组件将输入查询映射到该意图向量空间。
图3示出了一个信息检索应用,该信息检索应用使用图1的意图编码器组件来检索对输入查询的回答。
图4示出了一个信息检索应用,该信息检索应用使用图1的意图编码器组件来检索与输入查询相关的文档标识符。
图5示出了一个信息检索应用,该信息检索应用使用图1的意图编码器组件来向用户提供查询建议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080019154.9/2.html,转载请声明来源钻瓜专利网。