[发明专利]使用搜索日志训练的意图编码器在审
申请号: | 202080019154.9 | 申请日: | 2020-01-31 |
公开(公告)号: | CN113544661A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 张泓非;宋夏;熊辰炎;C·L·罗赛特;P·N·本内特;N·E·克拉斯维尔;S·K·蒂瓦里 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/9032 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 搜索 日志 训练 意图 编码器 | ||
1.一种或多种计算设备,用于处理输入表达,包括:
硬件逻辑电路装置,所述硬件逻辑电路装置包括:(a)一个或多个硬件处理器,所述一个或多个硬件处理器通过执行被存储在存储器中的机器可读指令来执行操作,和/或(b)一个或多个其他硬件逻辑组件,所述一个或多个其他硬件逻辑组件使用任务特定的逻辑门合集来执行操作,所述操作包括:
接收由当前用户经由输入设备提交的输入表达,所述当前用户具有达成目标的意图而提交所述输入表达;
使用经机器训练的意图编码器组件,将所述输入表达映射成输入表达意图向量(IEIV),所述IEIV对应于所述意图在意图向量空间内的分布式表示,
所述意图编码器组件已经使用计算机实现的训练系统通过以下方式被训练:
从由搜索引擎产生的搜索日志来制定训练示例,所述训练示例包括正例和负例,
每个正例描述都引起对相同文档的选择的一对先前表达,并且每个负例描述没有引起对相同文档的选择的一对先前表达;以及
通过迭代地减少所述意图向量空间中与正例相关联的意图向量之间的距离、并且迭代地增加所述意图向量空间中与负例相关联的意图向量之间的距离,来生成经机器训练的模型,以供所述意图编码器组件使用;
使用信息检索(IR)引擎来处理所述输入表达,以至少部分基于所述IEIV来产生IR结果;以及
使用输出生成组件,基于所述IR结果来生成输出结果,并且向输出设备发送所述输出结果,以供向所述当前用户呈现。
2.根据权利要求1所述的一种或多种计算设备,其中所述使用IR引擎包括:
使用邻居搜索组件来找到一个或多个相关表达,所述一个或多个相关表达中的每个相关表达具有在所述IEIV的规定距离内的邻居表达意图向量(NEIV);以及
使用所述一个或多个相关表达来提供所述IR引擎结果。
3.根据权利要求2所述的一种或多种计算设备,其中响应于确定所述输入表达是尾表达,所述IR引擎找到所述一个或多个相关表达,所述尾表达对应于在先前场合被观察到的次数小于规定次数的表达。
4.根据权利要求2所述的一种或多种计算设备,
其中所述使用所述一个或多个相关表达包括:标识数据存储库中与所述一个或多个相关表达匹配的一个或多个问题,并且
其中所述IR结果对应于分别与所述一个或多个问题相关联的一个或多个回答。
5.根据权利要求2所述的一种或多种计算设备,
其中所述使用所述一个或多个相关表达包括:标识在搜索索引中指定的与所述一个或多个相关表达匹配的一个或多个信息项,并且
其中所述IR结果对应于与所述一个或多个信息项相关联的信息项标识符的集合。
6.根据权利要求1所述的一种或多种计算设备,
其中所述输入表达是由所述当前用户在当前会话中提交的输入表达的集合中的一个表达,
其中所述接收包括接收所述集合中的所述输入表达,
其中所述映射包括针对所述集合中的每个输入表达生成IEIV,以生成IEIV的集合,并且
其中所述使用IR引擎包括:
分析所述IEIV的所述集合,以将所述当前用户正在使用的搜索策略分类,以提供分类结果;以及
基于所述分类结果来执行动作,以协助所述当前用户执行所述搜索策略。
7.根据权利要求1所述的一种或多种计算设备,其中所述意图编码器组件包括:
经机器训练的词项嵌入组件,所述词项嵌入组件针对所述输入表达的每个词项生成词项向量;以及
经机器训练的混合编码器组件,包括顺序编码器,所述顺序编码器基于由所述词项嵌入组件生成的词项向量来生成与所述输入表达相关联的所述IEIV。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080019154.9/1.html,转载请声明来源钻瓜专利网。