[发明专利]顶级相似性表示的有效检索在审
申请号: | 202011119294.1 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112685603A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 谭树龙;周至心;徐兆卓;李平 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 顶级 相似性 表示 有效 检索 | ||
对由表示学习产生的相关向量的检索会严重影响自然语言处理(NLP)任务的效率。在本文中提出了用于经由常规非公制匹配函数‑内积来搜索向量的系统和方法。针对top‑1最大内积搜索(MIPS)构造近似内积Delaunay图(IPDG)的实施方式,将最合适潜在向量的检索转换成具有很大效率优势的图搜索问题。针对不同机器学习任务学习的数据表示的实验验证了IPDG实施方式的出色效果和效率。
相关申请的交叉引用
本专利申请涉及于2019年10月18日提交的、题为“Efficient Retrieval of TopSimilarity Representations(顶级相似性表示的有效检索)”的第62/923,459号(案卷号:28888-2366P)共同待定和共有的美国专利申请,并要求其优先权权益,该申请将ShulongTan、Zhixin Zhou、Zhaozhuo Xu和Ping Li列为发明人,并且出于所有目的,上述专利申请通过引用以其整体并入本文。
技术领域
本公开总体涉及用于计算机学习的系统和方法,该系统和方法可提供改进的计算机性能、特征和使用。更具体地,本公开涉及用于有效检索相似性表示的系统和方法。
背景技术
在自然语言处理(NLP)和其它机器学习应用程序中,寻找诸如向量的相似对象是项重要任务。以示例的方式,考虑表示学习方法。随着诸如Word2vec的表示学习方法的普及,单词被表示为语义空间中的实值嵌入向量。因此,相似单词嵌入的检索是自然语言处理中最基本的操作之一,在针对与查询有关的文档的同义词提取、句子对齐、多义词学习以及语义搜索中具有广泛的适用性。
因此,需要的是用于有效检索相似性表示(诸如向量)的系统和方法。
公开内容
本公开的第一方面提供了一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介,该指令序列在由至少一个处理器执行时,致使构造近似内积空间中的有向图的图的步骤,包括:给定数据集中的一组向量中的至少一个,其中,每个向量均表示插入节点、顶级邻域候选者的数量或图中每个节点的最大外向链接数,将图初始化并将向量作为节点插入图中;针对一组向量中的每个向量,执行以下步骤,包括:使用搜索过程以获得一组候选邻域;将针对内积的边缘选择过程应用于一组候选邻域,以获得插入节点的一组邻域;将来自插入节点的边缘添加到一组邻域中的每个邻域,一组邻域中的一个或多个邻域具有邻域;通过执行以下步骤来更新边缘,包括:针对每个邻域的邻域:将插入节点作为邻域添加到一组邻域的邻域中;将边缘选择过程应用于一组邻域的邻域;移除边缘;将与一组邻域的邻域相关联的更新边缘添加到图中;以及输出图。
本公开的第二方面提供了一种用于使用有向图执行相似性搜索的计算机实现的方法,包括:确定表示一组向量中的查询向量的查询;对图应用查询,以识别与图相关联的一组向量中的、与查询向量具有内积的向量,内积大于该向量与一组向量中的任何向量的内积;以及输出向量作为相似性表示,其中,图已通过以下步骤生成,包括:针对一组向量中的每个向量,使用搜索过程以获得一组候选邻域;将边缘选择过程应用于一组候选邻域,以获得插入节点的一组邻域;通过从图中添加边缘和移除边缘,更新图;以及输出图。
本公开的第三方面提供了一种用于构造近似有向图的图的系统,系统包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,其包括一组或多组指令,该一组或多组指令在由一个或多个处理器中的至少一个执行时,致使执行以下步骤,包括:给定一组向量,使用搜索过程获得一组候选邻域;使用边缘选择过程以从一组候选邻域中识别一组邻域,边缘选择过程包括:确定一组候选邻域中的候选邻域与其自身的内积是否大于与一组候选邻域中的每个邻域的内积;以及使用一组邻域构建图。
附图说明
将参考本公开的实施方式,它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本公开大体上在这些实施方式的上下文中描述,但应理解,本公开的范围并不旨在限于这些特定实施方式。附图中的项目可能未按比例绘制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011119294.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:乘客约束装置和户外游乐场乘客单元
- 下一篇:用于处理基板的装置和方法