[发明专利]顶级相似性表示的有效检索在审
申请号: | 202011119294.1 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112685603A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 谭树龙;周至心;徐兆卓;李平 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 顶级 相似性 表示 有效 检索 | ||
1.一种包括一个或多个指令序列的非暂时性计算机可读介质或媒介,所述指令序列在由至少一个处理器执行时,致使构造近似内积空间中的有向图的图的步骤,包括:
给定数据集中的一组向量中的至少一个,其中,每个向量均表示插入节点、顶级邻域候选的数量或图中每个节点的最大外向链接数,初始化所述图并将向量作为节点插入所述图中;
针对所述一组向量中的每个向量,执行以下步骤,包括:
使用搜索过程以获得一组候选邻域;
将针对内积的边缘选择过程应用于所述一组候选邻域,以获得所述插入节点的一组邻域;
将来自所述插入节点的边缘添加到所述一组邻域中的每个邻域,所述一组邻域中的一个或多个邻域具有邻域;
通过执行以下步骤来更新所述边缘,包括:
针对每个邻域的邻域:
将所述插入节点作为邻域添加到一组邻域的邻域中;
将所述边缘选择过程应用于所述一组邻域的邻域;
移除所述边缘;
将与所述一组邻域的邻域相关联的更新边缘添加到所述图中;以及
输出所述图。
2.根据权利要求1所述的非暂时性计算机可读介质或媒介,其中,所述边缘选择过程包括:
确定所述一组候选邻域中的候选邻域与其自身的内积是否大于所述候选邻域与所述一组邻域中的任何邻域的内积。
3.根据权利要求2所述的非暂时性计算机可读介质或媒介,其中,所述边缘选择过程还包括:
只要不超过顶级邻域候选的数量,将所述候选邻域添加到所述一组邻域的邻域中;以及
响应于确定所述候选邻域与其自身的内积不大于所述候选邻域与所述一组邻域中的任何邻域的内积,忽略所述候选邻域。
4.根据权利要求1所述的非暂时性计算机可读介质或媒介,还包括:在输出所述图之后,恢复使用所述搜索过程。
5.根据权利要求4所述的非暂时性计算机可读介质或媒介,其中,所述恢复包括:检测所述数据集中的一个或多个极点。
6.根据权利要求1所述的非暂时性计算机可读介质或媒介,其中,所述一组候选邻域包括的邻域少于所述一组邻域。
7.根据权利要求6所述的非暂时性计算机可读介质或媒介,其中,所述一组候选邻域由所述搜索过程确定。
8.根据权利要求7所述的非暂时性计算机可读介质或媒介,其中,所述搜索过程是使用查询向量来确定所述一组候选邻域的贪婪搜索过程。
9.一种用于使用有向图执行相似性搜索的计算机实现的方法,包括:
确定表示一组向量中的查询向量的查询;
对图应用所述查询,以识别与所述图相关联的所述一组向量中的、与所述查询向量具有内积的向量,所述内积大于该向量与所述一组向量中的任何向量的内积;以及
输出所述向量作为相似性表示,其中,所述图已通过以下步骤生成,包括:
针对所述一组向量中的每个向量,使用搜索过程以获得一组候选邻域;
将边缘选择过程应用于所述一组候选邻域,以获得插入节点的一组邻域;
通过从所述图中添加边缘和移除边缘,更新所述图;以及
输出所述图。
10.根据权利要求9所述的计算机实现的方法,还包括:使用所述图以识别所述一组向量中的、与所述查询向量具有最大内积的向量的数量。
11.根据权利要求10所述的计算机实现的方法,其中,使用所述图包括:使用内积排序函数。
12.根据权利要求9所述的计算机实现的方法,其中,所述步骤至少重复一次。
13.根据权利要求9所述的计算机实现的方法,其中,添加边缘包括:将来自所述插入节点的边缘添加到所述一组邻域中的每个邻域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011119294.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:乘客约束装置和户外游乐场乘客单元
- 下一篇:用于处理基板的装置和方法