[发明专利]一种基于局部单调图模型的最邻近搜索算法在审

专利信息
申请号: 201811512594.9 申请日: 2018-12-11
公开(公告)号: CN109597911A 公开(公告)日: 2019-04-09
发明(设计)人: 陈诗昱;刘闯 申请(专利权)人: 第六镜科技(成都)有限公司
主分类号: G06F16/56 分类号: G06F16/56
代理公司: 北京知呱呱知识产权代理有限公司 11577 代理人: 武媛;吕学文
地址: 610093 四川省成都市中国(四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 单调 数据结构 搜索算法 邻近 估计算法 图模型 大规模数据集 机器学习算法 二进制文件 网络 构件搜索 中心节点 点连接 构建 保存
【说明书】:

发明实施例公开了一种基于局部单调图模型的最邻近搜索算法,涉及机器学习算法技术领域。所述最邻近搜索算法的步骤包括:选取图作为搜索数据结构;依据K近邻估计算法将搜索数据结构中每个节点与其最近的K个邻点连接起来;依据K近邻估计算法构建单调搜索网络,并将所述单调搜索网络以二进制文件保存;将搜索数据结构中每个节点的邻点数量设为相同值;从中心节点出发沿着单调搜索网络的单调路径执行搜索任务。本发明能够解决现有最邻近搜索算法技术不适用于大规模数据集,构件搜索数据结构的时间长、精度低的问题。

技术领域

本发明实施例涉及机器学习算法技术领域,具体涉及一种基于局部单调图模型的最邻近搜索算法。

背景技术

最邻近搜索又称为最近点搜索,是一个在尺度空间中寻找最近点的优化问题。在尺度空间M中给定一个点集S和一个目标点q∈M,在S中找到距离q最近的点。很多情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。

当数据集规模增长时,构建搜索数据结构的时间大大增加,现有的最邻近搜索算法仅适用于规模较小的基础数据集,不适用于大规模的基础数据集。且占用较多的主机内存,例如HNSW算法建立一系列的图层,上层由底层的数据采样得到,这加快了搜索速度,但同时消耗了更多的内存空间。另外,当换用其他相似度计算方式时,需要对现有的搜索数据结构进行较多的修改工作。未使用并行加速技术以及部分算法由于使用了全局变量,导致无法充分利用多核并行计算,无法缩减构建和搜索的时间。

介于上述问题,设计一种新的算法很有必要。

发明内容

为此,本发明实施例提供一种基于局部单调图模型的最邻近搜索算法,以解决现有最邻近搜索算法技术不适用于大规模数据集,构件搜索数据结构的时间长、精度低的问题。

为了实现上述目的,本发明的实施方式提供如下技术方案:提供一种基于局部单调图模型的最邻近搜索算法,所述最邻近搜索算法的步骤包括:选取图作为搜索数据结构;依据K近邻估计算法将搜索数据结构中每个节点与其最近的K个邻点连接起来;依据K近邻估计算法构建单调搜索网络,并将所述单调搜索网络以二进制文件保存;将搜索数据结构中每个节点的邻点数量设为相同值;从中心节点出发沿着单调搜索网络的单调路径执行搜索任务。

优选地,所述图由节点的集合组成,节点之间由弧线连接形成具有多层结构的搜索数据结构,所述搜索数据结构具有单调性。

优选地,所述构建单调搜索网络采用边选择策略,且构建单调搜索网络的时间复杂度为其中d为数据维度,c为常数。

优选地,所述边选择策略为:去掉节点与其最近的K个邻点连接起来所形成的三角形的最长边,从而保证了搜索数据结构的图中所有节点的最大出度为常数c,且常数c与数据集的大小无关。

优选地,所述单调搜索网络的搜索时间复杂度与搜索路径的长度成正比,为其中d为数据维度,c为常数。

优选地,所述算法使用单指令多数据和OPENMP并行加速来构建单调搜索网络。

优选地,所述将搜索数据结构中每个节点的邻点数量设为相同值的方法包括:找出每一个节点的最大邻点数目,然后将每个节点的邻点数目用0填充至最大值。

优选地,在所述执行搜索任务之前对单调搜索网络二进制文件进行加载。

根据本发明的实施方式,本发明具有如下优点:本发明构建的搜索数据结构的时间复杂度与现有技术相比大大降低,能适用于当n较大时的大规模数据集,且能够缩减构件模型的时间;采用单调搜索网络使搜索的时间复杂也大大降低,能够缩短搜索时间;本发明使用单指令多数据和OPENMP并行加速后,减少构建搜索数据结构的时间且支持多种相似度计算方式。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第六镜科技(成都)有限公司,未经第六镜科技(成都)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811512594.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top