[发明专利]一种基于可导航小世界图的多属性近似最近邻搜索方法在审
| 申请号: | 202010185898.X | 申请日: | 2020-03-17 |
| 公开(公告)号: | CN111444297A | 公开(公告)日: | 2020-07-24 |
| 发明(设计)人: | 徐小良;李畅;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 导航 世界 属性 近似 近邻 搜索 方法 | ||
本发明公开了一种基于可导航小世界图的多属性近似最近邻搜索方法。本发明包含以下步骤:步骤一MA‑NSW索引生成方法,包括构建和遍历带有多属性的结点集合
技术领域
本发明涉及近似最近邻搜索领域,具体涉及一种基于可导航小世界图的多属性近似最近邻搜索方法。
背景技术
最近邻搜索是使用最为广泛的一种数据搜索技术,广泛应用于计机器学习、模式识别、文本和多媒体搜索等领域。但是实际应用由于搜索集通常非常大,不能满足对于大规模数据检索的时间性能要求。因此,近似最近邻搜索得到越来越多的研究和关注。
近似最近邻搜索目前有多种方法实现,比如树方法,哈希方法,矢量量化方法,近邻图方法等。其中近邻图方法是近期提出的查询速度和召回率表现最为优秀的一种方法。可导航小世界图(NSW)是Yury A.Malkov提出的一种图索引方法,使用贪婪算法的变体进行朴素查找最近邻。NSW在大多数情况下召回率和搜索速度十分优秀,并且支持增量更新索引,在推荐系统的应用上具有优势。但是现代近似最近邻搜索的应用需求逐渐变得复杂,常需要多属性近似最近邻搜索,即在近似最近邻搜索的过程中有时需要进行条件筛选,即只返回特定属性组合的最近邻结点。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于可导航小世界图的多属性近似最近邻搜索方法,称为MA-NSW。
MA-NSW是一种多属性覆盖层的可导航小世界图索引,使用多个覆盖层记录每个属性组合的结点集合,并分别形成可导航小世界图(NSW)的结构,以支持多属性近似最近邻搜索。具体内容如下:
1.MA-NSW索引生成方法
1.1构建结点集合
构建向量集合P,将每个向量作为MA-NSW中的一个结点,其中每一个结点p都有其属性T(p),向量集合P即可视作结点集合P。p的属性为T(p)={t1,t2,…,tn},T(p)是一个长度为n的属性组合,其中ti是第i个位置的属性值,属性值允许为NULL,即属性为空。
属性组合拥有子集关系,定义如下:给定两个结点p1和p2,存在属性组合T(p1)和T(p2),若T(p1)中存在0个或多个位置的属性值为NULL,且剩余的每一个位置属性值都和T(p2)相同,则
1.2构建属性映射表
构建属性映射表table,用于记录每一种属性组合对应的属性id映射。通过属性映射表,能够快速找到某个属性组合的id。
1.3构建全局入口结点
将全局入口结点p0插入MA-NSW作为首结点,p0是独立于结点集合P的结点,不含有任何实际属性与向量,仅仅作为MA-NSW索引的入口存在。
1.4遍历步骤1.1的结点集合P,遍历完集合P中的所有结点后,生成的图结构即为MA-NSW索引,对结点集合P中的结点重复以下操作
设当前结点为p,设置结点p的最大边数量为ef,对T(p)的所有子集重复如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010185898.X/2.html,转载请声明来源钻瓜专利网。





