[发明专利]基于混合向量量化的最近邻搜索方法在审
申请号: | 201710356737.0 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107193938A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 赵万磊;杨杰;文翔焕 | 申请(专利权)人: | 厦门大学;悟图索智公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 向量 量化 近邻 搜索 方法 | ||
技术领域
本发明涉及信息检索与多媒体检索,尤其是涉及基于混合向量量化的最近邻搜索方法。
背景技术
最近邻检索在计算机很多领域都是被重点研究的问题。它在很多领域都起到基础性作用,比如数据库、机器学习、计算机视觉和信息检索。最近邻搜索问题可以被简单定义如下:给定维度相同的查询向量q和n个候选向量。目标是返回某种距离度量方式(通常是l1-距离或者l2-距离)下,在空间中距离查询向量最近的那些候选向量。
可以通过线性搜索整个候选集来找到最近邻。然而,线性搜索的时间复杂度是O(n·D)。尽管线性搜索的时间复杂度对维度和数据规模都是线性增长的,但是当维度和数据规模都增长的时候,其时间复杂度实际上是二次增长的。因此,在大规模地高维且稠密的向量空间里进行实时搜索几乎是不可能的。在这种情况下,大部分的传统方法,比如K-D树、R-树和局部敏感哈希(LSH)无法得到满意的结果。
近几年,基于向量量化的方法因其在高维数据上简单的计算,显著更低的空间消耗和不错的结果,变得越来越受欢迎。代表性的方法有乘积量化子(PQ)、加法量化子(AQ)和组合量化子(CQ)。PQ把高维向量分解成几段,每一段被一个量化子所量化,该量化子是从对应的子空间里的子向量训练得到。最后,原始向量被几段连接起来的单词所近似,其中每一个单词都是对应子空间码本中距离原始子向量最近的单词。查询向量和候选集向量的距离被近似为查询向量在对应子空间里的最近邻的距离之和。不同于PQ、AQ和CQ不把向量分解成段。它们用几个与原向量同维度的单词加和来表示原向量。这些单词选自预先训练的码本,每一个码本至多选择一个向量。与PQ相似,查询向量与候选集向量之间的距离被近似为查询向量与这些被选择的基本向量的距离的加和,并且借助查询表来达到有效的距离计算。
量化方法的优点包括两个方面。一方面,候选集向量已经被压缩(通常内存消耗会降低一个数量级),这使得将整个参照数据集可以被载入内存。另一方面,通过查表来计算查询向量与候选集向量之间的距离,速度非常快。然而,这些基于量化的方法里,都对被检索的数据有一个隐含的假设。考虑到计算消耗,在量化的时候,只采用数目有限的单词;因此,量化不能很好近似能量跨度很大的数据集。比如,给定向量[0.1,0.03,…]1*128和[55,122,…]1*128,它们的能量差异非常大。因为大的能量差,当前的方法可能只能很好近似表示其中一个向量,而不能有效近似另一个向量。当采用它们之中的任何一个做最近邻搜索的时候,都不得不进行线性搜索,这使得这些方法难以应用到大规模的搜索任务中。
发明内容
针对以上问题,本发明的目的在于提供基于混合向量量化的最近邻搜索方法。
本发明包括以下步骤:
1)混合向量量化的编码方法:
给定一个向量v∈RD,对其前i阶的余向量(第一阶为向量本身)进行余向量量化,后面j阶的每阶余向量对其方向向量(归一化后的向量)和能量分别编码;假设i=2,j=2,则其编码形式如下:
在公式(1)中,和分别是第一和第二阶码本中距离余向量最近的单词,e0和e1分别是后两阶能量码本中距离能量最近的单词,和分别是后两阶方向码本中距离方向向量最近的单词,p1和p2分别是后两阶的方向向量在其最近的单词上的投影;
在编码中,设总的编码阶数为n,即n=i+j,则其中i由具体的问题确定,若待检索的数据集很大,则i的值大;因为前面i阶将用作生成倒排索引结构的索引,i值越大所能生成的索引值越多,可以索引的数据量也越大;目的是把数据集尽量打散,保证每次最近邻查询都只访问少量的候选向量;
2)基于低阶余向量量化编码的倒排索引结构:
(1)设采用四阶编码,即n=4,经过步骤1),输入向量q将编码为c1c2c3h0c4h1;其中,c1c2为余向量量化后的编码,这两个编码将合并作为倒排表的索引键值,即I=c1c2,而余下的编码将存放在倒排表该索引键值所对应的链表中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学;悟图索智公司,未经厦门大学;悟图索智公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710356737.0/2.html,转载请声明来源钻瓜专利网。