[发明专利]一种基于最优空间分解的乘积量化近邻检索方法在审
申请号: | 202210423082.5 | 申请日: | 2022-04-21 |
公开(公告)号: | CN115292537A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 张仕;陈伟林 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/583;G06F16/51;G06V10/762;G06V10/77;G06K9/62 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 魏珊珊 |
地址: | 350117 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最优 空间 分解 乘积 量化 近邻 检索 方法 | ||
本发明涉及一种基于最优空间分解的乘积量化近邻检索方法,包括:获取样本数据集;求解样本数据集的空间分解最优解;按空间分解最优解将样本数据集分解至M个子空间,并分别在各子空间内进行聚类分析,得到若干个簇;以簇质心为索引,构建倒排序表;获取待检索数据;按所述空间分解最优解将检待索数据分解至M个子空间,并分别在各子空间内检索若干个最接近簇;计算所述若干个最接近簇的笛卡尔积,得到若干个候选编码集;根据所述多个候选编码集,查询倒排序表得到检索结果集。本发明将乘积量化的空间划分问题转化为一个使各子空间数据分布体积平衡的空间分解问题,实现了空间的合理划分,有效降低量化误差,提高检索精度。
技术领域
本发明涉及一种基于最优空间分解的乘积量化近邻检索方法,属于高维度数据检索领域。
背景技术
近年来随互联网发展,高维度数据持续增长,数据检索压力巨大,尤其是如图像、文本数据一类的高维度数据检索。
PQ算法(Product quantization,也译为乘积量化)是图像检索中常用的一种快速搜索算法,PQ算法将按顺序将原向量空间分解为若干个低维向量空间(如图2所示)的笛卡尔积,并对分解得到的低维向量空间分别进行量化处理。基于PQ算法的近邻检索方法内存消耗低,且由于其较低的量化误差,检索精度高于基于哈希的近邻检索方法和基于树的近邻检索方法。但其检索精度仍然受到PQ量化误差的影响。因此,需要一种检索精度更高的数据检索方法。
发明内容
为了克服现有技术中存在的问题,本发明设计了一种基于最优空间分解的乘积量化近邻检索方法,将乘积量化的空间划分问题转化为一个使各子空间数据分布体积平衡的空间分解问题,实现了空间的合理划分,有效降低量化误差,提高检索精度。
为了实现上述目的,本发明采用如下技术方案:
一种基于最优空间分解的乘积量化近邻检索方法,包括以下步骤:
获取样本数据集;
求解样本数据集的空间分解最优解;
按空间分解最优解将样本数据集分解至M个子空间,并分别在各子空间内进行聚类分析,得到若干个簇;以簇质心为索引,构建倒排序表;
获取待检索数据;
按所述空间分解最优解将检待索数据分解至M个子空间,并分别在各子空间内检索若干个最接近簇;计算所述若干个最接近簇的笛卡尔积,得到若干个候选编码集;
根据所述多个候选编码集,查询倒排序表得到检索结果集。
进一步地,还包括:利用PCA算法对样本数据进行降维处理。
进一步地,求解所述空间分解最优解,具体步骤为:
以分解后各子空间内数据维度的方差乘积平方根的累加值最小为目标,构建目标函数;求解所述目标函数,得到所述空间分解最优解。
进一步地,所述目标函数以公式表达为:
式中,表示第s子空间内数据维度的方差乘积平方根;M表示子空间总数。
进一步地,求解目标函数,包括如下步骤:
A1、选取样本数据集中方差第t大和方差第t小的维度分配至SRVP值最小的子空间并更新该子空间的SRVP值,直至该子空间内维度数量等于D/M;
A2、重复步骤A1,直至所有维度都被分配至子空间。
进一步地,还包括:根据量化误差,设置各子空间的最接近簇数量。
进一步地,所述子空间的量化误差越小,该子空间的最接近簇数量越多。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210423082.5/2.html,转载请声明来源钻瓜专利网。