[发明专利]一种哈希检索方法有效
| 申请号: | 201910988287.6 | 申请日: | 2019-10-17 |
| 公开(公告)号: | CN110909027B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 杨安邦;钱江波;辛宇;谢锡炯;董一鸿 | 申请(专利权)人: | 宁波大学 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/22 |
| 代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 程天鹏 |
| 地址: | 315211 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 检索 方法 | ||
1.一种哈希检索方法,其特征在于包括以下步骤:
①-1获取由n个原始数据组成的原始数据集X和m个查询数据组成的查询数据集Q,X为n×d维的矩阵,Q为m×d维的矩阵,m<n,搭建Spark分布式集群,将Spark分布式集群的节点数记为S,将X中的n个原始数据平均分为S组并将每组原始数据对应分配至Spark分布式集群的每个节点中;
①-2将Q中的m个查询数据平均分为S组并将每组查询数据对应分配至每个节点中;
①-3获取Q中的每个查询数据与被分配到的节点中的每个原始数据之间的欧氏距离,将每个查询数据与被分配到的节点中的每个原始数据之间的欧式距离按从小到大的顺序排序,得到与每个查询数据对应的所在节点的欧式距离排序信息;
②通过迭代获取最终二进制编码矩阵H和最终权重矩阵W,具体过程如下:
②-1设定最大迭代次数,随机给定初始权重矩阵W,W为B×d维的矩阵,其中,B表示编码长度,定义哈希函数映射关系如下:H=sgn(WXT),sgn表示符号函数,XT为X的转置矩阵,根据获得任意一个节点的权重矩阵Ws,s表示节点的序号,1≤s≤S;
②-2通过H对Q中的每个查询数据进行哈希编码得到对应的查询数据哈希编码,通过H对X中的每个原始数据进行哈希编码得到对应的原始数据哈希编码,获取Q中的每个查询数据哈希编码与被分配到的节点上的每个原始数据哈希编码之间的海明距离,将每个查询数据哈希编码与被分配到的节点上的每个原始数据哈希编码之间的海明距离按照从小到大的顺序排序,得到与每个查询数据哈希编码对应的所在节点的海明距离排序信息;
②-3构造每个节点的损失函数,定义第s个节点的损失函数如下:qs表示第s个节点中的任意一个查询数据,xi表示第s个节点中的任意一个原始数据,Ns为分配到第s个节点中的所有原始数据的个数,ri表示与qs对应的所在节点的欧式距离排序信息中xi对应的排序号,Ri为与qs的哈希编码对应的所在节点的海明距离排序信息中xi的哈希编码的排序号;
②-4根据每个节点的损失函数利用梯度下降法对每个节点的权重矩阵进行迭代更新,并同时更新对应的二进制编码矩阵H,直至达到设定的最大迭代次数,将当前一次迭代过程中更新得到的每个节点的权重矩阵作为每个节点的最终权重矩阵,再根据得到最终权重矩阵W,并将此时更新得到的H作为最终二进制编码矩阵H;
③通过最终二进制编码矩阵H对X进行哈希编码得到对应的原始数据集哈希编码X',通过最终二进制编码矩阵H对Q中的每个查询数据进行哈希编码得到对应的查询数据集哈希编码Q',在X'中查找与Q'中的每个查询数据的哈希编码的海明距离最近的行向量数据,将与Q'中的每个查询数据的哈希编码的海明距离最近的行向量数据对应的原始数据作为Q中的每个查询数据的最终的查询结果,完成哈希检索过程。
2.根据权利要求1所述的一种哈希检索方法,其特征在于所述的步骤②-1中设定的最大迭代次数为50次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910988287.6/1.html,转载请声明来源钻瓜专利网。





