[发明专利]近邻搜索方法与系统有效

专利信息
申请号: 201310011407.X 申请日: 2013-01-11
公开(公告)号: CN103020321A 公开(公告)日: 2013-04-03
发明(设计)人: 钟海兰 申请(专利权)人: 广东图图搜网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 王茹;曾旻辉
地址: 528311 广东省佛山市顺*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 近邻 搜索 方法 系统
【权利要求书】:

1.一种近邻搜索方法,其特征在于,包括线下学习和线上搜索,

所述线下学习包括如下步骤:

随机均匀选取数据集中的预定数目的数据点作为锚点,通过计算数据点与所述锚点之间的距离得到核矩阵,并中心化该核矩阵;

学习预定数目的二进制位的投影和阈值,每一个二进制位的学习包括:计算密度和均衡互补信息,使用中心化后的核矩阵及所述密度和均衡互补信息学习出投影和阈值,目标函数是最小化哈希超平面两侧小区域内数据点的个数,并保证桶是近似均衡的;

通过中心化后的核矩阵,以及学习出的预定数目的二进制位的投影和阈值,将数据集中的数据点转换成二进制串,将相同二进制串的数据点放置到对应的桶中,建立哈希表;

所述线上搜索包括如下步骤:

对于每个查询数据点使用相同的所述锚点和核矩阵的均值得到查询数据点中心化后的核矩阵。

使用查询数据点中心化后的核矩阵,以及学习出的投影和阈值,将每个查询数据点转换成二进制串。

根据查询数据点转换的二进制串,在所述哈希表的对应桶中查找出预定数目的数据点,作为查询数据点的近邻。

2.根据权利要求1所述的近邻搜索方法,其特征在于,所述线下学习还包括以下步骤:

对数据集中所有数据点进行距离计算并排序,确定每个数据点前预定个准确最近邻,建立近似最近邻到准确最近邻的对应表,所述距离计算并排序的过程为:计算数据点两两之间的距离,对每个数据点按照其与其它数据点的距离从小到大排序;

对数据集进行主成分分析,得到PCA降维矩阵,并使用该矩阵对数据集进行降维,得到数据集降维后的信息,

所述线上搜索还包括以下步骤:

对每个查询数据点使用所述PCA降维矩阵进行降维,得到查询数据点降维后的信息;

对查询数据点降维后的信息及在所述哈希表的对应桶中查找出的预定数目的数据点降维后的信息进行所述距离计算并排序,对前m1个数据点按照原始维度再次进行所述距离计算并排序,取前m2个数据点并查询近似最近邻到准确最近邻的所述对应表,每个数据点取m3个候选点,去掉重复的数据点,得到候选数据点集合;

对查询数据点和所述候选数据点集合中的候选数据点降维后的信息进行所述距离计算并排序,取前m4个数据点按照原始维度再次进行所述距离计算并排序,得到查询数据点最终的近邻。

3.根据权利要求2所述的近邻搜索方法,其特征在于,m1取100,m2取100,m3取100,m4取100。

4.根据权利要求1或2或3所述的近邻搜索方法,其特征在于,所述哈希表的对应桶为所述哈希表中汉明半径为2的所有桶。

5.一种近邻搜索系统,其特征在于,包括线下学习单元和线上搜索单元,

所述线下学习单元包括:

训练点核矩阵确定模块,用于随机均匀选取数据集中的预定数目的数据点作为锚点,通过计算数据点与所述锚点之间的距离得到核矩阵,并中心化该核矩阵;

投影和阈值学习模块,用于学习预定数目的二进制位的投影和阈值,每一个二进制位的学习包括:计算密度和均衡互补信息,使用中心化后的核矩阵及所述密度和均衡互补信息学习出投影和阈值,目标函数是最小化哈希超平面两侧小区域内数据点的个数,并保证桶是近似均衡的;

哈希表建立模块,用于通过中心化后的核矩阵,以及学习出的预定数目的二进制位的投影和阈值,将数据集中的数据点转换成二进制串,将相同二进制串的数据点放置到对应的桶中,建立哈希表;

所述线上搜索单元包括:

查询点核矩阵确定模块,用于对于每个查询数据点使用相同的所述锚点和核矩阵的均值得到查询数据点中心化后的核矩阵。

二进制串转换模块,用于使用查询数据点中心化后的核矩阵,以及学习出的投影和阈值,将每个查询数据点转换成二进制串。

哈希桶查找模块,用于根据查询数据点转换的二进制串,在所述哈希表的对应桶中查找出预定数目的数据点,作为查询数据点的近邻。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东图图搜网络科技有限公司,未经广东图图搜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310011407.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top