[发明专利]对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备有效

专利信息
申请号: 200780031842.1 申请日: 2007-06-27
公开(公告)号: CN101523340A 公开(公告)日: 2009-09-02
发明(设计)人: 中野利夫;斯坦利·郑 申请(专利权)人: 那哈瓦有限公司
主分类号: G06F7/00 分类号: G06F7/00
代理公司: 北京安信方达知识产权代理有限公司 代理人: 颜 涛;郑 霞
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种利用相似性索引(400)对大规模高维数据集进行快速的、基于相似性的查询、自连接和连接的方法和设备。
搜索关键词: 大规模 数据 进行 快速 基于 相似性 查询 连接 以及 方法 设备
【主权项】:
1. 一种计算机实现的方法,其包括:(a)指定叶节点的上限为G项;(b)输入n个输入内容项并指示所述n个输入项为当前集合;(c)确定是否n>G;以及(d)如果不是,那么(d1)建立叶节点;(d2)用所述n个输入内容项填充所述叶节点;以及(d3)接通从父辈到所述叶节点的链接,所述叶节点能够被储存在所述计算机的硬件里并能够显示给用户;(e)如果是,那么(e1)对所述当前集合的所有项计算向量和,其中所述向量和是vsplit=sum(i;x.i)/n;(e2)为在所述当前集合里的每一项计算向量差,其中所述向量差是d.i=x.i-vsplit;(e3)为在所述当前集合里的每一项计算标量值,其中所述标量值是p.i=,并构成为每一项所计算出的所述标量值的集合;(e4)确定是否p.i<3;以及(f)如果不是,那么(f1)从所述集合移除最大的p.i(f2)从所述集合移除最小的p.i;以及(f3)在(e3)重新开始;(g)如果是,那么(g1)确定1个还是2个计算的值剩余在所述集合里;以及(h)如果是1个,那么(h1)让p.split成为所述1个计算的剩余值;以及(h2)在(j)重新开始;(i)如果是2个,那么(i1)让p.split成为所述2个计算的剩余值的平均值;以及(i2)在(j)重新开始;(j)定义由所述vsplit和所述p.split组成的分离器;(k)对于所述当前集合里的所述内容项的每一个,如果p.i>p.split,则将其指示为“上部”名称,否则为“下部”名称;(l)建立由所述分离器组成的内部节点,并定义到所述“下部”节点和所述“上部”节点的链接;(m)将所述“下部”节点作为项输入到新的“下部”当前集合,让新的“下部”n指示在所述新的“下部”当前集合中的项的数量,用所述新的“下部”当前集合代替所述当前集合,用所述新的“下部”n代替所述n,并在(c)重新开始;(n)将所述“上部”节点作为项输入到新的“上部”当前集合,让新的“上部”n指示在所述新的“上部”当前集合中的项的数量,用所述新的“上部”当前集合代替所述当前集合,用所述新的“上部”n代替所述n,并在(c)重新开始。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于那哈瓦有限公司,未经那哈瓦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200780031842.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top