[发明专利]对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备有效

申请号：	200780031842.1	申请日：	2007-06-27
公开（公告）号：	CN101523340A	公开（公告）日：	2009-09-02
发明（设计）人：	中野利夫;斯坦利·郑	申请（专利权）人：	那哈瓦有限公司
主分类号：	G06F7/00	分类号：	G06F7/00
代理公司：	北京安信方达知识产权代理有限公司	代理人：	颜涛;郑霞
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种利用相似性索引(400)对大规模高维数据集进行快速的、基于相似性的查询、自连接和连接的方法和设备。
搜索关键词：	大规模数据进行快速基于相似性查询连接以及方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1. 一种计算机实现的方法，其包括：(a)指定叶节点的上限为G项；(b)输入n个输入内容项并指示所述n个输入项为当前集合；(c)确定是否n>G；以及(d)如果不是，那么(d1)建立叶节点；(d2)用所述n个输入内容项填充所述叶节点；以及(d3)接通从父辈到所述叶节点的链接，所述叶节点能够被储存在所述计算机的硬件里并能够显示给用户；(e)如果是，那么(e1)对所述当前集合的所有项计算向量和，其中所述向量和是vsplit＝sum(i；x.i)/n；(e2)为在所述当前集合里的每一项计算向量差，其中所述向量差是d.i＝x.i-vsplit；(e3)为在所述当前集合里的每一项计算标量值，其中所述标量值是p.i＝，并构成为每一项所计算出的所述标量值的集合；(e4)确定是否p.i<3；以及(f)如果不是，那么(f1)从所述集合移除最大的p.i(f2)从所述集合移除最小的p.i；以及(f3)在(e3)重新开始；(g)如果是，那么(g1)确定1个还是2个计算的值剩余在所述集合里；以及(h)如果是1个，那么(h1)让p.split成为所述1个计算的剩余值；以及(h2)在(j)重新开始；(i)如果是2个，那么(i1)让p.split成为所述2个计算的剩余值的平均值；以及(i2)在(j)重新开始；(j)定义由所述vsplit和所述p.split组成的分离器；(k)对于所述当前集合里的所述内容项的每一个，如果p.i>p.split，则将其指示为“上部”名称，否则为“下部”名称；(l)建立由所述分离器组成的内部节点，并定义到所述“下部”节点和所述“上部”节点的链接；(m)将所述“下部”节点作为项输入到新的“下部”当前集合，让新的“下部”n指示在所述新的“下部”当前集合中的项的数量，用所述新的“下部”当前集合代替所述当前集合，用所述新的“下部”n代替所述n，并在(c)重新开始；(n)将所述“上部”节点作为项输入到新的“上部”当前集合，让新的“上部”n指示在所述新的“上部”当前集合中的项的数量，用所述新的“上部”当前集合代替所述当前集合，用所述新的“上部”n代替所述n，并在(c)重新开始。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于那哈瓦有限公司，未经那哈瓦有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200780031842.1/，转载请声明来源钻瓜专利网。

上一篇：针对程序代码转换处理动态链接的函数调用的方法和设备
下一篇：包括用户外形及域展示的查询方法与装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F7-00 通过待处理的数据的指令或内容进行运算的数据处理的方法或装置
G06F7-02 .比较数字值的
G06F7-06 .将单个记录载体上的数据进行排序、选择、合并或比较的装置
G06F7-22 .用于排序或合并在连续记录载体
G06F7-38 .只利用数制表示，例如利用二进制、三进制、十进制表示来完成计算的方法或装置
G06F7-58 .随机数或伪随机数发生器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备有效

专利文献下载