[发明专利]对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备有效
申请号: | 200780031842.1 | 申请日: | 2007-06-27 |
公开(公告)号: | CN101523340A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 中野利夫;斯坦利·郑 | 申请(专利权)人: | 那哈瓦有限公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 颜 涛;郑 霞 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种利用相似性索引(400)对大规模高维数据集进行快速的、基于相似性的查询、自连接和连接的方法和设备。 | ||
搜索关键词: | 大规模 数据 进行 快速 基于 相似性 查询 连接 以及 方法 设备 | ||
【主权项】:
1. 一种计算机实现的方法,其包括:(a)指定叶节点的上限为G项;(b)输入n个输入内容项并指示所述n个输入项为当前集合;(c)确定是否n>G;以及(d)如果不是,那么(d1)建立叶节点;(d2)用所述n个输入内容项填充所述叶节点;以及(d3)接通从父辈到所述叶节点的链接,所述叶节点能够被储存在所述计算机的硬件里并能够显示给用户;(e)如果是,那么(e1)对所述当前集合的所有项计算向量和,其中所述向量和是vsplit=sum(i;x.i)/n;(e2)为在所述当前集合里的每一项计算向量差,其中所述向量差是d.i=x.i-vsplit;(e3)为在所述当前集合里的每一项计算标量值,其中所述标量值是p.i=,并构成为每一项所计算出的所述标量值的集合;(e4)确定是否p.i<3;以及(f)如果不是,那么(f1)从所述集合移除最大的p.i(f2)从所述集合移除最小的p.i;以及(f3)在(e3)重新开始;(g)如果是,那么(g1)确定1个还是2个计算的值剩余在所述集合里;以及(h)如果是1个,那么(h1)让p.split成为所述1个计算的剩余值;以及(h2)在(j)重新开始;(i)如果是2个,那么(i1)让p.split成为所述2个计算的剩余值的平均值;以及(i2)在(j)重新开始;(j)定义由所述vsplit和所述p.split组成的分离器;(k)对于所述当前集合里的所述内容项的每一个,如果p.i>p.split,则将其指示为“上部”名称,否则为“下部”名称;(l)建立由所述分离器组成的内部节点,并定义到所述“下部”节点和所述“上部”节点的链接;(m)将所述“下部”节点作为项输入到新的“下部”当前集合,让新的“下部”n指示在所述新的“下部”当前集合中的项的数量,用所述新的“下部”当前集合代替所述当前集合,用所述新的“下部”n代替所述n,并在(c)重新开始;(n)将所述“上部”节点作为项输入到新的“上部”当前集合,让新的“上部”n指示在所述新的“上部”当前集合中的项的数量,用所述新的“上部”当前集合代替所述当前集合,用所述新的“上部”n代替所述n,并在(c)重新开始。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于那哈瓦有限公司,未经那哈瓦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200780031842.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置