[发明专利]对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备有效
| 申请号: | 200780031842.1 | 申请日: | 2007-06-27 |
| 公开(公告)号: | CN101523340A | 公开(公告)日: | 2009-09-02 |
| 发明(设计)人: | 中野利夫;斯坦利·郑 | 申请(专利权)人: | 那哈瓦有限公司 |
| 主分类号: | G06F7/00 | 分类号: | G06F7/00 |
| 代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 颜 涛;郑 霞 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 数据 进行 快速 基于 相似性 查询 连接 以及 方法 设备 | ||
1.一种为非结构化内容建立相似性索引的方法,所述非结构化内容 对应于向量空间中的大规模高维数据集,所述方法包括:
(a)指定每个叶节点的上限为G项;
(b)输入所述大规模高维数据集的n个输入内容项并指示所述n个 输入内容项为当前集合;
(c)确定是否n>G;以及
(d)如果不是,那么
(d1)建立叶节点;
(d2)用所述n个输入内容项填充所述叶节点;以及
(d3)接通从父辈到所述叶节点的链接,并将所述叶节点和 所述链接添加到相似性索引树,所述链接和叶节点能够被存储在计算机的 硬件里并能够显示给用户;
(e)如果是,那么
(e1)对所述当前集合的所有项计算向量和,其中所述向量 和是vsplit=sum(i;x.i)/n,其中i=0,1,...,n-1且x.i表示所述当前集合的第 i项;
(e2)为在所述当前集合里的每一项计算向量差,其中所述 向量差是d.i=x.i-vsplit;
(e3)为在所述当前集合里的每一项计算标量值,其中所述 标量值是p.i=<d.i,vsplit>,并构成为每一项所计算出的所述标量值的集 合,其中p.i表示第i项所计算的标量值,且<d.i,vsplit>表示所述向量差d.i 和所述向量和vsplit的内积;
(e4)确定是否p.i的集合<3;以及
(f)如果不是,那么
(f1)从所述集合移除最大的p.i;
(f2)从所述集合移除最小的p.i;以及
(f3)在(e3)重新开始;
(g)如果是,那么
(g1)确定是1个计算的值还是2个计算的值剩余 在所述集合里;以及
(h)如果是1个,那么
(h1)让p.split成为剩余在所述集合里的 所述1个计算的值;以及
(h2)在(j)重新开始;
(i)如果是2个,那么
(i1)让p.split成为剩余在所述集合里的 所述2个计算的值的平均值;以及
(i2)在(j)重新开始;
(j)定义由所述vsplit和所述p.split组成的分离器;
(k)对于所述当前集合里的所述内容项的每一个,如果p.i> p.split,则将其指示为“上部”节点,否则为“下部”节点;
(l)建立由所述分离器组成的内部节点,并定义到所述“下 部”节点和所述“上部”节点的链接;
(m)将所述“下部”节点作为项输入到新的“下部”当前 集合,让新的“下部”n指示在所述新的“下部”当前集合中的项的数量, 用所述新的“下部”当前集合代替所述当前集合,用所述新的“下部”n 代替所述n,并在(c)重新开始;
(n)将所述“上部”节点作为项输入到新的“上部”当前 集合,让新的“上部”n指示在所述新的“上部”当前集合中的项的数量, 用所述新的“上部”当前集合代替所述当前集合,用所述新的“上部”n 代替所述n,并在(c)重新开始。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于那哈瓦有限公司,未经那哈瓦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780031842.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





