[发明专利]一种基于文本信息的快速反近邻查询方法无效
| 申请号: | 201110150595.5 | 申请日: | 2011-06-07 |
| 公开(公告)号: | CN102214215A | 公开(公告)日: | 2011-10-12 |
| 发明(设计)人: | 陆嘉恒;吕瑛;丛高;张林林 | 申请(专利权)人: | 陆嘉恒 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100872 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 信息 快速 近邻 查询 方法 | ||
1.一种基于文本信息的快速反近邻查询方法,其特征在于,提出带有空间地理位置信息及文本描述信息的基于R树的IUR-Tree索引结构。具体包括:
(1)创建IUR-Tree混合索引结构
(2)基于文本信息的快速反近邻查询方法
(3)对于IUR-Tree混合索引结构的改进:CIUR-Tree
(4)基于CIUR-Tree提出两种优化方法。
2.基于权利要求1所述,本发明提出了一种基于R树的带有空间地理位置信息及文本信息的IUR-Tree混合索引结构。其特征在于,IUR-Tree创建方法的实现如下:
A1,将文档转换为格式为(di.p,di.w)的文本向量形式(TextVct);
A2,选择要插入的节点;
A3,将A1返回的TextVct以及MBR信息添加到A2返回的目标节点上;
A4,对N节点需要分裂的情况进行进一步处理;
A5,对N节点不需要分裂的情况进行进一步处理。
其中,对于步骤A4,若节点需要分裂则需要判断节点是否为根节点,对于根节点,需要创建一个新的根节点,并将分裂节点添加到根节点中,并对三个节点进行相应的更新。对于非根节点的分裂,需要将分裂的节点加入N的父节点中,并对三个节点做相应的调整。
其中,对于步骤5,若节点不需要分裂,则需要检查N节点的父节点是否需要做进一步调整。
3.基于权利要求3所述的IUR-Tree混合索引结构所实现的“基于文本信息的快速反近邻查询方法(RSTkNN)”,其特征在于:
本发明所提出的RSTkNN需要使用如下数据结构:优先级队列U、剪枝列表PEL、候选对象列表COL、查询结果对象列表ROL。
算法首先需要进行初始化,然后将IUR-Tree的根节点放入队列U中。若队列U非空,我们将队列U中具有最高优先级的记录P出列,然后对于P的每一个孩子记录E进行处理,E首先继承P的上/下边界贡献列表。之后,我们需要调用IsHitorDrop函数来判断此E是一个结果还是可以被剪枝掉。否则,我们使用E’(E’∈COL∪ROL∪U)来更新E的上下边界贡献列表,然后再次对E进行判断。之后,需要使用E对COL及U中的所有对象E’进行上下边界列表更新,并判断E’状态。如果在受到COL、ROL、U的影响之后,E仍旧不能够确定是否是一个结果记录,那么将E添加到相应的列表或队列中。然后,继续考虑P的下一个孩子。最后,当优先队列U为空的时候,我们仍旧需要调用FinalVerification来处理COL中的对象,以确定它们是否为查询结果。
4.根据权利要求3所述的RSTkNN方法,其特征在于:
在加入文本描述信息之后,对象之间的相似度计算在之前的研究工作中还未曾有相关技术。因此,我们需要首先定义对象之间的相似度:SimST(o,o’)。
本发明中,我们对两个对象的相似度通过调和因子对对象之间的空间相似度及文本相似度进行调和,从而有效地将对象之间的相似度进行合并:SimST(o,o’)=αSimS(o,o’)+(1-α)SimT(o,o’)。
上式中,计算对象之间的空间相似度,采用对象之间的欧几里得距离。对象之间的文本相似性采用ExtendedJaccard进行计算。
5.基于权利要求3所述的IUR-Tree混合索引结构的改进:CIUR-Tree,其特征在于,将文本描述信息通过聚类的方法来表示:
在预处理时,我们根据对象的文本相似度将所有的数据库对象聚类成数堆:C1,...,Cn。我们通过聚类信息来对每一个IUR-Tree的节点进行扩展,这样生成一个混合树,叫做聚类IUR-Tree(CIUR-Tree)。
CIUR-Tree与IUR-Tree是基于空间近邻性所构建的。然而,CIUR-Tree的每一个节点引入了一个新的记录:聚类列表ClusterList,它的表示形式为:ID:N,ID指的是聚类的类别id,N指的是此类别id下所包含的对象的个数。高层父节点中的聚类列表为底层孩子节点聚类列表的叠加。也就是说M为节点的孩子的个数。
IUR-Tree中的每个节点的交并向量均使用聚类信息进行扩展。对于每一个节点Ci,CIntVcti以及CUniVcti分别包括Ci中每个单词的最小和最大权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陆嘉恒,未经陆嘉恒许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110150595.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





