[发明专利]一种基于文本信息的快速反近邻查询方法无效

专利信息
申请号: 201110150595.5 申请日: 2011-06-07
公开(公告)号: CN102214215A 公开(公告)日: 2011-10-12
发明(设计)人: 陆嘉恒;吕瑛;丛高;张林林 申请(专利权)人: 陆嘉恒
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100872 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 信息 快速 近邻 查询 方法
【说明书】:

技术领域

发明属于信息技术领域信息检索技术,具体涉及对一种基于文本信息的快速反近邻查询方法。

背景技术

反近邻查询技术用来查询那些以自己(查询点)作为k近邻(kNN)的对象。在很多产品中,它被用来发现“影响集”,也就是说查找那些受到查询节点影响较大的数据集中的对象。在之前的工作中,人们仅仅考虑空间(地理位置)因素,然而,在实际的应用中,单单考虑空间因素并不能够描述两个对象之间的相关性。例如:如果两个餐馆的所经营的菜系及菜品相同的话,那么它们更容易受到影响。反之苏菜馆与川菜馆之间的相关性则会大大削弱。

因此我们在反向近邻(RkNN)的查询中同时考虑了文本的相似性,并提出了一个新型的反近邻查询问题:一种基于文本的反近邻(RSTkNN,Reverse Spatial and Textual k Nearest Neighbor)查询,它能够综合考虑对象的空间地理位置信息以及文本描述信息。基于文本信息的反近邻查询在查询时查找那些以自己作为k近邻的对象。这种新型的查询与之前的RkNN或空间-关键字查询(例如LkT)有很大的差别。

图1给出的例子来描述了我们所提出的基于文本信息的反近邻查询以及传统反近邻查询。

图1(a)中的点p1...p9是某个区域中的分店,查询q是打算开的新分店。N1...N7指的是最小边界矩形(MBR,Minimal bound rectangle)。其中,每一家分店所卖的商品我们在图1(b)中给出,并且每一类商品所占的权重我们可以通过TF-IDF来进行计算。我们使用q作为基于文本信息的反近邻查询的输入对象,那么此查询将会返回现有的商店中受到q的位置以及所卖商品影响较大的店。假如,k为2,那么传统反向k近邻的查询结果将为{p4,p5,p9},然而,通过基于文本信息的反近邻查询返回的查询结果将为{p1,p4,p5,p9}。p1也是我们的查询结果,这是由于p1的文本描述信息与查询节点q的文本描述信息非常相似。

基于文本信息的反近邻查询将有多方面的应用,包括基于地图的Web查询或者为地理信息系统的决策提供支持。例如,一个大型购物中心可以利用基于文本信息的反近邻查询来查找那些个人信息与此商场的商品有密切关系并且地理位置也与此商场又非常接近的人。另外,假如一个人想要租/买一个房子,那么它可以将他(她)理想中的房屋地理信息及文本描述信息提交给房屋中介。那么房东也可以将其想要租出或卖出的房屋的地理信息及文本描述信息提交给房屋中介。此时,可以利用基于文本信息的反近邻查询来帮助房东来发现潜在的客户。

但是,在反近邻查询中加入了文本描述信息将带来很大的挑战,因为这将使得传统的反近邻查询方法不能够处理基于文本信息的反近邻查询问题。

发明内容

为了能够有效地处理基于文本信息的反近邻查询,本发明提出了一个混合的索引结构以及一个综合考虑了空间近邻性以及文本相似性的高效的方法。本发明的工作包括:1)提出了前人未曾涉及的新问题:一种基于文本信息的快速反近邻查询方法-RSTkNN;2)提出了一个存储对象空间地理位置信息及文本描述信息的混合索引结构-IUR-Tree,并开发了一个分值定界算法来高效地处理查询;3)提出了一个增强的混合索引结构-CIUR-Tree(clustered IUR-Tree)以及基于CIUR-Tree的两个优化算法。

具体介绍如下:

1.问题定义

在本发明中,一个对象的文本信息是用向量空间模型表示的带有权重的单词的集合。在形式上,一个文档被定义为{<di,wi>},i=1...m,wi为单词di的权重。此外,单词的权重可以通过TF-IDF方法来进行计算。

假定P为普通的空间对象集合。每一个空间对象被定义为一个二元组的形式:(p.loc;p.vct)。p.loc指对象的空间地理位置信息,p.vct指以向量空间模型表示的对象的文本信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陆嘉恒,未经陆嘉恒许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110150595.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top