[发明专利]支持地理结构数据的交互式模糊搜索的高效前缀搜索算法无效
申请号: | 201180060371.3 | 申请日: | 2011-12-14 |
公开(公告)号: | CN103339624A | 公开(公告)日: | 2013-10-02 |
发明(设计)人: | 李晨;姬生乐 | 申请(专利权)人: | 加利福尼亚大学董事会;李晨;姬生乐 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 地理 结构 数据 交互式 模糊 搜索 高效 前缀 算法 | ||
政府权利
在国家科学基金所授予基金号1030002和IIS0844574的政府资助下,本发明得以完成。在本发明中,政府享有一定权利。
相关申请
本专利申请涉及2010年12月14日提交的序号为61423020的美国临时专利申请,其通过引用被合并于此,且根据USC(United States Code,美国法典)35章第119条,本专利申请要求其优先权。
技术领域
本公开涉及针对如何通过有效过滤与交互式搜索提高关于空间数据的关键词搜索的方法与装置。
背景技术
因即时搜索的用户友好的界面及帮助用户探索数据的能力,即时搜索在许多搜索系统(诸如Google即时搜索)中已变得日益受欢迎。在这些系统中,当用户键入关键词时,其可接收即时结果。例如,当用户键入“metropolitan mus”时,系统返回具有关键词“metropolitan”及具有“mus”作为前缀的关键词的答案,诸如博物馆。
然而,现有即时搜索系统,诸如Google即时搜索,不执行基于前缀的全文本搜索。尽管在任何给定的部分输入关键词提供的即时搜索结果具有执行前缀搜索(而不是全关键词搜索)的表象,现有即时搜索不执行真实的前缀搜索。相反地,使用预定关键词执行全关键词搜索。
在上述“metropolitan mus”实例中,例如,并非将部分关键词“mus”作为真实前缀且对包含任何具有该前缀的关键词的所有记录搜索数据语料库,现有搜索引擎使用特定完整关键词“museum”执行全词搜索,关键词“museum”基于部分关键词“mus”被预测。该预测通过使用用户历史查询日志(而不是数据本身的全文本)完成。在该特定实例中,例如,搜索引擎基于已经被输入的搜索字符串(“metropolitan mus”)预测关键词为“museum”,并随后基于该预测执行搜索。因为所预测的所有关键词仅是潜在大量的共享共同前缀的所有可能关键词的一个实例,该搜索不是完全基于文本的前缀搜索。这使得搜索速度非常快,因为它没有在大数据语料库上搜索所有可能的涉及前缀的关键词。
然而,这样的速度是通过做出根本性妥协而实现的。该搜索的相关性和有效性被限制于预测的精度;并且因为正被预测的内容存在于可来自具有各种需求的各种背景的用户的脑海中,预测不能总是准确的。一旦作出预测,所有其他共享前缀的关键词将被忽略。这些其它关键词没有被搜索引擎预测,因为它们在用户查询日志中没有出现或出现得不频繁。例如,在“metropolitan mus”的部分输入点,较少被搜索的词诸如“metropolitan music″”和“metropolitan muster”将不会被找到。
执行完全基于文本的前缀搜索的优势在本领域中是已知的。然而,有效的搜索算法的缺乏使得难以在大数据集上执行这样不做任何妥协的搜索,特别是在即时与模糊搜索的情况下。由于空间数据的特殊性质,当在地理信息上搜索时,搜索算法效率的需求变得更加紧迫。
因此,存在通过高效地响应前缀查询,在空间数据上支持真正的完全基于文本的即时搜索的需求。
发明内容
本发明的示例性实施例包括一种用于信息访问范例的方法和系统,其中,该系统将基础地理数据“on the fly”作为用户键入的查询关键词进行搜索。该系统通过以下各项来扩展自动完成接口:(1)执行真实的完全基于文本的前缀搜索;(2)支持关于具有多个属性的数据的多个关键词的查询,及(3)找到可能不精确地匹配查询关键词的相关记录。当用户键入时,即使有小错误,该框架允许用户探测数据。当用户在客户端设备上键入每一按键时,对于待被发现且通过互联网实时被映射的相关结果,该框架是足够快的。
我们之前开发过对于非地理空间数据执行具有类似功能的搜索的方法,但是对于地理空间数据,存在特定挑战。首先是效率。对每个按键执行交互式搜索需要在数毫秒内处理该查询的高效算法。这个问题对于结果集必须被限制在用户感兴趣的特定范围的地理空间查询是特别困难的。传统地理空间搜索方法不足够快以用于每个按键键入。第二挑战是支持具有交互式速度的模糊搜索。
在该示例性实施例中,我们提供一种用于在使用节省空间的表示法的空间树节点上存储混合前缀过滤器的技术。此外,我们展示一种用于为进一步减少索引大小的压缩表示法的方法。针对这两种技术,我们也学习如何高效地构建它们对应的索引结构,及如何在有更新时保持增量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于加利福尼亚大学董事会;李晨;姬生乐,未经加利福尼亚大学董事会;李晨;姬生乐许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180060371.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置