[发明专利]用于记号空间资料库的多级查询处理系统与方法无效
| 申请号: | 201010144526.9 | 申请日: | 2005-08-08 | 
| 公开(公告)号: | CN101799834A | 公开(公告)日: | 2010-08-11 | 
| 发明(设计)人: | 杰弗里·A·迪安;保罗·G·哈尔;奥尔坎·瑟齐诺格鲁;阿米塔布·K·辛加尔 | 申请(专利权)人: | 谷歌股份有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 | 
| 地址: | 美国加利*** | 国省代码: | 美国;US | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 记号 空间 资料库 多级 查询 处理 系统 方法 | ||
本申请是申请日为2005年08月08日、申请号为“200580034128.9”、发明名称为“用于记号空间资料库的多级查询处理系统与方法”的发明专利申请的分案申请。
相关申请
本申请涉及2004年8月13日提出的、申请号为10/917,745、名为“Systemand Method For Encoding and Decoding Variable-Length Data”(“用于对可变长度数据进行编码和解码的系统和方法”)的美国专利申请,以及2004年8月13日提出的、申请号为10/917,739的、名为“Document Compression System andMethod For Use With Tokenspace Repository”(“用于记号空间资料库的文档压缩系统和方法”)的美国专利申请,将这些申请的全部内容并入此处,以作参考。
技术领域
总体上讲,所公开的实施例涉及数据处理系统与方法,具体地讲,涉及用于具有相关索引的文档集合(以下,将其称为“记号(token)空间资料库”)的多级查询处理系统与方法。
背景技术
信息检索系统(例如,搜索引擎)使得查询与根据文档集(例如万维网)所生成的文档的索引相匹配。典型的逆索引(inverse index)包括每个文档中的单词,以及指向它们在文档中的部位的指针。文档处理系统通过使用自动的或手动进程处理从文档集所检索到的文档、页或地址的内容,来制备倒排索引(inverted index)。文档处理系统还可以把文档的内容或内容的各部分存储在资料库中,以供查询处理器在响应查询时使用。
一直存在着对更复杂的搜索和记分技术(scoring technique)的需求,以确保查询结果与查询相关联。某些记分技术可能要求对候选文档进行部分重构,例如确定文档中所发现的查询项或关键字的上下文。令人感到遗憾的是,引入这样复杂的技术可能会由于所涉及的额外的处理和开销而导致搜索性能的降低。
发明内容
所公开的实施例包括与一种用于记号空间资料库的多级查询处理系统与方法。所述多级查询处理系统与方法通过由多层映射方案所简化的递增文档重构而能够多级查询记分,包括“片段(snippet)”生成。在多级查询处理系统的一或多级,使用相关性得分集合,选择作文档子集作为有序列表呈现给用户。该相关性得分集合可以部分地从所述多级查询处理系统的先前级中所确定的一个或多个相关性得分集合中导出。在某些实施例中,多级查询处理系统能够对用户查询执行一或多遍,并且能够使用来自每个遍的信息,扩展用于后一遍中的用户查询,以改进有序列表中的文档的相关性。
具体来讲,根据本发明的一个方面,提供了一种用于在多级查询处理系统中处理查询的方法,该方法包括:响应于一个或多个查询项,从索引中检索第一文档标识符集合;针对相应于第一文档标识符集合的至少一个子集的压缩文档集合,生成相关性得分的第一集合;解压缩所述压缩文档集合的至少一部分,以恢复第一记号集合,其中,所恢复的第一记号集合与所述相应于第一文档标识符集合的压缩文档集合中的位置相关联;根据所恢复的第一记号集合,自动地生成附加查询项;使用所述附加查询项,制定新查询;处理所述新查询,以从所述索引检索第二文档标识符集合,并且至少部分基于所述附加查询项生成相关性得分的第二集合;以及利用所述相关性得分的第二集合来选择作为有序列表用于呈现给用户的顶部文档的子集。
根据本发明的另一个方面,提供了一种在多级查询处理系统中处理查询的方法,该方法包括:响应于一个或多个查询项,检索第一信息集合;根据第一信息集合,自动地生成至少一个附加查询项;使用所述至少一个附加查询项,制定新查询,该新查询具有多个查询项;处理所述新查询,以从索引中检索文档标识符集合;针对相应于所述文档标识符集合的至少一个子集的压缩文档集合,生成相关性得分集合;解压缩在所述记号空间资料库中的压缩文档集合的至少一部分,以恢复记号集合,其中,所恢复的记号集合与相应于所述文档标识符集合的所述压缩文档集合中的所述多个查询项的一个或多个查询项的位置相关联;根据所述文档标识符集合的至少一部分,生成文档列表,该列表包括相应于所恢复的记号集合的至少一部分的信息;以及利用所述相关性得分集合来选择作为有序列表用于呈现给用户的顶部文档的子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌股份有限公司,未经谷歌股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010144526.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无动力流体多分器
 - 下一篇:液化气瓶余液加热装置
 





