[发明专利]基于多索引的信息检索系统有效
| 申请号: | 200680007173.X | 申请日: | 2006-01-25 |
| 公开(公告)号: | CN101133388A | 公开(公告)日: | 2008-02-27 |
| 发明(设计)人: | A·L·帕特森 | 申请(专利权)人: | 谷歌公司 |
| 主分类号: | G06F7/00 | 分类号: | G06F7/00;G06F17/30 |
| 代理公司: | 北京市金杜律师事务所 | 代理人: | 王茂华 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 索引 信息 检索系统 | ||
1.一种用于关于短语来索引文档的计算机实现的方法,其中每个文档具有文档标识符,该方法包括:
建立包含该短语的文档列表;
通过相关性分值来对所述列表中的文档进行排序;
按照所述相关性分值的排序次序,将包括较高排序文档的列表的第一部分存储在主索引中;以及
按照所述文档标识符的数字次序,将包括较低排序文档的列表的第二部分存储在次索引中。
2.根据权利要求1的方法,其中所述相关性分值包括基于页面排序的类型分值。
3.根据权利要求1的方法,还包括:针对每个文档,将所述文档的相关性属性存储在所述主索引中。
4.根据权利要求3的方法,其中所述相关性属性包括以下内容中的至少一个:该短语在文档中出现的总数目、也包含该短语并且指向该文档的锚文档的排列次序的列表、文档中每个短语出现的位置、一个或多个标记的集合,所述标记表示出现的格式或者包含该出现的文档部分。
5.根据权利要求3的方法,其中将列表的第二部分存储在次索引中包括基本上仅存储文档识别信息。
6.根据权利要求1的方法,其中将列表的第一部分存储在主索引中包括按照相关性分值的排列次序将列表的第一部分存储在物理存储设备上。
7.根据权利要求1的方法,其中将列表的第二部分存储在次索引中包括按照文档标识符的数字次序将列表的第二部分存储在物理存储设备上。
8.根据权利要求1的方法,其中每个文档列表的第一部分包括第一分段和第二分段,其中在第一分段中列出的每个文档包括第一多个相关性属性,以及在第二分段中列出的每个文档包括第二多个相关性属性,所述第二多个相关性属性是第一相关性属性集合的子集,并且其中在第一分段中列出的文档的排序高于在第二分段中列出的文档。
9.根据权利要求8的方法,其中每个文档列表的第一部分包括第三分段,其中在第三分段中列出的每个文档包括第三多个相关性属性,所述第三多个相关性属性是第二多个相关性属性的子集,并且其中在第二分段中列出的文档的排序高于在第三分段中列出的文档。
10.根据权利要求8的方法,其中每个列表的第一部分包含n个条目,其中该列表的第二部分包含m*n个条目,其中m>2,并且该列表的第三部分包含l*n个条目,其中l>4。
11.一种提供信息检索系统的方法,该方法包括:
存储包括主短语置入列表的主索引,每个置入列表与一个短语相关联并且包括多达最大数目的包含该短语的文档,所述文档按照各自的相关性分值来排列次序;
存储包括次短语置入列表的次索引,每个置入列表与主索引中的主短语置入列表相关联,并且包括包含该短语并且相关性分值比针对该短语的主置入列表中最低排序文档的相关性分值小的文档,所述文档按照文档标识符来排序;
接收包括至少一个短语的搜索查询;
响应于包含具有主置入列表和次置入列表的第一短语以及仅具有主置入列表的第二短语的搜索查询,对第二短语的主置入列表和第一短语的主置入列表取交集,以获得第一共同文档集合,并且对第一短语的次置入列表和第二短语的主置入列表取交集,以获得第二共同文档集合,并且结合第一和第二共同文档集合;以及
排序共同文档。
12.一种信息检索系统,包括:
包括主短语置入列表的主索引,每个置入列表与一个短语相关联并且包括多达最大数目的包含该短语的文档,所述文档按照各自的相关性分值来排列次序;以及
包括次短语置入列表的次索引,每个置入列表与主索引中的主短语置入列表相关联,并且包括包含该短语并且相关性分值比针对该短语的主置入列表中最低排序文档的相关性分值小的文档,所述文档按照文档标识符来排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680007173.X/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





