[发明专利]索引文档以供信息检索有效
| 申请号: | 200780020322.0 | 申请日: | 2007-03-15 |
| 公开(公告)号: | CN101460949A | 公开(公告)日: | 2009-06-17 |
| 发明(设计)人: | M·J·泰勒;S·罗伯逊;H·E·威廉姆斯;N·E·克拉斯韦尔 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
| 代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈 斌 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 索引 文档 信息 检索 | ||
技术领域
本说明书一般涉及信息检索。其具体涉及,但决不限于,对文档排序 以用于诸如web搜索系统等搜索系统的方法。
背景
web搜索系统是一类信息检索系统的一个示例,尽管本发明是关于任 何类型的信息检索系统的。web搜索系统使人们能够找到最适合其要求的 网站。使用了三个主要组件来实现这点:web爬行器(crawler);索引生 成器;和查询服务器。
web爬行器一次爬行一个web链接,并发送所标识的要被索引的网页。 这通过利用站点之间的链接来实现。这一web爬行过程可被认为是标识新 网站和标识对现有网站的更新的持续过程。
爬行过程使数十亿网页能够被标识,且为利用该信息,则需要检索页 面的系统方法。索引生成器提供了该方法的一部分。类似于书籍后面的索 引,索引生成器标识要与每一网站的内容进行关联的关键字。随后,在搜 索这些关键字时,搜索系统可以从数十亿个可用页面中找出最适当的页面。
索引生成器包括诸如一个项在页面上使用的频率、页面标题或索引中 中所使用的是哪些项等信息以供查询服务器随后在对文档排序时使用。还 可以使用诸如编写网站所使用的语言以及关于多少其它网站链接到所考虑 的网站的信息等其它信息。
查询服务器(也被称为搜索引擎)被用来在其如何匹配用户输入搜索 项的基础上对索引文档排序。查询服务器分析用户搜索项并将其与所索引 的网页进行比较。其在用户输入搜索项的基础上生成所索引的网页的排名 或得分。以此方式,用得分或排名来标识与用户搜索项相关的网页以指示 相关似然性的程度。
目前正存在对改进诸如web搜索系统等信息检索系统所检索的项的相 关性的需求。另外,存在以在可能的情况下降低对存储资源需求的、快速 且计算经济的方式实现这点的需求。
概述
下面提供本发明的简化概要以便为读者提供基本的理解。本概要不是 本发明的详尽概观,并且既不标识本发明的关键/决定性要素也不描绘本发 明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供 的更详细描述的序言。
诸如web搜索系统等信息检索系统在查询项的基础上在数百万甚至数 十亿可能的文档中定位文档。为实现这点,创建了文档索引。在此建议在 文档中创建新的字段以存储反馈信息。该信息包括在特定搜索中所使用的 查询项以及关于是否对所检索到的特定文档给予例如肯定反馈或否定反馈 的信息。在该反馈信息加上其它可用信息的基础上创建索引。结果,改进 了搜索结果的相关性。对给定文档有多个信息字段(如摘要字段、标题字 段、锚文本字段以及此处的反馈字段)可用。使用了处理多个字段以及多 个查询项并提供对文档字段的差异加权的任何搜索算法。
本示例提供形成供在信息检索系统中使用的文档索引的方法,该方法 包括以下步骤:
指定多个字段,包括可以联合每一文档使用的至少一个反馈字段;
访问多个文档,且对于那些文档的每一个,使用来自所访问的文档的 信息来填充至少某些字段;
接收包括多个查询项、诸文档中特定一个文档的标识符、和关于反馈 的类型的信息的反馈信息;
对于诸文档中特定一个文档,在关于反馈类型的信息的基础上用多个 查询项来填充反馈字段;
在所填充的字段是基础上形成文档索引;
接收多个查询项;
在查询项的基础上从索引中获得文档统计数据;以及
使用搜索算法来生成经排序的文档列表,该搜索算法适于与多个查询 项和多个文档字段一起使用并被安排成提供对字段的差异加权。
这提供通过使用反馈信息并将其合并入文档中,增强了将来的搜索的 优点。这以简单且高效的、不过度增加处理成本或时间的方式来实现。
提供了用于形成供在信息检索系统中使用的文档索引的对应的装置, 该装置包括:
被安排为指定包括可以联合每一文档使用的至少一个反馈字段的多个 字段的索引生成器;
该索引生成器具有被安排成访问多个文档的接口,该索引生成器具有 被安排成对于那些文档的每一个使用来自所访问的文档的信息来填充至少 某些字段的处理器;
该索引生成器具有被安排成接收包括多个查询项、诸文档中特定一个 文档的标识符、和关于反馈的类型的信息的反馈信息的另一接口;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780020322.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双推尾撑定柱复位式液压狭缝推进器
- 下一篇:感应式汽车电子油门
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





