[发明专利]索引文档以供信息检索有效

专利信息
申请号: 200780020322.0 申请日: 2007-03-15
公开(公告)号: CN101460949A 公开(公告)日: 2009-06-17
发明(设计)人: M·J·泰勒;S·罗伯逊;H·E·威廉姆斯;N·E·克拉斯韦尔 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/21
代理公司: 上海专利商标事务所有限公司 代理人: 陈 斌
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 文档 信息 检索
【说明书】:

技术领域

本说明书一般涉及信息检索。其具体涉及,但决不限于,对文档排序 以用于诸如web搜索系统等搜索系统的方法。

背景

web搜索系统是一类信息检索系统的一个示例,尽管本发明是关于任 何类型的信息检索系统的。web搜索系统使人们能够找到最适合其要求的 网站。使用了三个主要组件来实现这点:web爬行器(crawler);索引生 成器;和查询服务器。

web爬行器一次爬行一个web链接,并发送所标识的要被索引的网页。 这通过利用站点之间的链接来实现。这一web爬行过程可被认为是标识新 网站和标识对现有网站的更新的持续过程。

爬行过程使数十亿网页能够被标识,且为利用该信息,则需要检索页 面的系统方法。索引生成器提供了该方法的一部分。类似于书籍后面的索 引,索引生成器标识要与每一网站的内容进行关联的关键字。随后,在搜 索这些关键字时,搜索系统可以从数十亿个可用页面中找出最适当的页面。

索引生成器包括诸如一个项在页面上使用的频率、页面标题或索引中 中所使用的是哪些项等信息以供查询服务器随后在对文档排序时使用。还 可以使用诸如编写网站所使用的语言以及关于多少其它网站链接到所考虑 的网站的信息等其它信息。

查询服务器(也被称为搜索引擎)被用来在其如何匹配用户输入搜索 项的基础上对索引文档排序。查询服务器分析用户搜索项并将其与所索引 的网页进行比较。其在用户输入搜索项的基础上生成所索引的网页的排名 或得分。以此方式,用得分或排名来标识与用户搜索项相关的网页以指示 相关似然性的程度。

目前正存在对改进诸如web搜索系统等信息检索系统所检索的项的相 关性的需求。另外,存在以在可能的情况下降低对存储资源需求的、快速 且计算经济的方式实现这点的需求。

概述

下面提供本发明的简化概要以便为读者提供基本的理解。本概要不是 本发明的详尽概观,并且既不标识本发明的关键/决定性要素也不描绘本发 明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供 的更详细描述的序言。

诸如web搜索系统等信息检索系统在查询项的基础上在数百万甚至数 十亿可能的文档中定位文档。为实现这点,创建了文档索引。在此建议在 文档中创建新的字段以存储反馈信息。该信息包括在特定搜索中所使用的 查询项以及关于是否对所检索到的特定文档给予例如肯定反馈或否定反馈 的信息。在该反馈信息加上其它可用信息的基础上创建索引。结果,改进 了搜索结果的相关性。对给定文档有多个信息字段(如摘要字段、标题字 段、锚文本字段以及此处的反馈字段)可用。使用了处理多个字段以及多 个查询项并提供对文档字段的差异加权的任何搜索算法。

本示例提供形成供在信息检索系统中使用的文档索引的方法,该方法 包括以下步骤:

指定多个字段,包括可以联合每一文档使用的至少一个反馈字段;

访问多个文档,且对于那些文档的每一个,使用来自所访问的文档的 信息来填充至少某些字段;

接收包括多个查询项、诸文档中特定一个文档的标识符、和关于反馈 的类型的信息的反馈信息;

对于诸文档中特定一个文档,在关于反馈类型的信息的基础上用多个 查询项来填充反馈字段;

在所填充的字段是基础上形成文档索引;

接收多个查询项;

在查询项的基础上从索引中获得文档统计数据;以及

使用搜索算法来生成经排序的文档列表,该搜索算法适于与多个查询 项和多个文档字段一起使用并被安排成提供对字段的差异加权。

这提供通过使用反馈信息并将其合并入文档中,增强了将来的搜索的 优点。这以简单且高效的、不过度增加处理成本或时间的方式来实现。

提供了用于形成供在信息检索系统中使用的文档索引的对应的装置, 该装置包括:

被安排为指定包括可以联合每一文档使用的至少一个反馈字段的多个 字段的索引生成器;

该索引生成器具有被安排成访问多个文档的接口,该索引生成器具有 被安排成对于那些文档的每一个使用来自所访问的文档的信息来填充至少 某些字段的处理器;

该索引生成器具有被安排成接收包括多个查询项、诸文档中特定一个 文档的标识符、和关于反馈的类型的信息的反馈信息的另一接口;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200780020322.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top