[发明专利]用于建立搜索索引的方法和系统无效
申请号: | 200710192756.0 | 申请日: | 2007-11-16 |
公开(公告)号: | CN101211365A | 公开(公告)日: | 2008-07-02 |
发明(设计)人: | F·S·格伦南;R·伦珀利;A·诺伊曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 朱海波 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 建立 搜索 索引 方法 系统 | ||
1.一种用于建立搜索索引的计算机实现的方法,包括:
当建立所述搜索索引并使用所述搜索索引以响应一个或多个搜索请求时,
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
接收用于处理的文档;
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述要处理的文档被标识为目标文档;
从所述标识的条目中的每个条目检索锚文本;以及
将所述检索的锚文本存储到所述文档的所述搜索索引的条目中。
2.根据权利要求1所述的计算机实现的方法,其中所述文档包括一个或多个导出链接,每个导出链接指向一个目标文档,所述方法进一步包括:
对于每个所述导出链接,向所述锚点信息库添加一个条目,其中所述要处理的文档是每个目标文档的参考文档。
3.根据权利要求1所述的计算机实现的方法,其中所述文档包括一个或多个导出链接,每个导出链接指向一个目标文档,所述方法进一步包括:
向重建议程表中添加一个条目,其中所述条目标识所述目标文档。
4.根据权利要求3所述的计算机实现的方法,进一步包括:
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
5.根据权利要求1所述的计算机实现的方法,进一步包括:
当文档丢失或不可用时,
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述文档是参考文档;
对于所述一个或多个条目中的每个条目,在重建议程表中注册该条目的目标文档;以及
从所述锚点信息库删除所述一个或多个条目。
6.根据权利要求1所述的计算机实现的方法,进一步包括:
当文档丢失或不可用时,
在所述锚点信息库中定位一个或多个如下条目,对于该条目,所述文档是目标文档;以及
向搜索引擎管理员和所述参考文档的内容拥有者中的一个报告每个所述标识的条目中的所述参考文档。
7.根据权利要求1所述的计算机实现的方法,进一步包括:
生成图形以便能够研究站点连通性,所述图形示出了使用所述锚点信息库的节点的连接。
8.根据权利要求1所述的计算机实现的方法,进一步包括:
基于通过计算所述锚点信息库中文档的参考文档的数量而确定的入链接计数来调节与所述文档相关联的搜索结果权重。
9.根据权利要求1所述的计算机实现的方法,其中所述锚点信息库包括标签,该标签是文档的用户注释。
10.根据权利要求1所述的计算机实现的方法,进一步包括:
当已经用新内容更新所述文档时,
将所述文档是其参考文档的所述锚点信息库中的现有条目与所述文档中当前的一组锚点进行比较;
从所述锚点信息库中删除每个不再与所述文档内容匹配的条目;
对于所述文档中的每个新锚点,向所述锚点信息库中添加一个新条目;以及
在重建议程表中注册从所述锚点信息库中删除的或者添加到所述锚点信息库中的任意条目的目标文档。
11.一种用于维护搜索索引的计算机实现的方法,包括:
维护锚点信息库,其中所述锚点信息库的每个条目标识参考文档、目标文档和与从所述参考文档到所述目标文档的链接相关联的锚文本;
维护重建议程表,其中所述重建议程表中的每个条目标识一个目标文档;以及
对于在所述重建议程表中的每个条目中标识的每个目标文档,异步地,
使用所述锚点信息库找到所述目标文档的锚文本;以及
更新所述目标文档的搜索索引的条目中的锚文本,其中所述目标文档的锚文本增量式地更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710192756.0/1.html,转载请声明来源钻瓜专利网。