[发明专利]用于建立搜索索引的方法和系统无效
申请号: | 200710192756.0 | 申请日: | 2007-11-16 |
公开(公告)号: | CN101211365A | 公开(公告)日: | 2008-07-02 |
发明(设计)人: | F·S·格伦南;R·伦珀利;A·诺伊曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 朱海波 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 建立 搜索 索引 方法 系统 | ||
技术领域
本发明涉及全局锚文本处理。
背景技术
万维网(也称为WWW或“Web”)是一些支持网页的因特网服务器的集合,该网页可以包括到其他网页的链接。统一资源定位符(URL)表明了网页的位置。另外,每个网页可以包含例如文本、图形、音频和/或视频内容。例如,第一个网页可以包含到第二个网页的链接。当在第一个网页中选定该链接时,典型地显示第二个网页。
Web浏览器是一种用于定位并显示网页的软件应用。目前,在网络上有数以亿计的网页。
Web搜索引擎用于基于一些标准检索网络上的网页(例如通过Web浏览器进入)。也就是说,Web搜索引擎设计为返回给定关键字查询的相关网页。例如,针对公司内网搜索引擎而发起的查询“HR”期望返回内网中与人力资源(HR)相关的相关页面。Web搜索引擎使用使得搜索词(例如关键字)与网页产生联系的索引技术。
锚点可以描述为到文档的链接或路径(例如URL)。锚文本可以描述为与指向文档的路径或链接(例如URL)相关联的文本。例如,锚文本可以是Web文档中标注或封装超文本的文本链接的文本。锚文本由Web搜索引擎收集并与目标文档相关联。另外,锚文本和目标文档一起进行索引。
锚文本也可以描述为在超文本标记语言(HTML)文档(“参考”文档)中找到的用以注释到另一个文档(“目标”文档)的链接的内容。锚文本在词法上包含在锚标签(<A>...</A>)内部。锚文本可以改善搜索质量,因为它对人类编辑者的关于目标文档的相关区域的判断进行编码。虽然为要使锚文本可搜索,就必须对锚文本进行索引从而使得该锚文本就像是目标文档内容的一部分一样,但该锚文本实际上是作为其他内容,即参考文档的一部分而进入搜索系统的。
当Web搜索引擎处理全体文档时(例如对文档进行检索并进行索引),不可能在存储器中保留所有文档直到知道所有交叉链接。这样,传统的解决方案是分别对文档内容和锚文本进行编目,然后运行离线全局整合过程以对用于索引的锚文本和文档内容进行组合。
如果整合推迟直到搜集到全体文档的所有内容(也就是检索),那么所有的锚文本都是可用的,并且组合索引只需要建立一次。但是如果这样做了,则直到搜集整个全体文档之后才能建立仅内容索引(content-only index)。作为替代,仅内容索引是可写并且可用的,但是直到整合阶段之后才可能进行锚文本搜索。
这样,在本领域中需要改善全局锚文本处理。
发明内容
本发明提供了一种用于建立搜索索引的方法、计算机程序产品和系统。当建立搜索索引并使用搜索索引以响应一个或多个搜索请求时,维护锚点信息库,其中锚点信息库的每个条目标识参考文档、目标文档和与从参考文档到目标文档的链接相关联的锚文本;接收用于处理的文档;在锚点信息库中定位一个或多个如下条目,对于该条目,要处理的文档被标识为目标文档;从所标识的条目中的每个条目检索锚文本。将检索的锚文本存储到文档的搜索索引的条目中。
附图说明
现在参考附图,其中贯穿整个附图,同样的参考标号表示对应的部分:
图1以框图示出了根据本发明某些实施例的计算环境。
图2示出了根据本发明某些实施例的实现为为处理准备锚点的逻辑。
图3示出了根据某些实施例的在同步上下文中执行的逻辑。
图4示出了根据某些实施例的在异步上下文中执行的逻辑。
图5示出了根据某些实施例的数据流。
图6示出了根据本发明某些实施例的用于执行文档搜索的逻辑。
图7示出了根据某些实施例的可以使用的系统体系结构。
具体实施方式
在以下描述中参考附图,附图形成描述的一部分,并且示出了本发明的多个实施例。应当理解,在不偏离本发明范围的情况下,可以利用其它实施例并且可以进行结构上和操作上的改变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710192756.0/2.html,转载请声明来源钻瓜专利网。