[发明专利]用于使用和建立块级别索引进行搜索询问的方法和系统在审
| 申请号: | 201410674806.9 | 申请日: | 2014-11-21 |
| 公开(公告)号: | CN104679808A | 公开(公告)日: | 2015-06-03 |
| 发明(设计)人: | T.A.P.汉普-巴恩米勒;姜朋慧;江丕竣;许焱 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎;王珊珊 |
| 地址: | 美国纽*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 使用 建立 级别 索引 进行 搜索 询问 方法 系统 | ||
技术领域
本发明一般涉及搜索文档的领域。更具体地,本发明涉及用于基于块级别索引进行文档级别的搜索询问的方法。
背景技术
经常发生多个文档包括具有相同内容的章节、部分或组成。例如,一封电子邮件被回复或转发许多次,并且所有回复的或转发的电子邮件都包含原始发送的电子邮件。在来自例如wiki、博客等的社会媒体的发布(post)中发生相同的情况。在诸如带有附件的电子邮件或者ZIP文件的混合文档中,整个子文档(例如附件或ZIP中的文件)可以由许多不同的顶层文档(例如不同的电子邮件或ZIP文件)共享。
当对包括相同内容的部分的多个文档进行索引(index)时,特别是全部文本索引时,内容的重复的部分将被索引多次,导致索引内的冗余信息以及大尺寸的索引。
提供对于文档中的重复的块的非冗余索引表示的技术将是真正有帮助的,因为可以节省对相同的块重新分析和索引所浪费的计算能力以及储存空间、即任意种类的永久存储器,例如用于存储索引的硬盘。另一方面,该技术需要提供用于像通常那样以文档级别而不是块级别、即面向文档的部分的搜索和检索而搜索文档的手段。
因此,需要提供用于针对文档、特别是文本文档进行搜索询问的有效的并且用户友好的方法,所述文档提供相同的部分,特别是相同的文本部分。
发明内容
本发明的实施例的一个目标是提供以有效的并且用户友好的方式针对包括相同部分的文档进行搜索询问的方法、计算机可读介质和系统。通过独立权利要求的特征实现该目标。在从属权利要求中给出了优选实施例。如果没有另外明确指示,则本发明的实施例可以彼此自由组合。
根据第一方面,描述了用于针对多个文档进行包括具有至少一个搜索项(term)属性的搜索项的搜索询问的方法。每个文档被构造为块的集,每个块与唯一的块ID相关联,并且相同的块与相同的块ID相关联。该方法包括以下步骤:
-提供包含关于具体搜索项属性和至少一个块ID之间的相关性的信息的第一数据结构;
-提供包含关于块和文档之间的相关性的信息的第二数据结构;
-接收搜索询问;
-通过针对至少一个搜索项属性来搜索该第一数据结构而处理该搜索询问,得到第一询问响应;
-使用该第二数据结构将该第一询问响应映射到第二询问响应;以及
-返回该第二询问响应,作为搜索结果。
第一数据结构提供块级别索引,该块级别索引包括块中包括的块数据(它们是搜索项的搜索项属性)和块ID之间的相关性。包括相同的块数据的相同的块与相同的块ID相关联。由此,块内容仅被索引一次,得到减少的用于存储索引的容量。可以以块级别在第一步骤中进行搜索询问的处理,得到包含所询问的搜索项属性的零个或更多块。通过确定包含在第一步骤中调查到的块的文档,可以将接收到的块转换为文档级别搜索响应。由此,可以减少用于对包括相同的块的多个文档进行搜索询问的计算工作以及用于存储索引的存储空间。
根据进一步的实施例,第一数据结构是包括多个索引条目的索引,每个索引条目与具体的块数据相关联,该具体的块数据可以形成搜索项内的搜索项属性。由此,该索引可以适配用于存储与块数据相关联的具体数据,例如包含作为块数据的所述搜索项属性的块ID、指示块数据在块内的频率的频率信息或者指示块数据在块内的位置的位置数据。
根据进一步的实施例,索引的每个条目包括关于至少一个块ID的信息,该块ID指示与各个索引条目相关联的块数据(或者根据搜索项用语的搜索项属性)被包括在具有所述块ID的块内。由此,第一数据结构是关于搜索项属性可搜索的,并且可以确定包含所述搜索项属性的块ID。
根据进一步的实施例,第一数据结构包括对于每个搜索项属性的关于该搜索项属性在块内的位置和/或该搜索项属性在具体块内的出现的频率的另外的信息。
根据进一步的实施例,第二数据结构是提供关于哪个块被包含在哪个文档中和/或哪个文档由哪些块组成的信息的列表。换句话说,第二数据结构是包含块和文档之间的映射信息的支持数据结构。通过第二数据结构,可以得出块-文档关联性。优选地,第二数据结构是包括定义块和文档之间的相关性的第一数据集和定义文档和块之间的相关性的第二数据集的双向数据结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司;,未经国际商业机器公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410674806.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:过滤应用内容的方法和系统
- 下一篇:一种O2B智能搜索方法及系统





