[发明专利]用于网络文件的多维索引的方法和设备有效

专利信息
申请号: 201010192559.0 申请日: 2010-06-01
公开(公告)号: CN102270201A 公开(公告)日: 2011-12-07
发明(设计)人: 葛付江;王主龙;孟遥;于浩;贾文杰;何楠;贾晓建;王新文 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 朱胜;陈炜
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 网络 文件 多维 索引 方法 设备
【说明书】:

技术领域

发明涉及文档检索技术领域,特别涉及一种用于网络文件的多维索引的方法和设备。

背景技术

网络文档不像纯文本一样结构单一,丰富的应用赋予了其更多的特征,如标题、正文、作者、时间、站点、类型、附加评测值、地点、语言类型、编码等,对这些特征的多条件高效率检索是网络文档检索的一个重要要求。常规的方法都是对各个特征分别检索,然后把得到的检索子集进行合并。这种方法在文档维度和文档规模不断增大时效率会不断降低。

发明内容

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。

鉴于现有技术的上述情形,本发明的目的是提供一种用于网络文件的多维索引的方法和设备,其能够克服上述现有技术的缺点和不足,以提高检索的效率。

为了实现上述目的,根据本发明的一方面,提供了一种为文档建立索引的方法,其包括如下步骤:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。

根据本发明的另一方面,还提供了一种对文档进行检索的方法,其包括如下步骤:将用户所输入的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;根据识别的所述维度将用户所输入的特征构造为具有复合索引的特征检索结构;以及在执行根据本发明的为文档建立索引的方法而得到的索引储存库中进行检索,以检索出具有所述特征检索结构的文档。

根据本发明的另一方面,还提供了一种为文档建立索引的设备,其包括:识别装置,用于识别构成所述文档的特征;分类装置,用于将所述识别装置所识别的特征中的每一个的维度分类为主维度、次维度和附加维度中之一;主维度与次维度索引装置,用于针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;附加维度索引装置,用于针对所述附加维度的特征建立倒排索引;复合索引装置,用于将通过所述主维度与次维度索引装置针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与通过所述附加维度索引装置针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及索引储存库,用于存储通过所述复合索引装置得到的复合索引。

根据本发明的另一方面,还提供了一种对文档进行检索的设备,其包括:输入装置,用于接收用户所输入的特征;识别装置,用于将所述输入装置接收的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;构造装置,用于根据识别的所述维度将所述输入装置接收的特征构造为具有复合索引的特征检索结构;以及检索装置,用于在根据本发明的为文档建立索引的设备中的索引储存库中进行检索,以检索出具有所述构造装置构造的特征检索结构的文档。

根据本发明的另一方面,还提供了用于实现上述为文档建立索引和对文档进行检索的方法的计算机程序产品。

根据本发明的另一方面,还提供了计算机可读介质,其上记录有用于实现上述为文档建立索引和对文档进行检索的方法的计算机程序代码。

在本发明的上述技术方案中,同时利用多个属性作为检索条件,以减少一次检索读取索引数据的范围,因此可以提高检索的效率;用复合索引策略和结构平衡了索引的时间和空间效率;并且由于附属维度的存在,使维度空间有良好的扩展性。

附图说明

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:

图1是示出根据本发明实施例的为文档建立索引的方法的流程图;

图2是示出作为根据本发明实施例的具体例子的正文索引的B树组织方式的示图;

图3是示出作为根据本发明实施例的具体例子的多维索引库的示图;

图4是示出根据本发明实施例的对文档进行检索的方法的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010192559.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top