[发明专利]索引生成方法、索引生成装置及搜索方法有效

专利信息
申请号: 201710249150.X 申请日: 2017-04-17
公开(公告)号: CN107305586B 公开(公告)日: 2021-10-15
发明(设计)人: 片冈正弘;出内将夫;阿部叶月 申请(专利权)人: 富士通株式会社
主分类号: G06F16/31 分类号: G06F16/31;G06F16/14;G06F40/284
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 陈炜;李德山
地址: 日本神*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 生成 方法 装置 搜索
【说明书】:

发明公开了索引生成方法、索引生成装置及搜索方法。在对多个输入文件进行词汇分析的过程中,索引生成装置生成关于存在或不存在多个关键字以及存在关键字时所述关键字针对相应文件的存在位置的各条信息。该索引生成装置基于所生成的各条信息,生成关于关键字以及关键字针对相应文件的位置的索引信息。

技术领域

本文中讨论的实施方式涉及索引生成程序等。

背景技术

为了提高文本数据的检索速度,已知通过针对每个文件对存在或不存在文本数据中包含的每个字符建立索引而形成的位图索引(例如,参见国际公布小册子第WO 2013/038527号)。

此外,存在这样的技术:使用记录中包含的数据项的内容作为关键字,针对关键字生成用于指示记录的存储位置的索引,并且利用该索引来搜索数据库(例如,参见日本公开特许公报第63-189934号)。

已知一种用于生成与单词对应的指针表索引的技术(例如,参见2008年4月25日Gijutsu-Hyohron有限公司的Keisuke NISHIDA的Google wosasaeru gijutsu(支持Google的技术))。将参照图1来说明该技术。图1是示出了指针表索引生成处理的参考示例的图。如图1所示,利用该技术,从各个文档文件中提取单词,并且生成和采集与文档ID、单词ID及其出现位置对应的索引,并且按照单词ID对所采集的索引进行排序。以这种方式来生成转置索引,转置索引是其中文档ID和出现位置与作为参考的单词ID对应的指针表索引。

另一种常规技术例如在日本公开特许公报第No.63-271525号中被公开。此外,例如,在2006年6月25日Gijutsu-Hyohron有限公司的HiroshiSEKIGUCHI的ApacheLucenenyumon(ApacheLucene介绍)中参见另一种技术。

然而,存在的问题在于,包含文件、关键字及其出现位置的索引不能容易地以压缩格式一遍生成。从另一个观点来看,存在难以针对关键字来搜索文件及其出现位置的组合的问题。

例如,常规位图索引是当字符被用作关键字时包含关键字和文件的索引,但不是包含文件、关键字及其出现位置的索引。索引的生成和压缩彼此独立,并且以两遍来执行。因此,该技术不能容易地以压缩格式一遍生成包含文件、关键字及其出现位置的索引。

由于位图索引不包含关于出现位置的信息,因此为了针对关键字来搜索文件及其出现位置的组合,用索引来指定目标文件,然后通过参考相应的文件来检查关键字在文件中的出现位置。因此,难以针对关键字来搜索文件及其出现位置的组合。

另一方面,因为文档文件包含不同的单词,因此每次更新或添加文档文件时,使用用于生成指针表索引的技术在巨大的云环境中以三遍来重复索引生成处理、采集处理、排序处理和换位处理。此外,索引被一遍压缩。因此,尽管指针表索引包含文件、关键字及其出现位置,但是该技术不能容易地针对文档文件以压缩格式一遍生成指针表索引。

尽管当数据项的内容被用作关键字时会出现上述问题,但是不仅在数据项的内容被用作关键字的情况下,而且在单词或字符以相同的方式被用作关键字的情况下,也会出现上述问题。

因此,本发明的实施方式的一个方面的目的是容易地以压缩格式一遍生成包含文件、关键字及其出现位置的索引。本发明的实施方式的另一方面的目的是容易地针对关键字搜索文件及其出现位置的组合。

发明内容

根据实施方式的一个方面,一种索引生成方法由计算机执行。该方法包括:在对多个输入文件进行词汇分析时针对多个输入文件生成关键字存在信息,关键字存在信息包括关于在多个输入文件中是否存在多个关键字中的每一个以及当在多个输入文件中存在相应多个关键字时相应多个关键字的存在位置的信息。该处理包括:基于关键字存在信息生成关于关键字和关键字针对多个输入文件的位置的索引信息。

附图说明

图1是示出了指针表索引生成处理的参考示例的图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710249150.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top