[发明专利]一种创建索引文件的方法及装置在审

专利信息
申请号: 201510822336.0 申请日: 2015-11-24
公开(公告)号: CN105488124A 公开(公告)日: 2016-04-13
发明(设计)人: 金洪殿;赵仁明;亓开元 申请(专利权)人: 浪潮(北京)电子信息产业有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 罗满
地址: 100085 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 创建 索引 文件 方法 装置
【说明书】:

技术领域

发明涉及计算机技术领域,特别是涉及一种创建索引文件的方 法及装置。

背景技术

全文检索是指计算机索引程序通过扫描文章中的每一个词,对每 一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户 查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果 反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字 的过程。

检索主要分为按字检索和按词检索两种。按字检索是指对于文章 中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不 同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的, 而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位 建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文 字由于按照空白切分词,因此实现中与按字处理类似,添加同义处理 也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的, 关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中 的难点。

全文检索系统是按照全文检索理论建立起来的用于提供全文检 索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查 询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、 二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、 处理查询返回结果集、增加索引、优化索引结构等功能。

Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个 完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的 查询引擎和索引引擎。Lucene的目的是为软件开发人员提供一个简单 易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是 以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索 和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提 供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。

Lucene特殊的索引结构,决定了其只能使用一个IndexWriter对 索引进行添加操作。这样对于大数据量的索引,如果无法实现并行创 建索引,索引的过程将十分耗时。

发明内容

本发明的目的是提供一种创建索引文件的方法及装置,目的在于 解决当索引数据规模较大时,现有的索引方法索引效率较低的问题。

为解决上述技术问题,本发明提供一种创建索引文件的方法,包 括:

根据数据规模以及业务需求,确定执行索引创建的线程数量;

通过所述数据规模以及所述线程数量,确定各个线程分别负责进 行索引的数据范围;

各个线程分别创建对应数据范围的索引文件;

将各个所述线程创建的所述索引文件进行合并,存储于一个索引 目录中。

可选地,所述将各个所述线程创建的所述索引文件进行合并,存 储于一个索引目录中包括:

当各个线程的索引文件创建执行完成后,将各个所述线程创建的 所述索引文件进行合并,存储于一个索引目录中。

可选地,所述各个线程分别创建对应数据范围的索引文件包括:

各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。

本发明还提供了一种创建索引文件的装置,包括:

第一确定模块,用于根据数据规模以及业务需求,确定执行索引 创建的线程数量;

第二确定模块,用于通过所述数据规模以及所述线程数量,确定 各个线程分别负责进行索引的数据范围;

创建模块,用于各个线程分别创建对应数据范围的索引文件;

存储模块,用于将各个所述线程创建的所述索引文件进行合并, 存储于一个索引目录中。

可选地,所述存储模块具体用于:

当各个线程的索引文件创建执行完成后,将各个所述线程创建的 所述索引文件进行合并,存储于一个索引目录中。

可选地,所述创建模块具体用于:

各个线程分别创建的索引文件互相独立,不会引发锁重叠异常。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510822336.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top