[发明专利]一种基于HBase的构建和检索增量索引的方法有效

专利信息
申请号: 201310298976.7 申请日: 2013-07-16
公开(公告)号: CN103390038A 公开(公告)日: 2013-11-13
发明(设计)人: 郑庆华;董博;贺欢;宋凯磊;徐海鹏;马天;陈亚兴 申请(专利权)人: 西安交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 朱海临
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hbase 构建 检索 增量 索引 方法
【说明书】:

技术领域

本发明涉及一种在HBase(一个分布式的、面向列的开源数据库,支持百万列上亿行数据的存储)基础上对持续增加的文本,构建增量索引和对增量索引检索结果格式化的方法,主要解决目前对持续增加的文本内容构建索引效率低,以及索引与检索系统难以与其他信息系统协作的问题。

背景技术

随着互联网技术的发展,信息系统的中存储的文本数量日益庞大,为了从中查找所需信息,必须构建索引。当需要索引的数据量极大时,单个计算机提供的存储容量无法满足索引的存储需求。并且,随着数据的规模持续增长,按照传统方法对全部数据重新构建索引所花费的时间会难以忍受。另外,用户对于检索结果的呈现格式也有更多要求,单一的结果格式无法满足用户的使用需求。因此,如何有效的对不断增长的数据构建增量索引,满足用户在检索格式化方面的需求,成为了亟待解决的难题。

针对如何有效地构建数据索引以及存储和检索,以下3篇专利文献提供了不同的技术方案:

1.对计算机网络中的资源内容构建索引的方法和设备(200810084087.X);

2.一种分布式实时搜索引擎(201110137785.3);

3.一种基于MapReduce编程架构的索引生成方法和装置(201110446325.9)。

文献1通过判断资源是否链接有用户定义的索引代码来判断使用何种索引构建的方法,由于用户或者内容所有者比其他人更好的理解自身的文档内容,所以该方法可以有助于提高索引的质量,进而提高搜索的质量。

文献2包括一种基于Master/Slave的集群式系统的功能性架构,含有中心控制节点、索引数据存储节点和对外服务节点。也包括一种树形层次的索引结构,含有索引、索引分片、段、文档和域的多层结构。通过系统内存中的更新时索引、合并时索引和磁盘索引的配合,实现实时的索引与检索能力。

文献3包括利用HBase集群、Hadoop集群和Solr集群功能协作,使用MapReduce编程模型对数据记录进行分解、合并处理,得到倒排索引文件。该方法可以并行的处理数据,提高了构建海量数据索引的效率。

以上文献所述方法主要存在以下问题:文献1没有考虑数据持续增加时如何构建索引,不适合对持续增加的数据增量构建索引。文献2没有提供检索结果的多种格式化输出,所以不适合其他信息系统协作索引和检索持续增加的新数据。文献3在存储时没有重新设计索引的存储格式,而是依然使用原有单机索引系统的文件存储方式。

发明内容

本发明的目的在于解决现有方法不能快速有效的对持续增加的数据构建索引并检索的问题,根据HBase的列存储机制和索引的格式特点,提出一种基于HBase的构建和检索增量索引的方法。

为了达到以上目的,本发明是采取如下技术方案予以实现的:

一种基于HBase的构建和检索增量索引的方法,其特征在于,包括下述步骤:

(1)利用HBase来设计增量索引的存储结构

利用HBase的数据列动态可扩展的特点,将词元作为关键字主键,将文本主键作索引存储表的列字段名称,利用HBase的分布式存储的特点,实现对大规模文本和索引信息的存储,索引系统同时为多个不同的数据源分别提供索引服务;为了有效的存储索引信息,共设计三个表:

a、表Ttext存储索引数据的原始信息,字段包括文本主键,文本内容与来源等信息;

b、表Tindex存储数据的索引信息,字段包括关键字主键,含有关键字的数据内容所对应的全部文本主键索引列,且表Tindex中的文本主键索引列随着持续增加的索引数据而动态的增加;

c、表Tstatistic存储统计信息,包括总文本数量,总关键字数量;

(2)提供面向Web的待索引文本获取接口;

(3)对持续增加的文本构建增量索引

当新增文本产生并到达时,索引系统将新增文本的索引追加存储到已有索引中,不重新对全部数据构建索引,具体方法为:

a、根据表Tstatistic中的总文本数量,对新的待索引文本生成新文本主键,然后采用缓冲机制,将新文本主键和数据内容存入缓冲区,使用缓冲区将原始文本追加到表Ttext

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310298976.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top