[发明专利]一种高可用分布式全文索引方法有效

专利信息
申请号: 201210226357.2 申请日: 2012-06-29
公开(公告)号: CN102779185A 公开(公告)日: 2012-11-14
发明(设计)人: 陈岭;鲁伟明;余斌 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 周烽
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 可用 分布式 全文 索引 方法
【说明书】:

技术领域

发明涉及信息索引和搜索领域,更具体而言,涉及一种针对海量文本数据构建分布式全文索引并且提供高可用的查询服务的方法。

背景技术

随着互联网的发展,尤其是Web2.0的出现,文本信息量呈指数级速度增长。用户希望能够有效的管理海量文本数据,并对这些文本进行快速的搜索得到相应的信息。

Google,百度,必应等搜索引擎的出现,满足了用户对于信息搜索的需求。而搜索引擎所采用的核心技术就是通过网络爬虫收集网络中的各类数据信息,对这些数据进行索引,然后对外提供查询服务。由于随着数据信息的不断增长,所建立的索引文件规模大小也随之增长,导致单机服务器已经无法保存所有的索引文件。此外,建立单一巨大的索引文件所耗费的时间以及在该索引文件上执行查询的时间也不断增加,导致无法满足海量客户查询需求。一个可行方案是将单个索引文件切分成多个索引分片,并将每一个索引分片分布存储在不同的主机上,最后对外提供索引服务。然而通过对业界所采取的若干方案研究,发现这些方案都存在以下几个突出的缺点:

1、索引与查询服务是相关联的,即索引服务建立的本地索引文件直接为查询提供服务。然而,查询与索引集群的紧耦合导致二者不可分离,在容错性和系统复杂性上发生故障的可能性大大增加。

2、常见的分布式索引系统采取索引分片或者索引复制的方法来增加分布式索引扩展性以及可用性。然而,它们所采用的分片策略通常是按照数据的属性来划分,因此产生固定数目的索引分片,而每一个索引分片的大小却急剧增大。此外,另一些分布式索引系统按固定大小划分索引,在查询过程中需要对所有的索引分片进行查询,增加查询的时间以及网络的开销。

3、一般而言分布式索引系统都是为了满足特定的需求,不能支持动态对不同类别的数据进行索引操作。因此如果需要对新的索引域进行索引,需要停止分布式索引集群,重新部署索引任务,重启索引集群以重新建立相应的索引。

4、当前的分布式索引系统采用多节点备份实现系统容灾。当索引集群的节点发生故障的,使用系统中其它节点的备份对其进行恢复,然而如果这些存在备份的节点同时发生故障,那么失效节点上的索引就无法正常恢复。

通过以上的分析,可以知道当前的分布式索引系统中存在诸多问题。

发明内容

本发明的目的在于针对现有技术的不足,提供一种高可用分布式全文索引方法

本发明的目的是通过以下技术方案来实现的:一种高可用分布式全文索引方法,该方法包括以下步骤:

(1)启动基础服务系统,包括分布式文件系统、分布式列式数据库以及元数据目录服务;所述分布式文件系统用于存储索引节点建立的索引文件,同时为查询集群中的节点提供索引文件;所述分布式列式数据库用于提供本发明中的操作日志服务,操作日志存储本发明执行的各项操作,此外,分布式列式数据库还用于存储原始全文数据文件,分布式列式数据库应支持按列存储数据;元数据目录服务实现元数据的存储;

(2)在各个节点上启动索引集群服务和查询集群服务,其中,索引集群服务包括索引主节点服务和索引节点服务,查询集群服务包括查询主节点服务和查询节点服务;该步骤具体为:首先,索引主节点和搜索主节点分别启动,进入安全模式,并分别扫描并监听元数据目录中索引节点和查询节点目录节点,以分别管理这些目录下的节点;其次,索引节点和查询节点启动,并将自身的信息注册到元数据节点目录之上,此时索引主节点和搜索主节点监听到消息,将新加入的节点纳入自身管理之中;最后,如果在安全模式下,节点不在发生变化,那么退出安全模式;至此完成了整个分布式全文索引系统启动的过程;

(3)在全文数据上创建索引、更新索引、删除索引;其中,创建索引包括增量式创建索引和批量式创建索引;该步骤通过以下子步骤来实现:

(3.1)所述的增量式创建索引,需要用户在索引任务定义中将创建索引的模式设置为增量式模式;增量式创建索引的过程包括:

(3.1.1)当数据插入到存储系统中,触发增量建立索引的任务,索引主节点通过反射机制实例化索引任务定义中的索引分片策略,判定该数据的索引归属于哪一个索引分片,此后从元数据目录中读取索引分片与索引节点的映射关系,找到负责建立该索引分片的索引节点;最后将节点ID写入到消息中;

(3.1.2)索引主节点将3.1.1生成的消息通过远程调用的方式将该消息随机塞到任意一个索引节点的本地消息队列中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210226357.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top