[发明专利]一种HBase非主键索引的方法及HBase系统在审
| 申请号: | 201911350573.6 | 申请日: | 2019-12-24 |
| 公开(公告)号: | CN113032479A | 公开(公告)日: | 2021-06-25 |
| 发明(设计)人: | 李锋;刘海朋 | 申请(专利权)人: | 上海昂创信息技术有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/22 |
| 代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 崔巍 |
| 地址: | 200433 上海市杨*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 hbase 主键 索引 方法 系统 | ||
本发明提供一种hbase非主键索引的方法及hbase系统,涉及分布式存储领域,所述方法包括步骤1:构建基于HBase区域观察者模式的协议处理器的第一层索引;步骤2:实现基于HBase区域观察者模式的协议处理器的第二层索引。本发明利用分层式索引进行快速定位并查询到目标电子数据,从而能够对数据进行分析后提取有价值的信息,解决了在HBase中基于非行键的数据查询效率低,并且造成较多资源浪费的问题。
技术领域
本发明涉及分布式存储领域,特别是涉及一种HBase非主键索引的方法及HBase系统。
背景技术
NoSQL数据库(非关系型数据库)的典型代表是HBase(Hadoop Database,分布式存储系统),HBase适用存储非结构化数据,数据表的索引由行键、列族以及时间戳组成,通过时间戳可以区分数据的不同版本,另外HBase能够实现列族的动态添加。与传统的关系型数据库不同,HBase没有丰富的数据类型,只有简单的字符串类型。因此,其他数据类型的操作都需要客户进行额外处理;另外,为了能够在分布式环境下提供更好的性能,HBase不具有事务的一致性,并且不支持跨行、多表连接等复杂的查询操作。HBase以HDFS(分布式文件系统)作为底层存储框架,同时提供MapRedeuce(映射归隐)技术来并行处理大规模数据。
随着客户使用的需求越来越多,应用场景的日益复杂,客户对查询方式的要求变得更加多样化。HBase中只提供每行数据的rowkey(行键)作为数据检索的唯一索引。其中,rowkey按照字典序排列,在rowkey上能够提供高效的点查询和范围查询,使得HBase在检索数据方面有很多的局限性。
针对HBase在检索数据方面局限性的优化,目前有许多可行的方案:
1.利用开源分布式搜索引擎提前对数据库中存储的数据创建索引,可以直接查询索引层,从而缩短查询响应时间。
2.利用分片位图索引机制,首先对不同数据结点中存储的数据建立局部位图索引;然后对字段值进行全部排序以便使各数据结点了解局部数据在全局中的分部情况;当索引任务到达时,各个数据节点可以并发且独立地完成各自的检索任务。
3.将索引信息维护在HBase数据表中,并且索引表和数据表分部存储,同时通过扩展客户端功能来实现索引查询和维护操作,当客户端进行数据查询的操作时需要进行两次RPC(Remote Procedure Call Protocol,远程过程调用)操作,第一次RPC操作发生在对索引表进行查询时,如果数据存在则找到相应的rowkey并返回客户端,如果数据不存在,则直接结束操作;第二次RPC操作发生在客户端,客户端根据返回的rowkey进行查询,对主表进行查询并返回最终的查询结果。
在HBase中,数据以rowkey的形式存储,并且依据rowkey对数据进行分块、组织和存储,提供基于rowkey的查询,因此与rowkey相关的查询操作都能得到很好的效果,但是由于HBase中没有很好提供基于非rowkey的查询,因此非rowkey的查询往往需要进行全表扫描,则会造成很多的资源浪费,导致查询效率低下。
通过分析现有方案,主要存在以下不足:
1.利用HBase的协处理器技术来实现HBase的非rowkey属性索引,但因为HBase是0.92版本之后才引入协处理器功能,对HBase协处理器功能的研究还不是非常充分,其对查询的索引支持也十分有限,即协处理器还有待完善。
2.一些索引方案的查询过程需要执行两次RPC操作,当客户端进行查询操作时,首先执行第一次RPC操作,查询索引表得到对应的rowkey,如果查询结果为空则结束本次操作;然后执行第二次RPC操作,客户端利用rowkey对主表进行查询并得到最终结果,这必然会造成系统开销的增大从使检索的效率降低;另外第一次的RPC调用中还存在大量随机读的问题,同样使检索的效率降低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海昂创信息技术有限公司,未经上海昂创信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911350573.6/2.html,转载请声明来源钻瓜专利网。





