[发明专利]一种面向云存储的分层索引方法与检索方法在审
申请号: | 201610975816.5 | 申请日: | 2016-11-07 |
公开(公告)号: | CN106599040A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 郭皓明;王之欣;魏闫艳;庞廓;田霂;焉丽 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 存储 分层 索引 方法 检索 | ||
技术领域
本发明属于分布式云存储系统索引技术研究与应用领域,具体涉及一种面向云存储的分层索引方法与检索方法。
背景技术
近年来,随着云计算、物联网、互联网等信息技术的快速发展,信息系统的形态发生较大变化,云化服务与全生态圈构建逐渐成为信息系统的发展趋势。这一趋势导致云端数据量呈爆发性增长,达到TB、PB级的规模,其增长速度已经远远超过传统摩尔定律。以中科院海云平台为例,其是一个典型的基于云计算的协同服务平台,通过海端实现数据的采集与前处理,通过云端实现数据的统一存储、查询、分析与知识提取。同时,云端通过自动负载均衡实现平台自适应。在以智慧城市为典型应用场景中,这一平台云端日数据增量规模达到10G以上。同时,这一平台不但要满足数据简单检索的要求,还要支撑各种挖掘、分析与知识提取活动中多值查询与布尔查询等复杂操作。随着数据规模的快速增长,如何在海量数据的基础上,面向云计算的动态环境,提供高性能复杂查询支撑成为一个重要难题。
查询是一种复杂的数据操作,当数据集达到一定规模后,数据查询的效率就成为信息系统性能的主要瓶颈。索引是实现提高数据检索与查询效率的重要手段。索引技术的组织方法有两个重要方向即正向索引与倒排索引。在传统的关系数据库中,倒排索引应用较为广泛。同时,根据索引的数据结构,又形成有序索引与散列索引基本类型。B+-Tree索引是典型的有序索引,其采以平衡树为基础,组织一维数据结构实现数据的检索,由于其结构高效等优点,其在传统的关系数据库中广泛应用。然而,在上述海云平台的应用环境中,数据集规模较大,这就导致B+-Tree的结构膨胀较为严重,同时,对于多值与布尔查询仍需要复杂的交叉过滤处理,因此整体查询效率受数据集规模影响较大。
2000年以来,数据规模膨胀导致的复杂查询困难问题引起了相关研究人员的注意。2004年Google等一批研究机构以云计算为基础,先后推出键值(key-value)数据库为代表的大数据存储、查询解决方案。基于key-value的的云数据存储查询技术具有高可扩展性、高可用性和容错性等特点,能够实现对海量数据的高效存储与查询的目的。key-value数据库,以散列索引为基础,通过rowkey与数据对象取值的哈希建立映射关系,针对rowkey索引无法排序的问题,研究人员又将其与B+Tree索引等技术相结合。key-value数据库在rowkey上的查询速度较快,但在非rowkey只能采用全表扫描的方式实现,虽然通过MapReduce等并行架构可以一定程度上提高查询速度,整体而言,针对多值查询与布尔查询的效率仍然较低,当数据集规模较大时,查询速度不能满足应用需求。
另一方面,分布式是当前大规模数据集存储管理采用的主流架构。以前述海云平台为例,其云端采用典型的并行数据存储管理架构,通过上层master节点实现资源调度与数据分发。通过底层worker节点实现数据本地存储,为了减少本地数据集IO负载,其内部采用分页(默认512k)的方式读写数据。同时,在云计算环境中,为了满足负载均衡的要求,数据会根据一定的调度策略在节点之间进行迁移。这就要求索引在支撑高性能复杂查询的同时,具有较好的迁移适应性。云计算环境中的上述问题导致索引创建、维护与查询操作的困难。
发明内容
围绕上述问题,本发明就云环境中海量数据索引技术开展研究工作。形成两层索引框架。其顶层为全局索引,该索引以数据的不同属性形成维度,为每个维度以散列倒排的方式建立取值与分页之间的映射关系。在底层的局部索引中建立与上层维度取值对应的索引,实现与本地存储分页中数据的映射。这一索引结构高效,平衡性与扩展性较好,该索引具有查询执行效率受数据集规模影响较小的特点,且支持多维与布尔查询。同时,在云环境节点发生变换时,仅在全局索引进行节点迁移的维护工作,索引维护较为简单,能够满足云存储环境的要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610975816.5/2.html,转载请声明来源钻瓜专利网。