[发明专利]基于LSM-tree的分级存储方法、装置、OLAP数据库系统及介质在审
申请号: | 201711437794.8 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108021702A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 李超勇;牟宇航;马如悦 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lsm tree 分级 存储 方法 装置 olap 数据库 系统 介质 | ||
本发明提出一种基于LSM‑tree的分级存储方法,其特征在于,采用基于LSM‑tree的树形结构组织数据库的文件存储,将导入数据库的文件进行合并操作;所述合并操作包括累积合并操作和基本合并操作;所述累积合并操作包括:将第一类型文件进行合并操作,所述第一类型文件包括已导入数据库、未进行合并操作,且满足累积合并条件的文件;所述基本合并操作包括:将第二类型文件和所述累积合并操作生成的文件进行合并操作,所述第二类型文件包括已导入数据库、未进行合并操作,且不满足累积合并条件的文件。本发明提供的实施例提高了数据合并的效率,保证了存储引擎在大规模并发读写情况下的性能要求。
技术领域
本发明涉及信息技术领域,尤其涉及一种基于LSM-tree的分级存储方法、装置、OLAP数据库系统及介质。
背景技术
现有技术的OLAP(Online Analytical Processing,联机分析处理)数据库存储组织目前主要基于hdfs(Hadoop Distributed File System,Hadoop分布式文件系统)的块存储,数据库只负责文件格式,例如Hive的Orcfile,Spark的Parquet等。以Hive为例,Hive是建立在Hadoop上的数据仓库基础构架;Hive没有专门的数据存储格式,也没有为数据建立索引;Hive中所有的数据都存储在hdfs中,Hive中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket);Hive中的Table和数据库中的Table在概念上是类似的,每一个Table在Hive中都有一个相应的目录存储数据。现有OLAP数据库缺乏一个高效的存储组织,基于hdfs导致数据的读取、写入性能受限。
LSM-Tree(Log-Structured Merge-Tree,日志结构合并树)主要用在KV(Key-Value,键值)系统中,用在OLAP中主要是KV模拟OLAP操作,通过大量KV操作完成数据的扫描,聚合。KV数据库是使用键值存储数据库,这是一种NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织、索引和存储。现有基于LSM-Tree的实现多是基于KV存储,不提供关系模型的存储组织;且KV的LSM-Tree实现compaction(合并)往往只分为一层,对于OLAP数据库而言,compaction造成的IO高峰叠起。
发明内容
本发明实施例提供一种基于LSM-tree的分级存储方法、装置、OLAP数据库系统及介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种基于LSM-tree的分级存储方法,所述方法采用基于LSM-tree的树形结构组织数据库的文件存储,将导入数据库的文件进行合并操作;所述合并操作包括累积合并操作和基本合并操作;所述累积合并操作包括:将第一类型文件进行合并操作,所述第一类型文件包括已导入数据库、未进行合并操作,且满足累积合并条件的文件;所述基本合并操作包括:将第二类型文件和所述累积合并操作生成的文件进行合并操作,所述第二类型文件包括已导入数据库、未进行合并操作,且不满足累积合并条件的文件。
结合第一方面,本发明在第一方面的第一种实施方式中,所述累积合并条件包括文件的大小小于等于预设的文件大小阈值。
结合第一方面,本发明在第一方面的第二种实施方式中,还包括:在已导入数据库、未进行合并操作的文件数大于等于预设的第一文件数阈值的情况下,进行所述累积合并操作;或者,在所述第一类型文件的文件数大于等于预设的第一文件数阈值的情况下,进行所述累积合并操作。
结合第一方面,本发明在第一方面的第三种实施方式中,还包括:在所述累积合并操作生成的文件数大于等于预设的第二文件数阈值的情况下,进行所述基本合并操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711437794.8/2.html,转载请声明来源钻瓜专利网。