[发明专利]一种分布式存储系统中多维数据的存储模式转换方法有效
申请号: | 201711168592.8 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107943927B | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 王建民;龙明盛;孙家广;杜兴强;黄向东 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 存储系统 多维 数据 存储 模式 转换 方法 | ||
本发明提供一种分布式存储系统中多维数据的存储模式转换方法,该方法包括:S1,根据当前数据表的当前行键集合和目标数据表的目标行键集合,获取公共行键集合和原始行键集合;S2,对原始行键集合中所有维度的所有取值进行分区,并对所有分区并行扫描,以读取每一个分区中的所有取值;S3,根据所有分区中的每一个取值,逐条读取当前数据表中对应的多维数据;S4,根据目标行键集合,将读取出的每一条多维数据,写入目标数据表中。本发明提供的方法,在读取多维数据之时,避免了节点之间的网络传输,提高了多维数据的读取效率,减少了多维数据存储模式转换过程中的开销,进而提升了多维数据存储模式转换效率。
技术领域
本发明涉及计算机数据管理技术领域,更具体地,涉及一种分布式存储系统中多维数据的存储模式转换方法。
背景技术
多维数据是指某些维度具有顺序关系的数据集合,以这种数据为基础的应用广泛存在。例如,在气象预报中,用户需要使用预报模式、物理量类型、预报时刻、预报时效、地理高度等五个维度共同刻画一个气象预报数据。在将海量的多维数据存储在分布式存储系统中时,可以选取多维数据中的某些维度作为键(Key),根据键值将数据分布到分布式存储系统之中,这样就能快速地通过行键对数据进行各种操作。
分布式计算系统是处理海量数据的有效工具,而分布式存储系统作为整个分布式系统中最底层的架构,起着非常重要的作用。现在新兴的分布式存储系统中,以HBase,Cassandra为代表的基于键值的分布式存储系统广泛应用于海量数据处理的场景。一个典型的分布式存储系统由N个节点组成,通过列族名(ColumnFamily)确定一张表,行键(RowKey)和列名(ColumnName)唯一的映射到表中的一个值(Value),数据会根据行键被系统分布到不同的节点之上。分布式存储系统是一种面向行的存储系统,弱化了表的结构,用户可以自由的向列族中添加数据,而不必拘泥于事先定义好的表结构。
不同的大数据应用对数据的访问模式有不同的要求,多维数据存储在分布式存储系统中的不同存储模式会对大数据应用的效率产生巨大的影响。而数据量很大的时候,数据在不同的存储模式之下的转换效率非常低下,因此对此问题进行优化非常有必要。
多维数据在存储到分布式存储系统之时需要选取一部分维度作为行键进行存储,这就导致一个问题:多维数据选取不同的维度作为行键进行存储,将会直接影响数据的查询速度,这可能与具体的业务有关。因此需要将数据的模式进行转换,即将分布式存储系统中的多维数据转化为以另外某些维度作为行键进行存储。利用分布式计算系统从分布式存储系统中进行读取数据转换之后存入另一张新表之中,在数据量非常大的情况之下,分布式计算系统将会产生大量的读取请求,与分布式存储系统之间建立会话进行读取数据。这一操作极其耗时,难以接受。而实质上,大量会话的建立是非常冗余的,极大地降低了多维数据的存储模式转换效率。
发明内容
本发明提供一种克服现有的对于多维数据的存储模式转换效率极低的问题的分布式存储系统中多维数据的存储模式转换方法。
根据本发明的一个方面,提供一种分布式存储系统中多维数据的存储模式转换方法,所述转换方法包括:
S1,根据当前数据表的当前行键集合和目标数据表的目标行键集合,获取公共行键集合和原始行键集合;所述公共行键集合为所述当前行键集合和所述目标行键集合中共有的维度集合;所述原始行键集合为存在于所述当前行键集合中,但不存在于所述目标行键集合中的维度集合;
S2,对所述原始行键集合中所有维度的所有取值进行分区,并对所有分区并行扫描,以读取每一个分区中的所有取值;
S3,根据所有分区中的每一个取值,逐条读取所述当前数据表中对应的多维数据;
S4,根据所述目标行键集合,将读取出的每一条多维数据,写入所述目标数据表中。
优选地,步骤S1之前还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711168592.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置