[发明专利]海量数据存储的方法及终端设备在审
申请号: | 201910126297.9 | 申请日: | 2019-02-20 |
公开(公告)号: | CN109918374A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 田森;常子祯;安平凯;黄小浦 | 申请(专利权)人: | 中科恒运股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 石家庄国为知识产权事务所 13120 | 代理人: | 赵宝琴 |
地址: | 050090 河北省石家庄市新石*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 列数据 海量数据存储 待存储数据 终端设备 预设 存储空间利用率 数据处理技术 存储空间 存储 | ||
本发明适用于数据处理技术领域,提供了一种海量数据存储的方法及终端设备,该方法包括:获取待存储数据;将所述待存储数据按照多个预设属性进行划分为多个列数据,每个列数据对应一个预设属性;采用面向列的形式,存储所述多个列数据,可以减少存储空间,提高存储空间利用率。
技术领域
本发明属于数据处理技术领域,尤其涉及一种海量数据存储的方法及终端 设备。
背景技术
随着Internet技术的飞速发展,运行于Internet上的各种应用和服务也随之 大量涌现,大数据的时代已经来临。对于海量数据的存储,通常采用以行的形 式进行数据的存储,即每一行存储一条记录的各个属性,每一个属性都需要占 用存储空间。然而,采用现有技术存储海量数据,由于一条记录中的每一个属 性都需要占用存储空间,导致存储空间利用率较低。
发明内容
有鉴于此,本发明实施例提供了一种海量数据存储的方法及终端设备,以 解决现有技术中存储、读取海量数据,由于一条记录中的每一个属性都需要占 用存储空间,导致存储空间利用率较低的问题。
本发明实施例的第一方面提供了一种海量数据存储的方法,包括:
获取待存储数据;
将所述待存储数据按照多个预设属性进行划分为多个列数据,每个列数据 对应一个预设属性;
采用面向列的形式,存储所述多个列数据。
在一实施例中,在将所述待存储数据按照多个预设属性进行划分为多个列 数据,每个列数据对应一个预设属性之后,所述方法还包括:
确定所有列数据中的主键数据对应的主键列数据;
按照所述主键列数据、除所述主键列数据之外的列数据顺序排列。
在一实施例中,在所述按照所述主键列数据、除所述主键列数据之外的列 数据顺序排列之后,所述方法还包括:
将所述所有列数据按预设规则进行分区,获得分区后的列数据。
在一实施例中,所述将所述所有列数据按预设规则进行分区,获得分区后 的列数据,包括:
将所述主键列数据按预设规则分区,获得分区后的主键列数据;
将除所述主键列数据之外的列数据按照所述主键列数据的分区方式进行分 区,获得分区后的列数据。
在一实施例中,在所述将所有列数据按预设规则进行分区,获得分区后的 列数据之后,所述方法还包括:
根据业务需求的数据的属性,确定对应的需求列数据;
按照业务需求建立各个分区与所述需求列数据的索引表,所述索引表包括 索引号、分区标号和所述分区标号对应的所述需求列数据。
在一实施例中,所述采用面向列的形式,存储所述多个列数据,包括:
将所述分区后的列数据进行压缩,采用面向列的形式将压缩后的列数据进 行存储。
在一实施例中,所述将所述分区后的列数据进行压缩,包括:
A、将所述列数据中的任一第一数据存入缓存中,将所述第一数据中各个 字节依次与第一存储区内存储的第二数据的字节进行比较;
B、若所述第一数据与所述第二数据进行首次匹配且无相同字节时,确定 所述第一数据中待压缩字节的首字母位置信息为第一信息,输出所述第一数据 中进行比较的字节,并将所述第一数据中进行比较的字节依次存储在所述第一 存储区,直至所述第一存储区内存储的所述第二数据的字节数满足预设字节长 度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科恒运股份有限公司,未经中科恒运股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910126297.9/2.html,转载请声明来源钻瓜专利网。