[发明专利]混合文件存储方法及装置在审
申请号: | 201811531340.1 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109684293A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中国人民银行清算总中心 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛 |
地址: | 100048 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混合文件 组元 存储 读取 待存储文件 存储规则 存储空间 分析文件 明细查询 生成数据 数据存储 数据对应 统计查询 信息存储 原信息 预设 分析 | ||
本发明提供了一种混合文件存储方法及装置。所述方法包括:读取待存储文件中的数据;分析所述数据,并生成数据明细;根据所述数据明细,生成页组元信息;根据预设存储规则,将所述数据及所述页组元信息存储至对应的存储空间中。本发明通过分析文件数据,得到数据对应的页组原信息,使得数据存储更加完善、便捷,此外还实现了既可以满足明细查询的需求,也可以满足统计查询的需求的目的。
技术领域
本发明涉及混合文件存储技术领域,尤指一种混合文件存储方法及装置。
背景技术
在大数据应用场景下,通常会包含明细查询和统计查询两种应用需求。明细查询通过指定条件从结构化数据中过滤出符合条件的多行数据,比如以Hbase为例,通过建立行键索引,可以快速查询出符合条件的数据,数据通常在逻辑上以完整行的形式返回。统计查询通常通过指定条件进行数据过滤,只需返回某些列的数据即可,再加上聚合等算子操作完成最终的统计数据返回,比如通过hive执行groupby操作,完成针对parquet格式的数据聚合。Hbase的行键设计和数据以列族形式组织存储,以及针对统计查询的parquet行列存储格式可以非常有效的适用于上述两种大数据应用场景下的数据高效查询需求。但是其弊端是有时为了同时满足上述两种场景的结果响应时间要求,有时不得不存储两份数据,以空间换时间的方式满足需求。
发明内容
为了解决现有混合文件存储技术中存在的存储效率低、浪费存储空间等问题,本发明实施例提供一种混合文件存储方法,所述方法包括:
读取待存储文件中的数据;
分析所述数据,并生成数据明细;
根据所述数据明细,生成页组元信息;
根据预设存储规则,将所述数据及所述页组元信息存储至对应的存储空间中。
可选的,在本发明一实施例中,逐条读取所述待存储文件中的数据;当读取的数据条数达到预设条数时,分析所述预设条数的数据,并生成所述预设条数的数据对应的数据明细。
可选的,在本发明一实施例中,所述页组元信息包括:数据条数信息、数据长度信息、数据排序信息及加总统计值。
可选的,在本发明一实施例中,所述根据预设存储规则,将所述数据及所述页组元信息存储至对应的存储空间中包括:根据所述预设存储规则,将所述数据及所述页组元信息转换为连续的二进制数据,将所述二进制数据顺序存储在对应的存储空间中。
本发明实施例还提供一种混合文件存储装置,所述装置包括:
读取单元,用于读取待存储文件中的数据;
分析单元,用于分析所述数据,并生成数据明细;
元信息单元,用于根据所述数据明细,生成页组元信息;
存储单元,用于根据预设存储规则,将所述数据及所述页组元信息存储至对应的存储空间中。
可选的,在本发明一实施例中,所述装置还包括:逐条读取单元,用于逐条读取所述待存储文件中的数据;部分数据分析单元,用于当读取的数据条数达到预设条数时,分析所述预设条数的数据,并生成所述预设条数的数据对应的数据明细。
可选的,在本发明一实施例中,所述页组元信息包括:数据条数信息、数据长度信息、数据排序信息及加总统计值。
可选的,在本发明一实施例中,所述存储单元包括:数据转换模块,用于根据所述预设存储规则,将所述数据及所述页组元信息转换为连续的二进制数据,将所述二进制数据顺序存储在对应的存储空间中。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
读取待存储文件中的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民银行清算总中心,未经中国人民银行清算总中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811531340.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种闪存数据库快速进行数据恢复的方法
- 下一篇:小文件处理方法及分布式系统