[发明专利]数据存储方法、装置、电子装置在审
申请号: | 202010136861.8 | 申请日: | 2020-03-02 |
公开(公告)号: | CN111506569A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 叶腾飞 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/2455;G06F16/248 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 存储 方法 装置 电子 | ||
本发明提供了一种数据存储方法、装置、电子装置,其中,该方法包括:获取用户基于指定业务导出的原始数据文件;将原始数据文件上传至针对用户和指定业务的第一存储容器中;解析原始数据文件,确定原始数据文件的数据表;确定数据表的分区字段;根据数据表中每条记录的分区字段值,分别将每条记录以列式存储文件的格式存储至第二存储容器中对应的分区目录,并建立每条记录与原始数据文件的映射。通过本发明,对数据表按照一个或多个字段的维度进行分区,提高了查询效率。
技术领域
本发明涉及数据库领域,具体而言,涉及一种数据存储方法、装置、电子装置。
背景技术
数据湖是一种在系统或存储库中以自然格式存储数据的方法,数据湖对数据没有数据仓库和数据库的限制,它可以保存结构化、半结构化和非结构化等各种类型的数据,采用“读时模式(schema on read)”存储数据,也即,在用户上传数据时,不对数据进行检查和限制,数据加载仅仅是文件的复制和移动,便于用户将原始数据方便快捷的进行存储,尤其适用于在加载时无法确定查询需求、不能决定采用何种索引的情况。
随着对大数据的需求日益增长,企业逐渐开始采用数据湖存储数据,以达到更快捷获取大数据的目的。然而,由于数据湖采用读时模式存储数据,会降低数据的检索效率。现有技术中,通常采用每个用户在加载数据之后自行建立表结构、建立索引的方式来满足用户的检索需求,用户在每次加载数据之后都需要重复的建立表,效率较低。
发明内容
本发明实施例提供了一种数据存储方法、装置、电子装置,对数据表按照一个或多个字段的维度进行分区,提高了查询效率。
根据本发明的一个实施例,提供了一种数据存储方法,包括:获取用户基于指定业务导出的原始数据文件;将原始数据文件上传至针对用户和指定业务的第一存储容器中;解析原始数据文件,确定原始数据文件的数据表;确定数据表的分区字段;根据数据表中每条记录的分区字段值,分别将每条记录以列式存储文件的格式存储至第二存储容器中对应的分区目录,并建立每条记录与原始数据文件的映射。
可选的,确定原始数据文件的数据表包括:解析原始数据文件,建立原始数据文件的初始数据表;显示初始数据表的字段名以及预设行数的记录;接收用户对初始数据表的字段名的编辑操作;根据编辑操作确定数据表的字段名。
可选的,解析原始数据文件,建立原始数据文件的初始数据表,包括:根据原始数据文件中的标头,以预设格式生成初始数据表中的字段名。
可选的,在接收用户对初始数据表的字段名的编辑操作之后,该方法还包括:记录用户针对初始数据表中的字段名的编辑操作,其中,预设格式包括基于用户的历史编辑操作生成初始数据表中的字段名。
可选的,在根据原始数据文件中的标头,以预设格式生成初始数据表中的字段名之后,该方法还包括:针对原始数据文件中不存在标头的第一字段,与多个正则表达式分别进行匹配,其中,每个正则表达式预先配置有对应的字段名;如果在多个正则表达式中匹配到对应的正则表达式,将匹配到的正则表达式对应的字段名赋给第一字段。
可选的,在根据原始数据文件中的标头,以预设格式生成初始数据表中的字段名之后,该方法还包括:针对原始数据文件中不存在标头的第二字段,在第一存储容器中搜索第二字段的内容;将搜索排名最高的字段所对应的字段名赋给第二字段。
可选的,针对第二存储容器,以预设间隔时间为周期,统计用户在预设间隔时间内查询字段名的频次,在用户查询频次超过预设阈值的字段名时更新对第二存储容器内的分区字段。
可选的,将用户针对第二存储容器中的指定字段名进行查询的查询结果缓存表存储第二存储容器中,其中,在用户再次查询指定字段名时,第二存储容器中上次查询之后的新增数据表中查询,并将查询结果与查询结果缓存表合并之后显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010136861.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置