[发明专利]数据处理方法、装置、电子设备及系统在审
申请号: | 202210388087.9 | 申请日: | 2022-04-13 |
公开(公告)号: | CN115033547A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 折建峰;王琛;许明俊;赵一鸣 | 申请(专利权)人: | 亚信科技(南京)有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/242;G06F16/2455;G06F16/27 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 210013 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 系统 | ||
本申请实施例提供一种数据处理方法、装置、电子设备及系统。该数据处理方法,包括:获取分布式文件系统的至少一个待处理数据,确定每一待处理数据的第一字段所在的数值范围;将数值范围划分为至少两个子数值范围;基于至少两个子数值范围,将待处理数据划分为至少两个扩展元数据文件;基于每一扩展元数据文件的数据属性,新建扩展元数据;数据属性包括每一扩展元数据文件所在的子数值范围。本申请实施例通过新建扩展元数据,对数据进一步细分,使得后续查询时只需要查询第一字段的字段信息所在的扩展元数据文件的数据,不需要扫描整个分区下的所有数据,提高了查询效率,从而提高了查询性能,避免了延迟大的问题。
技术领域
本申请涉及数据处理的技术领域,具体而言,本申请涉及数据处理方法、装置、电子设备及系统。
背景技术
HDFS(Hadoop Distributed File System,分布式文件系统)是运行在通用硬件上的分布式文件系统,适用于大规模数据集。分布式文件系统的结构化数据文件可以被Hive映射成类似于数据库的分区表。
目前,Hive在分区表查询时,由于分区表的元数据,对应的数据量多,数据并未进一步细分,需要扫描整个分区下的所有数据文件,导致查询性能差和延迟大的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置、电子设备及系统,用于解决由于数据没有进一步细分,导致查询性能差或延迟大的问题。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取分布式文件系统的至少一个待处理数据,确定每一待处理数据的第一字段所在的数值范围;
将数值范围划分为至少两个子数值范围;
基于至少两个子数值范围,将待处理数据划分为至少两个扩展元数据文件;
基于每一扩展元数据文件的数据属性,新建扩展元数据;数据属性包括每一扩展元数据文件所在的子数值范围,扩展元数据存储在分布式文件系统中。
在一个可能的实现方式中,获取分布式文件系统的至少一个待处理数据,包括:
获取分布式文件系统的版本信息;
基于版本信息,确定分布式文件系统的根目录;
确定根目录中需要进行数据处理的至少一个分区目录;
将每一分区目录对应的数据,作为待处理数据。
在一个可能的实现方式中,将数值范围划分为至少两个子数值范围,包括:
确定根目录中需要进行数据处理的相关数据数量;相关数据数量包括以下至少一项:分区目录总数、文件总数;
基于相关数据数量,确定分区因子;分区因子用于确定每一子数值范围;
基于分区因子,将数值范围划分为至少两个子数值范围。
在一个可能的实现方式中,基于每一扩展元数据文件的数据属性,新建扩展元数据之后,包括:
基于每一扩展元数据文件,建立一个分区子目录;分区子目录为分区目录的下一级目录或同级目录,扩展元数据文件存储在分布式文件系统中;
将每一扩展元数据文件与分区子目录的对应关系,和/或每一扩展元数据文件所在的子数值范围与分区子目录对应关系,保存到扩展元数据。
第二方面,本申请实施例提供一种数据处理方法,包括:
获取查询信息,从查询信息中提取第一字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚信科技(南京)有限公司,未经亚信科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210388087.9/2.html,转载请声明来源钻瓜专利网。