[发明专利]数据处理方法、装置、电子设备及系统在审

申请号：	202210388087.9	申请日：	2022-04-13
公开（公告）号：	CN115033547A	公开（公告）日：	2022-09-09
发明（设计）人：	折建峰;王琛;许明俊;赵一鸣	申请（专利权）人：	亚信科技（南京）有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/242;G06F16/2455;G06F16/27
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	210013 江苏省南京***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置电子设备系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种数据处理方法、装置、电子设备及系统。该数据处理方法，包括：获取分布式文件系统的至少一个待处理数据，确定每一待处理数据的第一字段所在的数值范围；将数值范围划分为至少两个子数值范围；基于至少两个子数值范围，将待处理数据划分为至少两个扩展元数据文件；基于每一扩展元数据文件的数据属性，新建扩展元数据；数据属性包括每一扩展元数据文件所在的子数值范围。本申请实施例通过新建扩展元数据，对数据进一步细分，使得后续查询时只需要查询第一字段的字段信息所在的扩展元数据文件的数据，不需要扫描整个分区下的所有数据，提高了查询效率，从而提高了查询性能，避免了延迟大的问题。

技术领域

本申请涉及数据处理的技术领域，具体而言，本申请涉及数据处理方法、装置、电子设备及系统。

背景技术

HDFS(Hadoop Distributed File System，分布式文件系统)是运行在通用硬件上的分布式文件系统，适用于大规模数据集。分布式文件系统的结构化数据文件可以被Hive映射成类似于数据库的分区表。

目前，Hive在分区表查询时，由于分区表的元数据，对应的数据量多，数据并未进一步细分，需要扫描整个分区下的所有数据文件，导致查询性能差和延迟大的问题。

发明内容

本申请实施例提供了一种数据处理方法、装置、电子设备及系统，用于解决由于数据没有进一步细分，导致查询性能差或延迟大的问题。

第一方面，本申请实施例提供一种数据处理方法，包括：

获取分布式文件系统的至少一个待处理数据，确定每一待处理数据的第一字段所在的数值范围；

将数值范围划分为至少两个子数值范围；

基于至少两个子数值范围，将待处理数据划分为至少两个扩展元数据文件；

基于每一扩展元数据文件的数据属性，新建扩展元数据；数据属性包括每一扩展元数据文件所在的子数值范围，扩展元数据存储在分布式文件系统中。