[发明专利]文件整理方法、装置及相关设备有效
申请号: | 201911311295.3 | 申请日: | 2019-12-18 |
公开(公告)号: | CN112988696B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 徐陇浙 | 申请(专利权)人: | 浙江宇视科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李莎 |
地址: | 310000 浙江省杭州市滨江区西兴街道江陵路*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 整理 方法 装置 相关 设备 | ||
本发明实施例提出一种文件整理方法及相关设备,涉及分布式文件系统领域。通过获取多个待处理文件的块数据分布情况,并根据每个块数据分布情况分别确定每个待处理文件的节点关联顺序,根据多个待处理文件的节点关联顺序将多个待处理文件拆分为多个分区,基于每个分区包括的待处理文件的文件路径生成合并任务,将每个合并任务分发至与每个分区对应的存储节点。由于按照每个文件的块数据分布情况进行分区,并由每个分区对应的存储节点对该分区内的文件进行合并,以保证在合并过程中,尽量减少从其他节点读取文件块数据,从而能有效减少数据合并时的网络I/O开销;同时,由于可以在多个存储节点上分别进行合并任务,有效提升了合并速度和性能。
技术领域
本发明涉及分布式文件系统领域,具体而言,涉及一种文件整理方法、装置及相关设备。
背景技术
Parquet是一种高压缩比的列式数据存储格式,通常基于分布式文件系统(HadoopDistributed File System,HDFS)存储海量静态数据,而使用Spark分布式计算框架可以对Parquet文件进行查询和数据挖掘。然而,Parquet文件是静态不可更新的,当需要添加新的数据时,就需要生成新的Parquet文件,从而随着数据量的增加,Parquet文件也就越来越多,这会影响HDFS的读写性能以及Spark等计算框架的性能。因此,需要对这些Parquet文件进行合并和整理,以保证文件大小数量合理。
现有技术中,可通过Spark直接对多个Parquet文件数据进行逐条读取,然后再写入到新的文件中。然而,Parquet文件在HDFS上是分块存储的,一个Parquet文件可能会被分为多个块,存储在不同的集群节点上;同时,一个文件块也有多个备份,文件合并时,如果不考虑数据本地性(即数据与计算最好在同一个节点),会导致合并过程中更多的数据在集群节点间拷贝,浪费网络IO性能。此外,在进行数据合并时,会将所有数据发送到一个节点以生成新的文件,这不仅会浪费网络IO性能,还存在并行度较低的问题。
发明内容
有鉴于此,本发明的目的在于提供一种文件整理方法、装置及相关设备,以解决上述问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,实施例提供一种文件整理方法,应用于分布式存储系统的管理节点,所述分布式存储系统还包括多个存储节点,所述管理节点与多个所述存储节点通信连接,所述方法包括:
获取多个待处理文件的块数据分布情况,每个所述块数据分布情况用于反映一个所述待处理文件包括的多个块数据所在的存储节点;
根据每个所述块数据分布情况分别确定每个所述待处理文件的节点关联顺序,其中,每个所述节点关联顺序用于反映一个所述待处理文件与每个所述存储节点的关联程度;
根据多个所述待处理文件的节点关联顺序将多个所述待处理文件拆分为多个分区,以使每个所述分区与一个所述存储节点对应;
基于每个所述分区包括的待处理文件的文件路径生成合并任务;
将每个所述合并任务分发至与每个所述分区对应的所述存储节点,以使每个所述存储节点对与所述存储节点对应的所述分区包括的待处理文件进行合并操作。
第二方面,实施例提供一种文件整理装置,应用于分布式存储系统的管理节点,所述分布式存储系统还包括多个存储节点,所述管理节点与多个所述存储节点通信连接,所述装置包括:
分布情况确定模块,用于获取多个待处理文件的块数据分布情况,每个所述块数据分布情况用于反映一个所述待处理文件包括的多个块数据所在的存储节点;
关联顺序确定模块,用于根据每个所述块数据分布情况分别确定每个所述待处理文件的节点关联顺序,其中,每个所述节点关联顺序用于反映一个所述待处理文件与每个所述存储节点的关联程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江宇视科技有限公司,未经浙江宇视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911311295.3/2.html,转载请声明来源钻瓜专利网。