[发明专利]一种HDFS文件自动清理方法、装置及存储介质在审
| 申请号: | 202110045188.1 | 申请日: | 2021-01-13 |
| 公开(公告)号: | CN112800010A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 于胜强;史宁宁;户蕾蕾 | 申请(专利权)人: | 新华三大数据技术有限公司 |
| 主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/11;G06F16/182 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450000 河南省郑州市郑州高*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 hdfs 文件 自动 清理 方法 装置 存储 介质 | ||
本公开提供了一种HDFS文件自动清理方法、装置及存储介质,用于解决HDFS中无法基于生存时间对文件进行自动清理的技术问题。本公开为HDFS文件增加存储文件存活时间的扩展属性,根据文件存活时间计算文件删除截止时间戳,通过文件存活时间记录表记录所有文件的文件标识和文件删除截止时间戳,通过周期性的清理操作自动清理超过存活时间的文件。本公开解决了HDFS中对文件没有生命周期管理的缺陷,避免了一些消费性、无价值、历史归档等冷数据一直占用宝贵的存储资源,节省了人工处理删除数据的成本,提高了数据处理删除的效率和存储空间的价值。
技术领域
本公开涉及分布式存储及大数据技术领域,尤其涉及一种HDFS文件自动清理方法、装置及存储介质。
背景技术
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一个高度容错性的分布式存储系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
HDFS采用分而治之的设计思想,将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。在大数据生态系统中为各类分布式运算框架(如:MapReduce,Spark,tez等)提供数据存储服务。
HDFS架构中,名称节点NameNode负责文件和目录的创建、删除和重命名等,同时管理数据节点与文件块的映射关系。数据节点DataNode负责数据的存储和读取。
客户端读取数据会先访问名称节点,获取数据块对应数据节点的位置,进而读取数据,写入数据也会由名称节点分配存储位置,再向对应数据节点写入数据。
由于HDFS分布式文件系统广泛的使用场景,里面往往存放着各式各样的文件如:文本文件、二进制文件、序列化文件、面向行列存储格式的数据文件以及视频、图片、资料文档等多媒体文件,其中不乏有一些消费性的、无价值的、历史归档的冷数据,一直在占用着宝贵的存储资源。虽然可以通过实施使用规范来达到一定的目的,但是人工处理冷数据的成本非常高,而且效率非常低下。
HDFS提供了类似Windows文件系统的回收站,删除的文件或目录会临时移动到当前操作用户的回收站目录中如:/user/hdfs/.Trash/Current中,NameNode服务中有专门的垃圾清理守护线程TrashEmptier服务定期对回收站中的Current目录以重命名为时间戳(格式为yyMMddHHmmss)的方式创建检查点checkpoint,并删除之前创建的历史检查点,来达到定期清理删除垃圾回收站中文件或目录的目的。
目前该垃圾清理守护线程TrashEmptier服务在社区发布版本中是不启动的,可以通过配置fs.trash.interval的值大于0进行启用如:fs.trash.interval=30(单位:分钟),即每30分钟会把HDFS文件系统中所有用户的垃圾回收站中当前的文件目录Current重命名来创建检查点,并把之前创建的历史检查点给清理删除掉。
HDFS也提供了手动执行shell命令:hadoop fs-expunge的方式来清理回收站中历史检查点数据的方法,但是此方法仅适用当前操作用户的垃圾回收站。
然而,HDFS垃圾回收站仅对已经删除(逻辑删除)的文件或目录进行定期清理,需要对文件或目录进行事先逻辑删除,才能够使用到HDFS垃圾回收站。此外,垃圾回收站无法实现根据数据的冷热或生存时间进行自动清理的功能。
发明内容
有鉴于此,本公开提供一种HDFS文件自动清理方法、装置及存储介质,用于解决HDFS中无法基于生存时间对文件进行自动清理的技术问题。
图1为本公开提供的HDFS文件自动清理方法的步骤流程图,该方法应用于HDFS中的名称节点NameNode,该方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045188.1/2.html,转载请声明来源钻瓜专利网。





