[发明专利]一种HDFS文件自动清理方法、装置及存储介质在审
| 申请号: | 202110045188.1 | 申请日: | 2021-01-13 |
| 公开(公告)号: | CN112800010A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 于胜强;史宁宁;户蕾蕾 | 申请(专利权)人: | 新华三大数据技术有限公司 |
| 主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/11;G06F16/182 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450000 河南省郑州市郑州高*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 hdfs 文件 自动 清理 方法 装置 存储 介质 | ||
1.一种HDFS文件自动清理方法,其特征在于,该方法应用于HDFS中的名称节点NameNode,所述方法包括:
当接收到为HDFS文件新增用于存储文件存活时间的扩展属性的请求时,从元数据中获取文件的文件标识,并根据所述扩展属性中的文件存活时间计算文件删除截止时间戳,将所述文件的文件标识及文件删除截止时间戳记录到文件存活时间记录表中;
按预设扫描周期扫描所述文件存活时间记录表,当发现超过文件删除截止时间戳的记录时,基于该记录中的文件标识,通过元数据命名空间树获取对应的文件名,根据文件名删除对应的文件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述NameNode中的元数据管理服务启动时,根据元数据命名空间树完成对HDFS上所有文件的遍历,从中获取所有文件的所述扩展属性,完成所述文件存活时间记录表的初始化。
3.根据权利要求1述的方法,其特征在于,
所述文件存活时间记录表为位于内存中的哈希表。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当接收到删除HDFS文件的请求时,判断请求删除的文件是否有用于存储文件存活时间的扩展属性,若有所述扩展属性则删除所述文件存活时间记录表中对应的记录。
5.根据权利要求1所述的方法,其特征在于,
当接收到查询HDFS文件的存储时间的请求时,通过HDFS文件系统提供的应用编程接口API获取所述扩展属性及从所述文件存活时间记录表获取文件删除截止时间戳返回给查询端。
6.一种HDFS文件自动清理装置,其特征在于,装置200应用于HDFS中的名称节点NameNode,该装置包括:
属性添加模块,用于在接收到为HDFS文件新增用于存储文件存活时间的扩展属性的请求时,从元数据中获取文件的文件标识,并根据所述扩展属性中的文件存活时间计算文件删除截止时间戳,将所述文件的文件标识及文件删除截止时间戳记录到文件存活时间记录表中;
自动清理模块,用于按预设扫描周期扫描所述文件存活时间记录表,当发现超过文件删除截止时间戳的记录时,基于该记录中的文件标识,通过元数据命名空间树获取对应的文件名,根据文件名删除对应的文件。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
初始化模块,用于在所述NameNode中的元数据管理服务启动时,根据元数据命名空间树完成对HDFS上所有文件的遍历,从中获取所有文件的所述扩展属性,完成所述文件存活时间记录表的初始化。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
删除模块,用于在接收到删除HDFS文件的请求时,判断请求删除的文件是否有用于存储文件存活时间的扩展属性,若有所述扩展属性则删除所述文件存活时间记录表中对应的记录。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
属性获取模块,用于在接收到查询HDFS文件的存储时间的请求时,通过HDFS文件系统提供的应用编程接口API获取所述扩展属性及从所述文件存活时间记录表获取文件删除截止时间戳返回给查询端。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序当被处理器执行时实施如权利要求1至5中任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045188.1/1.html,转载请声明来源钻瓜专利网。





