[发明专利]一种分布式文件清理方法、装置和系统在审
申请号: | 202111304562.1 | 申请日: | 2021-11-05 |
公开(公告)号: | CN113986867A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 张艺;张志海;林丹;李俊谦 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/16;G06F16/174 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 赵平;董骁毅 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 文件 清理 方法 装置 系统 | ||
本发明实施例提供了一种分布式文件清理方法、装置和系统,可用于人工智能技术领域,所述方法包括:按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;统计出待处理对象的对象数量;若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理,可以对HDFS文件进行部分删除,释放存储资源,从而能够节约集群存储空间,降低存储成本。
技术领域
本发明涉及计算机技术领域,特别涉及人工智能技术领域,尤其涉及一种分布式文件清理方法、装置和系统。
背景技术
对象存储是互联网中经常使用的技术,在对象存储系统中,将多个对象合并成一个大文件存储在海杜普分布式文件系统(Hadoop Distributed File System,简称:HDFS)中,将每个对象在大文件中的位置信息作为索引写入分布式存储系统(HBase)中。在大数据时代,对象存储系统中的数据增长极为迅速,系统中无效或失效对象将会占据相当大的存储空间。HDFS一次写入多次读取的特性,导致无法对HDFS文件进行部分删除,造成集群存储空间极大浪费,对象存储系统的成本过高。
发明内容
本发明的一个目的在于提供一种分布式文件清理方法,可以对HDFS文件进行部分删除,释放存储资源,从而能够节约集群存储空间,降低存储成本。本发明的另一个目的在于提供一种分布式文件清理装置。本发明的再一个目的在于提供一种分布式文件清理系统。本发明的还一个目的在于提供一种计算机可读介质。本发明的还一个目的在于提供一种计算机设备。
为了达到以上目的,本发明一方面公开了一种分布式文件清理方法,包括:
按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;
统计出待处理对象的对象数量;
若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;
根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理。
优选的,数据生命周期表包括用户、业务种类和热集群存储时长;
按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象,包括:
将分布式文件中的对象的用户和业务种类与数据生命周期表中的用户和业务种类进行匹配,生成对应的热集群存储时长;
根据分布式文件中的对象的写入时间和当前时间,生成当前存储时长;
若当前存储时长大于或等于热集群存储时长,将分布式文件中的对象确定为待处理对象。
优选的,根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理,包括:
根据数据生命周期表和预设的对象状态对应的处理方式,对待处理对象进行清理;
根据预设的对象状态对应的处理方式,对除待处理对象之外的对象进行清理。
优选的,数据生命周期表还包括是否写入温集群;
根据数据生命周期表和预设的对象状态对应的处理方式,对待处理对象进行清理,包括:
若待处理对象对应的是否写入温集群的值为是,确定对象状态为温数据状态;
将待处理对象写入设置的温集群;
将待处理对象的索引字段修改为预设的温集群索引值,并将待处理对象的索引路径修改为温集群的地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111304562.1/2.html,转载请声明来源钻瓜专利网。