[发明专利]一种文件清理的方法和装置有效
申请号: | 201710605799.0 | 申请日: | 2017-07-24 |
公开(公告)号: | CN110019026B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 何林艳 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 清理 方法 装置 | ||
本发明公开了文件清理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:删除Hive外部表,然后确定删除所述Hive外部表对应的数据文件;根据预设的外部表结构信息表,获取所述外部表对应的数据文件,以删除所述对应的数据文件。该实施方式能够在Hive外部表被删除时,就会联动的对关联的数据文件进行处理。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件清理的方法和装置。
背景技术
Hive开发是大数据开发必备技能,工程师只要进行数据开发就需要创建表来存储数据。Hive上建表分为内部表和外部表,因开发需要或随着需求业务的变化,之前创建的内部表或者外部表没用了,工程师便会删除表及相应的hdfs数据文件,避免Hive数据库中存在大量的无用表。一般用drop命令删除内部表的时候,对应的数据文件也删除了,但用drop删除外部表的时候,只是删除了表结构即只是删除了元数据,而没用删除相应的hdfs数据文件。在实际应用中,工程师经常会删除表结构后并不会删除相应的hdfs数据文件或者一些新手并不了解内外部表存在这样的差异,根本不知道hdfs数据文件需要另外删除。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:目前删除无用hdfs数据文件是人工的方式处理:当发现集群存储空间报警了,才会从一堆hdfs数据文件中手工删除无用的。而且,表元数据一旦被删除后,hdfs数据文件被遗留在集群里,等后续清理存储空间时再来删除就很难确定这些数据文件是否有用。即使明确了某些hdfs数据文件无用,还得另外执行命令删除。
发明内容
有鉴于此,本发明实施例提供一种文件清理的方法和装置,能够快速、准确地删除Hive外部表及其对应的数据文件。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文件清理的方法,包括:删除Hive外部表,然后确定删除所述Hive外部表对应的数据文件;根据预设的外部表结构信息表,获取所述外部表对应的数据文件,以删除所述对应的数据文件;其中,所述的外部表结构信息表中存储Hive外部表信息与数据文件信息的映射关系。
可选地,所述删除Hive外部表之后,还包括:确定不删除所述Hive外部表对应的数据文件;获取删除所述Hive外部表对应的数据文件的时间,然后将所述时间和所述Hive外部表存储到配置表中;确认达到所述时间时,在所述配置表中获取所述Hive外部表;然后根据预设的外部表结构信息表,获取所述Hive外部表对应的数据文件,以删除所述对应的数据文件;其中,所述的外部表结构信息表中存储Hive外部表信息与数据文件信息的映射关系。
可选地,所述外部表结构信息表中还存储Hive外部表信息与用户信息的映射关系;确认达到所述时间之前,包括:确定当前时间与所述删除数据文件的时间的差等于或小于预设的时间差,然后在所述配置表中获取所述Hive外部表;根据预设的外部表结构信息表,获取所述Hive外部表对应的用户信息;监测所述用户登录,提示所述数据文件将在所述时间删除。
可选地,获取删除所述Hive外部表对应的数据文件的时间之前,还包括:在所述的外部表结构信息表中,标记所述Hive外部表已经删除。
可选地,还包括:监控所述外部表结构信息表,确定标记已经删除的所述Hive外部表在所述配置表中没有删除对应数据文件的时间;将默认删除时间和所述Hive外部表存储到所述配置表中。
可选地,删除所述对应的数据文件之后,还包括:删除所述预设外部表结构信息表中的所述Hive外部表信息和对应的数据文件信息。
根据本发明实施例的另一个方面,还提供了一种文件清理的装置,包括:外部表删除模块,用于删除Hive外部表;判断模块,用于确定删除所述Hive外部表对应的数据文件;数据文件删除模块,用于根据预设的外部表结构信息表,获取所述外部表对应的数据文件,以删除所述对应的数据文件;其中,所述的外部表结构信息表中存储Hive外部表信息与数据文件信息的映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710605799.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流数据处理方法和装置
- 下一篇:一种文件夹命名的方法及终端