[发明专利]一种分布式文件系统架构下的文件管理方法及装置在审
| 申请号: | 202011211385.8 | 申请日: | 2020-11-03 |
| 公开(公告)号: | CN112328550A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 吴名先;郑丕伟 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
| 主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/182 |
| 代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
| 地址: | 518054 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 文件系统 架构 文件 管理 方法 装置 | ||
本发明公开了一种分布式文件系统架构下的文件管理方法及装置。该方法包括:遍历分布式文件系统中目标存储器内所有文件,并在遍历的过程中获取各个文件的文件属性信息和统计目标存储器中文件的数量;读取目标存储器的存储属性信息,然后利用文件属性信息、存储属性信息及目标存储器中文件的数量生成目标存储器的不饱和因子;其中,不饱和因子用于表征目标存储器的文件冗余状态;发出与不饱和因子所处范围相对应的控制指令。该装置包括目标存储器遍历模块、不饱和因子生成模块及控制命令发出模块。本发明能够对小文件冗余问题进行预警和报警,有效避免了现有技术导致影响用户正常使用等问题的出现,具有测量精准和用户体验佳等技术效果。
技术领域
本发明涉及分布式文件系统技术领域,更为具体来说,本发明为一种分布式文件系统架构下的文件管理方法及装置。
背景技术
目前,随着分布式文件系统的不断发展,用户能够获取的数据往往可呈指数倍地增长。其中,HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)属于分布式计算中数据存储管理的基础,具有高容错、高可靠性、高获得性、高吞吐率、高可扩展性等优点,能为海量数据提供可靠的存储,为超大数据集(Large Data)应用提供了便利。但是,HDFS中经常会出现小文件冗余的问题,目前的解决方案往往是小文件冗余出现后对存储器进行清理;然而这种解决方案仍会严重影响对HDFS的使用,在冗余问题出现后至冗余问题解决前这段时间内,存储器的性能会很差。可见常规的方案必然会影响到用户的使用和体验,亟需得到改进。
发明内容
为解决小文件冗余的现有处理方式存在的一段时间内存储器性能差和用户体验不好等问题,本发明创新地提供了一种分布式文件系统架构下的文件管理方法及装置,以解决现有技术存在的至少一个问题。
为实现上述技术目的,本发明公开了一种分布式文件系统架构下的文件管理方法,该文件管理方法可包括但不限于如下的步骤:遍历分布式文件系统中的目标存储器内所有文件,并在遍历的过程中获取各个文件的文件属性信息和统计所述目标存储器中文件的数量;读取目标存储器的存储属性信息,然后利用所述文件属性信息、所述存储属性信息及所述目标存储器中文件的数量生成目标存储器的不饱和因子;其中,所述不饱和因子用于表征目标存储器的文件冗余状态;发出与所述不饱和因子所处的范围相对应的控制指令。
进一步地,所述发出与所述不饱和因子所处的范围相对应的控制指令的步骤包括:判断所述不饱和因子所处的范围;在所述不饱和因子处于第一数值范围内时发出延迟返回控制指令,以在间隔设定时长后重新执行遍历所述目标存储器的步骤;在所述不饱和因子处于第二数值范围内时发出预警提示控制指令,以告知用户目标存储器有发生文件冗余的风险;在所述不饱和因子处于第三数值范围内时发出报警提示控制指令,以告知用户目标存储器已发生文件冗余的问题;且第一数值范围内各数值大于或等于第二数值范围内各数值大于或等于第三数值范围内各数值。
进一步地,在所述不饱和因子处于所述第二数值范围内或所述第三数值范围内时还包括发出文件合并控制指令的步骤;将文件属性信息的相似度大于第一阈值且合并后形成的新文件大小大于第二阈值的多个文件进行合并。
进一步地,将多个文件进行合并的步骤前还包括:对所有文件进行归类处理,并使待合并的多个文件处于同一目录下。
进一步地,在所述不饱和因子处于所述第二数值范围内或所述第三数值范围内时还包括如下步骤:基于各个文件大小对目标存储器内所有文件进行排序;按照由小到大的顺序将目标存储器中的文件转存到其他存储器,直至所述不饱和因子处于第一数值范围内。
进一步地,所述其他存储器包括其他物理位置上的存储器或在所述目标存储器上划分出的虚拟存储器。
进一步地,还包括设置倒计时器的步骤;检测到所述目标存储器首次运行时启动所述倒计时器;在所述倒计时器倒计时结束时发出遍历启动指令,以开始遍历分布式文件系统中的目标存储器内所有文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211385.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于决策树的呼叫数据处理方法、装置、设备及存储介质
- 下一篇:压缩机





