[发明专利]一种文件管理方法、装置与介质在审
申请号: | 202110290894.2 | 申请日: | 2021-03-18 |
公开(公告)号: | CN113010479A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 姬贵阳 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/17;G06F16/182 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春辉 |
地址: | 250001 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 管理 方法 装置 介质 | ||
本申请公开了一种文件管理方法、装置与介质,其中该方法针对文件系统的文件目录进行标签制作,由于该文件目录标签里包括文件目录的至少一种参数,例如文件目录的大小、文件目录下的文件夹个数以及文件个数等,因此AI平台通过计算节点进行文件读取和传输时,尤其是在对大文件操作时,可以直接获取到文件目录标签,避免了计算节点通过网络对文件的大小和个数的统计操作,保证了文件通过I/O在网络上的使用效率,提高了文件目录遍历读写时的速度。同时,又由于读写速度的提高,所以降低了文件输出对AI平台I/O资源的占用,提高了模型训练的效率,提高了AI平台的算法人员使用AI平台的性能体验。
技术领域
本申请涉及互联网技术领域,特别是涉及一种文件管理方法、装置与介质。
背景技术
随着人工智能(Artificial Intelligence,AI)的快速发展,越来越多的科研企业和高校研究人员在AI平台上进行深度学习模型的训练,AI平台的一项重要功能是通过计算节点对网络存储(Network Storage)的文件进行读写操作,网络存储都是通过网络挂载到各个计算节点上。
目前,AI平台对于文件的操作,一般需要进行展示操作和传输操作,但是展示之前需要不断地通过网络进行文件目录的大小统计,传输之前也需要进行文件目录分块、打包,需要了解文件目录结构以及文件大小,以此判断磁盘空间剩余。由于文件的分块存放,就目前技术来说,对于大规模集群的AI平台的文件读写和传输,由于网络等各种原因,读写速度异常缓慢,文件目录的遍历在并发的情况下效率非常低,读取有时会出现lock导致卡住的情况。同时,文件目录的遍历会占用AI平台的大量资源,导致集群读写I/O较高,这会对其他模型的正常训练造成影响,也会影响到AI平台中其它模块的使用。
基于此,如何提高文件目录遍历读写时的速度、降低文件输出对AI平台资源的占用是本领域技术人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种文件管理方法、装置与介质,用于提高文件目录遍历读写时的速度,降低文件输出对AI平台I/O资源的占用。
为解决上述技术问题,本申请提供一种文件管理方法,包括:
获取文件系统的文件目录;
为所述文件目录构建文件目录标签;
在获取到计算节点的获取请求时,将所述文件目录标签发送至所述计算节点;
其中,所述文件目录标签包括所述文件目录的至少一种参数。
优选地,在所述获取文件系统的文件目录之后,还包括:
通过哈希算法对所述文件目录进行排码以构建文件目录有序队列。
优选地,在所述为所述文件目录构建文件目录标签之后,还包括:
监控所述文件目录;
在所述文件目录发生变化的情况下,更新所述文件目录标签。
优选地,所述在所述文件目录发生变化的情况下,更新所述文件目录标签,具体包括:
锁定所述文件目录标签;
根据所述文件目录的变化情况,对所述文件目录标签进行修改;
释放所述文件目录标签。
优选地,所述监控所述文件目录具体为:
通过Inotify对所述文件目录进行监控。
优选地,在所述通过Inotify对所述文件目录进行监控之后,还包括:
获取Inotify发送的所述文件目录的变化列表。
优选地,所述获取请求具体在所述计算节点进行文件传输时发送。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110290894.2/2.html,转载请声明来源钻瓜专利网。