[发明专利]面向广域网络文件系统的自适应快速增量预读方法有效

专利信息
申请号: 202010470526.1 申请日: 2020-05-28
公开(公告)号: CN111787062B 公开(公告)日: 2021-11-26
发明(设计)人: 肖利民;常佳辉;秦广军;霍志胜;宋尧;周汉杰;徐耀文;王超波 申请(专利权)人: 北京航空航天大学
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06;G06F16/16;G06F16/172
代理公司: 北京海虹嘉诚知识产权代理有限公司 11129 代理人: 吴小灿;张涛
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 广域 网络 文件系统 自适应 快速 增量 方法
【说明书】:

发明提出一种面向广域网络文件系统的自适应快速增量预读方法,其特征在于,客户端对特定数量的文件维护一个预读缓存块,当文件读请求由内核转至客户端时,客户端根据保存的缓存上下文决定是否新增缓存块大小或是替换缓存块,以及预取内容的大小;当文件访问服务节点接收到文件请求后,同样对文件预取保存在主存中以便快速响应文件的预取请求。本发明适用于广域高性能计算环境的CS架构中,运行于文件访问服务节点以及客户端节点上,具有良好的稳定性和可扩展性,能根据实际运行情况自适应的动态调整预取大小,以及缓存块的数量,提升远程文件数据访问性能和可用性。

技术领域:

本发明公开了一种面向广域网络文件系统的自适应快速增量预读方法,涉及广域高性能计算面临的挑战,属于计算机技术领域。

背景技术:

网络文件系统是文件系统之上的一个网络抽象,允许远程客户端以与本地文件系统类似的方式,通过网络进行对远程文件进行访问,目前已有的应用较为广泛的网络文件系统包括NFS、Lustre、Ceph、HDFS等。网络文件系统的实现是通过客户端-服务端模式实现的,服务端进行文件和数据的存储,客户端将本机的文件系统请求如元数据请求和读写请求等封装成TCP或UDP的包通过RPC或其他网络连接形式发送至服务端,再由服务端执行相应的请求动作将结果返回,客户端接收到的文件请求来自linux内核。因为文件系统请求是通过网络传递的,所以相较于本地文件系统具有延迟较高的特点,尤其在读数据性能上表现尤为明显。目前有几种举措能缓解网络文件系统相对于本地文件系统的读性能缺陷上,包括启发式预读和知情预读。

Linux本地文件系统提供三个知情式预读接口,分别为posix_fadvise,readahead,madvise。这三种方式并不经常使用,因为一般情况下,内核中的启发式算法工作的很好。Linux拥有一个虚拟文件系统层,它会缓存最近访问过的文件页面,这个文件缓存被称为pagecache。一般的read操作会发生在应用程序提供的缓冲区与pagecache之间,而预读算法则负责填充这个pagecache。Linux内核支持的两种预读算法为read-around和read-ahead两种,read-around算法适用于那些以mmap方式访问的程序代码和数据,它们具有很强的局域性特征,当有缺页事件发生时,它以当前页面为中心,往前往后预取共计128KB页面。而readahead算法主要针对read系统调用,它们一般具有很好的顺序特性。但是随机和非典型的读取模式也大量存在,因而readahead算法必须具有很好的智能和适应性。通过Steven Pratt、Ram Pai等人的大量工作,readahead算法进一步完善,其中最重要的一点是实现了对随机读的完好支持。随机读在数据库应用中处于非常突出的地位,而一个多页的随机读会触发“顺序预读”。这会导致预读I/O数的增加和命中率的下降。改进后的算法通过监控所有完整的read调用,同时得到读请求的页面偏移量和数量,因而能更好的区分顺序读和随机读。为了保证预读命中率,Linux只对顺序读进行预读,当一个文件是第一次被打开并且读的是文件首部时,内核对文件进行预读。当前的读请求与前一读请求在文件内的位置是连续的,判定为顺序读内核对文件进行预读。当不满足上述顺序性条件,就判定为随机读。在任何一个随机读都将终止当前的顺序序列,从而终止预读行为。Linux用两个预读窗口来跟踪当前顺序流的预读状态:current窗口和ahead窗口。其中current窗口为程序处理数据的窗口,而ahead窗口存储预备给程序的预读缓存,窗口的大小依次递增,以适应CPU快速的运算需求。

针对分布式网络文件系统I/O性能的研究,有两个热点值得注意:1)以顺序读为主的大规模数据的流式处理,如地理信息系统对数据的处理;2)海量文件处理的数据密集型的应用场景中,文件请求具有很强的随机性,如图片、音频搜索的后台服务。目前针对分布式文件系统性能优化的研究包括:Yue等提出二级元数据管理方法来提高分布式文件系统的可用性;MackeyG.等对HDFS小文件的元数据管理方式进行优化,以提高HDFS对小文件的存取效率;Yu等发现文件分布模型对聚合I/O带宽有着显著的影响,提出一种基于用户视角的数据分布策略,并在另一篇文章中提出写操作分块和层次条带化的方法来提高分布式/并行文件系统的I/O性能;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010470526.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top