[发明专利]一种基于文件访问热度的HDFS副本管理方法有效

申请号：	201810255610.4	申请日：	2018-03-27
公开（公告）号：	CN108363643B	公开（公告）日：	2021-06-15
发明（设计）人：	代钰;杨雷;郝琪;李学学;张斌	申请（专利权）人：	东北大学
主分类号：	G06F11/14	分类号：	G06F11/14
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	李运萍
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文件访问热度 hdfs 副本管理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于文件访问热度的HDFS副本管理方法，基于文件访问热度计算文件的副本数量；基于多文件访问关联性对预测的热点文件进行动态副本放置；据需要删除副本的文件对副本进行删除操作；本发明方法利用时间序列分析方法对文件访问热度进行预测，并给出文件访问热度的计算公式以及副本个数的计算公式，能够支持动态热点文件副本个数的调整，解决热点文件的访问瓶颈的问题，提高集群的服务效率。

技术领域

本发明属于大数据分析与数据挖掘技术领域，具体涉及一种基于文件访问热度的HDFS副本管理方法。

背景技术

随着Web技术的发展，大量数据也随之产生，面对海量数据的存储和分析等相关问题，云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说，在大数据背景下，Apache Hadoop已经成为了分布式大数据处理技术的参考框架，能够有效提高海量数据处理的效率。在Hadoop框架中，数据副本管理技术一直以来都是研究的热点与难点。尽管在HDFS数据副本管理方面目前已经开展了大量的研究工作，但是如何设置合适的副本个数以适应文件访问热度的变化，同时如何放置副本以优化集群负载仍是需要研究并解决的关键问题。

针对HDFS的副本管理问题，有两大关键点很值得研究，一是HDFS上文件的副本个数的问题，二是其上文件的副本放置的问题。HDFS默认的副本个数并不适用于所有应用，没有考虑到文件访问是一个变化的过程，某些文件仅在某一个时间段内会发生访问量突增或者突降的情况。HDFS默认的副本放置方法是在靠近客户端的机架上选择两个节点，其他机架选择一个DataNode节点进行文件的副本放置，但是这些方法并没有根据具体的应用，考虑到文件之间的Join访问关联性问题和节点上文件访问热度的负载情况，这些都严重影响集群的性能。对于以上问题，本发明展开了对HDFS副本管理方法的研究，提出了基于文件访问热度的HDFS副本管理方法及工具。并且开展了一系列的实验，对所提出的方法和相关算法进行了测试，实验结果表明本发明提出的方法使集群的并发性、任务执行的效率和集群的负载均衡情况上都有了很大的提高。

发明内容

针对现有技术的不足，本发明提出一种基于文件访问热度的HDFS副本管理方法，包括以下步骤：

步骤1：基于文件访问热度计算文件的副本数量；

步骤1.1：根据文件访问日志表，统计一段时间间隔time内的文件访问次数，确定文件访问热度；

所述文件f_v的访问热度公式如下所示：

其中，为一段时间间隔time内的文件f_v访问次数，λ为访问次数的经验临界值。

步骤1.2：建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A；

所述时间序列文件A的逻辑结构表示为Log＝＜row，T，D，f_v＞，其中，T＝{t₁，t₂，t₃，...t_x}为时间序列，x为访问热度观测时刻，row为时间序列文件中的行号，为文件访问热度集合，f_v为文件名称。

步骤1.3：逐行提取时间序列文件A中文件f_v的访问热度，进行时间序列分析，对时间序列进行单根检验，判断所提取的文件的访问热度序列是否稳定，若是，执行步骤1.4，否则，执行步骤1.5；

步骤1.4：对平稳的时间序列进行ARMA模型匹配定阶，执行步骤1.6；

步骤1.5：对非稳定的时间序列进行ARIMA模型匹配定阶，执行步骤1.6；

步骤1.6：采用时间序列方法预测下一时刻文件f_v的访问热度；