[发明专利]一种基于文件访问热度的HDFS副本管理方法有效
申请号: | 201810255610.4 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108363643B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 代钰;杨雷;郝琪;李学学;张斌 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于文件访问热度的HDFS副本管理方法,基于文件访问热度计算文件的副本数量;基于多文件访问关联性对预测的热点文件进行动态副本放置;据需要删除副本的文件对副本进行删除操作;本发明方法利用时间序列分析方法对文件访问热度进行预测,并给出文件访问热度的计算公式以及副本个数的计算公式,能够支持动态热点文件副本个数的调整,解决热点文件的访问瓶颈的问题,提高集群的服务效率。 | ||
搜索关键词: | 一种 基于 文件 访问 热度 hdfs 副本 管理 方法 | ||
【主权项】:
1.一种基于文件访问热度的HDFS副本管理方法,其特征在于,包括以下步骤:步骤1:基于文件访问热度计算文件的副本数量;步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;步骤1.7:采用向上取整方式预测文件fv的副本个数
当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为
步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3;步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置;步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj);步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型;步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y;步骤3:根据需要删除副本的文件对副本进行删除操作;步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;步骤3.3:删除集合VRC中访问热度最低的文件副本;步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810255610.4/,转载请声明来源钻瓜专利网。