[发明专利]基于集群作业日志的MapReduce负载模拟方法有效

专利信息
申请号: 201310118525.0 申请日: 2013-04-07
公开(公告)号: CN103207804A 公开(公告)日: 2013-07-17
发明(设计)人: 徐向华;刘智俊;任祖杰 申请(专利权)人: 杭州电子科技大学
主分类号: G06F9/455 分类号: G06F9/455
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 杜军
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种大规模数据处理集群的负载模拟方法,尤其是基于集群作业日志的MapReduce负载模拟方法。本发明通过收集大规模数据处理集群中的作业日志,得到一个时间有序的作业列表;通过提取作业列表中各个作业的特征向量,采用模糊聚类算法进行基于特征向量作业分类;然后,将负载的时间区间划分为等长的子区间,分别计算各子区间中各类型作业的提交概率,得到作业提交概率模型;最后,利用作业类型空间和作业提交概率模型,计算出个子区间内各类型作业的提交数量,并将个子区间内同类型作业均匀分布,得到模拟负载。本发明在负载模拟时兼顾了大规模集群MapReduce负载的真实性和动态特性,提高了大规模集群MapReduce负载模拟的准确度。本发明可应用于MapReduce集群的模拟、性能测试、性能调优等工作中。
搜索关键词: 基于 集群 作业 日志 mapreduce 负载 模拟 方法
【主权项】:
1. 基于集群作业日志的MapReduce负载模拟方法,其特征在于:利用真实数据处理集群的MapReduce负载的作业日志记录,提取负载作业特征向量、作业分类模型以及作业提交概率模型,动态模拟大规模集群的真实负载,适合于大规模集群的负载模拟、集群性能测试和性能调优,该方法的具体步骤如下:步骤 1:从真实集群的作业日志文件夹中收集集群的作业历史记录,该作业历史记录中,每个作业包含了该作业的所有属性信息;将作业历史记录中的作业按照原来的作业提交时间排序,得到一个按照提交时间次序排列的作业列表;步骤 2:从作业列表中提取负载作业特征向量;对有序作业列表中的每一个作业,从作业的属性信息中提取8个特征属性组成负载作业特征向量,表征一个历史作业的典型特征;这8个作业特征属性分别为:表示作业HDFS读数据量和写数据量的HR和HW,表示作业本地磁盘读数据量和写数据量的LR和LW,表示作业中Map任务和Reduce任务数量的M和R,表示Map任务和Reduce任务平均运行时间的MD和RD;即真实负载中的一个作业采用一个特征向量来表示;步骤 3:建立作业类型空间和作业分类模型;这个过程包含四个子过程:数据预处理、建立模糊相似矩阵,生成模糊等价矩阵、建立作业类型空间和作业分类模型;步骤 4:建立作业提交概率模型;根据一个给定的时间区间长度t,将负载的时间区间T划分为一组等长的子区间;根据作业分类的结果,计算每个子区间中每一种作业类型的提交概率,从而建立作业提交概率模型;步骤 5:负载模拟;给定一个负载作业数量N,根据步骤4中建立的作业提交概率模型,计算每个子区间中各类型作业的提交数量,将各类型的作业在对应的子区间中均匀分布,从而实现负载模拟。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310118525.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top