[发明专利]基于集群作业日志的MapReduce负载模拟方法有效
申请号: | 201310118525.0 | 申请日: | 2013-04-07 |
公开(公告)号: | CN103207804A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 徐向华;刘智俊;任祖杰 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种大规模数据处理集群的负载模拟方法,尤其是基于集群作业日志的MapReduce负载模拟方法。本发明通过收集大规模数据处理集群中的作业日志,得到一个时间有序的作业列表;通过提取作业列表中各个作业的特征向量,采用模糊聚类算法进行基于特征向量作业分类;然后,将负载的时间区间划分为等长的子区间,分别计算各子区间中各类型作业的提交概率,得到作业提交概率模型;最后,利用作业类型空间和作业提交概率模型,计算出个子区间内各类型作业的提交数量,并将个子区间内同类型作业均匀分布,得到模拟负载。本发明在负载模拟时兼顾了大规模集群MapReduce负载的真实性和动态特性,提高了大规模集群MapReduce负载模拟的准确度。本发明可应用于MapReduce集群的模拟、性能测试、性能调优等工作中。 | ||
搜索关键词: | 基于 集群 作业 日志 mapreduce 负载 模拟 方法 | ||
【主权项】:
1. 基于集群作业日志的MapReduce负载模拟方法,其特征在于:利用真实数据处理集群的MapReduce负载的作业日志记录,提取负载作业特征向量、作业分类模型以及作业提交概率模型,动态模拟大规模集群的真实负载,适合于大规模集群的负载模拟、集群性能测试和性能调优,该方法的具体步骤如下:步骤 1:从真实集群的作业日志文件夹中收集集群的作业历史记录,该作业历史记录中,每个作业包含了该作业的所有属性信息;将作业历史记录中的作业按照原来的作业提交时间排序,得到一个按照提交时间次序排列的作业列表;步骤 2:从作业列表中提取负载作业特征向量;对有序作业列表中的每一个作业,从作业的属性信息中提取8个特征属性组成负载作业特征向量,表征一个历史作业的典型特征;这8个作业特征属性分别为:表示作业HDFS读数据量和写数据量的HR和HW,表示作业本地磁盘读数据量和写数据量的LR和LW,表示作业中Map任务和Reduce任务数量的M和R,表示Map任务和Reduce任务平均运行时间的MD和RD;即真实负载中的一个作业
采用一个特征向量
来表示;步骤 3:建立作业类型空间和作业分类模型;这个过程包含四个子过程:数据预处理、建立模糊相似矩阵,生成模糊等价矩阵、建立作业类型空间和作业分类模型;步骤 4:建立作业提交概率模型;根据一个给定的时间区间长度t,将负载的时间区间T划分为一组等长的子区间
;根据作业分类的结果,计算每个子区间中每一种作业类型的提交概率,从而建立作业提交概率模型;步骤 5:负载模拟;给定一个负载作业数量N,根据步骤4中建立的作业提交概率模型,计算每个子区间中各类型作业的提交数量,将各类型的作业在对应的子区间中均匀分布,从而实现负载模拟。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310118525.0/,转载请声明来源钻瓜专利网。
- 上一篇:基于分层特征和遗传规划相关反馈的图像检索方法
- 下一篇:高纯度炔雌醇合成方法