[发明专利]基于集群作业日志的MapReduce负载模拟方法有效
申请号: | 201310118525.0 | 申请日: | 2013-04-07 |
公开(公告)号: | CN103207804A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 徐向华;刘智俊;任祖杰 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 作业 日志 mapreduce 负载 模拟 方法 | ||
技术领域
本发明涉及一种大规模数据处理集群的负载模拟方法,特别涉及一种基于集群作业日志的MapReduce数据处理平台的负载模拟方法。
背景技术
高速发展的互联网技术为用户带来了许多新型的应用,如博客、微博、RSS、维基百科、共享空间等,也催生了一种新的互联网内容提供方式——用户创造内容。然而,随着信息资源的不断产生与汇总,互联网络为人们的生活和学习提供极大便利的同时,也进入了一个信息爆炸的时代。面对无时无刻不再增长的数据,如何去存储和处理所产生的海量数据,从海量数据中发现有价值的信息,已经成为当今互联网公司面临的严峻问题。
面对海量数据处理问题,MapReduce数据处理框架为大规模数据存储和处理系统提供了可扩展的大数据处理技术解决方案。然而,随着集群规模的不断扩展,集群的测试工作也显得越来越重要,为了对集群进行负载测试,许多测试工具通过模拟MapReduce集群中的实际负载来评测集群性能。它首先根据用户设定的参数生成大量数据和批量作业,然后同时提交这些作业(批处理),最后统计出这些作业的运行时间。
传统的测试工具通过向集群提交由特定类型的作业集合,并通过改变作业处理的数据量来对集群进行压力测试。但是随着集群的越来越广泛应用,集群负载的复杂度也越来越高,导致现有的测试工具以及测试结果不能反映真实集群的性能和实际应用负载的动态特征。
发明内容
针对上述问题,本发明公开了一种基于集群作业日志的MapReduce负载模拟方法,该方法以真实负载作业日志为基础,通过提取负载作业特征向量、作业分类模型以及作业提交概率模型,动态模拟大规模集群的真实负载,在进行负载模拟时能够兼顾模拟负载的真实性和动态特性,提高负载模拟的准确性。该方法适合于大规模集群的负载模拟、集群性能测试和性能调优。
本发明解决其技术问题采用的技术方案步骤如下:
基于集群作业日志的的MapReduce负载模拟方法,采用以下步骤实现:
步骤1:首先从真实集群的作业日志文件夹中收集集群的作业历史,该作业历史中的作业包含了该作业的所有属性信息。将作业历史中的作业按照提交时间排序,得到一个按照提交时间有序的作业列表。
步骤2:从作业列表中提取负载作业特征向量。对有序作业列表中的每一个作业,从作业的属性信息中提取8个特征属性组成负载作业特征向量,表征一个历史作业的典型特征。这8个作业特征属性分别为:表示作业HDFS读数据量和写数据量的HR和HW,表示作业本地磁盘读数据量和写数据量的LR和LW,表示作业中Map任务和Reduce任务数量的M和R,表示Map任务和Reduce任务平均运行时间的MD和RD。即真实负载中的一个作业Jobi可以用一个特征向量Jobi=<HRi,HWi,LRi,LWi,Mi,Ri,MDi,RDi>来表示。
步骤3:建立作业类型空间和作业分类模型。这个过程包含了四个子过程:数据预处理、建立模糊相似矩阵,生成模糊等价矩阵、建立作业类型空间和作业分类模型。
步骤4:建立作业提交概率模型。根据一个给定的时间区间长度t,将负载的时间区间T划分为一组等长的子区间T1,T2,…,Tn。根据作业分类的结果,计算每个子区间中每一种作业类型的提交概率,从而建立作业提交概率模型。
步骤5:负载模拟。给定一个负载作业数量N,根据步骤4中建立的作业提交概率模型,计算每个子区间中各类型作业的提交数量,将各类型的作业在对应的子区间中均匀分布,从而实现负载模拟。
本发明的有益效果:
1.本发明从MapReduce集群中收集作业列表,这个列表在后续的步骤中用于作业类型空间生成和建立作业提交概率模型,在负载模拟时能更加真实的反应集群负载特征和作业执行的动态特性,从而改进负载模拟的真实性,更加真实的模拟出大规模MapReduce应用负载的动态特性。
2.本发明根据集群的真实作业历史进行负载模拟,针对不同的集群,可以模拟出反应其负载特征的作业模拟执行过程,对集群作业调度器进行性能模拟测试,从而分析和改进集群性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310118525.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于分层特征和遗传规划相关反馈的图像检索方法
- 下一篇:高纯度炔雌醇合成方法