[发明专利]基于任务粒度的MapReduce报表任务执行方法有效
| 申请号: | 201310656006.X | 申请日: | 2013-12-05 |
| 公开(公告)号: | CN103699441B | 公开(公告)日: | 2017-07-18 |
| 发明(设计)人: | 邹瑜斌;张帆;白雪;闫茜;须成忠 | 申请(专利权)人: | 深圳先进技术研究院 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 深圳市科进知识产权代理事务所(普通合伙)44316 | 代理人: | 沈祖锋,郝明琴 |
| 地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 任务 粒度 mapreduce 报表 执行 方法 | ||
【技术领域】
本发明涉及一种基于任务粒度的MapReduce报表任务执行方法。
【背景技术】
在大数据时代,数据量成爆炸式增长,这导致了对数据的计算处理和有效存储提出了极高的要求。Hadoop生态圈的提出为海量数据的大规模计算和分布式可靠存储提供了一个强大的工具。在Hadoop中,MapReduce是一个为海量数据的批量分析和计算提供了一个可靠、易用、可规模化的关键组件,特别是广泛用于基于海量日志数据的报表计算。然而,在现实使用中,MapReduce框架下的报表计算任务的执行受到了Hadoop集群的处理能力以及集群内部各节点之间数据传输速度的制约,特别是在多任务执行的情况下,MapReduce任务的执行不可避免地出现竞争。
针对相同数据集的报表计算任务往往有如下特点:(1)由于计算所基于的是同一个数据集,导致相同的数据可能会被多个MapReduce任务执行完全相同的读取过程,由于Hadoop Distributed File System的读写性能是影响MapReduce计算性能的关键因素之一,所以针对相同数据的多个报表计算任务会重复读取一个数据集导致性能下降;(2)Hadoop的MapReduce任务执行机制缺乏相应策略,现在原生的hadoop集群对于MapReduce多任务的执行没有做出任何优化,如果存在相同或者可复用的报表计算任务,该任务仍会被执行多次;(3)基于相同数据集的报表计算任务通常是基于相同的计算条件的,因此,多个报表计算任务的某些计算子任务可以被合并。
现有常用方法是没有进行任何优化,导致hadoop计算性能浪费。另一个方法是使用pig或者hive等工具来优化数据报表计算过程,但是pig和hive都是基于单个任务的优化,无法对一个任务的队列进行整体优化,且pig和hive的优化取决于它们的脚本语句,对脚本编写者的要求更高。
【发明内容】
本发明旨在解决上述现有技术中存在的问题,提出一种基于任务粒度的 MapReduce报表任务执行方法。
本发明提出的基于任务粒度的MapReduce报表任务执行方法包括以下步骤:S10、验证数据报表任务Jobi的合法性以及优先级,将数据报表任务放入Job队列中,其中,1≤i≤K,K为所述数据报表任务的个数;S20、基于最小粒度分割,依次对每一Jobi进行子任务划分,得到包含所有子任务的集合Set1;S30、去除集合Set1中重复的子任务,得到集合Set2;S40、对集合Set2中的子任务进行最大粒度合并,得到集合Set3,其中,每一Jobi依赖于集合Set3中的若干子任务;S50、根据hadoop即时计算能力以及集合Set3的子任务数量创建运算单元;S60、由所述运算单元执行集合Set3的子任务。
本发明提出的基于任务粒度的MapReduce报表任务执行方法可以自适应寻找报表计算任务队列中的可复用的子任务,并执行分割和合并,最大限度地利用Hadoop集群的计算能力和数据读写能力,有效地提高了计算效率。
【附图说明】
图1为本发明提出的基于任务粒度的MapReduce报表任务执行方法流程图。
图2为本发明提出的基于任务粒度的MapReduce报表任务执行方法环境架构图。
图3为本发明一实施例的基于任务粒度的MapReduce报表任务执行方法步骤示意图。
【具体实施方式】
下面结合具体实施例及附图对本发明作进一步详细说明。下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明的技术方案,而不应当理解为对本发明的限制。
在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310656006.X/2.html,转载请声明来源钻瓜专利网。





