[发明专利]自助式MapReduce数据优化分配方法及系统有效
申请号: | 201810130531.0 | 申请日: | 2018-02-08 |
公开(公告)号: | CN108491255B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 崔鹏飞;田春华;史巨伟;李闯;刘家扬 | 申请(专利权)人: | 昆仑智汇数据科技(北京)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
代理公司: | 北京润捷智诚知识产权代理事务所(普通合伙) 11831 | 代理人: | 孙巍 |
地址: | 100090 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自助式 mapreduce 数据 优化 分配 方法 系统 | ||
本发明提供一种自助式MapReduce数据优化分配方法及系统,该方法包括以下步骤:作业解析模块接收客户端发送的MapReduce作业数据包并解析成任务和作业数据参数;任务队列形成模块按照任务调度策略将任务加入任务队列;任务执行历史日志记录模块记录多个任务执行模块的任务执行历史日志,以供任务分配及调度模块实时读取;任务分配及调度模块根据作业数据参数和任务执行历史日志计算出任务优化分配方案,并根据任务优化分配方案调取任务队列中的任务发送至任务执行模块;多个任务执行模块分别执行任务并汇报任务执行历史日志。本发明的方法及系统根据任务的数据块大小、数据块物理节点分布和各可用节点的性能来优化任务调度。
技术领域
本发明涉及数据优化分配技术领域,尤其涉及一种自助式MapReduce数据优化分配方法及系统。
背景技术
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce系统为一种分布式的并行系统,在Mapreduce系统中通过映射(Map)和化简(Reduce)过程实现对数据的分布式处理。任务调度是MapReduce任务中的关键过程。
Mapreduce系统现有三种主流任务调度策略,Capacity Scheduler(容量调度)、fair Scheduler(公平调度)、FIFO(First Input First Output,先入先出队列调度)。这三种策略都采用三级调度模式,即为空闲的slot(位置)一次选择一个队列、作业和任务。
在队列和作业层不同调度器采用不同策略,在任务层(task)采用相同的策略,即本地性策略。本地性策略不能充分利用Mapreduce系统中各个节点的功能,造成资源浪费。
现有技术中,除了本地性策略之外,对于Mapreduce系统中的其他类型的数据采取随机分配的方式,没有对可用节点的执行状态进行实时记录,同样也没有对可用节点和待执行任务进行优化分配的计算,使得不能充分利用MR系统中的可用节点的资源,造成资源浪费,任务执行效率低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的自助式MapReduce数据优化分配方法及系统。
本发明的一个方面,提供了一种自助式MapReduce数据优化分配方法,包括以下步骤:
作业解析模块接收客户端发送的MapReduce作业数据包,将该MapReduce作业数据包解析成任务和作业数据参数,并分别将任务和作业数据参数发送至任务队列形成模块和任务分配及调度模块;任务队列形成模块按照任务调度策略将任务加入任务队列;任务执行历史日志记录模块记录多个任务执行模块的任务执行历史日志,以供任务分配及调度模块实时读取;任务分配及调度模块根据作业数据参数和任务执行历史日志计算出任务优化分配方案,并根据任务优化分配方案调取任务队列中的任务发送至任务执行模块;多个任务执行模块分别执行任务并向任务执行历史日志记录模块汇报任务执行历史日志。
任务队列中的任务具有优先级和对应的数据块,该优先级与MapReduce作业数据包的优先级一致。
任务执行模块为Mapreduce系统拓扑结构中的任务执行节点。
任务分配及调度模块存储Mapreduce系统拓扑结构信息,该Mapreduce系统拓扑结构信息包括各节点位置以及各节点之间的连接关系。
作业数据参数包括:任务中数据块大小信息和数据块所在节点位置信息。
任务调度策略包括:容量调度、公平调度、先入先出队列调度。
任务执行历史日志包括:历史执行过的每个任务在任务执行模块的执行时间、该任务的数据块大小、数据块位置、数据块在不同节点间的数据传输时间和数据块属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆仑智汇数据科技(北京)有限公司,未经昆仑智汇数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810130531.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置