[发明专利]一种面向Spark系统的数据处理加速方法在审
申请号: | 201910467553.0 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110262896A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 赵来平;李一鸣;李克秋;苏丽叶 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 任务调度模块 服务器 可用计算资源 数据分发模块 性能预测模块 程序接口 任务调度 实时获取 硬件资源 优化数据 预测模块 资源监视 综合考虑 异构性 最小化 分配 建模 分发 预测 表现 开发 | ||
本发明公开一种面向Spark系统的数据处理加速方法,由性能预测模块、任务调度模块和数据分发模块三个部分组成,性能预测模块根据给定的参数对一个任务的性能表现进行建模并预测其完成时间;任务调度模块分配计算任务到服务器上执行,通过资源监视程序实时获取当前可用计算资源,再通过开发的程序接口分配任务在指定服务器上执行;本发明旨在加速Spark系统的数据处理,通过综合考虑硬件资源异构性、计算干扰、数据本地性、数据倾斜和数据溢写等因素,优化数据分发和任务调度,从而最小化整体完成时间。
技术领域
本发明涉及分布式计算的任务调度与数据分发的大数据技术领域,特别是一种面向Spark 系统的数据处理加速方法。
背景技术
随着MapReduce计算模型的提出,对于大数据的处理和分析变得极为简单和高效,但是掉队者问题一直以来都是分布式计算中的棘手问题。掉队者是指那些在并行运行的任务中花费异常多的时间完成进而显著降低整体性能的任务。导致掉队者问题产生的原因主要来源于硬件计算资源层和应用层两个方面,比如硬件异构性、计算干扰、数据本地性、数据溢写和数据倾斜等。掉队者问题的存在不仅拖慢了整体的完成时间,令任务变得效率低下,造成了硬件资源的浪费,影响其他任务的正常进行。同时,掉队者问题的长时间运行也增加了任务出错的风险,甚至导致整个工作失败。
目前,已经有很多方法被提出用来缓解掉队者问题来加速数据处理,比如LATE,Dolly,延迟调度,DREAMS,LIBRA等,但是这些方法都存在着或多或少的缺陷,没有综合考虑各种影响因素来进行加速。LATE优化了默认的推测执行机制以使其可以适用于异构计算环境, Dolly利用对小任务的完全克隆来避免等待和猜测执行进行,但是LATE和Dolly这些通过备份任务来缓解掉队者问题的方法,都需要等待不短时间来收集任务性能表现的统计信息来制定策略,而那些备份后依旧运行很慢的的任务也有可能造成计算资源的浪费。延迟调度通过让那些不能满足数据本地性的任务暂时等待来提高整体的数据本地性表现,DREAMS基于各个任务的计算规模大小动态为它们分配不同量的计算资源,这两种方法虽然考虑到了应用层数据的的影响,但是还是无法解决数据倾斜带来的掉队者问题。LIBRA通过支持键值对数据的拆分对数据倾斜进行专门的优化,但没有考虑计算干扰以及任务调度带来的影响。
现有方法大多不能适用于当前最流行的分布式计算框架Spark,为了弥补它们的不足,本发明提出了一种面向Spark系统的数据处理加速方法。相比现有的工作,本发明综合考虑了硬件计算资源层和应用层两个方面,基于硬件资源异构性、计算干扰、数据本地性和数据倾斜等影响任务性能的因素对于性能的影响程度建立了任务性能预测模型,提出了一种可在秒级时间内完成的模型求解算法,进而制定数据分发和任务调度策略,最小化整体任务运行时间,对任务进行加速。
发明内容
本发明旨在加速Spark系统的数据处理,通过综合考虑硬件资源异构性、计算干扰、数据本地性、数据倾斜和数据溢写等因素,优化数据分发和任务调度,从而最小化整体完成时间。
为了解决现有技术问题,本发明采用如下技术方案:
一种面向Spark系统的数据处理加速方法,由性能预测模块、任务调度模块和数据分发模块三个部分组成。
一种面向Spark系统的数据处理加速方法,由性能预测模块、任务调度模块和数据分发模块三个部分组成,
性能预测模块根据给定的参数对一个任务的性能表现进行建模并预测其完成时间;
任务调度模块分配计算任务到服务器上执行,即将硬件异构性和数据本地性因素来指定任务的调度策略,通过资源监视程序实时获取当前可用计算资源,再通过开发的程序接口分配任务在指定服务器上执行;
数据分发模块是将任务生成的(key,value)键值对格式的中间数据按照一定规则分发到不同Reduce任务处理的过程;其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910467553.0/2.html,转载请声明来源钻瓜专利网。