[发明专利]一种动态资源分配方法、装置、存储介质及设备有效
| 申请号: | 201910681471.6 | 申请日: | 2019-07-26 |
| 公开(公告)号: | CN110389842B | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 杨小可;雷赛龄;张游;孟少川 | 申请(专利权)人: | 中国工商银行股份有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;任默闻 |
| 地址: | 100140 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 动态 资源 分配 方法 装置 存储 介质 设备 | ||
本发明公开了一种动态资源分配方法、装置、存储介质及设备。所述方法包括:获取资源库中的资源总量、目标作业的已用资源量、可用资源量,以及所述目标作业的并行度;监控所述目标作业在数据混洗阶段的执行时间;若所述数据混洗阶段的执行时间大于预设时长,则按预定规则调整目标作业的已用资源量、可用资源量,以及所述目标作业的并行度;根据资源库中的资源总量以及调整后的所述目标作业的可用资源量,确定资源库中的剩余资源量;判断调整后的可用资源量是否小于所述剩余资源量;若调整后的可用资源量小于剩余资源量,则继续监控所述目标作业在数据混洗阶段的执行时间。本申请可以通过动态调整并行度,来提高大数据框架的运行效能。
技术领域
本申请涉及大数据分析及处理领域,特别涉及一种动态资源分配方法、装置、存储介质及设备。
背景技术
随着信息化的发展,企业要处理的数据爆炸式的增长,数据量都达到了TB级、PB级。为了支撑这么大规模数据的分析和处理,各类大数据框架、工具和技术应运而生,Spark便是其中之一。以Spark为例,Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,其通过在数据处理过程中采用数据混洗(Shuffle)方式,将“映射-规约”模型(Map-Reduce)提升到一个更高的层次,并且利用内存数据存储和接近实时的处理能力,使其性能比其他大数据处理技术要快很多倍。
目前,在使用spark进行作业计算时,对于有Shuffle操作的作业,通常设定一个固定的并行度参数,无法提供动态的并行度参数调整,使得在spark资源配置过小时容易导致内存溢出,或者资源配置过大时导致作业申请不到资源的问题。因此,如何动态调整并行度,以提高大数据框架的运行效能,成为现有技术中亟待解决的问题。
发明内容
本申请实施例的目的是提供一种动态资源分配方法、装置、存储介质及设备,动态调整并行度,来提高大数据框架的运行效能。
为达到上述目的,本申请实施例提供一种动态资源分配方法,包括:
获取资源库中的资源总量、目标作业的已用资源量、可用资源量,以及所述目标作业的并行度;
监控所述目标作业在数据混洗阶段的执行时间;
若所述数据混洗阶段的执行时间大于预设时长,则按预定规则调整目标作业的已用资源量、可用资源量,以及所述目标作业的并行度;
根据资源库中的资源总量以及调整后的所述目标作业的可用资源量,确定资源库中的剩余资源量;
判断调整后的可用资源量是否小于所述剩余资源量;
若调整后的可用资源量小于剩余资源量,则继续监控所述目标作业在数据混洗阶段的执行时间。
优选的,所述按预定规则调整目标作业所分配的可用资源量,及所述目标作业的并行度,包括:
将所述可用资源量翻倍,将已用资源量调整为可用资源量的三分之一,并翻倍并行度;
判断调整后的并行度是否大于所述调整后的已用资源量的三倍;
若大于,则将所述并行度设置为调整后的已用资源量的三倍。
优选的,若调整后的并行度小于所述调整后的已用资源量的三倍,则将所述并行度设置为翻倍后的取值。
优选的,若调整后的可用资源量大于或者等于剩余资源量,则不再监控所述目标作业在数据混洗阶段的执行时间,并产生报警信号。
优选的,所述预设时长为所述目标作业的预设作业完成时长。
优选的,所述资源库中的资源总量、目标作业所分配的可用资源量包括CPU个数。
本申请实施例还提供一种动态资源分配装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910681471.6/2.html,转载请声明来源钻瓜专利网。





