[发明专利]用于分布式计算集群调度的深度强化学习模型训练方法、装置及调度方法有效
申请号: | 202110387715.7 | 申请日: | 2021-04-12 |
公开(公告)号: | CN113033806B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 李清;郭嘉伟;江勇;刘冀洵;周建二 | 申请(专利权)人: | 鹏城实验室;清华大学深圳国际研究生院;南方科技大学 |
主分类号: | G06N3/092 | 分类号: | G06N3/092 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 温宏梅 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布式 计算 集群 调度 深度 强化 学习 模型 训练 方法 装置 | ||
本申请公开了一种用于分布式计算集群的深度强化学习模型训练方法、装置以及调度方法,所述方法包括采用深度强化学习框架建立若干第一调度模型和第二调度模型;通过若干第一调度模型确定训练样本集;基于训练样本集训练第二调度模型以得到模型参数;基于模型参数更新各第一调度模型中的第一深度强化学习智能体的模型参数,并继续执行通过若干第一调度模型确定训练样本集的步骤,直至第二调度模型满足预设条件以得到深度强化学习模型。本申请通过解耦深度强化学习训练的前向行动和后向学习过程,通过多个独立且同时与环境交互的第一调度模型生成训练样本集,再基于训练样本对第二调度模型进行训练,这样实现了大规模并行训练,提高了深度强化学习模型的训练速度,实现了分布式计算集群的高效利用。
技术领域
本申请涉及分布式集群技术领域,特别涉及一种用于分布式集群的深度强化学习模型训练方法、装置以及调度方法。
背景技术
在云计算时代,高效利用分布式计算集群的资源至关重要,高效的调度算法则是实现该目标的关键所在。系统调度决策通常是高度重复的,因此可以获取到用于训练样强化学习智能体的训练样本,并且基于深度强化学习的调度算法可以通过不断学习与集群环境交互的实际经验来优化,而无需人工设计和调试而自动生成高效的调度算法。但是由于强化学习智能体需要不断和集群环境进行交互,从而影响了用于分布式计算集群调度的深度强化学习智能体的训练速度,进而制约了基于深度强化学习的调度算法的实际应用,对分布式计算集群的调度效率慢、资源利用率低。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种用于分布式计算集群的深度强化学习模型训练方法、装置以及调度方法。
为了解决上述技术问题,本申请实施例第一方面提供了一种用于分布式计算集群的深度强化学习模型训练方法,所述方法包括:
采用深度强化学习框架建立若干第一调度模型和第二调度模型,其中,若干第一调度模型中每个第一调度模型均包括第一深度强化学习智能体,所述第二调度模型均包括第二深度强化学习智能体;
通过若干第一调度模型确定训练样本集,其中,所述训练样本集包括若干训练样本,若干训练样本中的每个训练样本均包括环境状态以及环境状态对应的奖励信息;
基于所述训练样本集训练所述第二调度模型,以得到经过训练的模型参数;
基于所述模型参数更新各第一调度模型中的第一深度强化学习智能体的模型参数,并继续执行通过若干第一调度模型确定训练样本集的步骤,直至第二调度模型满足预设条件,以得到深度强化学习模型。
所述用于分布式计算集群的深度强化学习模型训练方法,其中,各第一调度模型中的第一深度强化学习智能体的模型结构均与第二调度模型中的第二深度强化学习智能体的模型结构相同。
所述用于分布式计算集群的深度强化学习模型训练方法,其中,所述若干第一调度模型中的每个第一调度模型均包括第一执行环境,所述通过若干第一调度模型确定训练样本集具体包括:
对于若干第一调度模型中的每个第一调度模型,该第一调度模型中的第一执行环境将环境状态输入该第一调度模型中的第一深度学习智能体;
通过所述第一深度学习智能体输出调度动作,并将所述调度动作输入所述第一执行环境;
通过所述第一执行环境输出所述环境状态对应的奖励信息以及下一环境状态;
继续执行将环境状态输入该第一调度模型中的第一深度学习智能体步骤,以得到该第一调度模型对应的预设数量的训练样本;
基于各第一调度模型对应的预设数量的训练样本,确定训练样本集。
所述用于分布式计算集群的深度强化学习模型训练方法,其中,若干第一调度模型中存在至少两个第一调度模型的执行环境配置的环境负载不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室;清华大学深圳国际研究生院;南方科技大学,未经鹏城实验室;清华大学深圳国际研究生院;南方科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110387715.7/2.html,转载请声明来源钻瓜专利网。