[发明专利]基于强化学习的深度学习训练作业资源放置系统及方法在审
申请号: | 202110874519.2 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113535365A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 周悦媛;杨康;章家维;邵恩;谭光明 | 申请(专利权)人: | 中科计算技术西部研究院 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06T1/20;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 黄书凯 |
地址: | 401120 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 深度 训练 作业 资源 放置 系统 方法 | ||
1.基于强化学习的深度学习训练作业资源放置方法,其特征在于,包括如下步骤:
初始化步骤:随机初始化DRL神经网络模型的参数;
状态向量生成步骤:生成批量作业的状态向量;
推理步骤:将状态向量送入DRL神经网络模型中推理得到批量作业的放置位置信息,并按照该放置位置信息进行作业放置,得到批量作业运行的最大完成时间记为T_RL;
随机生成步骤:随机生成若干放置位置信息,并按照该随机生成的放置位置信息进行作业放置,得到该批量作业的若干最大完成时间,取得其中最小的最大完成时间记为T_Random;
奖励计算步骤:基于最大完成时间T_RL和最大完成时间T_Random计算奖励;
参数更新步骤:反向梯度更新DRL神经网络模型的参数。
2.根据权利要求1所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:还包括经验回放步骤:对DRL神经网络模型训练过程中所生成的四元组样本进行采样,用于经验回放。
3.根据权利要求1所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述状态向量生成步骤中,基于DLT作业信息和集群信息生成状态向量,记为其中,N为当前作业所需计算单元数量;T为当前作业在不出错情况下的预估运行时间;S为当前集群中各个计算单元的使用状态。
4.根据权利要求3所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述推理步骤,具体包括:
A1:将状态向量输入DRL神经网络模型的价值网络,得到长期衡量指标V;
A2:将状态向量输入DRL神经网络模型的策略网络,得到N个计算单元的选择概率Pi,其中i=1,2,...,N;
A3:将被占用的计算单元和故障的计算单元所对应的概率Pj置零,得到P′i;
A4:选取第k个计算单元作为该作业所要放置的计算单元之一,其中Pk=max(P′i);
A5:若该作业所要放置的计算单元数量等于该作业所需计算单元数量则完成该作业的放置位置信息推理,转而推理下一个作业的位置信息,否则转跳至步骤A1。
5.根据权利要求2所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述经验回放步骤,具体包括:
B1:创建回放缓冲池栈;
B2:将训练过程产生的四元组样本压栈进入回访缓冲池栈;
B3:若回访缓冲池栈满则使最早入栈的四元组样本溢出;
B4:选取X个四元组样本作为一个批,供下次训练使用,其中X的个数为当前回访缓冲池栈中四元组样本的总数。
6.根据权利要求1所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述奖励计算步骤中,奖励的计算公式为:
7.根据权利要求3所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:还包括训练判断步骤:判断DRL神经网络模型是否训练完成,若没有完成则返回状态向量生成步骤,否则训练结束。
8.根据权利要求7所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:还包括使用步骤:使用训练完成的DRL神经网络模型推理得到批量作业中各作业的放置位置。
9.根据权利要求8所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述使用步骤具体包括:
C1:获取批量作业的作业信息和集群信息;
C2:基于步骤C1所收集的信息,生成状态向量;
C3:将步骤C2中的状态向量输入到DRL神经网络模型的策略网络中,得到策略网络输出的放置位置信息;
C4:若当前推理出的计算单元数量小于当前作业所需计算单元数量则重复步骤C3;否则转跳到步骤C5;
C5:按照步骤C3中推理出的放置位置信息放置对应的作业。
10.基于强化学习的深度学习训练作业资源放置系统,包括DRL神经网络模型和作用调度模块;其特征在于,作业调度模块使用权利要求1-8任一项所述方法的步骤对DRL神经网络模型进行训练,从训练完成的DRL神经网络模型中获取放置位置信息,并按照放置位置信息放置对应的作业。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110874519.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及电子设备
- 下一篇:雷达的安装装置及汽车