[发明专利]一种基于多策略深度强化学习的云制造服务组合方法在审
| 申请号: | 202111589813.5 | 申请日: | 2021-12-23 |
| 公开(公告)号: | CN114331754A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 曾骏;姚娟;于扬;吴映波 | 申请(专利权)人: | 重庆大学 |
| 主分类号: | G06Q50/04 | 分类号: | G06Q50/04;G06N3/08;G06N3/04 |
| 代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
| 地址: | 400044 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 策略 深度 强化 学习 制造 服务 组合 方法 | ||
1.一种基于多策略深度强化学习的云制造服务组合方法,其特征在于:包括如下步骤:
S1:通过现有方法获取虚拟数据集,该虚拟数据集由多个服务组成;
设一个任务T由n个子任务构成,一个子任务对应一个服务集,服务集中的一个服务对应一个动作,每个服务具有多个QoS属性值,所述QoS属性值是取[0.7,0.95]之间的任一数据值;
定义:
T={t1,t2,…ti…tn},ti表示T的第i个子任务,i=1,2,…n;
表示子任务ti对应的第μ个服务,μ=1,2,…c;
表示子任务ti对应的第μ个服务所对应的动作;
表示子任务ti对应的第μ个服务QoS属性值,该第μ个服务QoS属性值是对第μ个服务对应的多个QoS属性值进行归一化后得到的;
m1为当前任务T求得的服务链中所有服务QoS值的算术平均值;
m2为间隔设定时间后,当前任务T求得的服务链中所有服务QoS值的算术平均值;
S2:构建Multi-D3QN模型,该将DQN算法的网络结构修改为竞争结构,将DQN算法的随机采样机制修改为优先回放机制,并在学习阶段将单估计器修改为双估计器;
Multi-D3QN模型还包括模型Q-network和模型Q-target;
S3:初始化Multi-D3QN模型的参数,初始m1=m2=0,初始化经验池D,设定优先级,初始化模型Q-network的动作值函数Q,初始化模型Q-target的动作值函数Q*;
S4:从虚拟数据集中随机选择一个任务T;
S5:令k=1;
S6:令i=1;
S7:如果m1m2,则执行S8-1;否则执行S8-4;
S8-1:选取ti的最优动作步骤如下:判断ti对应的服务集中所有的服务的QoS属性值是否小于0:
如果ti对应的第μ个服务的QoS属性值小于0,则表示有不可用服务,并执行下一步;如果ti对应的第μ个服务的QoS属性值大于或等于0,则执行S8-4;
S8-2:随机生成一个概率x1,ε1表示预设概率,如果x1ε1,则准最优动作并执行下一步,其中,θ表示动作值函数Q的参数;
否则在中随机选择一个动作作为准最优动作并执行下一步;
S8-3:判断准最优动作对应的服务的QoS属性值否小于0:
如果准最优动作对应的服务的QoS属性值小于0则屏蔽对应的服务,并重新随机选择一个动作作为
否则将动作作为并执行S8;
S8-4:随机生成一个概率x2,ε2表示预设概率:
如果x2ε2,则最优动作并执行下一步,其中,θ表示动作值函数Q的参数;
否则在中随机选择一个动作作为准最优动作
S9:执行并将ti对应的服务集将ti对应的服务集中所有服务的QoS属性值和ti的下一个服务集作为一个样本存入D中,所述样本表示为
S10:判断D中的样本是否到达最大容量,如果没有到达在执行下一步,否则执行S12
S11:判断i是否大于n,如果是则执行下一步,否则令i=1+1并返回S8;
S12:判断j是否大于最大迭代次数,如果是将输出对应的每个服务均作为最优服务,输出和最优服务组成的服务链;
否则令k=k+1,计算m1和m2,并更新m1和m2并返回S6;
S13:利用S8得到的样本训练模型Q-network,并返回S10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111589813.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电池箱体
- 下一篇:基于液滴自驱动技术的胚胎动态培养装置及方法





