[发明专利]一种基于深度强化学习的Web服务组合方法有效
| 申请号: | 201710295158.X | 申请日: | 2017-04-28 |
| 公开(公告)号: | CN107241213B | 公开(公告)日: | 2020-05-05 |
| 发明(设计)人: | 王红兵;顾明珠 | 申请(专利权)人: | 东南大学 |
| 主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06N3/08 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 211189 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 web 服务 组合 方法 | ||
1.一种基于深度强化学习的Web服务组合方法,其特征在于,包括如下步骤:
1)获取用户需求,构建当前任务下的部分可观察马尔可夫决策过程服务组合模型;
2)初始化系统参数以及网络结构,并将模型的开始状态作为系统当前状态;
3)当迭代次数m小于k次,随机选择动作直接进入步骤5),否则进入步骤4);
4)采用启发式行为选择策略选择一个动作,判断当前状态是否属于隐藏状态集,如果属于隐藏状态集则判定当前状态为隐藏状态,并通过循环神经网络LSTM模拟的策略空间选择最大概率的动作;如果不属于隐藏状态集则判断当前状态为完全可见状态并通过查询Q值表选择动作;
5)采用ε-greedy策略选择最终执行动作,并与环境交互得到反馈;
6)对于历史信息进行存储,并更新循环神经网络或者Q值表,利用熵计算当前状态是否为隐藏状态,如果判断结果是隐藏状态则加入隐藏状态集合,如果判断结果不是隐藏状态则加入完全可见状态集合,最后进入下一步;
7)系统当前状态设置为下一个状态,对当前状态是否为终止状态进行判断,如果是终止状态则进入步骤8),如果不是终止状态则返回步骤3);
8)观察神经网络的收敛情况以及Q值表中长期得益矩阵所有值的变化幅度,使得神经网络收敛以及所有值的变化幅度小于阈值,采用贪心原则,选取一条从开始状态到终止状态的组合路径,依照模型的映射关系,生成Web服务组合工作流,将服务组合结果反馈给用户;
所述步骤6)中利用熵计算当前状态是否为隐藏状态的具体步骤为:
采用熵值来区分出隐藏状态还是完全可见状态,用H(s)表示
其中ai,aj表示在状态s下可执行的动作,Q(s,ai)是状态s下执行ai动作的Q值,Q(s,aj)是状态s下执行aj动作的Q值;
若H(s)τ,则该状态为隐藏状态,其中τ表示区别隐藏状态和可见状态的临界值;
所述步骤6)中更新Q值表的具体步骤如下:
5.1)首先根据ε-greedy策略在状态s下选择最终执行动作at,计算瞬时效益值r(s);
将不同的QoS属性的数值进行规格化处理,映射到[0,1]区间中;当QoS属性和服务质量之间存在正相关时:
将各个QoS属性进行权值加权求和操作,公式为:
其中m代表QoS属性的数量,wi表示各个QoS属性的权重,权重和为1;
5.2)然后根据强化学习中的Q学习方法,计算本次迭代中,系统在当前状态s下执行动作at时的效益值,计算公式为:
其中s′是s的下一后继状态,表示通过LSTM网络模拟的Q值的估算值,并将计算结果更新Q值表。
2.根据权利要求1所述的一种基于深度强化学习的Web服务组合方法,其特征在于,所述步骤4)中采用启发式行为策略选择一个动作的具体步骤为:已知隐藏状态集H(s),判断s是否属于H(s);若状态s∈H(s),则直接由ADQRC模型根据信念状态和历史信息作为输入,动作的分布概率为输出,选择概率最大的动作;否则通过查询Q值表选择动作。
3.根据权利要求1所述的一种基于深度强化学习的Web服务组合方法,其特征在于,所述步骤2)中初始化系统参数的具体步骤为:初始化折扣因子γ,0γ1;初始化学习率α,0α1;区分状态的临界值τ;初始化ADQRC模型中神经网络的权重和偏置;初始化瞬间效益矩阵和长期效益矩阵,用来计算学习过程中的的效益数据;初始化Q值映射表s,a,Q;初始化隐藏状态集合H(s)={},用一个存储表D(s,a,Q)存储经过一个学习片段之后所学习到的信息;初始化迭代次数m为1以及开始判断状态类别的迭代次数槛值k。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710295158.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于果树种植的缓释肥及其制备方法
- 下一篇:一种甲烷的提纯方法





