[发明专利]基于最近探索的启发式服务组合方法有效
申请号: | 201710055814.9 | 申请日: | 2017-01-25 |
公开(公告)号: | CN106878403B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 王红兵;费欢欢 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/24 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最近 探索 启发式 服务 组合 方法 | ||
1.一种基于最近探索的启发式服务组合方法,其特征在于,包括如下步骤:
(1)将服务组合问题建模为一个六元组马尔可夫决策过程;
(2)应用基于Q-learning的强化学习方法求解六元组马尔可夫决策过程,得到最优策略;
(3)将最优策略映射为web服务组合的工作流;
步骤(1)中将服务组合问题建模为如下六元组马尔可夫决策过程:
MDP-WSC=<S;s0;sr;A(·);P;R>
其中S代表从初始状态迁移到终止状态的过程中所能经历的所有状态的集合;s0是初始状态,表示任何动作还没有发生时的状态,s0∈S;sr是终止状态,当系统到达终态时,表明一个完整的服务执行路径已经形成,构建了一个完整的组合服务,sr∈S;A(·)代表系统在状态s∈S下可以采取的动作的集合;P是状态转移函数;R是奖励函数;
所述步骤(2)应用基于Q-learning的强化学习方法求解六元组马尔可夫决策过程,得到最优策略,包括如下步骤:
(21)初始化Q-learning中学习率σ,折扣率γ,当前状态s=0,当前时间步长t=0;随机选择一个服务a作为当前动作;
(22)当前时间步长t不为0时,以概率ε应用启发式策略选择新的服务a,以概率1-ε随机选择新的服务a;
(23)执行服务a,记录在状态s下执行当前服务a的回报值r、执行次数c、探索补贴bonus;
(24)按照下式更新Q值:
Q(s,a)←(1-σ)*Q(s,a)+σ*(r+bonus+γ*maxQ(s′,a′)),
其中Q(s,a)表示在状态动作对<s,a>下的Q值,σ为学习率,r为回报值,γ为折扣率,bonus为探索补贴,s′为执行服务a后从当前状态s转移到的后继状态,a'为在状态s′下选择的服务,Q(s′,a′)表示在状态动作对<s′,a′>下的Q值;
(25)更新当前状态:s=s′,t=t+1;当s为终止状态sr且满足收敛条件时,强化学习结束,得到最优策略;否则转步骤(22)。
2.根据权利要求1所述的基于最近探索的启发式服务组合方法,其特征在于,所述步骤(23)中探索补贴bonus的计算方法为:
其中μ>0,是探索补贴系数;t为执行服务a时的当前时间步,t′为动作状态对<s,a>上次被访问的时间步。
3.根据权利要求1所述的基于最近探索的启发式服务组合方法,其特征在于,所述步骤(22)中启发式策略选择新的服务a包括如下步骤:
在(0,1)区间随机产生一个随机数υ,如果υ>ε,随机选择一个新的服务a;如果υ≤ε,选择使探索策略函数值最大的服务作为新的服务a;所述探索策略函数П*(s)如下式:
其中p,q为用来平衡表达式的大小的系数,其中EX(s′,a')为记录在状态动作对<s′,a′>下回报值的矩阵。
4.根据权利要求1所述的基于最近探索的启发式服务组合方法,其特征在于,所述步骤(25)中收敛条件为:Q值的变化小于Q值门限Qth:|Q(s,a)-Q(s′,a′)|<Qth。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710055814.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:门店内多台智能POS事件提醒方法
- 下一篇:基于特征码的集中抄表方法