[发明专利]基于多智能体强化学习的大规模服务组合优化方法在审

申请号：	201310161238.8	申请日：	2013-05-03
公开（公告）号：	CN103248693A	公开（公告）日：	2013-08-14
发明（设计）人：	王红兵;王晓珺	申请（专利权）人：	东南大学
主分类号：	H04L29/08	分类号：	H04L29/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	杨晓玲
地址：	211189 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能强化学习大规模服务组合优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体强化学习的大规模服务组合优化方法，其特征在于，该方法包括以下步骤：

1）把Web服务组合的环境建模成一个6元组的Web服务组合马尔可夫决策过程状态转移图，即WSC-MDP=<S,s₀,s_t,A(s),P:[p_iaj],R:[r_iaj]>，其中S为一系列原子动作从某个特定的初始状态s₀开始执行的可达到的状态集合，s₀表示初始状态，表示动作还没有发生时的状态，也即工作流的初值，s_t用户的目标状态，也即工作流的终态，A(s)表示Web服务组合智能体在某一状态s∈S是可执行的Web服务集合，P:[p_iaj]：为系统在某一状态时，调用该状态下的可用的Web服务，系统进入下一状态的概率，R:[r_iaj]为某个状态下调用服务的综合评价回报值；

2）初始化强化学习中Q学习算法的学习速率、折扣因子、Q值和公共Q值Q_p；

3）把进行Web服务组合优化的软件实体作为能够感知环境并能够自主运行满足设计目标的Web服务组合智能体，所述Web服务组合智能体感知环境中的状态s；

4）Web服务组合智能体根据动作选择策略选择并执行动作A(s)，得到新的状态s′，同时从新的状态s′中得到回报值r；

5）对Q学习中的Q值进行计算和更新，并将更新后为的Q值作为Web服务组合监督智能体的公共Q值，结束本次强化学习过程，所述Web服务组合监督智能体为指导与同步每个Web服务组合智能体学习过程的软件实体；

6）判断Q值是否收敛，如是，则把本次强化学习的结果作为最优Web服务执行工作流，否则令k=k+1后回到步骤3），k为返回步骤3）的迭代次数。

2.根据权利要求1所述的基于多智能体强化学习的大规模服务组合优化方法，其特征在于，所述步骤4）中的动作选择策略为：

按照下列方式之一选择动作：a.随机选择可行的动作，b.选择使当前Q值最大的动作；

其中，有ε概率的可能按照方式a进行选择，有1-ε概率的可能按照方式b进行选择；

当按照方式b进行选择时，由Web服务组合监督智能体确定并告知Web服务组合智能体当前Q值最大的动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】