[发明专利]基于多智能体强化学习的大规模服务组合优化方法在审
| 申请号: | 201310161238.8 | 申请日: | 2013-05-03 |
| 公开(公告)号: | CN103248693A | 公开(公告)日: | 2013-08-14 |
| 发明(设计)人: | 王红兵;王晓珺 | 申请(专利权)人: | 东南大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 杨晓玲 |
| 地址: | 211189 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 智能 强化 学习 大规模 服务 组合 优化 方法 | ||
技术领域
本发明属于人工智能领域,涉及利用计算机对Web服务组合自适应优化的方法。
背景技术
面对复杂多变的市场环境和激烈的竞争,企业迫切需要应用的集成和电子商务技术的支持,以便提高自身在市场的竞争力和适应性。由于Web服务所具有的特性,使得它非常适合于当今跨企业商务应用的集成,工业界和学术界都希望能够通过组合现有的Web服务来创造出新的服务功能。为了实现企业间信息系统的应用互操作和应用集成,可以通过对企业应用系统进行Web服务封装,建立面向服务的框架体系,提供Web访问的接口,将企业之间的应用系统以Web服务的方式集成起来,实现跨企业的服务组合与协作,并通过跨企业工作流系统实现业务流程的自动化。Web服务组合技术就是实现上述目标的一个重要途径。它将多个Web服务按照一定的规则,发现并组装成一个增值的、更大力度的服务,以满足用户的复杂需求。但是,由于Internet环境所特有的复杂性与多变性,组成复合服务的服务组件,在复合服务的执行过程中,可能发生动态变化,这使得组成复合服务的服务组件很难在设计阶段或编译阶段确定下来。因此,需要进行动态web服务组合,来适应动态变化的复杂业务环境。另外一个问题就是服务的质量问题,即QoS属性问题。因为网络有上许多提供相同功能的服务,选择一个具有最优QoS属性的服务也是非常重要的。而且,Web服务在运行过程中其QoS属性也可能发生动态变化。如Web服务经过一段时间的运行后,其QoS无法满足客户的需求。所以Web服务组合,也需要适应动态变化的复杂业务环境,以维持在一个良好的运行状态和具有一定的容错功能。
目前,静态服务组合事先就要确定参与流程的Web服务,要求开发者手动去执行服务组装和服务执行。因此,这个过程是困难,耗时和易出错的,而且不能适应动态的环境。基于马尔可夫决策过程(Markov Decision Process,MDP)是随机环境下序列决策问题的定量化表达框架。随机环境下的序列决策问题,是指决策者在每个观测点上都要做出决策,并且决策时不知道下一个状态上的决策信息。一般来讲,这种决策问题不仅需要考虑当前决利益,还需要考虑当前决策对未来的影响,使系统的运行达到最优。Doshi提出了MDP在Web服务组合中的应用,用于产生工作流的动态Web服务组合。但是此方法需要知道状态转移概率和回报值函数的环境模型。而这在现实环境中通常是不可实现的。
发明内容
技术问题:本发明提供一种在面对不确定和不可预测的环境时,能够根据当时环境的变化在线制定出相应自适应行为策略的基于多agent强化学习的大规模服务组合优化方法。
技术方案:本发明的基于多智能体强化学习的大规模服务组合优化方法,包括以下步骤:
1)把Web服务组合的环境建模成一个6元组的Web服务组合马尔可夫决策过程状态转移图,即WSC-MDP=<S,s0,st,A(s),P:[piaj],R:[riaj]>,其中S为一系列原子动作从某个特定的初始状态s0开始执行的可达到的状态集合,s0表示初始状态,表示动作还没有发生时的状态,也即工作流的初值,st用户的目标状态,也即工作流的终态,A(s)表示Web服务组合智能体在某一状态s∈S是可执行的Web服务集合,P:[piaj]:为系统在某一状态时,调用该状态下的可用的Web服务,系统进入下一状态的概率,R:[riaj]为某个状态下调用服务的综合评价回报值;
2)初始化强化学习中Q学习算法的学习速率、折扣因子、Q值和公共Q值Qp;
3)把进行Web服务组合优化的软件实体作为能够感知环境并能够自主运行满足设计目标的Web服务组合智能体,Web服务组合智能体感知环境中的状态s;
4)Web服务组合智能体根据动作选择策略选择并执行动作A(s),得到新的状态s′,同时从新的状态s′中得到回报值r;
5)对Q学习中的Q值进行计算和更新,并将更新后为的Q值作为Web服务组合监督智能体的公共Q值,结束本次强化学习过程,Web服务组合监督智能体为指导与同步每个Web服务组合智能体学习过程的软件实体;
6)判断Q值是否收敛,如是,则把本次强化学习的结果作为最优Web服务执行工作流,否则回到步骤3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310161238.8/2.html,转载请声明来源钻瓜专利网。





