[发明专利]基于内在动机的多智能体稀疏奖励环境协作探索方法在审
| 申请号: | 202111455606.0 | 申请日: | 2021-12-01 |
| 公开(公告)号: | CN114169421A | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 谢京达;郝建业;郑岩;马亿;杨天培 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 内在 动机 智能 稀疏 奖励 环境 协作 探索 方法 | ||
1.一种基于内在动机的多智能体稀疏奖励环境协作探索方法,其特征在于,该方法具体包括以下步骤:
步骤1、初始化目标策略该策略用于学习完成目标任务;同时初始化探索策略该策略用于在环境中进行充分探索;其中,π表示智能体的当前策略,n为智能体数量;
步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;
步骤3、进行势能影响的分配,具体处理如下:
利用反事实基线方法,用如下公式计算得到智能体a的优势函数,如下式所示:
其中,ua为智能体a的动作,u-a为其他智能体的联合动作,π表示智能体a的当前策略,Aa表示智能体a在当前策略π下,采取动作ua相比于采取其他动作对受势能影响的大小,Aa越大,表示智能体a的当前动作ua和其他动作相比受势能影响程度越大,反之亦然。接着对每个智能体i都计算其对应的Ai,并通过softmax操作得到智能体内在受势能影响的占比:
设智能体i每个时间步t的奖励为如下式所示:
步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。
2.如权利要求1所述的基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,所述步骤2进一步包括以下处理:
步骤2.1、进行探索充分性度量,具体处理如下:
将协作式多智能体探索任务建模为分布式局部观测的马尔可夫决策过程(Dec-POMDP),如下式所示:
S,U,P,r,O,Z,n,γ
其中,S表示智能体的全局状态集合,U表示智能体的联合动作集合,P表示转移函数,r为全局奖励函数,O表示智能体的局部观测集合,Z表示初始全局状态分布,n表示智能体数量,γ表示强化学习中的奖赏折扣因子;
用计数器Counter C(St,ut)表示在整个训练过程中多智能体系统在联合状态为St下采取联合动作为ut的次数;
步骤2.2、距离测算网络训练
在多智能体环境中,通过一个距离测算网络来衡量两个状态之间的距离,距离测算网络输入为全局状态St和联合动作ut,输出为一个值,用于衡量两个状态之间的距离;
距离测算公式如下:
dis=||f(st+1,ut+1)-f(st,ut)||2
其中,f()表示拟合函数,dis表示两个状态之间的距离;
步骤2.3、构建人工势场,具体处理如下:
从数据池中采样一批数据,将Counter最少的状态-动作对作为目标状态(s,u)goal,
采样分段引力势能,引力势能如下式所示:
其中,d((s,u),(s,u)goal)表示当前状态与目标的距离,表示超参数,当两者距离小于或等于时,引力势能表现为平方形式,否则,降低引力势能的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111455606.0/1.html,转载请声明来源钻瓜专利网。





