[发明专利]基于情节记忆的多智能体协同策略的训练方法和系统在审
| 申请号: | 202310294489.7 | 申请日: | 2023-03-24 |
| 公开(公告)号: | CN116360435A | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 章宗长;俞扬;周志华;贺泉;徐嘉诚 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/0442;G06N3/045;G06N3/092;G06N7/01 |
| 代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 情节 记忆 智能 体协 策略 训练 方法 系统 | ||
1.一种基于情节记忆的多智能体协同策略的训练系统,所述多智能体协同指的是多机器人协同,其特征在于,包括三个模块:
个体策略网络模块,用于机器人从自身观测中确定执行动作;
集中式值网络模块,用于评估预期回报并指导机器人个体策略;
情节记忆模块,用于记录情节与对应长期回报。
2.根据权利要求1所述的基于情节记忆的多智能体协同策略的训练系统,其特征在于,所述仿真操控环境E能够建模为分散式部分可观测马尔科夫决策过程S,A,P,R,Ω,O,γ,状态空间S定义为环境信息与所有机器人信息,动作空间A为机器人可采取动作集合,P为模拟器的状态转移函数,R为模拟器的奖赏函数,Ω为每个机器人可能接收到的观测集合,O为环境的状态观测函数,γ为折扣因子;场景中任一机器人i在每个决策步骤接收观测信息oi∈Ω,并从动作空间A中选取可执行的动作ai进行决策。
3.根据权利要求1所述的基于情节记忆的多智能体协同策略的训练系统,其特征在于,所述个体策略网络模块使用全连接神经网络表示,根据给定的观测信息得到单个机器人控制过程下的最优动作;在训练阶段中,该模块利用集中式值网络给出优势函数估计,使用近端策略优化算法进行学习,利用训练过程中原策略与机器人仿真操控环境交互过程中的数据进行网络参数更新,得到更新的网络模型,该模块的强化学习过程目标函数如下:
式中τ为所有机器人在对应时间步中接收到的历史观测信息,a为所有机器人采取的对应动作,θ为机器人个体策略网络的参数,Ai为集中式值网络模块输出的对各机器人动作的优势函数估计,为新旧策略在自身观测τi下执行动作ai的概率比,∈为控制策略训练步长的参数,clamp(rθ,i,1-∈,1+∈)表示以1-∈和1-∈作为rθ,i的下界和上界。
4.根据权利要求1所述的基于情节记忆的多智能体协同策略的训练系统,其特征在于,所述集中式值网络模块使用全连接神经网络表示,能够根据给定的全局状态信息得到单个机器人动作的优势函数估计;在训练阶段中,该模块将当前环境折扣回报R与情节记忆回报E作为目标,使用最小化平方损失算法进行学习,该模块的强化学习过程目标函数如下:
式中s为整体机器人在对应时间步中的全局状态,a为所有机器人采取的对应动作,φ为集中式值网络的参数,Vφ(s)为网络对全局状态输出的值函数估计,R为对应轨迹上获得的GAE折扣奖励,E(s)为情节记忆模块输出的对应全局状态的情节记忆回报。
5.根据权利要求1所述的基于情节记忆的多智能体协同策略的训练系统,其特征在于,所述情节记忆模块能够根据训练时收集到的环境数据,记录给定情节下机器人获得的最高奖励;该情节记忆模块使用随机投影技术对全局状态进行降维,得到不同情节下的最佳回报,利用k-dimensional树存储相关回报,并将该回报作为集中式值网络训练的额外目标。
6.一种基于情节记忆的多智能体协同策略的训练方法,其特征在于,包括如下步骤:
步骤1:初始化机器人与多机器人仿真操控环境;
步骤2:使用基于循环神经网络和多层感知机的浅层神经网络来构建机器人的个体策略网络;使用基于多层感知机的浅层神经网络来构建全局值网络;使用k-dimensional树构建情节记忆;
步骤3:基于多机器人仿真操控环境提供的环境模型,使用机器人策略与之交互采集数据并存储,交互数据以机器人状态-动作-奖励的轨迹的格式表示;
步骤4:根据机器人与仿真操控环境交互过程中的轨迹与全局奖赏,更新情节记忆;
步骤5:使用最小化均方损失方法,以情节记忆奖赏和全局奖赏为目标,更新集中式值网络;
步骤6:使用近端策略优化算法,利用集中式值网络给出的优势函数估计,更新机器人个体策略网络;
步骤7:重复步骤3~6至策略训练达到收敛后,完成训练过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310294489.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:风机传动模拟系统的切换方法及系统
- 下一篇:一种电子膨胀阀的降噪装置及方法





