[发明专利]基于多Agent环境的深度强化学习算法、设备和存储介质有效
申请号: | 202211114004.3 | 申请日: | 2022-09-14 |
公开(公告)号: | CN115392438B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 王旭;周诗佳;张宇;尤天舒;徐勇;富倩;孙伟;李力东;杜丽英;戴传祗 | 申请(专利权)人: | 吉林建筑大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00;G06Q10/04 |
代理公司: | 重庆三航专利代理事务所(特殊普通合伙) 50307 | 代理人: | 万文会 |
地址: | 130118 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 agent 环境 深度 强化 学习 算法 设备 存储 介质 | ||
1.一种基于多Agent环境的深度强化学习算法,其特征在于,应用于多Agent环境中的深度强化学习模型,所述深度强化学习算法包括:
步骤S101、利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分;所述智能体样本为猎物智能体和捕食者智能体;所述Agent中的目标网络用于基于所述智能体样本,模拟所述猎物智能体和所述捕食者智能体在障碍环境中的竞争路径或合作路径;所述Agent中的目标网络包括目标critic网络和目标actor网络;所述时间差分基于当前价值信息以及预设的环境奖惩参数确定;所述当前价值信息基于所述目标critic网络对所述初始状态信息和当前策略信息进行评价得到;所述当前策略信息基于所述目标actor网络对所述初始状态信息进行预测得到;
步骤S102、根据预设的遮盖率,对所述初始状态信息进行随机遮盖,得到目标状态信息;利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值;预设的所述遮盖率基于random函数对所述初始状态信息随机遮盖后,所述Agent中的预测网络对遮盖后的初始状态信息进行预测得到;
步骤S103:基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新;
步骤S104:重复步骤S102和步骤S103至预设次数,确定目标加权值,根据所述目标加权值确定目标深度强化学习模型;所述目标深度强化学习模型用于确定猎物智能体和捕食者智能体在障碍环境下的合作路径或竞争路径。
2.根据权利要求1所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的目标网络包括目标actor网络和目标critic网络;
所述利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分,包括:
将所述初始状态信息输入至所述目标actor网络中进行预测,得到当前策略信息;
将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价,得到对应的当前价值信息;
根据所述当前价值信息以及预设的环境奖惩参数,确定所述时间差分。
3.根据权利要求1所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的预测网络包括critic网络;
所述利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值,包括:
将所述目标状态信息和所述智能体样本的动作信息输入至所述critic网络中进行预测,得到目标价值信息;
根据所述目标价值信息和所述时间差分,确定所述误差值。
4.根据权利要求3所述的基于多Agent环境的深度强化学习算法,其特征在于,所述Agent中的预测网络包括actor网络;
所述基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和所述Agent中的目标网络各自对应的加权值进行更新,包括:
基于所述误差值,对所述critic网络的加权值进行更新;
对所述智能体样本的动作信息进行抽样,得到目标动作信息,根据所述目标动作信息对所述actor网络的加权值进行更新;
根据更新后的actor网络的加权值和更新后的critic网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
5.根据权利要求4所述的基于多Agent环境的深度强化学习算法,其特征在于,所述根据更新后的critic网络的加权值和更新后的actor网络的加权值,以及所述自适应修改参数,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新,包括:
基于预设的自适应加权平均更新模型,确定所述自适应修改参数;
根据所述自适应修改参数,确定网络更新模型;
根据网络更新模型,以及所述更新后的critic网络的加权值和所述更新后的actor网络的加权值,对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林建筑大学,未经吉林建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211114004.3/1.html,转载请声明来源钻瓜专利网。