[发明专利]基于多Agent环境的深度强化学习算法、设备和存储介质有效

专利信息
申请号: 202211114004.3 申请日: 2022-09-14
公开(公告)号: CN115392438B 公开(公告)日: 2023-07-07
发明(设计)人: 王旭;周诗佳;张宇;尤天舒;徐勇;富倩;孙伟;李力东;杜丽英;戴传祗 申请(专利权)人: 吉林建筑大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G06N20/00;G06Q10/04
代理公司: 重庆三航专利代理事务所(特殊普通合伙) 50307 代理人: 万文会
地址: 130118 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 agent 环境 深度 强化 学习 算法 设备 存储 介质
【说明书】:

本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质,涉及深度强化学习算法技术领域;通过步骤S101、利用Agent中的目标网络,基于初始状态信息和动作信息,确定时间差分;步骤S102、根据预设的遮盖率,对初始状态信息进行随机遮盖,得到目标状态信息,利用Agent中的预测网络,以及时间差分,确定误差值;步骤S103:基于误差值,以及自适应修改参数,对Agent中的预测网络和目标网络各自对应的加权值进行更新;步骤S104:重复步骤S102和步骤S103预设次数,确定目标加权值,从而确定目标深度强化学习模型。具有保证了样本学习效率,并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新,以提高收敛速度的效果。

技术领域

本申请涉及深度强化学习算法技术领域,具体而言,涉及一种基于多Agent环境的深度强化学习算法、装置和存储介质。

背景技术

多Agent强化学习是指在多Agent环境中,使用强化学习的算法使得智能体之间可以像人一样进行协作交流,达到智能博弈的效果。

目前多智能体深度确定性策略梯度(MADDPG,Multi-AgentDeep DeterministicPolicy Gradient)在Agent环境中具有较强的收敛性、复杂环境适应性以及自我学习能力,但随着Agent数量的增加,多Agent之间的管理交互的难度会呈现指数级上升,而且对于样本的利用与探索之间的权衡往往二者不可兼得,对于有价值的样本可能会被覆盖或遗忘,导致重要样本利用率不高,从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度。

发明内容

为了解决随着Agent数量的增加,多Agent之间的管理交互的难度会呈现指数级上升,而且对于样本的利用与探索之间的权衡往往二者不可兼得,对于有价值的样本可能会被覆盖或遗忘,导致重要样本利用率不高,从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度的问题,本申请提供了一种基于多Agent环境的深度强化学习算法、设备和存储介质。

本申请的实施例是这样实现的:

本申请实施例的提供一种基于多Agent环境的深度强化学习算法,应用于多Agent环境中的深度强化学习模型,所述深度强化学习算法包括:

步骤S101、利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分;

步骤S102、根据预设的遮盖率,对所述初始状态性信息进行随机遮盖,得到目标状态信息;利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值;

步骤S103:基于所述误差值,以及自适应修改参数,对所述Agent中的预测网络和目标网络各自对应的加权值进行更新;

步骤S104:重复步骤S102和步骤S103至预设次数,确定目标加权值,根据所述目标加权值确定目标深度强化学习模型。

上述方案中,所述目标网络包括目标actor网络和目标critic网络;

所述利用所述Agent中的目标网络,基于智能体样本的初始状态信息,确定时间差分,包括:

将所述初始状态信息输入至所述目标actor网络中进行预测,得到当前策略信息;

将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价,得到对应的当前价值信息;

根据所述当前价值信息以及预设的环境奖惩参数,确定所述时间差分。

上述方案中,所述预测网络包括critic网络;

所述利用所述Agent中的预测网络,根据所述目标状态信息、智能体样本的动作信息以及所述时间差分,确定误差值,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林建筑大学,未经吉林建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211114004.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top