[发明专利]基于多Agent环境的深度强化学习算法、设备和存储介质有效

申请号：	202211114004.3	申请日：	2022-09-14
公开（公告）号：	CN115392438B	公开（公告）日：	2023-07-07
发明（设计）人：	王旭;周诗佳;张宇;尤天舒;徐勇;富倩;孙伟;李力东;杜丽英;戴传祗	申请（专利权）人：	吉林建筑大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00;G06Q10/04
代理公司：	重庆三航专利代理事务所(特殊普通合伙) 50307	代理人：	万文会
地址：	130118 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 agent 环境深度强化学习算法设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质，涉及深度强化学习算法技术领域；通过步骤S101、利用Agent中的目标网络，基于初始状态信息和动作信息，确定时间差分；步骤S102、根据预设的遮盖率，对初始状态信息进行随机遮盖，得到目标状态信息，利用Agent中的预测网络，以及时间差分，确定误差值；步骤S103：基于误差值，以及自适应修改参数，对Agent中的预测网络和目标网络各自对应的加权值进行更新；步骤S104：重复步骤S102和步骤S103预设次数，确定目标加权值，从而确定目标深度强化学习模型。具有保证了样本学习效率，并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新，以提高收敛速度的效果。

技术领域

本申请涉及深度强化学习算法技术领域，具体而言，涉及一种基于多Agent环境的深度强化学习算法、装置和存储介质。

背景技术

多Agent强化学习是指在多Agent环境中，使用强化学习的算法使得智能体之间可以像人一样进行协作交流，达到智能博弈的效果。

目前多智能体深度确定性策略梯度(MADDPG，Multi-AgentDeep DeterministicPolicy Gradient)在Agent环境中具有较强的收敛性、复杂环境适应性以及自我学习能力，但随着Agent数量的增加，多Agent之间的管理交互的难度会呈现指数级上升，而且对于样本的利用与探索之间的权衡往往二者不可兼得，对于有价值的样本可能会被覆盖或遗忘，导致重要样本利用率不高，从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度。

发明内容

为了解决随着Agent数量的增加，多Agent之间的管理交互的难度会呈现指数级上升，而且对于样本的利用与探索之间的权衡往往二者不可兼得，对于有价值的样本可能会被覆盖或遗忘，导致重要样本利用率不高，从而影响MADDPG在多Agent环境中的收敛速度以及收敛的奖励幅度的问题，本申请提供了一种基于多Agent环境的深度强化学习算法、设备和存储介质。

本申请的实施例是这样实现的：

本申请实施例的提供一种基于多Agent环境的深度强化学习算法，应用于多Agent环境中的深度强化学习模型，所述深度强化学习算法包括：

步骤S101、利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分；

步骤S102、根据预设的遮盖率，对所述初始状态性信息进行随机遮盖，得到目标状态信息；利用所述Agent中的预测网络，根据所述目标状态信息、智能体样本的动作信息以及所述时间差分，确定误差值；

步骤S103：基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和目标网络各自对应的加权值进行更新；

步骤S104：重复步骤S102和步骤S103至预设次数，确定目标加权值，根据所述目标加权值确定目标深度强化学习模型。

上述方案中，所述目标网络包括目标actor网络和目标critic网络；

所述利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分，包括：

将所述初始状态信息输入至所述目标actor网络中进行预测，得到当前策略信息；

将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价，得到对应的当前价值信息；

根据所述当前价值信息以及预设的环境奖惩参数，确定所述时间差分。

上述方案中，所述预测网络包括critic网络；