[发明专利]一种基于强化学习的敌-友深度确定性策略方法及系统在审
申请号: | 202010977621.0 | 申请日: | 2020-09-17 |
公开(公告)号: | CN112215364A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 薛超;姜浩;金松昌;康颖;史殿习;郝峰;王弢 | 申请(专利权)人: | 天津(滨海)人工智能军民融合创新中心 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 300450 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 深度 确定性 策略 方法 系统 | ||
一种基于强化学习的敌‑友深度确定性策略方法,包括:构建强化学习环境,所述学习环境包括:多种场景、基于每种场景设计的多个智能体以及多个智能体之间的关系;基于每种场景,获取各智能体动作;基于所有智能体动作以及智能体之间的关系,以使敌方最坏、友方最好为目标,对估计评论家网络和估计演员网络进行训练,确定各智能体动作策略;其中,所述智能体之间的关系包括:处于友方的合作者和处于对方的对抗者;本发明提供的方法能够有效的面对多智能体强化学习中的非稳定性问题,即便是面对快速变化的对手,算法也能够有较好的性能和泛化性。
技术领域
本发明涉及智能体强化学习领域,具体涉及一种基于强化学习的敌-友深度确定性策略方法及系统。
背景技术
近年来,深度强化学习取得了迅速的发展。其在机器人运动控制、视频预测等单智能体环境下,以及Atari游戏、Go等复杂游戏环境下,取得了显著的成功。然而,现实生活中的场景往往涉及多智能体之间复杂的合作、对抗或交互,如车辆自动驾驶、资源分配、群体机器人、人机交互等。因此,越来越多的研究人员正从单智能体领域转向多智能体领域。目前在多智能体场景下已经取得了一定的研究成果,如通信和自然语言处理、多智能体游戏、交通控制、社交困境等。
马尔科夫决策过程(Markov Decision Process,MDP)是强化学习问题在数学上的理想化形式,也是一种通过交互式学习来实现目标的理论框架。通常将进行学习以及实施决策的机器人称为智能体,智能体之外所有与之相互作用的事物称为环境。智能体选择动作,环境对这些动作做出相应的回馈,并且向智能体呈现一个新的状态。同时环境也会产生一个收益(也就是奖励),这个奖励就是智能体在选择动作过程中想要最大化的目标。该系列决策过程可以建模成MDP。
非稳定性是多智能体强化学习面临的一个严峻问题。因为在多智能体环境设定中,智能体只能感知到部分环境,在这种部分可观察的状态下,智能体无法获取环境的整体信息。在训练的过程中,任一智能体将其他智能体看做是环境的一部分,其他智能体都在与环境不断的交互,且每个其他智能体的策略都会随时变化,所以对每个智能体而言,整个环境都是在动态变化的。在此情况下,每个智能体感知到的环境是独立的,获得的奖励回报也会不同,整个环境也变的很不稳定。经典的梯度下降算法在这种部分可观察的多智能体场景下通常表现出较大的方差。为了解决不稳定问题,研究人员做了大量的工作。美国人工智能协会(AAAI2018)上发表的论文《Counterfactual Multi-Agent Policy Gradients》提出了一种基于行为-批评学习框架的集中式批评来减小政策梯度方差的反事实多智能体策略梯度算法(COMA)。神经信息处理系统大会(NIPS 2017)上发表的文章《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》提出了一种多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)。
MADDPG算法是将演员-评论家(Actor-Critic,AC)算法进行了一系列改进,使其能够适用于传统强化学习算法无法处理的复杂多智能体场景。算法通过获取全局信息条件下的每个智能体的Q函数以及其他智能体的动作和状态,使用集中式训练得到演员和评论家。在执行的时候演员只需要自己局部观测的信息就能运行。该算法能够有效的缓解非平稳性问题,且在合作场景和对抗场景中均有较好的表现。
友方或敌方Q学习算法(Friend-or-Foe Q-learning,FFQ)是一种经典的强化学习算法,它是从Minimax-Q算法拓展而来。为了能够处理一般和博弈,FFQ算法对一个智能体i,将其他所有智能体分为两组,一组为i的朋友帮助i一起最大化其奖励回报,另一组为i的敌人对抗i并降低i的奖励回报,因此对每个智能体而言都有两组。这样一个n智能体的一般和博弈就转化成了n个两智能体的零和博弈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津(滨海)人工智能军民融合创新中心,未经天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010977621.0/2.html,转载请声明来源钻瓜专利网。