[发明专利]一种博弈策略优化方法、系统及存储介质有效
| 申请号: | 202010399728.1 | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN111291890B | 公开(公告)日: | 2021-01-01 |
| 发明(设计)人: | 王轩;漆舒汉;张加佳;胡书豪;黄旭忠;刘洋;蒋琳;廖清;夏文;李化乐 | 申请(专利权)人: | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
| 主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/08;G06N20/00 |
| 代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 罗志伟 |
| 地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 博弈 策略 优化 方法 系统 存储 介质 | ||
本发明提供了一种博弈策略优化方法、系统及存储介质,该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
技术领域
本发明涉及人工智能技术领域,尤其涉及基于多智能体强化学习和虚拟自我对局的博弈策略优化方法、系统及存储介质。
背景技术
现实场景中的诸多决策问题都可以建模成非完备信息博弈中的策略求解问题,但目前的机器博弈算法需要对问题的状态空间进行抽象,在高维动作空间中表现不佳,且通常仅适用于二人博弈,而实际问题中的博弈大多数是多人博弈。
神经网络虚拟自我对局 (Neural Fictitious Self-Play,NFSP)是一种在机器博弈领域引发诸多关注的博弈策略求解方法,通过自我博弈来进行学习,分别利用深度强化学习和监督学习来实现机器博弈中最佳响应策略的计算和平均策略的更新。自博弈通过采样的方式来构造智能体的强化学习记忆,使其相当于近似对手采取平均策略的马尔可夫决策过程 (Markov Decision Process, MDP) 经验数据。因此通过强化学习算法对MDP(马尔可夫决策过程)进行求解可以求解近似最优反应策略,同样地,智能体的监督学习记忆可用来近似智能体自身的平均策略经验数据,然后通过有监督分类算法求解策略。NFSP(神经网络虚拟自我对局)智能体将其博弈的经验数据存储在一个有限的重放缓冲区中,进行蓄水池抽样来避免抽样误差。同时NFSP(神经网络虚拟自我对局)还可以使智能体使用预期动力学有效地跟踪其对手的策略变化。
但是在多智能体博弈中的策略学习本质上比单智能体博弈更复杂,多智能体博弈中往往具有非平稳性,智能体不光要与对手进行交互,而且会受到其他智能体策略的影响。NFSP(神经网络虚拟自我对局)中的预期动态可以感知二人博弈中的策略变化,但在多人博弈中作用有限。在 NFSP (神经网络虚拟自我对局)中每次生成的样本对应固定的对手策略,如果无法感知其他智能体带来的策略影响,那么学习到的最优反应策略和平均策略都是不准确的,将会导致 MDP (马尔可夫决策过程)的马尔可夫性失效。此外在多智能体博弈中还存在维度灾难、信用分配、全局探索等诸多问题。
发明内容
本发明提供了一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,包括如下步骤:
建立基于最大熵的策略递度算法步骤:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
其中的 表示策略 在状态 下的策略熵, 表示决定策略熵项重要程度的温度系数,相当于用来控制智能体策略的随机性,如果 则退化为传统的强化学习算法;
多智能体最优反应策略求解步骤:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
作为本发明的进一步改进,在所述建立基于最大熵的策略递度算法步骤中,温度系数a的损失函数如下:
上述公式的意义就是保持策略熵大于的同时来优化策略,可以实现在博弈策略优化的不同阶段温度系数 α 可变。
本发明还提供了一种博弈策略优化系统,该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010399728.1/2.html,转载请声明来源钻瓜专利网。





