[发明专利]一种多智能体协作环境强化学习算法的测试方法有效
申请号: | 202010648233.8 | 申请日: | 2020-07-07 |
公开(公告)号: | CN111814988B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 殷永峰;谢静;李秋儒;王轶辰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;A63F13/822 |
代理公司: | 北京清大紫荆知识产权代理有限公司 11718 | 代理人: | 张卓 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 体协 环境 强化 学习 算法 测试 方法 | ||
本发明属于智能体深度强化学习的测试领域,为多智能体协作环境强化学习算法的测试方法。所述多智能体协作环境深度强化学习算法中的智能体为两大类,一类是空间动作相对固定化的智能体,一类是动作和状态空间复杂的智能体,第一类智能体采用求最大置信回报值的算法(UCB算法),第二类智能体采用求取最优联合动作和状态的全局函数(QMIX算法)。本发明针对两种算法的特点,分析多智能体训练模型输出的回报值和收益值,得收敛速度和效果的影响因子,通过分析影响因子得出测试多智能体协作环境出算法深度强化学习的测试技术要点,为多智能体协作环境下深度学习算法的验证提供了有效依据。
技术领域
本发明属于智能体深度强化学习的测试技术领域,尤其涉及一种多智能体协作环境强化学习算法的测试方法。
背景技术
自然界存在大量的多智能体系统,如鱼群、蚁群等,小小的个体通过种群间相互学习获得强大的生存能力,人工多智能体系统如果也赋予这种群智能,进而获得最优个体和群体的收益,最直接的思路既是将智能学习算法用于多智能体。
多智能体强化学习需要解决很多难题,首先,在单个智能体做决策时,需要考虑对其他智能体行为的影响,在智能体数量较多且特性不一时,系统复杂度增大,不能保证学习算法在所有情况下都能收敛。其次,智能体之间必须协作有效,才能使得对环境的联合回报达到最优。
近年来,多智能体深度强化学习得到了比较快速的发展,应用场景涵盖了很多领域,尤其在军事领域的应用也越发广泛,例如DeepMind提出更复杂的即时战略游戏,在这种环境中对抗双方都是复杂多智能体系统,且具有连续动作空间,大大增加了学习难度,同时也对算法稳定性提出严峻的挑战。
智能算法中解决多臂赌博机问题的UCB算法,在军事领域中可用来训练动作和状态空间固化或较小类的智能体,从而解决部署问题,对于动作连续性较强类的智能体,可采用DDPG、MADDPG或QMIX算法。智能体学习采用的算法效果如何,就需要对算法进行评估,传统的测试方法和标准已不能满足多智能体系统的需求,研究多智能体强化学习软件的测试技术也显得尤为重要。如何设计有效的测试策略(输入和预期效果),对验证软件的质量起着关键作用。
发明内容
为了解决上述问题,本发明提出一种多智能体协作环境强化学习算法的测试方法,为多智能体协作环境下深度学习算法(UCB和QMIX)的验证提供了评估依据。
一种多智能体协作环境强化学习算法的测试方法,包括以下步骤:
在测试前期,分析各个智能体训练算法特性,得出智能体训练算法影响因子;
根据智能体训练算法影响因子,得出验证智能体训练效果的测试策略;
测试最后阶段,分析各个智能体训练算法协作训练的测试策略,得出智能体训练算法协作影响因子;
根据智能体训练算法协作影响因子验证智能体训练效果,得出多智能体协作环境下深度学习算法测试方法。
优选的,所述智能体训练算法包含UCB算法和QMIX算法,其中UCB算法用于训练动作和状态空间固化或较小的智能体(Ⅰ类),QMIX算法用于训练动作和状态空间大且复杂的智能体(Ⅱ类)。
优选的,所述验证智能体训练效果的测试策略,包括UCB算法训练效果的验证和QMIX算法训练效果的验证。
优选的,所述UCB算法训练效果的验证,具体过程为:
1)根据UCB算法得出训练影响因子:空间位置奖惩值、智能体数量、空间位置样本量;
2)输入调整后的空间位置奖惩值,则空间位置奖惩值较高的位置回报值高且被选次数较多,收敛速度加快;
3)修改智能体数量后开始训练,在智能体数量增多时算法收敛速度减慢,减小后收敛速度加快,输出的回报值始终被归一化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010648233.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种叉车
- 下一篇:一种有人或无人驾驶装甲电动车