[发明专利]一种多智能体协作环境强化学习算法的测试方法有效
申请号: | 202010648233.8 | 申请日: | 2020-07-07 |
公开(公告)号: | CN111814988B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 殷永峰;谢静;李秋儒;王轶辰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;A63F13/822 |
代理公司: | 北京清大紫荆知识产权代理有限公司 11718 | 代理人: | 张卓 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 体协 环境 强化 学习 算法 测试 方法 | ||
1.一种多智能体协作环境强化学习算法的测试方法,其特征在于,包括以下步骤:
在测试前期,分析智能体UCB算法训练算法阶段特性,得出影响UCB算法模型训练效果的智能体训练算法阶段影响因子为智能体位置空间的奖惩值设置、智能体的数量和部署的位置空间样本量;
根据智能体训练算法训练影响因子,通过调整位置空间的奖惩值,产生算法的预期回报值和收敛速度;通过改变智能体的数量,查看智能体训练的速度和归一化程度,通过增加或减少位置空间样本量,查看智能体训练的预期回报值输出和收敛速度,验证测试影响因子有效性,得出验证智能体学习UCB算法的测试策略;
分析QMIX算法,联合动作值函数与单个智能体的局部值函数的单调性相同,使联合动作值函数最大,结合算法特性,得出影响QMIX算法模型训练效果的因子为单个智能体的动作空间属性、对抗样本规则、智能体的数量和样本量;
通过修改智能体的动作空间属性,产生算法的预期总收益值和收敛速度;通过改变样本规则或训练样本量,得出智能体训练的胜率或速度,通过增加或减少智能体数量,得出智能体训练的预期总收益值和收敛效果,验证测试影响因子有效性,得出验证智能体学习QMI算法的测试策略;
测试最后阶段,根据智能体UCB算法和QMIX算法的测试策略,分析协作训练的测试策略,得出智能体训练算法协作影响因子包括协作训练规则、智能体训练和测试样本、协作智能体数量;
根据智能体训练算法协作影响因子验证智能体训练效果,完成对多智能体协作环境下深度学习算法的测试。
2.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,UCB算法用于训练动作和状态空间固化或较小的Ⅰ类智能体,QMIX算法用于训练动作和状态空间大且复杂的Ⅱ类智能体。
3.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述验证智能体训练效果的测试策略,包括UCB算法训练效果的验证和QMIX算法训练效果的验证。
4.根据权利要求3所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述UCB算法训练效果的验证,具体过程为:
1)根据UCB算法得出训练影响因子:空间位置奖惩值、智能体数量、空间位置样本量;
2)输入调整后的空间位置奖惩值,则空间位置奖惩值较高的位置回报值高且被选次数较多,收敛速度加快;
3)修改智能体数量后开始训练,在智能体数量增多时算法收敛速度减慢,减小后收敛速度加快,输出的回报值始终被归一化;
4)修改空间位置样本量后开始训练,位置空间增多则收敛速度减慢,位置空间减少时收敛速度加快,被选中位置的回报值最高;
满足上述过程,则算法训练效果较好,反之较差。
5.根据权利要求3所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述QMIX算法训练效果的验证,具体过程为:
1)根据QMIX算法得出训练影响因子:智能体动作空间属性、对抗样本规则或样本量、智能体数量;
2)修改动作空间属性,则智能体动作能力增强后收益值增且收敛速度加快,能力减弱后收益值减小且收敛速度减缓;
3)修改样本规则后开始训练,对抗样本能力增强后胜率降低,减弱后胜率提升;修改样本量后开始训练,样本量增多训练速度加快,模型胜率提升;
4)修改智能体数量后开始训练,数量增加时收益值上升且速度减缓,收敛速度减慢但算法依然收敛,满足胜率要求;
满足上述过程,则算法训练效果较好,反之较差。
6.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述根据智能体训练算法协作影响因子验证智能体训练效果,完成对多智能体协作环境下深度学习算法的测试,具体为:
1)分析各个智能体训练算法协作训练的测试策略,得出智能体训练算法协作影响因子:协作训练规则、对抗样本的训练和测试样本、协作智能体数量;
2)修改智能体特性后开始训练,则智能体动作能力增强后胜率提升,能力减弱后胜率降低;修改对抗样本规则,样本能力增强训练速度减慢,胜率降低,样本能力减弱则相反;
3)修改样本量后开始训练,样本量增多训练速度减慢,减小后训练速度加快,组合算法依然收敛;
4)改变训练和测试样本的比例,增大比例训练速度减缓,测试胜率不稳定,减小比例训练速度提升胜率稳定但胜率偏低;
5)修改智能体数量后开始训练,数量增加时收敛速度减缓,胜率提高,数量减少后胜率降低,算法依然收敛,满足胜率要求;
满足上述过程,则算法训练效果较好,反之较差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010648233.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种叉车
- 下一篇:一种有人或无人驾驶装甲电动车