[发明专利]一种基于强化学习的足球机器人协作方法有效
申请号: | 201910083609.2 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109794937B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 胡丽娟;梁志伟;李汉辉 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210046 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 足球 机器人 协作 方法 | ||
1.一种基于强化学习的足球机器人协作方法,其特征在于,所述方法包括:
S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;强化学习基本模型的原理为,足球机器人在感知当前环境的状态下选择动作,此时环境状态迁移到新的状态,相应的,新的状态产生一个强化信号反馈给足球机器人,足球机器人根据当前环境信息与强化信号决定下一个行动;
S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;其中包括进攻持球者与各个队友之间的距离、持球者与守门员之间的距离、各个进攻球员与球门线的距离、各个进攻球员与防守球员的最近距离、最小角度、在带球锥内持球者与防守球员最近的距离、最大角度;
S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作;可操作动作集包括传球、带球和射门三种,其中传球动作PassK基于与队友的距离PassK把球踢到第K个队友;带球动作Dribble是为了鼓励进攻球员向球门靠近;射门动作Shoot是将球踢向球门,进球即得分;当球没有被进攻球员持有时,距离球最近的进攻球员会直接冲向球来达到持球权权利;同时,其他进攻球员总是保持阵型向前进攻。
2.如权利要求1所述的基于强化学习的足球机器人协作方法,其特征在于,所述足球机器人包括进攻端机器人和防守端机器人,所述状态变量的数量基于所述进攻端机器人和防守端机器人的总和来设定。
3.如权利要求2所述的基于强化学习的足球机器人协作方法,其特征在于,所述方法还包括:所述进攻端机器人或所述防守端机器人中指定足球机器人通过所述Sarsa(λ)算法与剩余足球机器人通讯,通过所述通讯广播自身的状态和动作消息。
4.如权利要求1所述的基于强化学习的足球机器人协作方法,其特征在于,所述奖惩机制r为:。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910083609.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动上膜机械手
- 下一篇:一种适用于曲面结构的机器人制孔误差补偿装置及其方法