[发明专利]一种基于强化学习的多组机器人协作控制方法及控制系统有效
| 申请号: | 201811077944.3 | 申请日: | 2018-09-16 |
| 公开(公告)号: | CN109116854B | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 陈春林;王岚;刁敏敏;唐开强;任其成;王子辉;朱长青;辛博 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 机器人 协作 控制 方法 控制系统 | ||
1.一种基于强化学习的多组机器人协作控制方法,其特征在于,包括如下步骤:
步骤1,对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
步骤2,组内各个机器人彼此共享强化学习结果;
步骤3,组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
步骤4,利用生成的全环境状态动作集合来对各组机器人进行协作控制。
2.根据权利要求1所述的基于强化学习的多组机器人协作控制方法,其特征在于,步骤1中,各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表的具体步骤为:
步骤1.1,根据有限状态集合在Matlab中构建机器人导航模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的强化学习单步算法为:
式(3)中,rt+1是机器人在状态st+1采取动作at+1的瞬时回报值,γ∈[0,1]为折扣因子,为学习率;
步骤1.4,根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表。
3.根据权利要求1所述的基于强化学习的多组机器人协作控制方法,其特征在于,步骤2中,组内机器人采用值函数迁移的方式完成组内彼此共享强化学习结果。
4.根据权利要求1所述的基于强化学习的多组机器人协作控制方法,其特征在于,步骤3中,组间机器人相遇时进行避让控制的具体步骤为:
步骤3.1,当分属于两组的两个机器人相遇且导航路径冲突时,两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;
步骤3.2,制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移,由移动方向得到相对应的Q值;
步骤3.3,根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811077944.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于工具车的自主导航系统及工具车
- 下一篇:一种移动小车循迹控制方法及系统





