[发明专利]一种基于强化学习的多组机器人协作控制方法及控制系统有效

申请号：	201811077944.3	申请日：	2018-09-16
公开（公告）号：	CN109116854B	公开（公告）日：	2021-03-12
发明（设计）人：	陈春林;王岚;刁敏敏;唐开强;任其成;王子辉;朱长青;辛博	申请（专利权）人：	南京大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习机器人协作控制方法控制系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于强化学习的多组机器人协作控制方法及系统。方法步骤包括：强化学习生成状态动作表、组内各个机器人彼此共享强化学习结果、相遇时分享状态动作表生成全环境状态动作集合以及利用全环境状态动作集合来对各组机器人进行协作控制。系统包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块。该多组机器人协作控制方法及系统通过强化学习算法学习出单个机器人在相应状态下的动作，并以此为基础，进行组内交互，共享一个机器人组的学习效果，最终在组间机器人相遇时，共享所有组内信息，并进行机器人避让，提高强化学习的效率；利用组间多机器人迁移学习机制，提高在大面积空间下的多机器人导航效率。

技术领域

本发明涉及一种多组机器人协作控制方法及控制系统，尤其是一种用于仓储物流的基于强化学习的多组机器人协作控制方法及控制系统。

背景技术

在传统的工业机器人逐渐取代单调、重复性高、危险性强的工作之时，机器人的协作工作也将会慢慢渗入各个工业领域。机器人及机器人组之间的协作便于管理，能够有效提高生产工作效率，节省时间，因此在仓储物流中的应用尤为广泛。在多组机器人协作控制系统研究中，重点是如何进行机器人组内和组间的有效信息交互，实现多组机器人协作的有效控制。

多组机器人的使用能够比单个或单组机器人更加有效地完成一些任务。与一个强大而昂贵的机器人相比，多个低成本机器人相互协作因为冗余而具有更强的容错性。此外，多机器人系统还有更广泛的任务领域、鲁棒性、内在的并行性等特点。一方面，由于任务的复杂性，在单组机器人难以完成任务时，可通过多组机器人之间的合作来完成；另一方面，通过多组机器人间的合作，可提高机器人系统在作业过程中的效率，进而当工作环境发生变化或机器人系统局部发生故障时，多组机器人系统仍可通过本身具有的合作关系完成预定的任务。因此，有必要提供一种用于仓储物流的多组机器人协作控制方法，来满足仓储物流的应用需求。

发明内容

本发明要解决的技术问题是现有的多组机器人算法在机器人相遇时难以高效避让以及进行信息交互。

为了解决上述技术问题，本发明提供了一种基于强化学习的多组机器人协作控制方法，包括如下步骤：

步骤1，对机器人所处环境进行栅格化处理得到环境栅格，使得通道信息转化为有限状态集合，由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表；

步骤2，组内各个机器人彼此共享强化学习结果；

步骤3，组间机器人相遇时进行避让控制，并分享各自组内的状态动作表，确定当前状态下机器人选择的动作，从而进一步生成全环境状态动作集合；

步骤4，利用生成的全环境状态动作集合来对各组机器人进行协作控制。

作为本发明方法的进一步限定方案，步骤1中，各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表的具体步骤为：

步骤1.1，根据有限状态集合在Matlab中构建机器人导航模型；

步骤1.2，利用策略值函数来描述导航过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (1)

式(1)中，R_t为时刻t获得的折扣后的未来收益总和，π为避障的目标策略，由于避障的目标策略π是预设确定的，记为函数μ:S←A，S为状态空间，A为动作空间，s_t为状态空间S中的参数，a_t为动作空间A中的参数，再利用贝尔曼方程对式(1)进行处理得到：