[发明专利]一种基于分布式强化学习的自主设备决策控制方法在审

申请号：	202210553231.X	申请日：	2022-05-19
公开（公告）号：	CN114839879A	公开（公告）日：	2022-08-02
发明（设计）人：	詹德川;张云天;俞扬;周志华	申请（专利权）人：	南京大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分布式强化学习自主设备决策控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于分布式强化学习的自主设备决策控制方法，包括训练环境搭建步骤，分布式训练步骤和输出决策模型步骤。在分布式集群中配置好采样节点、缓存节点和训练节点，将自主设备仿真环境封装到容器镜像中，分配虚拟化资源。启动分布式智能体训练系统，初始化训练端模型参数，发送参数到缓存节点，再转发到采样节点，完成智能体与仿真环境的交互过程后，再回传数据到训练节点，使用离轨深度强化学习算法更新模型参数。分布式训练完成后，将模型从系统中导出，切换到快速推理模式，用于智能决策问题。本发明在实施过程中能在较大规模分布式集群上进行训练，并且能够充分利用硬件资源，同时对于通信模式的改良能够显著减小带宽需求。

技术领域

本发明涉及一种基于分布式强化学习的自主设备决策控制方法，属于自主设备控制和分布式系统技术领域。

背景技术

现实情况下，基于强化学习实现自主设备决策控制存在数据需求量大的问题。随着自主设备决策控制的研究综合化复杂化的趋势，仅仅使用单机方法进行自主设备决策控制智能体训练在有限的时间内难以取得成果。

在现有的强化学习解决方案中，自主设备决策控制智能体训练受到有限计算资源的严重制约，在面对复杂度更好的较为真实的问题情景时，能够训练的深度强化学习模型能力有限，往往只解决避障、路径规划、动力学控制等单一领域问题。

发明内容

发明目的：针对现有技术中存在的问题与不足，如何利用分布式条件进行智能体训练，在保持高资源利用率的同时降低成本，是本发明最终想要达到的目的。本发明中将分布式深度强化学习技术引入，面对不同的问题情景，能够使用统一的方法进行端到端地自主设备决策控制智能体训练。

本发明提出一种基于分布式强化学习的自主设备决策控制方法，不需要划分各个功能模块，能够使用分层强化学习模型在复杂问题情境下统一地进行自主设备决策控制。本发明中提出的方法，首先建立包含采样节点、缓存节点和训练节点的训练系统，再进行分布式异步最大熵训练，最后将训练成果编译成高效的并发自主设备决策控制模块。

将分布式深度强化学习技术引入，面对不同的问题情景，能够使用统一的方法端到端地自主设备决策控制智能体训练。

技术方案：一种基于分布式强化学习的自主设备决策控制方法，包括训练系统搭建步骤、分布式训练步骤和并发加速模型导出步骤。

所述训练系统搭建步骤中，首先建立包含采样节点、缓存节点和训练节点的训练系统，设计实现自主设备决策控制仿真环境，将自主设备决策控制仿真环境封装到容器环境中，其次划分虚拟化的CPU服务器和GPU服务器，建立虚拟专有网络确保所有服务器处于同一网段，然后启动训练系统。

所述分布式训练步骤中，同时启动采样节点、缓存节点和训练节点，采样节点不间断地经缓存节点代理向训练节点请求同步模型，完成与仿真环境交互，发送采样得到的数据给训练节点，训练节点不断接受采样数据到样本池，当样本池容量足够时，即开始使用分层最大熵异步算法更新强化学习模型参数。

所述并发加速模型导出步骤中，关闭训练系统，停止训练算法运行，从训练服务器下载模型参数，与模型结构一同打包编译成决策控制模块，开启并行优化。

包含采样节点、缓存节点和训练节点的训练系统的建立具体为：

步骤100，对自主设备决策控制仿真环境进行容器化封装；

步骤101，对虚拟化云平台资源进行划分，得到主要目的为采样的CPU服务器和主要目的为训练控制模型的GPU服务器；

步骤102，建立虚拟专有网络确保所有服务器处于同一网段；

步骤103，启动训练系统程序，将采样节点和缓存节点绑定到CPU服务器，将训练节点绑定到GPU服务器。如果系统启动成功，则可以进行训练；如果启动失败，则从100步重新开始配置。

分布式异步训练机制具体为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210553231.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种支持多坯型的连铸三维温度场可视化系统
下一篇：一种连续性油炸装置

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分布式强化学习的自主设备决策控制方法在审

专利文献下载