[发明专利]一种基于分布式强化学习的自主设备决策控制方法在审
| 申请号: | 202210553231.X | 申请日: | 2022-05-19 |
| 公开(公告)号: | CN114839879A | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 詹德川;张云天;俞扬;周志华 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分布式 强化 学习 自主 设备 决策 控制 方法 | ||
1.一种基于分布式强化学习的自主设备决策控制方法,其特征在于,包括训练系统搭建步骤、分布式训练步骤和并发加速模型导出步骤;
所述训练系统搭建步骤中,首先建立包含采样节点、缓存节点和训练节点的训练系统,设计实现自主设备决策控制仿真环境,将自主设备决策控制仿真环境封装到容器环境中,其次划分虚拟化的CPU服务器和GPU服务器,建立虚拟专有网络确保所有服务器处于同一网段,然后启动训练系统;
所述分布式训练步骤中,同时启动采样节点、缓存节点和训练节点,采样节点不间断地经缓存节点代理向训练节点请求同步模型,完成与仿真环境交互,发送采样得到的数据给训练节点,训练节点不断接受采样数据到样本池,当样本池容量足够时,即开始使用分层最大熵异步算法更新强化学习模型参数;
所述并发加速模型导出步骤中,关闭训练系统,停止训练算法运行,从训练服务器下载模型参数,与模型结构一同打包编译成决策控制模块,开启并行优化。
2.根据权利要求1所述的基于分布式强化学习的自主设备决策控制方法,其特征在于,包含采样节点、缓存节点和训练节点的训练系统的建立具体为:
步骤100,对自主设备决策控制仿真环境进行容器化封装;
步骤101,对虚拟化云平台资源进行划分,得到主要目的为采样的CPU服务器和主要目的为训练控制模型的GPU服务器;
步骤102,建立虚拟专有网络确保所有服务器处于同一网段;
步骤103,启动训练系统程序,将采样节点和缓存节点绑定到CPU服务器,将训练节点绑定到GPU服务器;如果系统启动成功,则可以进行训练;如果启动失败,则从100步重新开始配置。
3.根据权利要求1所述的基于分布式强化学习的自主设备决策控制方法,其特征在于,分布式异步训练机制具体为:
步骤200,启动训练节点、缓存节点和采样节点,并在训练节点上随机初始化控制模型参数;
步骤201,采样节点请求向训练节点请求控制模型参数,这一请求由缓存节点代理完成;
步骤202,采样节点使用请求到控制模型参数,与自主设备决策控制仿真环境进行交互,并对完整的交互数据进行记录;
步骤203,采样节点完成与自主设备决策控制仿真环境的交互后,将完整的交互数据发送给训练节点,这一请求由缓存节点代理完成,随后重复步骤201;
步骤204,训练节点收到交互数据后,存入样本池,如果样本容量没有达到预设数量,则等待一段时间再重复步骤204,否则进入步骤205;
步骤205,从样本池中采样一批数据;
步骤206,使用分层最大熵异步强化学习算法计算优化目标;
步骤207,使用反向传播算法计算梯度,并更新控制模型参数;
步骤208,保存模型参数,回到步骤205。
4.根据权利要求1所述的基于分布式强化学习的自主设备决策控制方法,其特征在于,并发加速模型导出方法具体为:
步骤300,对训练系统输入停止指令;
步骤301,从训练节点下载保存一系列控制模型参数;
步骤302,使用自动化打包程序将控制模型参数和控制模型结构编译成一个可执行控制模块;
步骤303,将控制模块调整到并行加速决策模式,并交付使用。
5.根据权利要求1所述的基于分布式强化学习的自主设备决策控制方法,其特征在于,
所述缓存节点,与多个采样节点同时存在于同一个CPU服务器上,通过UnixDomainSocket通信代理实现采样节点的同步模型请求和发送数据请求,构建了训练节点、缓存节点和采样节点的三层网络拓扑结构。
6.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-5中任一项所述的基于分布式强化学习的自主设备决策控制方法。
7.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-5中任一项所述的基于分布式强化学习的自主设备决策控制方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210553231.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种支持多坯型的连铸三维温度场可视化系统
- 下一篇:一种连续性油炸装置





