[发明专利]分布式强化学习系统有效
申请号: | 202211297133.0 | 申请日: | 2022-10-21 |
公开(公告)号: | CN116151363B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 陈敏杰;张翰堂 | 申请(专利权)人: | 北京鼎成智造科技有限公司 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/04;G06F18/214 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李奉瑾 |
地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 强化 学习 系统 | ||
1.一种分布式强化学习系统,其特征在于,所述系统包括:
客户端,用于响应用户的参数设置操作,得到配置文件参数信息;所述配置文件参数信息包括仿真环境参数信息、模型参数信息和算法参数信息;所述模型参数信息包括神经网络模型参数信息和输出参数信息;
服务端,用于与所述客户端进行通信,对所述配置文件参数信息进行分布式处理,构建深度强化学习模型;
其中,所述服务端,包括:
引擎通信模块,用于与所述客户端通信,接收所述配置文件参数信息;
仿真模块,用于与所述引擎通信模块进行通信,根据所述配置文件参数信息中的仿真环境参数信息,确定出仿真环境集合;所述仿真环境集合包括若干个仿真环境;
神经网络引擎模块,用于与所述引擎通信模块进行通信,根据所述配置文件参数信息中的模型参数信息,确定出仿真模型集合;所述仿真模型集合包括若干个仿真模型;所述仿真模型包括神经网络模型和所述神经网络模型对应的目标输出模型集合;所述目标输出模型集合包括至少一个目标输出模型;
其中,所述神经网络引擎模块与所述引擎通信模块进行通信,根据所述配置文件参数信息中的模型参数信息,确定出仿真模型集合,包括:
所述神经网络引擎模块与所述引擎通信模块进行通信,获取所述配置文件参数信息中的模型参数信息;
所述神经网络引擎模块根据所述神经网络模型参数信息,确定出若干个所述神经网络模型;
对于任一所述神经网络模型,所述神经网络引擎模块从所述输出参数信息筛选出与该神经网络模型相匹配的数据信息,得到目标输出参数信息;
所述神经网络引擎模块根据所述目标输出参数信息,确定出该神经网络模型对应的目标输出模型集合;
所述神经网络引擎模块将该神经网络模型和该神经网络模型对应的目标输出模型集合进行融合处理,得到该神经网络模型对应的仿真模型;
分布式引擎模块,用于对所述仿真环境集合和所述仿真模型集合进行分布式进程生成,以生成多进程仿真模型;
强化学习算法模块,用于与所述引擎通信模块进行通信,利用所述算法参数信息对所述多进程仿真模型进行并行优化训练,构建深度强化学习模型;
其中,所述多进程仿真模型包括若干个目标仿真模型和若干个目标仿真环境;
所述强化学习算法模块与所述引擎通信模块进行通信,利用所述算法参数信息对所述多进程仿真模型进行并行优化训练,构建深度强化学习模型,包括:
所述强化学习算法模块与所述引擎通信模块进行通信,获取所述算法参数信息;
对于任一所述目标仿真模型,所述强化学习算法模块从训练经验池提取训练样本信息作为第一训练样本信息;
所述强化学习算法模块利用所述第一训练样本信息和所述算法参数信息对该目标仿真模型进行训练,得到备选训练模型;
所述强化学习算法模块基于所述备选训练模型和所述目标仿真环境,确定出训练结果信息;
所述强化学习算法模块判断所述训练结果信息是否满足终止训练条件,得到训练判断结果;
当所述训练判断结果为是时,所述强化学习算法模块确定所述备选训练模型为一个目标神经网络模型;
当所述训练判断结果为否时,所述强化学习算法模块利用所述备选训练模型对该目标仿真模型进行更新;
所述强化学习算法模块基于所述训练结果信息从所述训练经验池提取第二训练样本信息作为新的第一训练样本信息,并触发执行所述强化学习算法模块利用所述第一训练样本信息和所述算法参数信息对该目标仿真模型进行训练,得到备选训练模型;
所述强化学习算法模块判断所有所述目标仿真模型的训练进程是否终止,得到进程判断结果;
当所述进程判断结果为是时,所述强化学习算法模块将所有所述目标神经网络模型进行融合,得到深度强化学习模型;
其中,所述训练结果信息包括奖励信息;
所述强化学习算法模块基于所述训练结果信息从所述训练经验池提取第二训练样本信息作为新的第一训练样本信息,包括:
所述强化学习算法模块获取历史奖励信息;
所述强化学习算法模块从所述奖励信息和所述历史奖励信息筛选出奖励值最小的数据信息作为目标奖励信息;
所述强化学习算法模块从所述训练经验池选取出所述目标奖励信息对应的训练样本信息作为第一备选训练样本信息;
所述强化学习算法模块从所述训练经验池随机选取训练样本信息作为第二备选训练样本信息;
所述强化学习算法模块基于样本权重信息对所述第一备选训练样本信息和所述第二备选训练样本信息进行融合,得到第二训练样本信息;
所述强化学习算法模块将所述第二训练样本信息确定为新的第一训练样本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鼎成智造科技有限公司,未经北京鼎成智造科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211297133.0/1.html,转载请声明来源钻瓜专利网。