[发明专利]跨平台强化学习的机器人训练系统在审

专利信息
申请号: 202111207658.6 申请日: 2021-10-18
公开(公告)号: CN113848728A 公开(公告)日: 2021-12-28
发明(设计)人: 宋子豪 申请(专利权)人: 湖南太观科技有限公司
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 410000 湖南省长沙市开福区芙*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 平台 强化 学习 机器人 训练 系统
【权利要求书】:

1.跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:

S1、智能体通过Actor进行推演和采样;

S2、Actor把采集好的样本上传到Trainer,Trainer进行训练;

S3、Trainer把训练好的模型下发给Actor;

S4、一个Trainer可以连接多个Actor,采用异步式并行模式完成推演和训练步骤。

2.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤一中的操作步骤,所述模拟环境运行在本地、服务器或者集群上,以共享内存或者TCP/UDP方式连接,模拟环境中的物理仿真引擎可以给机器人模型的反馈,模拟环境中的机器人模型包括外形、传感器、制动器、能源管理等,该模型和参数来自机器人设计和测试过程。

3.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤一中的操作步骤,Actor通过该模型与模拟环境交互,完成推演和采样过程,Actor在机器人本体上运行时,通过ROS和硬件驱动连接至传感器、制动器,传感器的输出为ot,制动器输入为at,机器人执行完at,采集到新的观测值ot+1,通过自驱力或者用户输入获得新的奖励rt+1,每个样本为一个数组(o,s,a,r)t,o代表智能体对外部的观测值,s代表智能体的内部状态,a代表智能体当前的行动,r代表奖励强化学习中的奖励值,我们以POMDP表示他们之间的关系:

st~p(st|ot,st-1,at-1)

at~π(at|st)

(o,r)t+1~p(ot+1,rt+1|ot,at)

每个Rollout长度为若干个时间步,例如50、100,每次上传的周期为一个Episode,包括若干个Rollout。

4.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤二中的操作步骤,Actor主要功能是完成模型推演,采集样本,Actor启动时开启一个新的ActorJob线程,不断执行RolloutOp,每次RolloutOp会令智能体推演若干次,采集一定数量的样本作为一次Rollout,然后将Rollout以ActorMessage格式发送给Trainer,Trainer接收后会独立地进行后续处理,包括存储和训练,每当Trainer完成了一次训练会将新的模型以TrainerMessage格式发送给Actor,Actor接收之后,会触发ActorJob中的UpdateOp,完成智能体的模型更新。

5.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤二中的操作步骤,Trainer将Actor上传的Episode统一存储在Replay Buffer中,Replay Buffer为内存上固定容量的List,每当Rollout数量超出Replay Buffer容量时,则将最旧的Rollout移除,TrainerJob通过ReplayOp从中读取Episode,读取Episode之后由TrainOp进行训练,每次TrainOp完成之后将新的模型发送给Actor。

6.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤二中的操作步骤,采用响应式事件总线方式进行异步式并行:Actor为远程消息发布者,每次上传样本时发布消息,Trainer为信息消费者,Trainer作为信息发布者,每隔若干个Rollout之后发布一个消息,在新的线程上开始新的训练任务,Trainer每次训练任务完成后发布一个消息,Actor作为信息消费者开始模型更新,Actor完成模型更新,并上报信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南太观科技有限公司,未经湖南太观科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111207658.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top