[发明专利]跨平台强化学习的机器人训练系统在审
| 申请号: | 202111207658.6 | 申请日: | 2021-10-18 |
| 公开(公告)号: | CN113848728A | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 宋子豪 | 申请(专利权)人: | 湖南太观科技有限公司 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410000 湖南省长沙市开福区芙*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 平台 强化 学习 机器人 训练 系统 | ||
1.跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:
S1、智能体通过Actor进行推演和采样;
S2、Actor把采集好的样本上传到Trainer,Trainer进行训练;
S3、Trainer把训练好的模型下发给Actor;
S4、一个Trainer可以连接多个Actor,采用异步式并行模式完成推演和训练步骤。
2.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤一中的操作步骤,所述模拟环境运行在本地、服务器或者集群上,以共享内存或者TCP/UDP方式连接,模拟环境中的物理仿真引擎可以给机器人模型的反馈,模拟环境中的机器人模型包括外形、传感器、制动器、能源管理等,该模型和参数来自机器人设计和测试过程。
3.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤一中的操作步骤,Actor通过该模型与模拟环境交互,完成推演和采样过程,Actor在机器人本体上运行时,通过ROS和硬件驱动连接至传感器、制动器,传感器的输出为ot,制动器输入为at,机器人执行完at,采集到新的观测值ot+1,通过自驱力或者用户输入获得新的奖励rt+1,每个样本为一个数组(o,s,a,r)t,o代表智能体对外部的观测值,s代表智能体的内部状态,a代表智能体当前的行动,r代表奖励强化学习中的奖励值,我们以POMDP表示他们之间的关系:
st~p(st|ot,st-1,at-1)
at~π(at|st)
(o,r)t+1~p(ot+1,rt+1|ot,at)
每个Rollout长度为若干个时间步,例如50、100,每次上传的周期为一个Episode,包括若干个Rollout。
4.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤二中的操作步骤,Actor主要功能是完成模型推演,采集样本,Actor启动时开启一个新的ActorJob线程,不断执行RolloutOp,每次RolloutOp会令智能体推演若干次,采集一定数量的样本作为一次Rollout,然后将Rollout以ActorMessage格式发送给Trainer,Trainer接收后会独立地进行后续处理,包括存储和训练,每当Trainer完成了一次训练会将新的模型以TrainerMessage格式发送给Actor,Actor接收之后,会触发ActorJob中的UpdateOp,完成智能体的模型更新。
5.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤二中的操作步骤,Trainer将Actor上传的Episode统一存储在Replay Buffer中,Replay Buffer为内存上固定容量的List,每当Rollout数量超出Replay Buffer容量时,则将最旧的Rollout移除,TrainerJob通过ReplayOp从中读取Episode,读取Episode之后由TrainOp进行训练,每次TrainOp完成之后将新的模型发送给Actor。
6.根据权利要求1所述的跨平台强化学习的机器人训练系统,其特征在于,包括以下步骤:根据步骤二中的操作步骤,采用响应式事件总线方式进行异步式并行:Actor为远程消息发布者,每次上传样本时发布消息,Trainer为信息消费者,Trainer作为信息发布者,每隔若干个Rollout之后发布一个消息,在新的线程上开始新的训练任务,Trainer每次训练任务完成后发布一个消息,Actor作为信息消费者开始模型更新,Actor完成模型更新,并上报信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南太观科技有限公司,未经湖南太观科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111207658.6/1.html,转载请声明来源钻瓜专利网。





