[发明专利]基于双智能体协作博弈的双足机器人行走控制方法和系统有效
| 申请号: | 201911082461.7 | 申请日: | 2019-11-07 |
| 公开(公告)号: | CN112782973B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 王宇;郑忠义;罗志祥;代杨仲;杨益见 | 申请(专利权)人: | 四川省桑瑞光辉标识系统股份有限公司 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 四川力久律师事务所 51221 | 代理人: | 韩洋 |
| 地址: | 611731 四川省成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 智能 体协 博弈 机器人 行走 控制 方法 系统 | ||
1.一种基于深度强化学习的两足机器人协同控制方法,其特征在于,所述方法包括:
构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块;
采集第一状态参数,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态,通过自我学习更新网络参数,输出第一最优动作控制策略;采集第二状态参数,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态,通过自我学习更新网络参数,输出第二最优动作控制策略;其中,所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数;
基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制;所述第一深度强化学习模块为基于Actor-Critic的深度强化学习网络,包括:第一Actor网络和第一Critic网络;其中,所述第一Critic网络是以动作价值为评估点的Critic网络;所述第二深度强化学习模块为基于Actor-Critic的深度学习网络,包括:第二Actor网络和第二Critic网络;其中,所述第二Critic网络是以状态价值为评估点的Critic网络;
所述第一状态参数和第二状态参数包括:机器人两腿的运动角速度、机器人两腿对地压力、机器人两腿各关节的姿态信息、机器人盆骨的状态信息;
所述第一Critic网络、第二Critic网络能够采集机器人的状态图像,实时获取机器人两条腿的状态信息和机器人盆骨的状态信息。
2.根据权利要求1所述的方法,其特征在于,所述第一深度强化学习模块根据所述第一状态参数和当前环境状态,通过自我学习更新网络参数,输出第一最优动作控制策略,具体为:
所述第一Actor网络根据第一状态参数选择动作,并将其选择的动作输出至所述第一Critic网络;
所述第一Critic网络对所述第一Actor网络选择的动作进行评估,输出所选动作的价值,并根据环境反馈的奖励信息和估计的价值,调节第一Actor网络;
所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数,从而输出第一最优动作控制策略。
3.根据权利要求2所述的方法,其特征在于,所述第一策略梯度函数为:
其中,为分值函数,s为特征向量,a为动作集,t为迭代次数,α为网络步长;θ1为第一Actor网络参数,w1为所述第一Critic网络参数;Q为动作价值。
4.根据权利要求1所述的方法,其特征在于,所述第二深度强化学习模块根据所述第二状态参数和当前环境状态,通过自我学习更新网络参数,输出第二最优动作控制策略,具体为:
所述第二Actor网络根据当前环境状态和第二状态参数选择动作,基于其选择的动作,将其选择的动作作用于环境,并采集环境状态输出至所述第二Critic网络;所述第二Critic网络对所述采集的环境状态进行直接评估,输出其状态价值;并根据所得状态价值和环境反馈的奖励调节第二Actor网络;所述第二Actor网络根据所述状态价值采用第二策略梯度函数更新其网络参数,从而输出第二最优动作控制策略。
5.根据权利要求4所述的方法,其特征在于,所述第二策略梯度函数为:
其中,为分值函数,s为特征向量,a为动作集,t为迭代次数,α为网络步长;θ2为第二Actor网络参数,w2为所述第二Critic网络参数;V为状态价值。
6.根据权利要求1所述的方法,其特征在于,所述第一Critic网络和第二Critic网络采用MLP型深度学习网络,所述第一Actor网络和第二Actor网络采用MLP与LSTM的混合型深度学习网络。
7.一种基于深度强化学习的两足机器人协同控制系统,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,采集的状态数据及奖励信息,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川省桑瑞光辉标识系统股份有限公司,未经四川省桑瑞光辉标识系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082461.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:冰箱
- 下一篇:一种短链接生成方法和装置





