[发明专利]基于双智能体协作博弈的双足机器人行走控制方法和系统有效

申请号：	201911082461.7	申请日：	2019-11-07
公开（公告）号：	CN112782973B	公开（公告）日：	2022-10-18
发明（设计）人：	王宇;郑忠义;罗志祥;代杨仲;杨益见	申请（专利权）人：	四川省桑瑞光辉标识系统股份有限公司
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	四川力久律师事务所 51221	代理人：	韩洋
地址：	611731 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能体协博弈机器人行走控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于双智能体协作博弈的双足机器人行走控制方法和系统，包括：构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块；采集第一状态参数，第一深度强化学习模块输出第一最优动作控制策略；采集第二状态参数，第二深度强化学习模块输出第二最优动作控制策略；其中，第一状态参数和第二状态参数分别为机器人左右腿的状态参数；基于第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。本方法通过构建两个深度强化学习模型分别对机器人的两腿的动作控制策略进行分析，通过对机器人两条腿的单独控制，在提高输出动作稳定度的同时，降低控制模型的控制维度、减小模型拟合的难度。

技术领域

本发明涉及机器人自动控制技术领域，特别涉及一种基于双智能体协作博弈的双足机器人行走控制方法和系统。

背景技术

由于机器人各个部件的非线性特性较强，机器人系统的运动自由度需求较高，并且机器人系统结构复杂、具有极高的耦合度。因此针对与机器人各个部件及其系统进行建模控制，是一件非常困难和复杂的事情。目前针对于机器人的控制方法主要包括：基于李雅普洛夫理论的非线性控制方法、基于动态规划和最优控制的控制方法和其他基于状态空间法的控制方法，在机器人控制方面，存在需要建立的模型较大、其稳定性和适用性很难保障的问题。

此外，机器人的腿部起到整个身体的平衡、负重和移动的作用，因此两条腿的自由度加到一起、自由度的维数较高，而现有的控制方法通常采用一个控制模型同时对机器人的两腿进行控制，仅仅采用一个控制模型来控制两条腿的运动其精度不够高，输出的动作稳定度较低。

发明内容

本发明的目的之一至少在于，针对如何克服上述现有技术存在的问题，提供一种基于双智能体协作博弈的双足机器人行走控制方法和系统。

为了实现上述目的，本发明采用的技术方案包括以下各方面。

一种基于双智能体协作博弈的双足机器人行走控制方法，包括：

构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块；

采集第一状态参数，所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励，通过自我学习更新网络参数，输出第一最优动作控制策略；采集第二状态参数，所述第二深度强化学习模块根据所述第二状态参数和当前环境状态及奖励，通过自我学习更新网络参数，输出第二最优动作控制策略；其中，所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数；

基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。

优选的，所述第一深度强化学习模块为基于Actor-Critic的深度强化学习网络，包括：第一Actor网络和第一Critic网络；其中，所述第一Critic网络为以动作价值为评估点的Critic网络。

优选的，所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励，通过自我学习更新网络参数，输出第一最优动作控制策略，具体为：所述第一Actor网络根据第一状态参数选择动作，并将其选择的动作输出至所述第一Critic网络；所述第一Critic网络对所述第一Actor网络选择的动作进行模拟评估，输出所选动作的价值，并根据估计的价值和环境反馈的奖励，调节第一Actor网络；所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数，从而输出第一最优动作控制策略。

优选的，所述第一策略梯度函数为：

其中，为分值函数，s为特征向量，a为动作集，t为迭代次数，α为网络步长；θ₁为第一Actor网络参数，w₁为所述第一Critic网络参数；Q为动作价值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川省桑瑞光辉标识系统股份有限公司，未经四川省桑瑞光辉标识系统股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911082461.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于双智能体协作博弈的双足机器人行走控制方法和系统有效

专利文献下载