[发明专利]一种基于分层强化学习的四足机器人运动规划方法有效

申请号：	202110321563.0	申请日：	2021-03-25
公开（公告）号：	CN112936290B	公开（公告）日：	2022-06-10
发明（设计）人：	么庆丰;王纪龙;魏震宇;王东林	申请（专利权）人：	西湖大学
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	贾玉霞
地址：	310024 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分层强化学习机器人运动规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于分层强化学习的四足机器人运动规划方法，该方法通过构建基于深度强化学习的上层行为决策控制器以及基于模型预测控制的下层运动执行控制器；对于上层的深度强化学习网络，基于SAC算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等，结合机器人周围的环境高度图信息输出对应的行为控制参数；对于下层执行控制器中的模型预测控制器，通过求解基于上层输入的控制参数二次规划方程组来获取对应的控制指令。该分层控制框架结合了深度强化学习与模型预测控制的优势，使四足机器人能够根据当前机身状态以及地形环境做出更安全可靠的行为模式，保持机身姿态平稳，从而有效规避风险，实现在复杂地形下的有效运动轨迹规划。

技术领域

本发明涉及智能足式机器人领域，具体涉及一种基于分层强化学习的四足机器人运动规划方法。

背景技术

四足机器人相对其他形式的移动机器人，移动中具有独立的落足点，可以根据地形和任务的特点改变步态，其更加适用于在不平整、崎岖地形以及上下楼梯等复杂环境下作业，具备更好的环境适应能力。然而，四足机器人的运动规划具有很大的挑战性。它必须考虑大量的时变因素，才能从大的动作空间中寻找出最优的控制决策。深度强化学习是一种新型控制方法。在深度强化学习中，代表动作策略的神经网络通过与环境不断交互实现网络参数的更新，在训练过程中学习如何从环境中获得最大的累积奖励。然而，基于深度强化学习的四足机器人控制策略无法有效权衡复杂环境探索能力与机身稳定性，同时上层控制决策方案与底层的控制执行器之间的配合无法直接有效地配合。

发明内容

针对现有技术的不足，本发明提出一种基于分层强化学习的四足机器人运动规划方法，该方法能够提高四足机器人在复杂地形环境下的机身稳定性以及运动控制能力。

本发明的目的通过如下的技术方案来实现：

一种基于分层强化学习的四足机器人运动规划方法，该方法包括如下步骤：

步骤一：在仿真平台上搭建具备神经网络训练能力的四足机器人虚拟仿真环境，并构建分层控制网络，包括上层的控制神经网络和下层的模型预测控制器；

步骤二：初始化虚拟仿真环境；

步骤三：不断更新仿真环境，在每个仿真环境中，所述控制神经网络结合每个仿真环境，输出机器人的控制参数信息；所述模型预测控制器根据所述控制神经网络的输出，执行控制操作；并根据机器人的动作响应计算运动控制奖励函数；

步骤四：判断环境训练终止条件，收集当前环境下的训练数据集；

步骤五：使用所述训练数据集训练所述分层控制网络，获得优化的分层控制网络，并部署到真实四足机器人上进行复杂地形运动规划。

进一步地，所述控制神经网络为全连接网络，其包括两个隐含层，每层包含256个节点，其中激活函数选择relu函数。

进一步地，所述初始化虚拟仿真环境包括初始化四足机器人所在的仿真环境，以及初始化机器人的初始位置、姿态以及环境地形信息，设置四足机器人的初始滚转角、俯仰角以及偏航角为0。

进一步地，所述步骤三中的更新仿真环境具体为按照规则随机生成复杂楼梯地形环境。

进一步地，所述机器人的控制参数信息包括四足机器人足端期望位置、机身期望姿态以及速度。

进一步地，所述步骤三中，所述模型预测控制器执行控制操作具体为：求解包含机器人逆运动学模型的二次优化函数，计算腿部电机力矩、关节扭矩以及足端移动位置，并对仿真环境中的四足机器人进行对应的运动控制。

进一步地，所述根据机器人的动作响应计算运动控制奖励函数具体过程如下：在仿真环境中，四足机器人根据模型预测控制器进行对应的单次运动动作控制，实时计算每次动作的奖励函数，设计阈值判断机器人是否摔倒；重复执行四足机器人的运动控制指令，直到到达设定目的地或者达到当次环境下训练次数上限，退出当前环境仿真；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西湖大学，未经西湖大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110321563.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种改进的执手门窗锁防误开锁定机构
下一篇：一种交通运输信号灯设备

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分层强化学习的四足机器人运动规划方法有效

专利文献下载