[发明专利]一种基于强化学习和全身控制器的鲁棒性动态运动方法在审
申请号: | 201711075790.X | 申请日: | 2017-11-06 |
公开(公告)号: | CN107856035A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 全身 控制器 鲁棒性 动态 运动 方法 | ||
技术领域
本发明涉及机器人动态运动领域,尤其是涉及了一种基于强化学习和全身控制器的鲁棒 性动态运动方法。
背景技术
移动能力是机器人的一项重要性能指标,是近年来机器人研究领域的热点之一,涉及了 计算机视觉、作业规划、路径规划、静态和动态步行控制等诸多方面,常用于智能家居、智 能交通、医疗、军用以及工业等前瞻性领域,在为人类设计的环境中进行服务,在危险环境 中代替人类进行工作,在一定程度上代替人类并服务于人类,对人类工作生活发展具有重要 意义,但是由于机器人关节众多,活动点过多,系统涉及的领域较多,使得动态步行控制的 难度很大。现有的机器人动态运动规划研究在量化鲁棒性方面一直表现不佳,而且计算效率 低,限制了机器人动态步行控制的应用。此外,基于相空间规划动力学和强化学习的三维全 身的仿人动态步行至今尚未研究。
本发明提出了一种基于强化学习和全身控制器的鲁棒性动态运动方法,设计了一个围绕 相空间规划框架(PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,进 行相空间规划、强化学习问题以及学习策略评价,同时采用全身动态控制器,在运算空间中 作为加速度指令计算,利用微分正运动将其转换为关节加速度,根据加速度优化非驱动机器 人的反作用力,可同时计算位置或时间为输出的两个参数,可产生多种步行走模式,过程速 度适用于实时控制。本发明提出了由一个动态运动计划程序,一种鲁棒性的强化学习过程, 和一个新型全身运动控制器构成的一种鲁棒动态步行控制器,实现较高的计算效率并获得优 异的鲁棒性。
发明内容
针对计算效率低以及鲁棒性不高的问题,本发明提出了由一个动态运动计划程序,一种 鲁棒性的强化学习过程,和一个新型全身运动控制器构成的一种鲁棒动态步行控制器,实现 较高的计算效率并获得优异的鲁棒性。
为解决上述问题,本发明提供一种基于强化学习和全身控制器的鲁棒性动态运动方法, 其主要内容包括:
基于强化学习的相空间规划方法(一);
全身的动态控制(二)。
其中,所述的基于强化学习的相空间规划方法(一),设计了一个围绕相空间规划框架 (PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,利用简化模型产生有 效步长切换信息,运动的组成部分(CoM)的矢状面和基于棱形倒立摆模型动态的侧向相图的多个步行步骤的相位图中,在矢状面上,路径包括连接的抛物线,在正面,行走路线依据 一个封闭的循环半周期的抛物线,将x代表矢状面,y代表正面,相空间规划方法主要包括相 空间规划、强化学习问题以及学习策略评价。
进一步地,所述的相空间规划,引导步进规划生成器,查找CoM路径的给定位置和时间 作为输入信息,给定矢状脚位置和心尖速,PSP获取步骤切换时间和横向脚位置,顶点状态 是矢状面CoM速度最小时的状态,连接到站立脚的局部框架上的矢状面CoM位置为零的状态, 机器人当前的CoM的状态和下一个的顶点状态之间进行转换状态,切换时间和顶点时间,计 时是用来寻找下一个外侧脚位置py,2,假如是一个正数,由此产生的运动轨迹 是直线前进的,对算法进行简单的修改,允许动态地引导两足动物向任何方向行走,需要转 向移动方向时,重新初始化本地边框的方向为新的方向,并将当前状态投射到新的边框中, 原本PSP算法是通过数值积分设计运动轨迹,为了达到一定的算法速度,假定CoM的高度是 线性的,提供一个初始的CoM状态和一个目标状态PSP发现下一步的位 置和时间行走方向用顶点速度表示,通过减少学习状态变量 的维数,PSP算法可提升强化学习问题的解决效率。
进一步地,所述的强化学习问题,行走方法的核心部分通过强化学习来实现鲁棒性,使 用可追踪策略梯度值函数的计算方法,定义s为CoM的顶点值,xapex在局部中被视为0,s并不包含变量xapex,设定动作为PSP过程的参数 输入,转换函数T(s,a)计算下一个顶点值s′和瞬时反馈值,转换函数包含两个阶段:1)通过PSP 寻找步时和位置值;2)通过线性倒立摆模型的解析计算下一个顶点状态。
进一步地,所述的两个阶段,第一个阶段允许通过当前的顶点状态寻找Tswitch,Tapex和py, 第二阶段,使用CoM动态分析方案寻找下一个顶点值,网络使用由CoM顶点状态组成的三维 输入向量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711075790.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械手空间移动轨迹的设计方法
- 下一篇:智能机器人