[发明专利]融合生物启发和深度强化学习的损伤机器人步态自学习在审
| 申请号: | 202110122585.4 | 申请日: | 2021-01-29 |
| 公开(公告)号: | CN112749515A | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 曾明;马煜;王芷菁;李祺;王湘晖 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/08;G06F111/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 生物 启发 深度 强化 学习 损伤 机器人 步态 自学习 | ||
1.一种融合生物启发和深度强化学习的损伤状态机器人步态自学习方法,其特征在于,包括如下步骤:
步骤1,建立六足机器人仿真模型,搭建六足机器人强化学习控制系统;
步骤2,建立强化学习智能体;
步骤3,参照六足动物身体结构特征和步态特征对六足机器人模型各关节运动范围进行约束;
步骤4,设置六足机器人典型损伤状态,使用融合生物启发和深度强化学习的方法训练损伤状态下的六足机器人。
2.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法,其特征在于,步骤1中,使用SolidWorks进行六足机器人的机械结构设计和装配,并生成URDF格式的文件,将该URDF格式的文件导入到MATLAB,通过Simscape Multibody工具箱生成六足机器人3D仿真模型,并在Simulink中搭建六足机器人强化学习控制系统。
3.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法,其特征在于,步骤2中,所建立的强化学习智能体通过将采集到的观测值进行奖励函数的计算,并输出动作值,同时在机器人训练过程中利用强化学习算法不断优化神经网络参数,以得到更高的奖励值,具体步骤为:
步骤2.1,选取机器人关节角度、机器人关节角速度,机器人机身欧拉角(Yaw、Pitch、Roll)、机器人机身位移(Px、Py、Pz)、机器人机身速度(vx、vy、vz)以及机器人机身角速度(ωx、ωy、ωz)作为观测值,选取Actor网络的转矩输出作为动作值;
步骤2.2,进行奖励函数的设置,设置机器人质心在x轴方向的位移Px和速度vx为正向奖励,以此鼓励机器人沿x正方向前进,设置机器人质心在y方向的位移Py、机器人的航向角Yaw为惩罚项,以此对机器人前进过程中偏离x正方向进行惩罚,设置机器人质心高度偏离初始高度的大小为惩罚项,以此对机器人前进过程中质心高度偏离初始高度进行惩罚;
步骤2.3,搭建Actor-Critic类型的神经网络;
进一步地,步骤2.3中,Actor网络具有1个输入路径和1个输出路径,包括1个featureInputLayer,3个fullyConnectedLayer,2个reluLayer,1个tanhLayer;
进一步地,步骤2.3中,Critic网络具有2个输入路径和1个输出路径,输入路径分别为状态输入路径和动作输入路径,其中状态输入路径具有1个featureInputLayer,2个fullyConnectedLayer,1个reluLayer,动作输入路径具有1个featurelnputLayer,1个fullyConnectedLayer,两个输入路径通过additionLayer进行路径合并后,经过1个reluLayer和1个tanhLayer后输出价值估计;
步骤2.4,强化学习算法根据Actor输出动作得到的实际奖励和Critic网络计算的价值估计进行对比会得到一个误差值,根据该误差可以判断Critic网络应该怎样调整参数才能够得到更加准确的价值估计,同时也能够判断当前的动作好坏如何,以此进行Actor网络参数的更新,在智能体与环境交互的过程当中,这两个神经网络的参数将得到不断的更新,直到最后能够收敛到一个比较理想的情况;
进一步地,步骤2.4中,选取的强化学习算法为深度确定性策略梯度(DDPG)。
4.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法,其特征在于,步骤3中,参照蚂蚁的身体结构特征和步态特征,将六足机器人每条腿水平方向的摆动角度范围设置为(-18°~18°),同时将每条腿竖直方向的摆动角度设置为(-1°~15°),设置-1°的运动空间是为了使机器人在移动过程中能够产生对地面的压力,保证足够的摩擦力来使机器人移动,将抬升角度限制在15°以内是为了尽可能减小机器人腿部抬升高度,提高运动效率。
5.根据权利要求1所述的融合生物启发和深度强化学习的损伤状态机器人步态自学习方法,其特征在于,步骤4中,首先对机器人的六条腿进行编号,并针对机器人最常见的断腿损伤情况,设置了机器人缺失一条腿和缺失两条腿的损伤状态;
进一步地,机器人缺失一条腿的情况又设置为缺失1号腿和缺失2号腿两种损伤情况;
进一步地,机器人缺失两条腿的情况又设置为同时缺失1号腿和2号腿以及同时缺失1号腿和5号腿两种损伤情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110122585.4/1.html,转载请声明来源钻瓜专利网。





