[发明专利]机械机构的控制方法、装置和电子设备有效
申请号: | 201811191423.0 | 申请日: | 2018-10-12 |
公开(公告)号: | CN109352648B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 李江涛 | 申请(专利权)人: | 北京地平线机器人技术研发有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 孟潭 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机械 机构 控制 方法 装置 电子设备 | ||
1.一种机械机构的控制方法,包括:
获取所述机械机构的目标状态参数,所述目标状态参数为量化衡量所述机械机构所要完成的工作任务的具体参数;
根据所述目标状态参数获取所述机械机构的驱动组件的控制信息,所述控制信息为所述驱动组件能够完成机械动作的动作量化数据;以及
根据所述控制信息控制所述驱动组件执行对应的机械动作,以使得所述机械机构达到所述目标状态参数所对应的目标状态;
其中,所述目标状态参数的获取过程基于第一强化学习模型实现,所述控制信息的获取过程通过将所述目标状态参数输入至第二强化学习模型实现;
其中,所述机械机构包括机械臂机构,所述机械臂机构包括末端执行器;
其中,所述目标状态参数包括所述末端执行器的以下信息中的一种或多种组合:空间坐标信息和姿态信息。
2.根据权利要求1所述的方法,其中,所述获取所述机械机构的目标状态参数包括:
获取所述机械机构的互动对象的状态量;
将所述状态量输入所述第一强化学习模型;以及
获取所述第一强化学习模型输出的所述目标状态参数。
3.根据权利要求2所述的方法,其中,所述第一强化学习模型的训练过程包括:
根据第一奖励函数的第一反馈变量的当前取值调整所述第一强化学习模型输出的第一训练状态参数;
根据所输出的所述第一训练状态参数确定满足预设训练目标的程度量化值;
根据所述满足预设训练目标的程度量化值更新所述第一反馈变量的取值;
统计所述第一反馈变量所有取值所代表的第一总收益;以及
当所述第一总收益符合第一预设条件时,停止训练所述第一强化学习模型。
4.根据权利要求1所述的方法,其中,所述第二强化学习模型的训练过程包括:
根据第二奖励函数的第二反馈变量的当前取值调整所述第二强化学习模型输出的第一训练控制信息;
在根据所输出的所述第一训练控制信息控制所述驱动组件执行对应的机械动作后,确定所述机械机构所达到的实际状态参数与第二训练状态参数之间的差异,其中,所述第二训练状态参数为所述第二强化学习模型的训练目标;
根据所述差异更新所述第二反馈变量的取值;
统计所述第二反馈变量所有取值所代表的第二总收益;以及
当所述第二总收益符合第二预设条件时,停止训练所述第二强化学习模型。
5.根据权利要求4所述的方法,其中,所述根据所述差异更新所述第二反馈变量的取值包括:
当确定所述差异在第一预设阈值范围内时,将所述第二反馈变量更新为第一预设值;以及
当确定所述差异超出所述第一预设阈值范围内时,所述第二反馈变量更新为第二预设值;
其中,所述第一预设值所代表的收益大于所述第二预设值所代表的收益。
6.根据权利要求4所述的方法,其中,所述根据所述差异更新所述第二反馈变量的取值包括:
将表征所述差异的大小的连续变量值作为所述第二反馈变量的取值;
其中,所述确定所述机械机构所达到的实际状态参数与第二训练状态参数之间的差异包括:
确定所述机械机构所达到的实际坐标与所述第二训练状态参数所对应的目标坐标之间的距离。
7.根据权利要求1所述的方法,其中,所述第二强化学习模型的训练过程包括:
从经验池中选择预设数量的经验样本输入神经网络进行学习,输出为了达到当前训练目标状态参数的第二训练控制信息;
根据所输出的所述第二训练控制信息控制所述驱动组件执行对应的机械动作,以使所述机械机构达到实际状态参数;
将所述实际状态参数与所输出的所述第二训练控制信息之间的对应关系作为一个所述经验样本存入所述经验池;以及
获取下一个训练目标状态参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京地平线机器人技术研发有限公司,未经北京地平线机器人技术研发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811191423.0/1.html,转载请声明来源钻瓜专利网。