[发明专利]一种机器人的控制信号确定方法、装置及存储介质有效
申请号: | 202110347399.0 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113134834B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张春良;翁润庭;王明;朱厚耀;朱健业;岳夏;王晨 | 申请(专利权)人: | 广州大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器人 控制 信号 确定 方法 装置 存储 介质 | ||
1.一种机器人的控制信号确定方法,其特征在于,包括:
获取机器人的第一状态;
将所述第一状态输入评价网络,得到第一输出结果;所述第一输出结果根据所述评价网络的第一网络参数确定,所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
将所述第一输出结果输入动作网络,得到第二输出结果;所述第二输出结果根据所述动作网络的第二网络参数确定,所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定;
根据所述第二输出结果与信号输出阈值,确定控制信号;
所述第一网络参数的确定过程包括:
获取训练状态;
计算所述训练状态与所述期望状态的第一误差;
根据所述第一误差与预设误差阈值,确定性能指标;
根据所述性能指标、第一误差函数以及评价函数确定第二误差;所述评价函数基于第三网络参数确定;
根据所述第二误差对所述第三网络参数进行更新;
根据更新后的所述第三网络参数,确定所述第一网络参数。
2.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述根据所述第一误差与预设误差阈值,确定性能指标,包括:
当所述第一误差小于等于所述预设误差阈值,确定所述性能指标为第一数值,否则确定所述性能指标为第二数值;所述第二数值大于所述第一数值。
3.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述根据所述第二误差对所述第三网络参数进行更新,包括:
根据所述第二误差确定代价函数;
根据所述代价函数对所述第三网络参数进行求导处理,得到求导结果;
计算所述求导结果与评价网络的第一学习率的乘积;
根据所述第三网络参数与所述乘积的差值对所述第三网络参数进行更新。
4.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述第二网络参数的确定过程包括:
获取训练状态并根据训练状态确定输入状态;
根据第四网络参数与预设理想网络参数确定估计误差;
根据所述输入状态对应的正定矩阵、所述估计误差、第二误差函数以及所述第一输出结果,确定第三误差;
根据所述第三误差对所述第四网络参数进行更新;
根据更新后的所述第四网络参数,确定所述第二网络参数。
5.根据权利要求4所述机器人的控制信号确定方法,其特征在于:所述根据所述第三误差对所述第四网络参数进行更新,包括:
根据所述第三误差与所述第一输出结果的和确定第一参数;
根据动作网络的第二学习率与所述第一参数的乘积确定第二参数;
根据所述第四网络参数与所述第二参数的差值对所述第四网络参数进行更新。
6.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述根据所述第二输出结果与信号输出阈值,确定控制信号,包括:
当所述第二输出结果的绝对值小于所述信号输出阈值,将所述第二输出结果作为所述控制信号,否则,将所述信号输出阈值作为所述控制信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110347399.0/1.html,转载请声明来源钻瓜专利网。