[发明专利]机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法有效
申请号: | 201810771452.8 | 申请日: | 2018-07-13 |
公开(公告)号: | CN109274314B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 於保勇作;园田直人 | 申请(专利权)人: | 发那科株式会社 |
主分类号: | H02P29/00 | 分类号: | H02P29/00;H02P23/00;H02P23/24 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 范胜杰;文志 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 装置 伺服 电动机 控制 控制系统 以及 学习方法 | ||
1.一种机器学习装置,其针对具备非线性摩擦补偿单元的伺服电动机控制装置进行机器学习,所述非线性摩擦补偿单元根据位置指令生成针对非线性摩擦的修正值,其特征在于,
所述机器学习装置具备:
状态信息取得单元,其通过使所述伺服电动机控制装置执行预定的程序,从所述伺服电动机控制装置取得状态信息,所述状态信息包含所述非线性摩擦补偿单元的修正系数的组合以及至少包含位置偏差的伺服状态;
行为信息输出单元,其向所述伺服电动机控制装置输出行为信息,所述行为信息包含在所述状态信息中包含的所述修正系数的组合的调整信息;
回报输出单元,其输出基于所述状态信息中包含的所述位置偏差的强化学习中的回报的值;以及
价值函数更新单元,其根据通过所述回报输出单元输出的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。
2.根据权利要求1所述的机器学习装置,其特征在于,
所述回报输出单元根据所述位置偏差的绝对值来输出所述回报的值。
3.根据权利要求1或2所述的机器学习装置,其特征在于,
所述伺服电动机控制装置还具有速度前馈计算单元,该速度前馈计算单元根据所述位置指令来生成速度前馈值,
所述非线性摩擦补偿单元与所述速度前馈计算单元并联连接。
4.根据权利要求1或2所述的机器学习装置,其特征在于,
所述机器学习装置还具备最优化行为信息输出单元,该最优化行为信息输出单元根据通过所述价值函数更新单元更新后的价值函数,生成所述非线性摩擦补偿单元的修正系数的组合并进行输出。
5.一种伺服电动机控制系统,其特征在于,具备:
权利要求1~4中的任意一项所述的机器学习装置;以及
伺服电动机控制装置,其具有用于生成针对非线性摩擦的修正值的非线性摩擦补偿单元。
6.根据权利要求5所述的伺服电动机控制系统,其特征在于,
所述伺服电动机控制装置还具有速度前馈计算单元,该速度前馈计算单元根据位置指令来生成速度前馈值,
所述非线性摩擦补偿单元与所述速度前馈计算单元并联连接。
7.一种伺服电动机控制装置,其特征在于,具备:
权利要求1~4中的任意一项所述的机器学习装置;以及
非线性摩擦补偿单元,其生成针对非线性摩擦的修正值。
8.根据权利要求7所述的伺服电动机控制装置,其特征在于,
所述伺服电动机控制装置还具有速度前馈计算单元,该速度前馈计算单元根据位置指令来生成速度前馈值,
所述非线性摩擦补偿单元与所述速度前馈计算单元并联连接。
9.一种机器学习方法,其是针对具备非线性摩擦补偿单元的伺服电动机控制装置进行机器学习的机器学习装置的机器学习方法,所述非线性摩擦补偿单元根据位置指令生成针对非线性摩擦的修正值,其特征在于,
所述机器学习方法
通过使所述伺服电动机控制装置执行预定的程序,从所述伺服电动机控制装置取得状态信息,该状态信息包含所述非线性摩擦补偿单元的修正系数的组合以及至少包含位置偏差的伺服状态;
向所述伺服电动机控制装置输出行为信息,该行为信息包含在所述状态信息中包含的所述修正系数的组合的调整信息;
根据基于所述状态信息中包含的所述位置偏差的强化学习中的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于发那科株式会社,未经发那科株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810771452.8/1.html,转载请声明来源钻瓜专利网。