[发明专利]一种基于策略梯度的机器人学习控制方法在审
申请号: | 201710321632.1 | 申请日: | 2017-05-09 |
公开(公告)号: | CN107020636A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 李军;沈广田;陈剑斌;高杨建;许阳 | 申请(专利权)人: | 重庆大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 梯度 机器人 学习 控制 方法 | ||
1.基于策略梯度的机器人学习控制方法,其特征在于:包括以下步骤:
S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;
S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;
S3:根据获得的累积奖励以及价值函数近似估计模型,对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
S4:输出机器人实际执行的动作命令。
2.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据,环境感知数据为可表达环境动态模型的传感数据。
3.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定。
4.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S2中的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中,采用梯度下降法调整权重向量,同时采用Q-学习算法估计状态-动作对的价值。
5.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S3中利用策略梯度方法,根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710321632.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:在多机器人上运行多主节点机器人操作系统的方法
- 下一篇:机器人交互式游戏系统