[发明专利]一种基于模拟器训练的机器人控制方法有效

申请号：	201810054083.0	申请日：	2018-01-19
公开（公告）号：	CN108255059B	公开（公告）日：	2021-03-19
发明（设计）人：	俞扬;张超;周志华	申请（专利权）人：	南京大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	210008 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模拟器训练机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于模拟器训练的机器人控制方法，对机器人待执行任务环境进行仿真建模，建立模拟器；在模拟器中，随机生成T个不同性能参数的机器人，各机器人分别训练策略，最终得到由各自策略构成的基策略集；在模拟器中，另外随机生成M个不同性能参数的机器人，并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重，将各机器人执行随机动作序列得到的特征F_i(A)和最优组合权重分别作为回归模型的输入和标签，优化得到最优的回归模型θ；在模拟器中，另外随机生成N个不同性能参数的机器人，在这N个机器人上优化出最优动作；在同一任务中，使未知的不同性能参数的机器人执行最优动作A^*，得到该机器人的最优动作策略。

技术领域

本发明涉及一种基于模拟器训练的机器人控制方法，可用于机器人、机械臂、运动装置等设备的控制，属于机器人技术领域。

背景技术

当前，机器人越来越多的进入人们的生活，用以在日常生活中减少人力劳动，辅助人们完成任务，如导航、跟踪、物体抓取、零件装配和高危物品运送等。但现有机器人的控制方法常为固定策略，即严格按照专业人员针对特定任务进行反复尝试后的固定编程流程执行动作，使得任务执行中仍需不小的人力引入。另外，由于生活中的机器人种类繁多，各个体间的性能参数也不尽相同，如差异化的传感器参数、外观参数和可活动范围参数等，所以即使是在执行同一任务时，由于个体差异也无法很好的使用专业人员事先设定的统一的固定程序流程，需要针对每一个个体进行独立调试。虽然在自动控制领域通过数值计算可以在机器人执行任务时实时更新求解出可行的动作策略，但此方法引入大量的分布假设，且需要事先输入机器人的相关性能参数，虽整体降低了一定的人力引入，但仍需人力参与，且此方法得到的机器人的动作策略对输入的性能参数十分敏感，因此在执行任务时，需要输入高精度的机器人的相关性能参数。而强化学习由于不需要人为输入机器人的相关性能参数，所以在机器人的动作策略学习过程中大大降低了人力引入，其流程为机器人通过在模拟器中与环境不断交互试错，优化自身的动作策略，最终得到满足任务要求的动作策略，但由于强化学习最终学得的动作策略与机器人的性能参数也具有高度相关性，所以对于同一任务中未知的不同性能的机器人仍然无法得到它的有效动作策略。

因此，在机器人的任务执行中，尤其是同一任务中各机器人具有未知的差异化性能参数时，亟需一种新型的技术方案来解决这一问题。

发明内容

发明目的：为克服现有技术的缺陷，本发明提出了一种基于模拟器训练的机器人控制方法，能够在同一任务中得到未知的不同性能参数的机器人的动作策略，且该动作策略下的机器人可有效完成任务要求。

技术方案：一种基于模拟器训练的机器人控制方法，包括以下步骤：

步骤1：对待执行任务环境进行仿真建模，建立与任务相同或相似的模拟器，并针对任务设计构建强化学习四要素：状态s、动作a、奖励函数R(s,a)、状态转移概率P(s'|s,a)；

步骤2：在模拟器中，随机生成T个不同性能参数的机器人，并使用强化学习算法对各机器人分别进行训练得到各自动作策略π作为基策略，最终得到基策略集和组合策略其中，w为权重系数；

步骤3：在模拟器中，另外随机生成M个不同性能参数的机器人，并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重其中，τ为机器人执行任务时的多个状态-动作对(s₀,a₀,s₁,a₁,...,s_t,a_t)构成的轨迹，为机器人执行组合策略π_w后产生轨迹τ的概率，R(τ)为轨迹τ上获得的总奖励，随后使此M个机器人均执行给定的一串初始随机动作A，并将各机器人执行动作A后的输出状态作为特征F_i(A)，将各机器人特征F_i(A)和最优组合权重分别作为回归模型的输入和标签，优化得到最优的回归模型θ，即

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810054083.0/2.html，转载请声明来源钻瓜专利网。

上一篇：智能空间下的服务机器人逆运动学求解方法和装置
下一篇：基于极限学习机的船舶动力定位自抗扰控制方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模拟器训练的机器人控制方法有效

专利文献下载