[发明专利]一种基于模仿学习的服务机器人定量倒水方法及存储介质有效

申请号：	202110217089.7	申请日：	2021-02-26
公开（公告）号：	CN112975967B	公开（公告）日：	2022-06-28
发明（设计）人：	尤鸣宇;徐炫辉;周洪钧	申请（专利权）人：	同济大学
主分类号：	B25J9/16	分类号：	B25J9/16;B25J11/00
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	应小波
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模仿学习服务机器人定量倒水方法存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模仿学习的服务机器人定量倒水方法，其特征在于，所述的定量倒水方法包括：

步骤1：获取人类专家定量倒水示范数据；

步骤2：利用步骤1获取示范数据训练奖励函数输出网络；

步骤3：搭建定量倒水决策网络，基于奖励函数输出网络，在复杂非结构化场景中利用强化学习算法学习定量倒水动作，获得目标决策网络；

步骤3具体为：

在复杂非结构化场景中采用PPO策略优化算法进行强化学习，其训练过程中所需奖励函数由步骤2获取的奖励函数输出网络R提供；

使用示范数据对定量倒水决策网络进行训练，训练过程中服务机器人所面对的环境需要与当前示范数据的示范条件相同，最终获得定量倒水目标决策网络；

定量倒水决策网络具体为：

将服务机器人的动作离散化，将动作离散为若干个子动作；

在将动作离散化后，机器人判断离散化的子动作数量是否超过预设阈值，若是，则视为本次倒水动作失败，否则，依次执行每个子动作，直至完成整个动作轨迹；

PPO策略优化算法包括：

一个Critic网络C，用于预测某一状态s_t下的值函数；

以及两个Actor网络A₁和A₂，用于生成动作；

所述的Critic网络C以及Actor网络A₁和A₂的输入均为RGB图像和目标水位；训练时，在一个episode内，A₁与环境交互生成一系列数据，同时利用训练好的奖励函数生成网络R，为每一步生成奖励函数，利用Critic网络C预测当前状态s_t下的值函数，将每一步的RGB图像、目标水位和奖励函数放入记忆池中，当记忆池中的参数量到达一定数量时，利用Loss函数对A₁进行优化，所述的Loss函数具体为：

其中，r_t为奖励函数，ε为超参数，为优势函数，γ为折扣因子，V为价值函数，为期望，t为步数，T为总步数，θ为模型参数，clip指将r_t中比1-ε小的均替换为1-ε，比1+ε大的均替换为1+ε；

对A₂训练N次，训练过程中A₁继续与环境交互收集数据更新记忆池，A₂训练N次后，将A₂的参数赋给A₁，然后继续用记忆池中的数据训练A₂，如此循环，直到决策网络效果满足需求，生成定量倒水目标决策网络；

步骤4：使用训练好的目标决策网络驱动服务机器人完成定量倒水服务。

2.根据权利要求1所述的一种基于模仿学习的服务机器人定量倒水方法，其特征在于，所述步骤1中收集倒水示范数据的约束条件包括：

在收集示范数据D_expert时，需要更换目标容器、桌面背景以及在不同光照条件下重复定量倒水示范；

将目标容器内的水量分为低水量、中水量和满水量三种等级，其中低水量为目标容器容量的20±5％，中水量为目标容器水量的50±5％，满水量为90±5％，低水量、中水量和满水量三种等级分别由001、010和100三个二进制编码表示；

在收集示范数据的过程中，将相同目标容器、相同桌面背景和相同光照条件视为一组示范条件，在每一组示范条件下均需完成三种等级水量的倒水示范。

3.根据权利要求2所述的一种基于模仿学习的服务机器人定量倒水方法，其特征在于，所述的目标容器的数量为N_cup，桌面背景数量为N_wallpaper，光照种类数量为N_light，每组示范条件下重复相同目标水量示范重复次数为λ，示范轨迹总数量为：

N_total＝3*λ*N_cup*N_wallpaper*N_light。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110217089.7/1.html，转载请声明来源钻瓜专利网。

上一篇：高连梁式预制混凝土墙拆分安装方法、高连梁拆分节点及高连梁、高连梁式预制混凝土墙
下一篇：一种多功能微波炉

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模仿学习的服务机器人定量倒水方法及存储介质有效

专利文献下载