[发明专利]一种基于模仿学习的服务机器人定量倒水方法及存储介质有效
| 申请号: | 202110217089.7 | 申请日: | 2021-02-26 |
| 公开(公告)号: | CN112975967B | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 尤鸣宇;徐炫辉;周洪钧 | 申请(专利权)人: | 同济大学 |
| 主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J11/00 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 应小波 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模仿 学习 服务 机器人 定量 倒水 方法 存储 介质 | ||
1.一种基于模仿学习的服务机器人定量倒水方法,其特征在于,所述的定量倒水方法包括:
步骤1:获取人类专家定量倒水示范数据;
步骤2:利用步骤1获取示范数据训练奖励函数输出网络;
步骤3:搭建定量倒水决策网络,基于奖励函数输出网络,在复杂非结构化场景中利用强化学习算法学习定量倒水动作,获得目标决策网络;
步骤3具体为:
在复杂非结构化场景中采用PPO策略优化算法进行强化学习,其训练过程中所需奖励函数由步骤2获取的奖励函数输出网络R提供;
使用示范数据对定量倒水决策网络进行训练,训练过程中服务机器人所面对的环境需要与当前示范数据的示范条件相同,最终获得定量倒水目标决策网络;
定量倒水决策网络具体为:
将服务机器人的动作离散化,将动作离散为若干个子动作;
在将动作离散化后,机器人判断离散化的子动作数量是否超过预设阈值,若是,则视为本次倒水动作失败,否则,依次执行每个子动作,直至完成整个动作轨迹;
PPO策略优化算法包括:
一个Critic网络C,用于预测某一状态st下的值函数;
以及两个Actor网络A1和A2,用于生成动作;
所述的Critic网络C以及Actor网络A1和A2的输入均为RGB图像和目标水位;训练时,在一个episode内,A1与环境交互生成一系列数据,同时利用训练好的奖励函数生成网络R,为每一步生成奖励函数,利用Critic网络C预测当前状态st下的值函数,将每一步的RGB图像、目标水位和奖励函数放入记忆池中,当记忆池中的参数量到达一定数量时,利用Loss函数对A1进行优化,所述的Loss函数具体为:
其中,rt为奖励函数,ε为超参数,为优势函数,γ为折扣因子,V为价值函数,为期望,t为步数,T为总步数,θ为模型参数,clip指将rt中比1-ε小的均替换为1-ε,比1+ε大的均替换为1+ε;
对A2训练N次,训练过程中A1继续与环境交互收集数据更新记忆池,A2训练N次后,将A2的参数赋给A1,然后继续用记忆池中的数据训练A2,如此循环,直到决策网络效果满足需求,生成定量倒水目标决策网络;
步骤4:使用训练好的目标决策网络驱动服务机器人完成定量倒水服务。
2.根据权利要求1所述的一种基于模仿学习的服务机器人定量倒水方法,其特征在于,所述步骤1中收集倒水示范数据的约束条件包括:
在收集示范数据Dexpert时,需要更换目标容器、桌面背景以及在不同光照条件下重复定量倒水示范;
将目标容器内的水量分为低水量、中水量和满水量三种等级,其中低水量为目标容器容量的20±5%,中水量为目标容器水量的50±5%,满水量为90±5%,低水量、中水量和满水量三种等级分别由001、010和100三个二进制编码表示;
在收集示范数据的过程中,将相同目标容器、相同桌面背景和相同光照条件视为一组示范条件,在每一组示范条件下均需完成三种等级水量的倒水示范。
3.根据权利要求2所述的一种基于模仿学习的服务机器人定量倒水方法,其特征在于,所述的目标容器的数量为Ncup,桌面背景数量为Nwallpaper,光照种类数量为Nlight,每组示范条件下重复相同目标水量示范重复次数为λ,示范轨迹总数量为:
Ntotal=3*λ*Ncup*Nwallpaper*Nlight。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110217089.7/1.html,转载请声明来源钻瓜专利网。





