[发明专利]基于对抗生成网络的自主移动机器人自监督学习及导航方法在审
申请号: | 202110459188.6 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113156957A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 邹俊成;尹玲;乔红;庞伟;刘佳玲 | 申请(专利权)人: | 东莞理工学院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 北京惟盛达知识产权代理事务所(普通合伙) 11855 | 代理人: | 董鸿柏 |
地址: | 523000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 生成 网络 自主 移动 机器人 监督 学习 导航 方法 | ||
本发明属于机器人学习领域,涉及基于对抗生成网络的自主移动机器人自监督学习及导航方法。其过程是先设置机器人的动作训练次数K;然后机器人采集到环境的状态图像;再是机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;然后更新预测网络权重;重复机器人采集图像到预测动作和执行动作之间这几个步骤,直至达到第K次;最后加权所有奖惩信号,再更新预测网络权重。这样既解决了机器人如何自主监督学习的问题又极大程度上减少了人工标记及人工干预的工作量。
技术领域
本发明涉及机器人学习领域,具体涉及一种基于对抗生成网络的自主移动机器人自监督学习及导航方法。
背景技术
自主移动机器人广泛应用到生产、生活等多个领域,其所面临的场景越来越复杂。传统方法都需要大量人工标记图像数据,以让机器人的深度神经网络学习相关数据。SLAM(同步定位和绘图)方法需要不断测量机器人与目标的相对位置和相对角度,这些目标也需要人工标记和筛选,在很多实际任务中很难找到这样比较合适的目标;而且传统的卷积神经网络需要将数据集归一化,不同尺寸混合在一起难以训练,并且传统的卷积神经网络没有记忆功能。这样就使得机器人能够自主学习的难度大大增加,而且需要人工标记的工作量非常大。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的自主移动机器人自监督学习环境的不足和弥补人工标记工作量大的缺陷,从而提供一种基于对抗生成网络的自主移动机器人自监督学习及导航方法。其解决了自主移动机器人自主学习环境信息、自主导航和人工标记工作量大的问题。
为解决上述问题,本发明提供了一种基于对抗生成网络的自主移动机器人自监督学习及导航方法,其包括:S1:设置机器人的动作训练次数K;S2:机器人采集到环境的状态图像;S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;S4:更新视频预测生成网络权重,所述视频预测生成网络NN1与判别网络NN2组成对抗生成网络;S5:预测动作和下一时刻图像,然后执行动作;S6:重复S2-S5,直至达到第K次;S7:加权所有奖惩信号,再更新预测网络权重。
作为本发明的进一步限定,其预测过程为:S5.1:在t1时刻,采集到了i1'图像;S5.2:将i1'图像输入视频预测网络NN1,预测得出t2时刻的图像i2及控制信号action;S5.3:动作执行完成后采集到t2时刻的图像i2';S5.4:通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2'的损失loss;S5.5:再通过该loss计算奖惩信号rs;S5.6:再以rs更新NN1的网络权重。
作为本发明的进一步限定,其损失值计算公式为:
La=λ1*L1+λ2*L2+λgdl*Lgdl+λGANs*LGANs (1)
LGANs=fCE(NN2(i2),NN2(i2′)) (5)
λ1,λ2,λgdl,λGANs是对应的系数,根据经验及实际实验进行设置。pi,j指的是图像i2的一个像素值,p′i,j指的是i2'的像素值。下标i,j分别指的是图像中x,y的下标位置。每执行一步需要更新NN1的权重,整个任务完成后需要求全部rs的和RS。fCE指的是计算两个数的交叉熵。NN2指的是判别网络,判别时将图像i2和图像i2'都分别输入到判别网络中,再计算两个输出的交叉熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞理工学院,未经东莞理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110459188.6/2.html,转载请声明来源钻瓜专利网。