[发明专利]一种任务执行方法及装置、电子设备和存储介质有效
申请号: | 202110231106.2 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112906888B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 沈天龙;张啸川 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/094;G06N3/096;G06N3/0464;G06N3/0475 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 执行 方法 装置 电子设备 存储 介质 | ||
1.一种任务执行方法,其特征在于,包括:
获取现实环境感知数据;
将所述现实环境感知数据输入至任务执行模型中,得到决策行动数据;
根据所述决策行动数据执行相应的任务;
其中,所述任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到;
所述任务执行模型的训练方法包括:基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练,得到训练好的深度网络模型,其中,所述深度网络模型包括图像编码层和决策层;
基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络,生成训练好的所述现实环境编码网络,其中,所述生成对抗网络包括:仿真环境编码层、现实环境编码层和判别层;
将所述决策层与所述现实环境编码层进行组合,得到所述任务执行模型。
2.根据权利要求1所述的任务执行方法,其特征在于,所述基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练,得到训练好的深度网络模型,包括:
将所述仿真环境感知数据样本输入至所述仿真环境编码层,得到第一编码特征样本;
将所述第一编码特征样本输入至决策层,得到所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本;
根据所述仿真环境感知数据样本、所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本调整所述仿真环境编码层和所述决策层的参数,以得到训练好的所述深度网络模型。
3.根据权利要求1所述的任务执行方法,其特征在于,所述基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络,生成训练好的现实环境编码网络,包括:
将所述仿真环境感知数据样本输入至所述仿真环境编码层,生成第二编码样本特征;
将所述现实环境感知数据样本输入至所述现实环境编码层,生成第三编码样本特征;其中,所述现实环境编码层由仿真环境编码层初始化生成;
将所述第二编码样本特征和所述第三编码样本特征输入至判别层进行训练生成第一损失函数,并根据所述第一损失函数调整所述判别层的参数;
将所述第三编码样本特征输入至所述判别层生成第二损失函数,根据所述第二损失函数调整所述现实环境编码层,并将所述现实环境感知数据样本输入至所述现实环境编码层,生成更新的第三编码样本特征;
交替进行根据所述第一损失函数进行参数调整的任务以及根据所述第二损失函数进行参数调整的任务以及生成所述更新的第三编码样本特征任务,直至所述第一损失函数及所述第二损失函数分别达到最小值。
4.根据权利要求1所述的任务执行方法,其特征在于,所述方法还包括:
采集任务执行样本数据,将所述任务执行样本数据输入至所述任务执行模型进行深度强化学习,以调整所述现实环境编码层的参数;
其中,所述任务执行样本数据包括:当前视觉信息、决策行动数据、行动后的视觉信息以及行动奖励回报。
5.根据权利要求1所述的任务执行方法,其特征在于,将所述现实环境感知数据输入至所述任务执行模型中,得到决策行动数据,包括:
将所述现实环境感知数据输入至所述现实环境编码层进行处理,得到编码特征;
将所述编码特征输入至所述决策层进行处理,得到所述决策行动数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231106.2/1.html,转载请声明来源钻瓜专利网。