[发明专利]一种通过强化学习技术实现无人机自主飞行的方法在审
申请号: | 202110145972.X | 申请日: | 2021-02-02 |
公开(公告)号: | CN112766499A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 董乐;张宁;黄灿 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 孟仕杰 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 强化 学习 技术 实现 无人机 自主 飞行 方法 | ||
1.一种通过强化学习技术实现无人机自主飞行的方法,其特征在于,包括如下步骤:
步骤一、获取模拟数据集(st,at,rt)∈DSIM和真实数据集(st,at,rt)∈DRW,其中,st为输入状态向量,at为输入动作向量,rt为奖励;
步骤二、输入状态向量[st-3,st-2,st-1,st]至卷积神经网络提取图像特征,然后与输入的动作向量at进行整合,提取动作特征;
步骤三、使用Q-learning训练一个深度神经网络Q-function Qθ(st,at);
步骤四、构建现实世界策略学习网络,通过迁移学习的方法,将深度神经网络Q-function Qθ(st,at)训练好的参数按照迁移至现实世界策略学习网络中,训练行动条件奖励预测函数
步骤五、输入状态向量[st-3,st-2,st-1,st]和H个未来计划行动向量的序列至通过一个长短期记忆循环神经网络整合之后,并在将来的每个时间点输出预测的奖励
步骤六、根据预测的奖励选择接下来的动作实现自主飞行。
2.根据权利要求1所述的一种通过强化学习技术实现无人机自主飞行的方法,其特征在于:所述深度神经网络Q-function Qθ(st,at)中,通过使模拟数据集(st,at,r)∈DSIM中的所有状态,动作,奖励,下一状态元组的Bellman误差最小化来更新参数,公式如下:
其中,γ表示折扣因子。
3.根据权利要求1所述的一种通过强化学习技术实现无人机自主飞行的方法,其特征在于:所述深度神经网络Q-function Qθ(st,at)中,通过找到使深度神经网络Q-functionQθ(st,at)最大化的动作来选择最佳动作,公式如下:
4.根据权利要求1所述的一种通过强化学习技术实现无人机自主飞行的方法,其特征在于:使用真实数据集(st,at,r)∈DRW更新行动条件奖励预测函数参数,以最小化奖励预测误差,公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110145972.X/1.html,转载请声明来源钻瓜专利网。