[发明专利]一种无人机姿态训练方法及装置有效
申请号: | 201811123962.0 | 申请日: | 2018-09-26 |
公开(公告)号: | CN109164821B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 孔庆凯 | 申请(专利权)人: | 中科物栖(北京)科技有限责任公司 |
主分类号: | G05D1/08 | 分类号: | G05D1/08 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 胡剑辉 |
地址: | 100086 北京市海淀区科学院南路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 实际姿态 无人机姿态 奖励信息 接触信息 目标姿态 环境状态信息 神经网络模型 传感器信息 场景 动力装置 飞行姿态 决策控制 控制信息 快速响应 神经网络 信息确定 学习控制 真实场景 姿态控制 智能化 最小化 | ||
1.一种无人机姿态训练方法,其特征在于,包括:
获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以控制所述实际姿态快速响应所述目标姿态信息,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态;
所述面板接触信息通过以下方式获取:
将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
2.根据权利要求1所述的方法,其特征在于,所述基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息,包括:
当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
3.根据权利要求1所述的方法,其特征在于,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
4.根据权利要求1-3任一所述的方法,其特征在于,所述基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,包括:
将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;
价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;
基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用梯度策略对执行策略网络进行更新,执行策略网络直接输出电机控制信息,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态。
5.一种无人机姿态训练装置,其特征在于,包括:
获取模块,用于获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
确定模块,用于基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
训练模块,用于基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态;
所述获取模块,具体用于将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
6.根据权利要求5所述的装置,其特征在于,所述确定模块,具体用于当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
7.根据权利要求5所述的装置,其特征在于,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
8.根据权利要求5-7任一所述的装置,其特征在于,所述训练模块,具体用于将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用梯度策略对执行策略网络进行更新,执行策略网络直接输出电机控制信息,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科物栖(北京)科技有限责任公司,未经中科物栖(北京)科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811123962.0/1.html,转载请声明来源钻瓜专利网。