[发明专利]一种无人机姿态训练方法及装置有效

申请号：	201811123962.0	申请日：	2018-09-26
公开（公告）号：	CN109164821B	公开（公告）日：	2019-05-07
发明（设计）人：	孔庆凯	申请（专利权）人：	中科物栖（北京）科技有限责任公司
主分类号：	G05D1/08	分类号：	G05D1/08
代理公司：	北京和信华成知识产权代理事务所(普通合伙) 11390	代理人：	胡剑辉
地址：	100086 北京市海淀区科学院南路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习实际姿态无人机姿态奖励信息接触信息目标姿态环境状态信息神经网络模型传感器信息场景动力装置飞行姿态决策控制控制信息快速响应神经网络信息确定学习控制真实场景姿态控制智能化最小化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种无人机姿态训练方法，其特征在于，包括：

获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息；

基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息；

基于所述奖惩信息按照最小化损失原则，对强化学习的深度神经网络进行训练，其中，所述强化学习的方法采用两部分网络，执行策略网络通过状态信息直接输出控制信息，价值评估网络通过奖惩信息评价所述执行策略网络，使得所述执行策略网络更新以获得更高的奖励，以控制所述实际姿态快速响应所述目标姿态信息，得到训练好的深度神经网络模型，用以通过环境信息控制所述无人机的飞行姿态；

所述面板接触信息通过以下方式获取：

将所述无人机放置于方盒中进行姿势训练，并限定所述无人机在所述方盒中的运动范围，其中，所述方盒包括六个由金属材料构成的面，且每个面之间通过绝缘片阻隔，所述无人机通过连接杆连接，且连接杆与每个面带有不同的电极；

通过所述连接杆上的电极获取面板接触信息。

2.根据权利要求1所述的方法，其特征在于，所述基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息，包括：

当所述无人机与方盒存在接触时，将所述面板接触信息作为奖惩信息；

当所述无人机与方盒不存在接触时，将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。

3.根据权利要求1所述的方法，其特征在于，所述传感器信息至少包括以下之一：

无人机的姿态、陀螺仪、位置、方位、加速度、气压；

所述控制信息包括：所述无人机的四个电机的动力输出。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述奖惩信息按照最小化损失原则，对强化学习的深度神经网络进行训练，包括：

将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入，执行策略网络输出控制信息；

价值评估网络根据所述控制信息确定所述无人机姿态的价值信息，通过所述价值信息指导所述执行策略网络的更新；

基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新，使用梯度策略对执行策略网络进行更新，执行策略网络直接输出电机控制信息，以使所述实际姿态快速响应所述目标姿态，得到训练好的深度神经网络模型，用以通过环境信息控制所述无人机的飞行姿态。

5.一种无人机姿态训练装置，其特征在于，包括：

获取模块，用于获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息；

确定模块，用于基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息；

训练模块，用于基于所述奖惩信息按照最小化损失原则，对强化学习的深度神经网络进行训练，其中，所述强化学习的方法采用两部分网络，执行策略网络通过状态信息直接输出控制信息，价值评估网络通过奖惩信息评价所述执行策略网络，使得所述执行策略网络更新以获得更高的奖励，以控制所述实际姿态快速响应所述目标姿态，得到训练好的深度神经网络模型，用以通过环境信息控制所述无人机的飞行姿态；

所述获取模块，具体用于将所述无人机放置于方盒中进行姿势训练，并限定所述无人机在所述方盒中的运动范围，其中，所述方盒包括六个由金属材料构成的面，且每个面之间通过绝缘片阻隔，所述无人机通过连接杆连接，且连接杆与每个面带有不同的电极；

通过所述连接杆上的电极获取面板接触信息。

6.根据权利要求5所述的装置，其特征在于，所述确定模块，具体用于当所述无人机与方盒存在接触时，将所述面板接触信息作为奖惩信息；

当所述无人机与方盒不存在接触时，将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。

7.根据权利要求5所述的装置，其特征在于，所述传感器信息至少包括以下之一：

无人机的姿态、陀螺仪、位置、方位、加速度、气压；

所述控制信息包括：所述无人机的四个电机的动力输出。

8.根据权利要求5-7任一所述的装置，其特征在于，所述训练模块，具体用于将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入，执行策略网络输出控制信息；价值评估网络根据所述控制信息确定所述无人机姿态的价值信息，通过所述价值信息指导所述执行策略网络的更新；基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新，使用梯度策略对执行策略网络进行更新，执行策略网络直接输出电机控制信息，以控制所述实际姿态快速响应所述目标姿态，得到训练好的深度神经网络模型，用以通过环境信息控制所述无人机的飞行姿态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科物栖（北京）科技有限责任公司，未经中科物栖（北京）科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811123962.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种无人机姿态训练方法及装置有效

专利文献下载