[发明专利]一种使用神经网络为对象选择动作的方法在审
| 申请号: | 201780095641.1 | 申请日: | 2017-11-06 |
| 公开(公告)号: | CN111542836A | 公开(公告)日: | 2020-08-14 |
| 发明(设计)人: | 姚恒帅;陈浩;塞德·马苏德·诺斯拉蒂;佩曼·亚德梅拉特;张云飞 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;B60W40/12 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 使用 神经网络 对象 选择 动作 方法 | ||
本发明提供了一种使用神经网络的动作模型预测对象在环境中的的状态的方法、设备和系统。根据一个方面,一种用于对象的控制系统(115)包括:处理器(102);多个传感器(110),耦合至所述处理器(102),用于感测所述对象的当前状态和所述对象所处的环境;第一神经网络(250),耦合至所述处理器(102)。使用动作模型、所述对象在所述环境中的当前状态以及多个动作,获得所述对象在所述环境中的多个预测的后续状态。所述动作模型将所述对象在所述环境中的多个状态以及所述对象针对每个状态执行的多个动作映射到所述对象在所述环境中的预测的后续状态。确定最大限度地提高目标的值的动作。所述目标至少基于每个所述预测的后续状态的回报。执行所述确定的动作。
相关申请案交叉申请
本申请要求于2017年10月4日递交的发明名称为“一种使用神经网络为对象选择动作的方法”的第15/724,939号美国专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文。
技术领域
本发明涉及一种使用神经网络的动作模型预测环境中的对象的状态的方法、设备和系统,还涉及一种使用神经网络为对象选择动作的方法、设备和系统。
背景技术
车辆驾驶员辅助系统增强了人类驾驶员的意识和安全,自主驾驶(例如,无人驾驶)车辆提高了驾驶员的安全性和方便性。自主驾驶是自主驾驶车辆的一个重要方面。然而,与自主驾驶车辆的其它方面一样,自主驾驶仍然是一个处于发展状态的领域,在自主驾驶方面仍需不断改进。例如,车辆动力学通常基于所使用的自行车模型。所述自行车模型使用包括位置、方向和方向改变速度等的几个变量来描述车辆状态。所述自行车模型由几个等式组成,这些等式在给定所述车辆的动作(包括油门(或加速度)、制动和转向角)的情况下更新所述车辆的状态。给定控制系统所使用的自行车模型基于车辆设计者的车辆系统设计经验。当前车辆动力学模型(例如,所述自行车模型)具有各种限制,仍需改进。
基于深度强化学习的人工智能(artificial intelligence,简称AI)系统需要大量数据和训练时间。例如,深度Q学习网络(deep Q-learning network,简称DQN)是基于深度强化学习的AI系统中最流行的算法之一。DQN由Google DeepMindTM开发,在AlphaGo中使用,于2016年打败人类GO冠军。然而,DQN学习速度非常缓慢,需要大量数据才能学习一种优良的策略。DQN还需要大量训练时间和计算才能实现收敛。DeepMind的研究表明,即使对于非常简单的游戏,DQN仍需数百万个训练样本才能学习非常简单的策略。原因在于,DQN就像随机梯度更新,由DQN计算的目标在训练迭代期间不断高速变化。无法保证DQN能够实现收敛,与此同时输出策略可能较差。对于基于AI的车辆驾驶员辅助和车辆自动化,需要改进的神经网络和训练方法。
发明内容
本发明提供了一种基于对象的动作预测所述对象(例如,车辆)在环境中的后续状态的方法。车辆动作模型通常仅考虑所述车辆的状态,因此在各种驾驶场景中存在不精确问题。然而,在开发基于人工智能(artificial intelligence,简称AI)的自主驾驶车辆时,必须将所述车辆的周围环境视为所述车辆的状态。因为所述车辆正在运动,所以所述环境的图像和其它感测测量也取决于所述车辆的动作。本发明提供了一种车辆动作模型,可以用于预测在所述后续状态下车辆在所述环境中的状态,所述后续状态可以用于可视化和其它目的。训练所述动作模型以执行多步预测,这可以用于例如自主驾驶方面的可视化和基于AI的规划。与基于车辆设计者的车辆系统设计经验并且未根据数据学习的其它车辆动力学模型(例如,自行车模型)相比,所述动作模型是根据使用在模拟中或在真实道路上行驶的车辆收集的样本数据集习得的。特别地,本发明使用神经网络根据传感器数据(例如,图像、LIDAR、RADAR和/或其它感测测量)、可能导出的数据、当前动作和后续状态学习动作模型。然后,所述学习的动作模型可以用于预测所述后续传感器数据(例如,图像、LIDAR、RADAR和其它感测测量)和针对给定状态和给定动作可能导出的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780095641.1/2.html,转载请声明来源钻瓜专利网。





