[发明专利]在导航网络中使用自主车辆的强化学习的导航轨迹在审
申请号: | 202110522071.8 | 申请日: | 2021-05-13 |
公开(公告)号: | CN114459491A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | T·J·胡;I·穆罕默德扎扎德;M·J·戴利;R·巴塔查里亚 | 申请(专利权)人: | 通用汽车环球科技运作有限责任公司 |
主分类号: | G01C21/34 | 分类号: | G01C21/34;G01C21/20;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 邹龙辉;万欣 |
地址: | 美国密*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 导航 网络 使用 自主 车辆 强化 学习 轨迹 | ||
一种自主车辆包括决策器模块和耦合到解析器模块的分级器模块。决策器模块生成当前时间的轨迹决策,生成自主车辆周围的平坦空间的当前二维切片,通过在时间上向前投影平坦空间的当前二维切片来生成平坦空间的未来二维切片,并且通过堆叠当前二维切片和未来二维切片来生成三维状态空间。分级器模块基于自主车辆的最近行为来生成针对轨迹决策的奖励。解析器模块基于三维状态空间和奖励从轨迹决策中选择自主车辆的最终轨迹决策。当前二维切片包括当前自主车辆位置和当前相邻车辆位置。未来二维切片包括未来自主车辆位置和未来相邻车辆位置。
技术领域
本公开涉及一种用于在导航网络中使用自主车辆(ego vehicle)的强化学习来导航轨迹的系统和方法。
背景技术
许多现有的车载轨迹规划系统生成用于车辆的当前状态和周围环境的单个轨迹。然而,用于确定轨迹的状态空间通常较大,其中输入状态包括所有可用的视觉信息和粒状输出动作(granular output action),诸如转向角和油门加速。为了训练神经网络以确定单个轨迹,许多参数被调节并且经常采用不同场景的数据集。
所期望的是一种在导航网络中使用自主车辆的强化学习的用于导航轨迹的技术。
发明内容
本文公开了自主车辆。自主车辆包括多个决策器模块和分级器模块。多个决策器模块耦合到解析器模块。多个决策器模块被配置为:在当前时间生成多个轨迹决策,生成自主车辆周围的平坦空间的当前二维切片,通过在时间上向前投影所述平坦空间的当前二维切片,生成所述自主车辆周围的所述平坦空间的多个未来二维切片,以及通过堆叠当前二维切片和多个未来二维切片生成三维状态空间。分级器模块耦合到解析器模块。分级器模块被配置为基于所述自主车辆的最近行为来生成针对所述多个轨迹决策的多个奖励。解析器模块被配置成基于三维状态空间和多个奖励从多个轨迹决策中选择自主车辆的最终轨迹决策。该当前二维切片包括在当前时间该自主车辆的当前自我位置以及多个相邻车辆的多个当前相邻位置。该多个未来二维切片包括在多个未来时间点自主车辆的多个未来自我位置以及多个相邻车辆的多个未来相邻位置。
在自主车辆的一个或多个实施例中,所述解析器模块使用强化学习来选择所述最终轨迹决策。
在一个或多个实施例中,自主车辆还包括控制模块,所述控制模块耦合至所述解析器模块,并且被配置为响应于所述最终轨迹决策来导航所述自主车辆。
在自主车辆的一个或多个实施例中,所述解析器模块是所述自主车辆外部的服务器计算机的一部分。
在一个或多个实施例中,自主车辆还包括发射器,所述发射器被配置为将所述多个轨迹决策传送至所述服务器计算机。
在一个或多个实施例中,自主车辆还包括接收器,所述接收器被配置为从所述服务器计算机接收所述最终轨迹决策。
在一个或多个实施例中,所述多个未来时间点表示所述三维状态空间中的多个状态,其概括所述自主车辆和所述多个相邻车辆的多个移动。
在一个或多个实施例中,自主车辆还包括存储器装置,所述存储器装置被配置为存储车道信息。所述多个决策器模块还被配置为响应于所述车道信息而生成所述多个轨迹决策。
在一个或多个实施例中,自主车辆还包括存储器装置,所述存储器装置被配置为存储交通灯信息。所述多个决策器模块还被配置为响应于所述交通灯信息来生成所述多个轨迹决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于通用汽车环球科技运作有限责任公司,未经通用汽车环球科技运作有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110522071.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示方法及电子设备
- 下一篇:交通工具的线路故障预测系统