[发明专利]使用逆向强化学习的开放空间路径规划在审
申请号: | 202011030676.7 | 申请日: | 2020-09-27 |
公开(公告)号: | CN113428172A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 周金运;罗琦;姜舒;陶佳鸣;王禹;许稼轩;许珂诚;缪景皓;胡江滔 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | B60W60/00 | 分类号: | B60W60/00 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 逆向 强化 学习 开放 空间 路径 规划 | ||
在一个实施方式中,方法确定从开放空间内的自动驾驶车辆(ADV)的第一位置到第二位置的路线,第一位置是ADV的当前位置。方法基于路线确定目标函数,目标函数具有用于操控ADV从第一位置到第二位置的成本集。方法确定开放空间的环境条件,并使用环境条件来确定权重集,每个权重将应用于目标函数的对应成本。方法基于一个或多个约束优化目标函数,使得在满足一个或多个约束时,目标函数的输出达到最小,并用优化的目标函数生成路径轨迹,以根据路径轨迹自动控制ADV。
技术领域
本公开的实施方式总体涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及使用逆向强化学习的开放空间路径规划。
背景技术
以自动驾驶模式运行(例如,无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时,车辆可使用车载传感器导航到各个位置,从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。
运动规划和控制是自动驾驶中的关键操作。此外,轨迹规划对于操作自动驾驶车辆(ADV)是至关重要的。根据各种约束可以利用开放空间规划器以优化轨迹。根据优化的轨迹,ADV可以生成命令以沿路径控制ADV。然而,在某些情况下,规划器生成的轨迹通常缺乏自动驾驶所需的足够的平滑度。结果,由ADV执行的某些操控可能是突然的,并且是乘客不太期望的。
发明内容
根据本公开的一方面,提供了由自动驾驶车辆执行的计算机实施的方法,所述方法包括:
确定从开放空间内的所述自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及
用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
根据本公开的另一方面,提供了具有存储在其中的指令的非暂存性机器可读介质,所述指令在由处理器执行时使所述处理器执行操作,所述操作包括:
确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及
用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
根据本公开的又一方面,提供了数据处理系统,包括:
处理器;以及
存储器,联接到所述处理器以存储指令,所述指令在由所述处理器执行时使所述处理器执行操作,所述操作包括:
确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030676.7/2.html,转载请声明来源钻瓜专利网。