[发明专利]使用逆向强化学习的开放空间路径规划在审
| 申请号: | 202011030676.7 | 申请日: | 2020-09-27 |
| 公开(公告)号: | CN113428172A | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 周金运;罗琦;姜舒;陶佳鸣;王禹;许稼轩;许珂诚;缪景皓;胡江滔 | 申请(专利权)人: | 百度(美国)有限责任公司 |
| 主分类号: | B60W60/00 | 分类号: | B60W60/00 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 逆向 强化 学习 开放 空间 路径 规划 | ||
1.由自动驾驶车辆执行的计算机实施的方法,所述方法包括:
确定从开放空间内的所述自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及
用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
2.根据权利要求1所述的方法,其中,确定所述权重集包括:在环境条件与权重相关联的表中执行表查找,其中,所述表是权重的逆向强化学习模型,所述权重表示专业驾驶员针对环境条件的行为。
3.根据权利要求1所述的方法,还包括:确定所述开放空间的所述环境条件,包括:
分析由所述自动驾驶车辆的一个或多个摄像机捕获的图像,以识别所述环境条件。
4.根据权利要求3所述的方法,其中,所述环境条件包括在所述图像内捕获的一个或多个对象相对于所述自动驾驶车辆的所述当前位置的位置。
5.根据权利要求3所述的方法,其中,所述环境条件包括在所述图像内捕获的所述开放空间的道路特征。
6.根据权利要求1所述的方法,还包括:控制所述自动驾驶车辆沿所生成的路径轨迹从所述第一位置操控到所述第二位置。
7.根据权利要求6所述的方法,其中,所述路线是第一路线,所述目标函数是第一目标函数,所述开放空间是第一开放空间,所述权重集是第一权重集,并且所述成本集是第一成本集,其中,所述方法还包括:
确定从第二开放空间内的所述自动驾驶车辆的所述第二位置到第三位置的第二路线,所述第二位置是所述自动驾驶车辆的当前位置;
基于所述第二路线确定第二目标函数,所述第二目标函数包括用于从所述第二位置操控到所述第三位置的第二成本集;
确定所述第二开放空间的环境条件;以及
使用所述第二开放空间的所述环境条件以确定第二权重集,每个权重将应用于所述第二目标函数的对应成本。
8.根据权利要求7所述的方法,其中,所述第二权重集中的至少一个所述权重与所述第一权重集中的对应权重不同。
9.具有存储在其中的指令的非暂存性机器可读介质,所述指令在由处理器执行时使所述处理器执行操作,所述操作包括:
确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及
用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
10.根据权利要求9所述的机器可读介质,其中,确定所述权重集包括:在环境条件与权重相关联的表中执行表查找,其中,所述表是权重的逆向强化学习模型,所述权重表示专业驾驶员针对环境条件的行为。
11.根据权利要求9所述的机器可读介质,其中,所述操作还包括:确定所述开放空间的所述环境条件,包括:
分析由所述自动驾驶车辆的一个或多个摄像机捕获的图像以便识别所述环境条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030676.7/1.html,转载请声明来源钻瓜专利网。





