[发明专利]一种基于势能场函数逼近的强化学习方法的泊车策略有效
申请号: | 202010847538.1 | 申请日: | 2020-08-21 |
公开(公告)号: | CN112061116B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 李道飞;刘关明;刘傲;林思远;肖斌 | 申请(专利权)人: | 浙江大学 |
主分类号: | B60W30/06 | 分类号: | B60W30/06;B60W40/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 势能 函数 逼近 强化 学习方法 泊车 策略 | ||
1.一种基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:通过设计势能场来逼近强化学习过程中的状态价值函数,势能场作用体现为车辆当前状态、目标车位、可行驶区域和车辆参数的不同因素在车辆状态价值函数的定量表示;根据车辆当前状态和预设的可执行动作空间,利用状态转移方程预测每个可执行动作对应的下一状态,然后结合势能场计算每个预测状态的状态价值函数值,通过ε-贪婪策略从中选择状态价值函数值最高的一个动作;再根据该动作对应的状态选择下一个动作,重复预测状态和选择执行动作这一过程至泊车结束,最后根据选择动作序列生成实时泊车规划路径;
设计的势能场分为引力部分产生的势能场和斥力部分产生的势能场;
引力部分势能场的状态价值函数值
X=[]
其中,车辆状态至少包括车辆后轴中点在泊车位坐标系下的x,y坐标和车辆纵向中心轴与在泊车位坐标系下x轴的夹角yaw,记为(x,y,yaw);(xtarget,ytarget,yawtarget)为终点状态;
斥力部分势能场的状态价值函数值
其中,车辆轮廓有四个角点,目标车位与可行驶区域有两个接触角点,i=1~6,d1 ~d4为每个车辆轮廓角点到泊车边界的最短距离,d5~d6为每个目标车位与可行驶区域的接触角点到车辆轮廓边的最短距离;如果di超过了斥力作用范围,则
最终车辆状态价值函数值为:
。
2.根据权利要求1所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:根据需要的路径设计引导线,用引导线和泊车边界约束生成势能场,优化势能场参数,最后得到的势能场函数可以用来表示车辆泊车过程中车辆在每一个状态下的状态价值函数值;其中泊车边界为泊车区域外轮廓,泊车区域包括可行驶区域和目标车位。
3.根据权利要求2所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:引力部分势能场由设计的虚拟引导线产生,且不同的虚拟引导线产生的场在不同区域具有不同的优先级,优先级高的场覆盖优先级低的场;斥力部分势能场由泊车边界产生。
4.根据权利要求3所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:对于不同类型的泊车区域设计不同的势能场,不同部分的势能场具有不同的作用范围;其中,引力部分势能为正值,在其作用范围内越靠近引导线引力势能越大,进一步地越靠近终点引力势能越大,且终点的引力势能最大;斥力部分势能为负值,泊车边界的斥力势能为负无穷,且在其作用范围内越靠近泊车边界斥力势能越大。
5.根据权利要求3所述基于势能场函数逼近的强化学习方法的泊车策略,其特征在于:根据车辆状态,势能场不同部分对车辆不同位置的作用不同,产生的势能也不一样,因此对车辆状态价值函数的贡献不同;引力势能场部分产生的状态价值函数值对车辆的后轴中心点产生作用,斥力场部分泊车边界产生的状态价值函数对车辆外轮廓的四个角点产生作用,且目标车位与可行驶区域的接触角点产生的势能场对车辆的外轮廓边产生作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010847538.1/1.html,转载请声明来源钻瓜专利网。