[发明专利]一种基于强化学习的运动规划与自动泊车方法有效

申请号：	202111297434.9	申请日：	2021-11-04
公开（公告）号：	CN113859226B	公开（公告）日：	2023-05-23
发明（设计）人：	赵奕帆;封霆谚;郝祁;范知	申请（专利权）人：	赵奕帆
主分类号：	B60W30/06	分类号：	B60W30/06;B60W10/20;B60W30/14;B60W40/02;B60W40/105;B60W50/00
代理公司：	郑州豫鼎知识产权代理事务所(普通合伙) 41178	代理人：	轩文君
地址：	510000 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习运动规划自动泊车方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的运动规划与自动泊车方法，其特征在于，

第一，收集强化学习所需要用到的停车经验数据集；

第二，建立自动泊车系统中车辆的动力学系统，包括不同车辆的初始位置中心点坐标的坐标集p₀＝{(x₀,y₀),(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)…}，由于模拟过程是将车辆放入一个二维平面进行模拟，因此此处的x，y表示车辆的横纵坐标；车辆默认初始速度V₀均为0，车辆的加速度的范围被限制在区间(0,A_m)之间；车辆的速度被限制在区间(0,V_m)之间，车辆的转动方向由转动角限制在(-α,α)之间，车辆最小转弯半径限制在(R₁,R₂)之间；设置停车场边界线四点坐标，停车位四点坐标，停车场内每个物体都由数量不等的坐标集构成；

第三，使用Q-learning的强化学习方法针对已有的模型数据进行训练：初始化所有状态、动作的Q(s,a)，就是在某一时刻的状态s下(s∈S)，采取强化学习所使用的经验数据集中的动作a(a∈A)能够获得收益的期望，环境会根据agent的动作反馈相应的回报r，所以算法是将状态与动作构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作；

停车训练过程中使用了基于强化学习用到的停车经验数据集和基于运动规划的两个策略进行训练；在进行初始化时，给予一个概率值e_greedy₀，当处于环境f时，按照算法中的强化学习所需要用到的停车经验数据集中的停车路线策略进行动作选择的概率为e_greedy(S_f,A_f)，e_greedy(S_f,A_f)表示车辆处于状态f下选择动作f的概率，而为了避免局部最优以及进行更多的探索，在不同的训练迭代过程中被训练的自动驾驶车辆会按照不同的e_greedy的概率进行随机选择；

在车辆未停止时：

根据当前Q-values的估计值estimates，选择当前状态s的动作a；运行动作a，得到r和输出的新状态s’并更新Q(s,a)的表项；

Q(s，a)＝Q(s，a)+α[r+γmaxQ(s′，a′)-Q(s，a)]

α：学习速率，γ：折扣因子

在获取下一步环境的实际情况之后再进行学习，学习函数对Q-Table表更新的重要参数之一就是获取下一步的环境的实际情况；具体来说，在进行学习过程时，Q-Learning的对象会根据所处的当前环境下所获得的积累得分和下一步的环境的实际情况的最大得分对当前环境的Q-Table表进行更新；其中α为学习速率，γ为折扣因子，学习速率决定了对先前的训练的结果的保留程度，也即α越大，保留先前的训练成果越少；折扣因子γ决定了项maxQ(s',a')的作用程度，项max Q(s',a')是先前训练的步骤获取到的收益，而项Q(s,a)是当前训练的步骤期望获得的收益，也即折扣因子γ越大，模型会更注重过往经验，折扣因子值越小模型会更注重眼前的收益；

这个过程会基于通过环境获取到的环境信息进行最佳决策，也就是短期内的局部最优解和探索，也就是基于概率的探索来拟合的全局最优解，通过公式来对局部最优解进行随机化，从而在多次训练后期望得到全局最优解；

对停车经验数据集进行优化剪枝，神经网络对动作价值利用公式：

进行近似，式中的ω代表了强化学习的神经网络在Q(s,a)处的权重，模型在Q(s,a)处动作的回报值越大，权重也会越大。

2.根据权利要求1所述的一种基于强化学习的运动规划与自动泊车方法，其特征在于，状态集的终止条件包括正常停车和异常停车两种：其中正常停车要求自动行驶车辆对应agent的中心距离给定的泊车点位的距离小于H且车辆方向角与泊车点位方向角偏差不超过I；异常停车包括自动行驶车辆与环境物体发生了碰撞、自动行驶车辆与停车场边缘发生碰撞，自动行驶车辆在超过给定的训练时间后仍未停入指定位置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赵奕帆，未经赵奕帆许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111297434.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种同时提取铁皮石斛中多糖和生物碱的方法
下一篇：高温精密铸造低蠕变刚玉莫来石及其制造方法

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W30-00 不与某一特定子系统的控制
B60W30-02 .车辆驾驶稳定性的控制
B60W30-06 .用于驻车的自动操作
B60W30-08 .预测或避免可能的或即将到来的碰撞的
B60W30-10 .路线保持
B60W30-14 .巡航控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的运动规划与自动泊车方法有效

专利文献下载