[发明专利]一种以安全性、距离代价为约束的自学习路径规划方法在审

申请号：	202110550501.7	申请日：	2021-05-20
公开（公告）号：	CN113177664A	公开（公告）日：	2021-07-27
发明（设计）人：	陈天星	申请（专利权）人：	的卢技术有限公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06N3/04;G06N3/08
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	刘莎
地址：	211100 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种安全性距离代价约束自学习路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种以安全性、距离代价为约束的自学习路径规划方法，借鉴A*启发函数的设计思想，设计一种综合考虑安全代价和距离代价的启发函数，并将此启发函数引入强化学习DQN算法中的报酬函数的设计中，通过新的报酬函数，能够引导智能体找出安全、最短的路径。

技术领域

本发明涉及一种以安全性、距离代价为约束的自学习路径规划方法，属于智能座舱显示领域。

背景技术

强化学习是一种借鉴‘经验’的闭环学习方法，机器人通过与环境之间不断地进行信息交互，从而达到自主学习的过程。机器人与环境之间进行交互的过程可以描述为一个马尔科夫决策问题。

强化学习中Q_Learning算法被广泛应用于机器人路径规划技术，机器人通过Q_Learning学习与环境交互以此达到自主规划路径的目的。由于Q_Learning算法是计算Q表中的值，然后从中选取Q值较大的动作作为要执行的动作，这样就容易造成计算速度慢和维数爆炸等问题，因此提出Deep Q_Learning算法，即DQN算法，DQN算法在Q_Learning算法的基础上增加了深度神经网络用于计算Q值，这样解决了Q_Learning算法造成维数爆炸等问题。

DQN算法的基本思路为将强化学习Q_Learning算法与深度神经网络相结合，通过神经网络计算回报值来代替Q表，通过不断学习来减小Q估计和Q现实之间的误差值，进而不断更新targetQ网络，优化权重，最终达到自主进行路径规划的目的。但是，DQN算法需要不断地对学习空间进行探索，这种搜索存在很大的盲目性与不必要性，这样算法就存在环境利用率低、搜索效率低等问题，进而容易造成算法学习效率低、搜索花费时间长、搜索出来路径较长等缺陷。

A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近，最终搜索速度越快。A*寻路算法就是启发式探索的一个典型实践，在寻路的过程中，给每个节点绑定了一个估计值(即启发式)，在对节点的遍历过程中是采取估计值优先原则，估计值更优的节点会被优先遍历。所以估计函数的定义十分重要，显著影响算法效率。

现有技术中，距离代价作为评价一条路径的重要指标，在路经规划中有这重要作用，现有的以距离代价为核心思想设计的算法更多的使用在全局路径规划中(A*算法)，在动态环境下，不能很好的完成工作。而安全性最为路径规划的首要评判指标，重要性不言而喻，但只考虑安全性就容易陷入局部最优问题。

发明内容

针对上述问题，本发明提供了一种以安全性、距离代价为约束的自学习路径规划方法，借鉴A*启发函数的设计思想，设计一种综合考虑安全代价和距离代价的启发函数，并将此启发函数引入强化学习DQN算法中的报酬函数的设计中，通过新的报酬函数，能够引导智能体找出安全、最短的路径。

本发明为解决上述技术问题采用以下技术方案：

一种以安全性、距离代价为约束的自学习路径规划方法，该方法包括以下步骤：

获取当前时刻的智能体位置数据以及智能体的预设轨迹；

根据所述智能体位置数据以及所述预设轨迹，利用训练好的DQN模型获取所述智能体的当前期望行驶方向；

按照所述当前期望行驶方向，控制所述智能体的行驶方向。

进一步，根据智能体的历史数据以及预设轨迹，训练所述DQN模型。

进一步，所述DQN模型的报酬函数为：

其中，k为距离边界阈值，obs为智能体与最近障碍物之间的距离，E为智能体与目标点之间的距离，D为起始点与智能体之间的距离，H为起始点与目标点之间的直线段距离。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：