[发明专利]一种无人车智能避障方法及系统有效

申请号：	201710408748.9	申请日：	2017-06-02
公开（公告）号：	CN107065890B	公开（公告）日：	2020-09-15
发明（设计）人：	徐国艳;宗孝鹏;余贵珍	申请（专利权）人：	北京航空航天大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	北京知汇林知识产权代理事务所(普通合伙) 11794	代理人：	董涛
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种无人智能方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于强化学习的无人车避障系统，其特征在于，系统包括感知部分、决策部分、控制部分与执行部分，感知部分通过单线激光雷达对障碍物区域进行检测，实现障碍物信息获取，决策部分根据障碍物检测情况，决定无人车下一时刻是否需要避障，如果需要，控制部分将感知部分的状态信息输入强化学习模型，模型经过试错学习，收敛到稳定状态，计算出无人车所需的方向盘转角，由无人车执行部分执行，从而实现避障功能。

技术领域

本发明涉及一种无人车避障方法及系统，更特别地说，是指一种基于强化学习的无人车智能避障方法及系统。

背景技术

随着科学技术的发展，无人车技术得到了深入的发展和研究，实现在复杂未知的动态环境中自主避障是无人车实用化的关键部分。传统的避障方法采用专家经验编程，通过车载传感器获得自身位姿信息和外界障碍物信息，然后通过车辆自身信息与外界障碍物进行比较，计算无人车所需的方向盘角度和速度大小。这些方法需要一定的专家知识，在复杂未知环境中的自适应能力不强。

近年来，利用强化学习进行机器人的路径规划成为研究热点，但尚未有将强化学习在无人车避障上的成功应用。本发明利用强化学习的自适应、自学习特点，应用在无人车避障方法中，使无人车通过不断地学习，更新自身知识，最终实现在未知环境中自主避障。

Q学习是由Watkins提出的一种模型无关的强化学习算法，其思想是不去估计环境模型，直接优化一个可以迭代计算的Q函数，定义Q函数为在状态s_t时执行动作a_t，此后按照最优动作序列执行时的折扣累计强化值，即：

Q(s_t，a_t)←Q(s_t，a_t)+a[r_t+γmax_a∈A{Q(s_t+1，a)}-Q(s_t，a_t)]

其中，Q(s_t，a_t)表示智能体在状态s_t下采用动作a_t所获得的最优奖赏折扣，a是学习因子，r_t是立即回报值，γ是折扣因子，A是有限的动作集合。

Q学习的算法流程如下：

1.初始化：Q(s_t，a_t)←任意值，给定参数a，γ初值；

2.Repeat

给定起始状态s

Repeat(对于每一幕的每一步)

(a)根据动作选择策略选择动作a_t，得到立即回报r_t和下一个状态s_t+1；

(b)Q(s_t，a_t)←Q(s_t，a_t)+a[r_t+γmax_a∈A{Q(s_t+1，a)}-Q(s_t，a_t)]；

(c)s_t←s_t+1