[发明专利]一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法在审
| 申请号: | 202110124110.9 | 申请日: | 2021-01-29 |
| 公开(公告)号: | CN112801273A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 蔡英凤;杨绍卿;高翔;陈龙;王海;高洪波;刘卫国;董钊志;陈军 | 申请(专利权)人: | 江苏大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212013 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 强化 学习 自动 驾驶 控制器 训练 方法 | ||
本发明公开了一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法,采用了变分自编码器提取周围交通环境信息,编码器采用了卷积神经网络加循环神经网络的方法,有效的提取了多个传感器信息和历史环境信息,避免了信息的丢失。强化学习网络利用变分自编码器降维提取的潜在变量作为状态量进行训练,解决了强化学习部分状态空间过大的问题。利用变分自编码器的损失函数构造的附加奖励,加速了智能体对陌生状态空间的探索,提高了强化学习的探索率和学习率。
技术领域
本发明属于自动驾驶汽车技术领域,特别涉及了一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法。
背景技术
智能车辆作为智能交通控制领域中一项主要的研究内容,其将多种现代电子信息技术集成于一体。随着当前社会对于现代车辆的智能化、安全化的需求越来越高,智能驾驶成为世界上各个国家在交通领域竟相研究的热点问题和技术前沿。强化学习作为一种快速发展的机器学习算法,越来越多的专家学者将其应用到智能驾驶领域。
强化学习为一种快速发展的机器学习方法,强调基于当前的环境状态,选择一个动作使得该动作能够取得最大化的预期奖励。它是一种试错的学习方式,学习过程中通过奖励的刺激,逐渐能够做出最大化预期奖励的动作。传统的控制智能驾驶控制方法主要有反馈控制、前馈-反馈控制、模糊控制、滑模控制策略、单点预瞄策略、模型预测控制、最优控制等。但是上述的控制方法存在许多局限性,或是在特定的工况下控制效果较好,在混合复杂工况下总体控制效果不佳,同时依赖于感知端信息的准确度。与传统的控制方法不同,强化学习通过与环境的不断交互学习,可以广泛的应用到各类复杂的交通场景,最终甚至可以超越经验驾驶员。
但由于自动驾驶过程中环境信息的庞大和交通场景的复杂,使得直接将强化学习的方法应用到自动驾驶领域存在状态量空间庞大、智能体对陌生的状态空间探索率不高而导致的学习效率低等一系列问题。
发明内容
本发明提出了一种基于变分自编码器和强化学习的自动驾驶训练方法,包括设计算法模型控制器部分和训练流程部分。算法模型控制器包括变分自编码器(VAE)和强化学习网络(RL-net)两部分。
进一步,所述变分自编码器(VAE)包括编码器和解码器。编码器的输入为带时序信息的环境状态量st,输出为潜在变量zt;解码器的输入为潜在变量特征zt,输出为预测的下一时刻特征。所述强化学习网络(RL-net)的输入为潜在变量特征zt和实时奖励rt,输出为具体的动作at。
进一步,所述实时奖励rt包括环境实时反馈的奖励r't和由变分自编码器的损失函数构造的附加奖励B(st)。具体表达式为:
rt=r't+B(st)
其中,附加奖励B(st)的表达式为:
B(st)=-γlog(p(st))
γ为比例因子;p(st)为状态量st的概率;-log(p(st))为状态量的信息量,其表示了状态量st的稠密程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110124110.9/2.html,转载请声明来源钻瓜专利网。





