[发明专利]基于粒子注意力深度Q学习的部分观测路口自主并道方法有效
申请号: | 202110337809.3 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113160562B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 章宗长;廖沩健;俞扬;黎铭;周志华 | 申请(专利权)人: | 南京大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/0967;G06N3/00;G06N20/00 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒子 注意力 深度 学习 部分 观测 路口 自主 方法 | ||
1.一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,将使用该方法控制行驶的车辆称为自车,其余的车辆都被称为社会车,其特征在于,包括如下步骤:
S1、在时刻t收集来自周围未被遮挡的社会车的行驶信息和自车的行驶信息组成的低维物理量信息作为自车当前的实际观测数据ot,并做归一化处理;
S2、维护一组粒子集合标记时刻t道路上可能存在的社会车辆的位置和速度;根据当前实际观测ot迭代式更新这组粒子集合;
S3、将实际观测数据和更新后的粒子集合整合到一起成为opt,输入到注意力模块,通过注意力机制计算得到对自车行驶影响更大的社会车辆的特征信息φt;
S4、特征信息φt输入到Q值网络,Q值网络输出驾驶动作ai的Q值Q(φt,ai;θ),其中i={1,2,…,n},选择最大Q值对应的动作输出;
S5、将从Q值网络得到的动作at输出到仿真环境中,自车的行驶状态将根据此动作连续改变k帧;
S6、然后自车接受来自最后一帧的观测数据ot+1和这k帧累积起来的奖励rt,将经验元组(ot,at,rt,ot+1)储存到经验回放池中;
S7、从经验回放池中通过以情景学习误差大小构建的概率,使用优先经验重放技术随机抽取多段来自不同情景的部分经验元组序列其中,M表示情景数,t0表示一个情景下序列开始的时间戳,T表示序列的长度;
S8、针对每个情景下的经验元组序列随机初始化一组粒子集合,利用每个经验元组提供的实际观测数据使用迭代式更新的方式更新这些粒子,并和观测数据一起输入注意力模块和Q值网络;
S9、计算每个经验元组对应的目标函数yi,使用均方误差损失函数的形式计算得到损失Li;
S10、使用损失Li作为对应经验元组的新的情景学习误差大小,以此更新经验回放池当中对应的情景的学习误差大小;
S11、使用随机梯度下降算法更新Q值网络;
S12、动态调整仿真环境中的车流密度:当仿真环境运行的一个情景结束,开启新的情景前,以均匀分布在一定范围内随机选择一个新的车流密度;之后由此车流密度得到的经验元组将无差别地加入到经验回放池当中;
S13、重复S1——S12,直至到达终止状态Terimal。
2.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S1中,作为实际观测数据的自车信息包括自车速度、自车坐标和自车行驶方向,其中第一个物理量会输入Q值网络,后两个物理量仅用作中心化处理使用;社会车信息包括社会车速度、社会车坐标和社会车行驶方向,这里所有的物理量的值都使用的是相对于自车对应物理量的大小,即相对于自车的速度,坐标和行驶方向,这一处理过程被称为中心化处理。
3.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,动作集合包含离散的三个动作要素:加速、减速和维持原速;同时对由Q值网络选出的动作对应的实际加速度做截断处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110337809.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单膜盒表作业装配工艺
- 下一篇:蓝莓枝条外植体的处理方法及组培工艺