[发明专利]基于部分可观测迁移强化学习的自动驾驶决策方法及系统有效

申请号：	201911373375.1	申请日：	2019-12-27
公开（公告）号：	CN111026127B	公开（公告）日：	2021-09-28
发明（设计）人：	章宗长;俞扬;周志华;王艺深;蒋俊鹏	申请（专利权）人：	南京大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于部分观测迁移强化学习自动驾驶决策方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，包括如下步骤：

S1、基于虚拟环境数据库提供的环境模型，情景单元使用强化学习算法得到相应的驾驶策略接着，情景单元将驾驶策略集合扩展为驾驶方案集合最后，情景单元输出的驾驶方案集合将被添加到驾驶方案数据库中；

S2、在决策单元中，初始化Q值网络Q(x，o；θ)、终止网络β(x，o；θ_β)及相应的目标网络Q(x，o；θ^-)和把从驾驶方案数据库中选择的驾驶方案集合Π＝{o₁，…，o_i，…，o_n}视为动作集合A；

S3、在时刻t，感知单元将观测x_t输入到决策单元的Q值网络中；随后，Q值网络输出驾驶方案o_i的Q值Q(x_t，o_i；θ)，其中i＝{1，2，…，n}；

S4、在决策单元中，使用最大熵Mellowmax算法将驾驶方案o_i的Q值Q(x_t，o_i；θ)转换为概率值P_i；此阶段将输出概率分布{P₁，…，P_i，…，P_n}；其中i＝{1，2，…，n}；

S5、决策单元将基于S4得到的概率分布选出驾驶方案o_i＝{I_i，π_i，β(x，o_i；θ_β)}；然后，动作规划单元将根据驾驶方案o_i中的策略π_i，决定在观测x_t下智能体要执行的动作a_t；接着，控制单元将动作a_t转换成控制信号，改变车辆的行驶状态；最后，感知单元会将奖励r_t和下一个观测x_t+1反馈给智能体；将(x_t，a_t，r_t，x_t+1)看作是一个经验元组，存放到回放池中；

S6、在决策单元中，从回放池中随机抽取经验元组(x_j，a_j，r_j，x_j+1)；

S7、在决策单元中，获得在观测x_j+1下最大Q值对应的行车方案o_max和最小Q值对应的行车方案o_min；

S8、在决策单元中，计算权重w；

S9、在决策单元中，使用玻尔兹曼软最大化算法选择目标驾驶方案o_target；

S10、在决策单元中，计算驾驶方案o_i的目标值y_i；

S11、在决策单元中，计算驾驶方案o_i的损失L_i；

S12、在决策单元中，使用梯度下降算法更新Q值网络参数；

S13、在决策单元中，使用反向传播算法更新终止网络的参数；

即：

其中，i＝{1，2，…，n}；

S14、在决策单元中，对于观测x_t+1，基于终止概率β(x_t+1，o_i；θ_β)来判断驾驶方案o_i是否是可靠的；如果β(x_t+1，o_i；θ_β)＜η，那么就认为方案o_i在路况x_t+1下是可靠的，执行方案重用，即继续使用驾驶方案o_i与环境交互；如果β(x_t+1，o_i；θ_β)≥η，那么就认为方案o_i在路况x_t+1下是不安全的，选择新的驾驶方案；其中，η是安全阈值；S15、在决策单元中，每与环境进行K次交互，便将Q值网络和终止网络的参数赋值给对应的目标网络；

S16、重复S4——S15，直至到达终止状态T。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911373375.1/1.html，转载请声明来源钻瓜专利网。

上一篇：无线桥接网络的扩展性能的评估方法、装置及无线设备
下一篇：卡车前轮横向侧滑量检测装置

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于部分可观测迁移强化学习的自动驾驶决策方法及系统有效

专利文献下载