[发明专利]一种基于模仿学习的深度强化学习策略优化防御方法和装置在审
申请号: | 202110282288.6 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112884131A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 陈晋音;章燕;王雪柯;胡书隆 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06Q10/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模仿 学习 深度 强化 策略 优化 防御 方法 装置 | ||
1.一种基于模仿学习的深度强化学习策略优化防御方法,其特征在于,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,同时以专家数据作为标签来监督以优化生成式对抗网络的参数;
基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化深度Q网络的参数,以实现深度强化学习策略优化防御。
2.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,所述深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标Q网络。
3.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。
4.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,所述生成式对抗网络包括生成器和判别器,其中,生成器作为对抗智能体的决策网络,判别器作为对抗智能体的价值网络,在对对抗智能体进行强化学习时,以专家数据中每个状态动作对的状态值作为生成器的输入,生成器根据输入的状态值计算产生预测动作值,该预测动作值与对应的输入状态值组成的状态动作对输入至判别器,专家数据中相同状态值的状态动作对作为标签也输入至判别器,判别器用于对生成器产生的动作值进行判断,并将判别结果作为奖励值以指导生成器的学习。
5.如权利要求4所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,对对抗智能体进行强化学习时,采用如公式(1)所示的损失函数更新判别器的参数:
其中,D表示判别器,Eπ[logD(s,a)]表示判别器依据生成器产生的状态动作值计算的能力值,EπE[1-logD(s,a)]表示表示判别器依据专家数据中的状态动作对(s,a)计算的能量值,D∈(0,1)S×A表示判别器的输出为尺寸为S×A的0~1之间的小数,是对抗性智能体策略π的熵,由常数λ,λ≥0控制,作为损失函数中的策略正则项。
6.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,基于对抗智能体产生的状态对目标智能体进行对抗训练时,目标智能体基于参数优化的主Q网络产生N个动作时,即采用N步行为动作后,对抗智能体基于存储的状态产生N+1时刻的动作,并产生对应的状态值并存储,目标智能体的目标Q网络基于对抗智能体产生的N+1时刻的状态值计算目标Q值,以优化主Q网络的参数。
7.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,经过深度学深度强化学习策略优化防御获得的深度Q网络可以用来在自动驾驶环境中的防御攻击,即目标智能体能够在攻击情况下产生正确动作。
8.一种基于模仿学习的深度强化学习策略优化防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行计算机程序时实现权利要求1~7任一项所述的基于模仿学习的深度强化学习策略优化防御方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110282288.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对抗网络样本检测的方法
- 下一篇:一种机器人自主定位方法