[发明专利]一种基于SeqGAN的深度强化学习数据增强防御方法和装置在审
| 申请号: | 202110281225.9 | 申请日: | 2021-03-16 |
| 公开(公告)号: | CN112884130A | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 陈晋音;章燕;王雪柯;胡书隆 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 seqgan 深度 强化 学习 数据 增强 防御 方法 装置 | ||
1.一种基于SeqGAN的深度强化学习数据增强防御方法,包括以下步骤,其特征在于,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
利用强化学习的方法来训练包含生成器和判别器的SeqGAN,以专家数据中状态动作对作为生成器的输入来生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样,采样得到的状态动作对与生成器生成的状态动作对组成固定长度的状态动作对序列并输入至判别器,计算奖励值,依据该奖励值更新SeqGAN的网络参数;
将当前状态输入至参数优化的SeqGAN的生成器中以获得生成状态动作对序列,利用参数优化的深度Q网络来计算生成状态动作对序列的累计奖励值,将该累计奖励值与目标智能体的深度Q网络策略得到的累计奖励值进行比较,以累计奖励值更高的状态动作对作为增强数据存储用于对深度Q网络再优化;
从存储中选择增强数据对深度Q网络进行参数再优化,以实现深度强化学习数据增强防御。
2.如权利要求1所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,所述深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标。
3.如权利要求2所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。
4.如权利要求2所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,深度Q网络在强化学习过程中,采用时序差分的方式进行迭代更新状态-动作价值函数Q:
Qi+1(st,at)=Qi(st,at)+α(yi-Qi(st,at))
其中,为目标Q值,st+1是作为动作at出现的下一状态,i为轮次索引,at+1是st+1状态下的可能动作,α为学习率,γ为折现因子,根据贝尔曼最优方程理论,通过不断迭代更新上式,即可使Q函数逼近至真实值Q*,从而最终得到最优策略:
损失函数loss定义为:
其中,为目标Q值,通过神经网络的反向梯度传播来更新当前Qθ网络的参数θ。
5.如权利要求1所述的基于SeqGAN的深度强化学习数据增强防御方法,其特征在于,在对包含多个生成器和判别器SeqGAN进行参数优化时,将专家数据中状态动作对作为生成器的输入,生成器用于根据输入的状态动作对作生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样来得到一些状态动作对,该些状态动作对与生成器生成的状态动作对形成固定长度的生成状态动作对序列,该生成状态动作对序列被输入至判别器,判别器用于根据输入的生成状态动作对序列计算奖励值;
从存储中在线采样固定长度的真实状态动作对序列输入至判别器,经计算获得真实状态动作对序列的奖励值,该奖励值与生成状态动作对序列的奖励值的交叉熵为损失函数,来更新判别器和生成器的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110281225.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置以及显示方法
- 下一篇:耐压包装





