[发明专利]一种面向深度强化学习模型对抗攻击的防御方法有效
申请号: | 201911184051.3 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110968866B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 陈晋音;王雪柯;熊晖;郑海斌 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 深度 强化 学习 模型 对抗 攻击 防御 方法 | ||
本发明公开了一种面向深度强化学习模型对抗攻击的防御方法及应用,包括:利用视觉预测模型对输入的前一时刻环境状态进行预测输出预测当前环境状态,并获得预测当前环境状态在深度强化学习策略下的下一帧预测环境状态值;获取深度强化学习模型输出的实际当前环境状态,并获得实际当前环境状态在深度强化学习策略下添加扰动的环境状态值;利用判别模型对预测环境状态值和添加扰动的环境状态值进行判别,根据判别结果获得深度强化学习模型是否被攻击;在深度强化学习模型被攻击时,提取实际当前环境状态,利用两个防御模型对实际当前环境状态进行防御;深度强化学习模型利用防御后的实际当前环境状态进行学习预测输出。
技术领域
本发明属于安全防御领域,具体涉及一种面向深度强化学习模型对抗攻击的防御方法。
背景技术
随着人工智能技术的迅速发展,越来越多的领域都开始使用AI技术。自1956年“人工智能”概念的首度提出以来,AI的受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为,各种领域都取得了一定成就。比如2014年GoogleDeepMind开发的人工智能围棋软件——阿尔法围棋(AlphaGo),就利用了深度学习和强化学习,并于2016年战胜世界顶级围棋选手之一李世石。强化学习也是一种多学科交叉的产物,它本身是一种决策科学,所以在许多学科分支中都可以找到它的身影。强化学习应用广泛,比如:直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。
在游戏领域,为了提高用户体验,在很多场景下需要训练AI自动玩游戏,目前,游戏训练场景接受度最高的是深度强化学习(Deep Reinforcement Learning),一般情况下使用DQN来训练游戏AI自动玩游戏。DRL网络充分利用了卷积神经网络处理大数据的能力,将游戏画面作为输入,同时融合更多的游戏数据作为输入。然而神经网络极易受到对抗性攻击,专家学者们也提出了很多攻击方法和防御方法,但是,针对深度强化学习的防御方法并没有成型的专利提出。随着深度强化学习的应用越来越广泛,安全性必然成为其发展的重要隐患因素之一。
强化学习就是学习如何根据一个环境环境状态去决定如何行动,使得最后的奖励最大。强化学习中两个最重要的特征就是试错(trial-and-error)和滞后奖励(delayedreward)。观察过程的环境状态容易被攻击者添加对抗扰动,攻击者也可直接攻击行动或奖励值以达到攻击目的。
发明内容
本发明的目的是提供一种面向深度强化学习模型对抗攻击的防御方法,该方法能够提高深度强化学习的决策网络的鲁棒性,能够防止在线学习和离线学习观测环境状态被恶意干扰,最终导致奖励值有较大偏差从而使Agent行为出错。
为实现上述发明目的,本发明提供以下技术方案:
一种面向深度强化学习模型对抗攻击的防御方法,所述防御方法包括以下步骤:
利用基于生成式对抗网络构建的视觉预测模型对输入的前一时刻环境状态进行预测输出预测当前环境状态,并获得预测当前环境状态在深度强化学习策略下的下一帧预测环境状态值;
获取深度强化学习模型输出的实际当前环境状态,并获得实际当前环境状态在深度强化学习策略下添加扰动的环境状态值;
利用基于生成式对抗网络构建的判别模型对预测环境状态值和添加扰动的环境状态值进行判别,根据判别结果获得深度强化学习模型是否被攻击;
在深度强化学习模型被攻击时,提取实际当前环境状态,利用基于SqueezeNet的第一防御模型对实际当前环境状态进行第一层防御,利用基于DenseNet的第二防御模型对第一层防御结果进行第二层防御,获得防御后的实际当前环境状态;
深度强化学习模型利用防御后的实际当前环境状态进行学习预测输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911184051.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安全高效园林修剪装置
- 下一篇:衣物处理设备的门体组件和衣物处理设备