[发明专利]面向深度强化学习的策略保护防御方法有效
| 申请号: | 202110651675.2 | 申请日: | 2021-06-11 |
| 公开(公告)号: | CN113392396B | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 陈晋音;章燕;王雪柯;胡书隆 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F21/62;G06N3/08 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310014 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 深度 强化 学习 策略 保护 防御 方法 | ||
本发明公开了一种面向深度强化学习的策略保护防御方法,包括以下步骤:1)搭建深度强化学习的目标智能体自动驾驶模拟环境,基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数;2)根据优化后的深度Q网络的策略πt生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据;3)根据专家数据模仿学习生成模仿策略πIL;4)目标智能体在模仿策略πIL的基础上对自身的策略进行调整学习,通过对深度Q网络进行微调并修改目标函数,使得在保证目标智能体策略πt可以获得较高的期望奖励值的同时,保证根据模仿策略πIL得到的期望奖励值较低,以达到策略保护的目的。
技术领域
本发明涉及策略隐私保护,尤其涉及一种面向深度强化学习的策略保护防御方法。
背景技术
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。
强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,使智能体可以随着时间的推移从其所在环境中不断自我学习。但是,深度强化学习训练得到的策略也会通过模仿学习或者行为克隆而被窃取,此外,窃取者还能根据窃取获得的策略对深度强化学习模型进行攻击,反过来扰乱强化学习本身训练好的策略,使其模型策略存在安全性漏洞,不能再很好地应对当前的环境。这不仅泄露了模型本身的策略数据,同时还给模型带来了极大的安全隐患,尤其是在需要隐私保护的安全关键型领域,有可能造成极大的损失。
由于深度强化学习训练得到的策略存在隐私泄露的风险,而模仿学习和行为克隆有强大的策略行为学习能力,窃取者可以通过学习到的策略给攻击者提供了模型的相关信息,从而生成相应的对抗样本对目标模型进行攻击,给模型的安全性带来了极大的挑战。
目前,深度强化学习通过结合了深度学习的感知能力和强化学习的决策能力来优化自身策略,凭借其所在环境中可以不断自我学习的优势得到了广泛的应用。但是,深度强化学习策略也会通过模仿学习或者行为克隆的方法被窃取,同时还容易因此而受到对抗样本扰动的攻击,存在策略泄露和安全威胁的问题。
发明内容
本发明提供了一种基于模仿学习和模型微调的面向深度强化学习的策略保护防御方法,以提高深度强化学习(DRL)模型的鲁棒性。
本发明的技术方案如下:
一种面向深度强化学习的策略保护防御方法,包括以下步骤:
1)搭建深度强化学习的目标智能体自动驾驶模拟环境,基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数;
所述的智能体可以为自动驾驶环境中的无人小车。
优选的,步骤1)包括:
1.1)搭建深度强化学习的目标智能体自动驾驶模拟环境;
1.2)基于强化学习中的深度Q网络(DQN)训练目标智能体,训练目标是在较短的时间内安全地到达目的地;
1.3)训练过程中,将目标智能体的状态转换过程(包括状态st、动作at、奖励rt、下一个状态st')存储在经验回放缓冲区Buff中,作为深度Q网络的训练数据集;所述的深度Q网络包括当前Q网络和目标Q网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110651675.2/2.html,转载请声明来源钻瓜专利网。





