[发明专利]一种基于强化学习的恶意用户行为智能检测系统有效
| 申请号: | 201911119633.3 | 申请日: | 2019-11-15 |
| 公开(公告)号: | CN110839031B | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 白玮;潘志松;郭世泽;张睿;陈哲;夏士明;张磊 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N3/08;G06N3/04 |
| 代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
| 地址: | 210014 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 恶意 用户 行为 智能 检测 系统 | ||
1.一种基于强化学习的恶意用户行为智能检测系统,其特征在于:
包括智能分析引擎模块、网络空间状态感知模块和多域动作执行模块;
智能分析引擎模块用于判断在何种状态下采取何种动作;网络空间状态感知模块用于感知网络空间的当前状态,这种感知是局部感知,是智能分析引擎判断情况的依据;多域动作执行模块用于执行多域动作,并得到相应的奖励,执行网络动作、物理域和信息域的动作;
智能分析引擎模块中,包含4个深度神经网络和1个经验回放存储器;在4个深度神经网络中,包括2个策略网络和2个Q网络,分别为当前策略网络、目标策略网络、当前Q网络和目标Q网络;
2个策略网络具有相同的结构,其输入为网络空间的状态,输出为需要选择的动作;结构上,在原有DDPG的输入层和隐藏层之间,增加了一层RNN隐藏节点;
智能分析引擎,基于DDPG模型,根据网络空间状态感知模块的输入,以及多域动作执行模块的反馈,实时对智能分析引擎模块中的4个网络进行优化调整,生成恶意用户行为检测行为,具体步骤包括:
1)对智能分析引擎的各个模块进行初始化,包括随机初始化当前Q网络Q(s,a|θQ)和当前策略网络μ(s|θμ),其中s是状态,a是动作,θQ是Q网络的参数,θμ是策略网络的参数,并使用当前Q网络和当前策略网络的参数来初始化目标策略网络参数θμ′和目标Q网络的参数θQ′,即θQ'←θQ,θμ'←θμ,以及初始化经验回放存储器为空;
2)不间断地从网络空间状态感知模块获取网络空间的当前状态,假定在t时刻时,其输入的状态为st;
3)利用当前策略网络,根据输入t时刻的状态st选择对应的动作μ(st),并根据该动作按照比例β加入一定的噪声,使得模型能够获取一定的探索能力;调用多域动作执行模块执行该动作,并获得相应的回报rt;
4)通过网络空间状态感知模块,获取下一时间的状态st+1,然后将四元组(st,at,rt,st+1)存储至经验回放存储器,这里st是t时刻的状态,at是动作,rt是奖励,st+1是下个时刻的状态;
5)从经验回放存储器中随机选取N个随机的状态转移序列N*(si,ai,ri,si+1),其中i是序号,输入目标策略网络和目标Q网络,计算目标的Q值yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ'),γ为收益折扣系数,并计算损失,使得当前的Q值与目标Q值的误差最小:
6)利用梯度下降法,在最小化损失L条件下,更新当前Q网络;
7)利用抽样策略梯度,更新当前策略网络,其中是梯度计算:
8)利用更新后的当前策略网络和当前Q网络,更新目标策略网络和目标Q网络,在这个过程中,τ表示更新参数,一般取一个较小的值,θQ′是目标Q值网络的参数,θQ是当前Q值网络的参数,θμ′是目标策略网络参数,θμ是当前策略网络参数;
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'。
2.根据权利要求1所述的基于强化学习的恶意用户行为智能检测系统,其特征在于:网络空间状态感知模块感知的安全状态包括物理域内的人员进出空间的状态、网络域内计算机网络行为、信息域内对信息的读取或写入的状态、社会域内人员之间关系的改变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911119633.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分析方法及装置
- 下一篇:一种硼磷共掺杂多孔硅负极材料及制备方法





