[发明专利]一种基于改进的Q学习的最佳攻击路径规划方法在审
| 申请号: | 201711057910.3 | 申请日: | 2017-11-01 |
| 公开(公告)号: | CN107948137A | 公开(公告)日: | 2018-04-20 |
| 发明(设计)人: | 胡昌振;吕坤;陈韵 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 北京理工大学专利中心11120 | 代理人: | 仇蕾安 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 学习 最佳 攻击 路径 规划 方法 | ||
技术领域
本发明涉及一种基于改进的Q学习的最佳攻击路径规划方法,属于信息安全技术领域。
背景技术
在对信息系统网络进行渗透时,攻击者都希望选择代价小而回报大的攻击路径,其中,攻击回报与攻击代价只比最大的攻击路径为最佳攻击路径,目前的获取最佳攻击路径的方法主要是基于攻击图来获取所有的源节点与目标节点间的攻击路径后,再选取这些路径中的一条作为最佳攻击路径。
目前,比较常用的网络攻击图有:基于脆弱性的网络攻击图以及基于网络状态的攻击图。基于上述两种攻击图的攻击路径或保护路径的生成方法存在的问题是:①生成速度慢;②为了解决状态爆炸的问题,采用限定攻击路径的方式,导致攻击路径包含不全等问题。
为了解决上述问题对产生最佳攻击路径的影响,中国和日本科学家提出了基于隐马尔科夫模型的攻击图生成算法,并使用蚁群算法来对攻击路径进行优化以选取最佳攻击路径的方法。但是此方法由于算法开销太大,当面对大规模计算机机群时,即时使用最小攻击图,也无法快速拟合出最佳攻击路径。
国家发明专利(专利申请号:201710556319.6)中提出的基于Q学习的最佳攻击路径规划方法主要解决了以下问题:①提出的网络模型不需要进行训练,因此不需要收集训练数据;②可在线学习,实时确定不同时刻不同网络状态对应的最佳攻击路径;③学习率使用了退火模型,所以收敛的更加精确;④由于不需要生成攻击图,所以可以适用于大规模计算机集群。但其缺点是:①算法空间复杂度较高,因此占用内存空间较多。②生成的最佳攻击路径必须通过人工剪枝,否则存在冗余。
发明内容
本发明的目的是在基于Q学习的最佳攻击路径规划方法的基础上,提出一种基于改进的Q学习的最佳攻击路径规划方法,解决已有方法存在的算法空间复杂度高,占用内存空间较多,并且生成的最佳攻击路径存在冗余的问题。
本发明的目的是通过以下技术方案实现的。
本发明的一种基于改进的Q学习的最佳攻击路径规划方法,具体操作步骤为:
步骤一、获取网络结构。
步骤1.1:获取网络系统中各主机的软件应用,建立软件应用与主机对应表。
所述软件应用与主机对应表包含:软件应用名称和主机名称。
步骤1.2:获取网络系统中各主机之间的会话链接,建立主机间会话链接表。所述主机间会话链接表包括:源主机名和目标主机名。
步骤二、获取网络系统中各主机中存在的漏洞,建立主机漏洞状态表。所述主机漏洞状态表包括:主机名称、漏洞ID和攻击成功率。
步骤三、建立改进的Q学习模型,如公式(1)所示。
Qn+1(s)=(1-δn(s))Qn(s)+δn(s)[R(s,s')+γJn(s')]) (1)
其中,s表示当前状态,s'表示当前状态s的后继状态;n为迭代步数,n≥0;Qn+1(s)是第(n+1)步迭代时对当前状态s下得到的总体回报的一个估计值;Qn(s)是第n步迭代时对当前状态s下得到的总体回报的一个估计值;δn(s)为第n步的学习率,通过公式(2)得到;R(s,s')为立即回报函数,通过公式(3)得到;γ为贴现因子,为人为预先设定值,γ∈[0,1);Jn(s')为延时回报函数,通过公式(4)得到。
其中,α、β为人为设定值,并且
其中,R(s,s')表示在当前状态s下,到达后继状态s'的立即回报估计值;Pr为原子攻击成功率;i为主机的顺序编码;Wi为主机i的权重;∑jWj为整个网络系统中所有主机的权重和;m为主机i的第m种权限,m为正整数;Tim表示利用当前状态s漏洞获取主机i的第m种权限对应的评分值;∑mTim是对所有Tim求和。
Jn(s')=maxQn(s')(4)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711057910.3/2.html,转载请声明来源钻瓜专利网。





