[发明专利]一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法在审

专利信息
申请号: 202210548650.4 申请日: 2022-05-20
公开(公告)号: CN114897079A 公开(公告)日: 2022-08-12
发明(设计)人: 王嵘冰;刘洋;徐红艳;冯勇 申请(专利权)人: 辽宁大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 沈阳杰克知识产权代理有限公司 21207 代理人: 王洋
地址: 110000 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 堆叠 自动 编码器 knn 优化 算法 异常 流量 入侵 检测 方法
【权利要求书】:

1.一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,其特征在于,其步骤为:

1)训练:

1.1)采用基于信息熵的数据离散化方法对NSL-KDD数据集进行离散处理,

1.2)采用one-hot编码处理离散型特征以及采用z-score方法对数据规范化;

1.3)采用堆叠式自动编码器特征选择方法对数据进行降维处理;

1.4)将处理后的数据导入分类器采用KNN高斯优化算法进行训练;

1.5)建立训练后的模型,通过多次测试模型证明该模型比传统KNN模型准确率高以及训练时长短;

2)检测:

2.1)将待训练的数据输入到模型中,以攻击数据和正常数据的二分类作为输出机制;

2.2)训练模型,通过多次测试模型证明该模型比传统KNN模型准确率高以及训练时长短。

2.根据权利要求1所述的一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,其特征在于,1.1)中离散化方法为:

基于信息熵的数据离散化算法属于有监督学习算法,在使用该方法对数据进行离散化时,需要数据有对应的标签。

3.根据权利要求1所述的一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,其特征在于,1.2)中预处理方法为:

首先对采集数据的离散特征进行one-hot编码数值化,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效;

其次,要对编码后的数据进行标准化,将数据比例缩放,使特征数据都落入特定的数值空间方便后续的计算,本发明采用的是z-score标准化,公式如下:

其中μ为原始数据x的均值,σ为原始数据x的标准差。

4.根据权利要求1所述的一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,其特征在于,步骤1.3)所述的特征选择方法包括堆叠式自动编码器,具体为:

先对每个单隐层的降噪自动编码器单元进行无监督预训练,然后再进行堆叠,最后进行整体的反向调优训练,就得到了一个两层隐藏层结构的堆叠式自动编码器;

构建上述两层隐藏层结构的降噪自动编码器的具体步骤:首先对第一个DA单元进行预训练,其中为恢复后的输入数据或特征,X为未被噪声污染的原始输入数据或特征,y为被噪声污染后的输入数据或特征,σ(·)为sigmoid函数:

第一个自动编码器的输出可以表示如下:

h(y)=σ(W1y+b1)

X=W1Th(y)+b2

采用最小均方差作为代价函数,且利用梯度下降的方法进行权重值W和偏置值b的更新:

(W1,b1,b2)←arg min(J(W1,b1,b2))

其中梯度下降法的具体计算方式如下:

预训练完毕后,去掉输出层及其相应的权重和偏置,只保留输入层和隐藏层的W1和b1即可;然后将第一个DA单元的隐藏层作为第二个DA单元的输入,进行第二个DA单元的预训练:

第二个降噪自动编码器的输出可以表示如下:

h(h(y))=σ(W2h(y)+b2)

h(X)=W2Th(h(y))+b3

采用最小均方差作为代价函数,且利用梯度下降的方法进行权重值W和偏置值b的更新:

(W2,b2,b3)←arg min(J(W2,b2,b3))

其中梯度下降法的具体计算方式如下:

将其堆叠在第一个DA单元上,最后,再第二个DA单元的隐藏层之上添加一层输出层,进行解码恢复;

两个DA单元的预训练完毕后,最后要进行的是整体的反向调优训练,调优训练的代价函数采用上述提到的代价函数,并利用梯度下降法自顶到底进行权重和偏置值的更新。

5.根据权利要求1所述的一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,其特征在于,步骤1.4)所述的分类器KNN高斯优化算法,具体为:

加权函数可以用反函数,在距离求倒数时,在距离上加一个常量:

weight=1/(distance+const)

加权函数也可以用高斯函数,其形式:

其中a,b,c∈R

高斯函数的图形在形状上像一个倒悬着的钟;a是曲线的高度,b是曲线中心线在x轴的偏移,c是半峰宽度;

上面的高斯函数在距离为0的时候权重为1,随着距离增大,权重减少,但不会变为0;下面是高斯函数和其它几个函数的区别,其它函数在距离增大到一定程度时,权重都跌至0或0以下;

计算过程如下:

加权kNN首先获得经过排序的距离值,再取距离最近的k个元素;

1.在处理离散型数据时,将这k个数据用权重区别对待,预测结果与第n个数据的label相同的概率:

2.在处理数值型数据时,并不是对这k个数据简单的求平均,而是加权平均:通过将每一项的距离值乘以对应权重,让后将结果累加,求出总和后,在对其除以所有权重之和;

Di代表近邻i与待预测值x的距离,Wi代表其权重,f(x)是预测的数值型结果;每预测一个新样本的所属类别时,都会对整体样本进行遍历。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210548650.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top