[发明专利]基于数据增强和自监督特征增强的网络入侵检测方法有效

申请号：	202210473224.9	申请日：	2022-04-29
公开（公告）号：	CN114978613B	公开（公告）日：	2023-06-02
发明（设计）人：	行鸿彦;梁欣怡;侯天浩	申请（专利权）人：	南京信息工程大学
主分类号：	H04L9/40	分类号：	H04L9/40;H04L41/16;G06F18/214;G06F18/24;G06N3/0455;G06N3/0464;G06N3/047;G06N3/0895;G06N3/0442;G06N3/084
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	田凌涛
地址：	210044 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于数据增强监督特征网络入侵检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于数据增强和自监督特征增强的网络入侵检测方法，其特征在于，按预设周期执行步骤S1-步骤S4，获得网络入侵检测模型，然后应用网络入侵检测模型，对网络流量进行分类，实现网络入侵检测的功能；

S1:对网络流量数据集做数据分析，根据数据分析结果进行数据预处理，数据预处理方法具体包括：对网络流量数据集进行标准化处理，即采用独热编码将符号特征转换成数值特征表示；并使用四分位距异常值处理算法，对数值特征进行异常值处理；对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间；以网络流量数据集中的网络流量样本为输入，以经过预处理的网络流量数据集中的网络流量样本为输出，构建网络流量数据预处理模块；

S2:网络流量数据集包括训练数据集、测试数据集，训练数据集、测试数据集中的网络流量样本包括攻击类样本，以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入，构建数据增强自编码器网络对攻击类样本进行数据增强处理，生成预设数量的攻击类样本，基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本，构建最终训练数据集，并输出最终训练数据集，构建攻击类样本增强模块；

步骤S2的具体步骤如下：

S21:将经过预处理的训练数据集中的攻击类样本x_i输入到数据增强自编码器中，输出攻击类样本对应的重构样本基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布，计算出KL散度，MSE损失，并结合KL散度和MSE损失，构建自定义损失函数L₁,具体如公式(5)，(6)，(7)所示：

L₁＝0.5MSE+0.5D_KL1 (7)

其中，x_i为第i个经过预处理的攻击类样本，其中攻击类样本的总数为n，为攻击类样本x_i所对应的重构样本，p₁(x_i)为攻击类样本x_i经过log_softmax分类器的数据分布，q₁(x_i)为重构样本经过softmax分类器的数据分布，D_KL1表示p₁(x_i)和q₁(x_i)两个分布之间的KL散度，MSE表示攻击类样本x_i和重构样本之间的MSE损失，L₁表示结合KL散度和MSE损失提出的自定义损失函数；

S22:基于输入的攻击类样本以及输出的重构样本，采用步骤S21所构建的自定义损失函数L₁对数据增强自编码器网络进行预设次数的迭代训练，将迭代中损失函数L₁的最小值所对应的网络参数保存下来，作为最佳数据增强模型；

S23:基于数据增强自编码器网络，加载步骤S22所获得的最佳模型对训练数据集中的攻击类样本进行数据增强，生成预设数量的攻击类样本；

S24:将S23所获得的预设数量的攻击类样本与步骤S1所获得的经过数据预处理的网络流量数据集中的训练数据集合并，构建最终训练数据集；

S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入，基于CNN-BiLSTM神经网络和特征增强自编码器网络构建半自监督模型，并应用半自监督模型进行特征提取，以提取到的高维时空流量特征和自监督特征作为输出，构建半自监督特征提取模块；

步骤S3具体步骤如下：

S31:将最终训练数据集中网络流量样本的一维数值特征转换成二维数值特征输入CNN神经网络，提取网络流量样本的空间特征，再通过全连接层整合输入到BiLSTM网络提取网络流量样本的时间特征，最终输出提取到的高维时空流量特征；

S32:将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络，获得训练数据集中的网络流量样本的自监督特征；

S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并，获得特征增强后的最终特征，输入到分类网络中进行预测分类，并结合分类结果，采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练，对半自监督模型参数进行更新，获得网络入侵检测模型，实现网络入侵检测的功能；

步骤S4具体步骤如下：

S41:将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并，得到网络流量样本的最终特征；

S42:基于最终训练数据集中的网络流量样本的数值特征x_i′及其通过特征增强自编码器生成的自监督特征经过log_softmax分类器和softmax分类器的数据分布，计算出两个数据分布间的KL散度，预测分类值和真实类别之间的交叉熵损失，并结合KL散度和交叉熵损失，构建自定义损失函数L₂，具体如公式(8)，(9)，(10)所示：

L₂＝0.8L_c+0.2D_KL2 (10)

式中，x_i′表示最终训练数据集中的第i个网络流量样本的数值特征，其中网络流量数据样本总数为N，p₂(x_i′)为网络流量样本的数值特征x_i′经过log_softmax分类器处理后的数据分布，q₂(x_i′)为自监督特征x_i′经过softmax分类网络处理后的数据分布，D_KL2表示p₂(x_i′)和q₂(x_i′)两个数据分布之间的KL散度，L_c表示预测分类值和真实类别之间的交叉熵损失，y_i为第i个网络流量样本所对应的标签，其中攻击类样本标签为1，正常样本标签为0，P_i为第i个网络流量样本被预测为攻击类样本的概率，L₂表示结合KL散度和交叉熵提出的自定义损失函数；