[发明专利]基于深度生成模型和聚类欠采样的网络入侵检测方法在审

专利信息
申请号: 202310666381.6 申请日: 2023-06-06
公开(公告)号: CN116599752A 公开(公告)日: 2023-08-15
发明(设计)人: 熊炫睿;李俊锋;沈涵;黄琪;彭巍;刘梦茹 申请(专利权)人: 重庆邮电大学
主分类号: H04L9/40 分类号: H04L9/40;H04L41/14;H04L41/16;G06F18/15;G06F18/232;G06F18/2413;G06F18/243;G06F18/25;G06N3/0455;G06N3/0464;G06N3/0475;G06N3/094
代理公司: 暂无信息 代理人: 暂无信息
地址: 400065*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 生成 模型 聚类欠 采样 网络 入侵 检测 方法
【说明书】:

发明属于网络入侵检测领域,涉及基于深度生成模型和聚类欠采样的网络入侵检测方法。该方法包括以下步骤:S1)对数据集进行预处理和确定采样阈值;S2)采用DCGAES生成模型对少数类样本进行生成;S3)采用DBSCAN聚类对多数类样本进行欠采样;S4)采用Tomek Links剔除数据集中的噪声样本;S5)使用投票分类器(DT+KNN)对平衡前后的数据集进行分类实验。本发明提出一种结合DCGAES生成模型,DBSCAN聚类欠采样以及Tomek Links算法的平衡数据集方法,该方法能够生成高质量的少数类攻击样本,同时去除多数类中的冗余和噪声样本,最终可以得到一个相对平衡且优质的数据集来进行入侵检测,提高少数类攻击样本的检测率。

技术领域

本发明属于网络入侵检测领域,涉及基于深度生成模型和聚类欠采样的网络入侵检测方法。

背景技术

随着计算机互联网技术的快速发展,互联网开始渗入人类社会的方方面面,网络流量呈现指数级别的增长,其中复杂多样的网络攻击严重威胁到基于互联网建立的能源、医疗、通信和金融等方面的国家网络安全。早期的安全防护手段如访问控制技术、防火墙技术、流量控制技术等随着攻击技术的多样化以及网络规模的扩大已经无法满足当前的需求,例如防火墙技术不能防范网络内部用户的恶意行为并且无法抵抗新型未设置策略的攻击漏洞,属于被动防护策略。网络入侵检测技术通过对网络通讯进行监视,发现可疑行为时可以触发报警信号或者关停网络,因此具有很好的应用前景,网络入侵检测技术也被认为是防火墙之后的第二道安全防线。

网络入侵检测技术可以及时地发现并报告被授权的或其他的异常情况,但在实际的网络活动中,正常的流量和行为中占绝对主导地位,异常行为的数量较少,这就造成了入侵检测数据集类别极其不平衡的问题。当使用机器学习算法对不平衡数据集进行分类检测时,不仅训练难度很大,而且以最小化经验风险作为训练目标会使分类模型倾向于多数类,并导致少数类别无法检测或者检测精度较低,从而会显著地降低机器学习算法性能。而且对于入侵检测系统来说,当在真实世界中遇到此类型攻击时,入侵检测系统可能无法准确地给出警告,漏报所造成的危害会远大于虚警所造成的危害。因此,如何在类别分布不均衡的数据基础上有效提高其对少数攻击样本类型乃至未知攻击类型的检测率具有十分重要的意义。

为了解决数据极度不平衡的分布问题,研究者们主要从算法和数据层面进行了改进来消除数据不平衡所带来的影响。在数据集分类算法的改进层面,主要包括集成学习和代价敏感学习,集成学习的主要策略是将多个不同的分类器进行线性拼接得到一个强大投票分类器,一个分类器的优点可以帮助弥补另一个分类器的缺点,最终集成的性能优于任何单一成分分类器,能够提高模型的分类精度。常用机器学习分类器应用的算法主要有逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)、决策树(DecisionTree,DT)和K近邻(k-Nearest Neighbor,KNN)等。代价敏感学习是一种学习范式,它通过在对应算法中加入代价敏感因子以解决不平衡分类问题。数据层面主要通过改变训练集的样本分布来降低或消除不平衡性,主要方法包括欠采样、过采样、过采样与欠采样结合3种方法。通过欠采样的方法对数据集进行处理容易丢失多数类样本信息导致模型对多数类的分类精度下降。过采样是通过对少数类样本进行简单复制达到与多数类样本的平衡,很容易导致过拟合问题。近年来随着深度学习的发展,变分自编码器(Variational Auto-Encoders,VAE),生成对抗网络(Generative Adversarial Networks,GAN)等深度生成模型在图像、语音和文本生成领域得到广泛应用。如图像处理领域中基于VAE的跨域图像生成算法利用编码器对跨域图像进行编码得到其内容属性和风格属性后再进行拼接实现跨域图像过采样。利用条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN)来近似真实数据分布和以生成器作为过采样算法来生成少数类数据改善数据集不平衡的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310666381.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top