[发明专利]一种入侵检测的方法、系统、设备及可读存储介质有效
申请号: | 202010796355.1 | 申请日: | 2020-08-10 |
公开(公告)号: | CN111914253B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 夏辉;崔居福;张睿;胡本旭;程相国;刘超 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06K9/62;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 入侵 检测 方法 系统 设备 可读 存储 介质 | ||
本申请公开了一种入侵检测的方法,包括:对获取到的数据集中的数据进行分类,数据的类别包括大样本和小样本;对数据集中类别为小样本的数据进行数据扩充;将扩充后的数据集划分为训练集和测试集,并利用训练集对预设网络模型进行训练,利用测试集对训练后的预设网络模型进行性能评估;确定性能最佳的预设网络模型为入侵检测模型,并利用入侵检测模型对获取到的感知数据进行入侵检测。本申请通过对数据集中类别为小样本的数据进行数据扩充,避免了学习器对小样本产生欠拟合现象,提高了模型的学习效率和泛化能力,进而提高了入侵检测的准确率。本申请同时还提供了一种入侵检测的系统、设备及可读存储介质,具有上述有益效果。
技术领域
本申请涉及入侵检测领域,特别涉及一种入侵检测的方法、系统、设备及可读存储介质。
背景技术
入侵检测是一种为计算机网络提供实时保护的网络安全技术,主要是对当前输入受护网络或受护主机中的数据进行检测,确定当前检测数据为合法数据还是非法数据。目前用于攻击者入侵检测的传统检测方案以正常网络行为特征或已知攻击类型特征为依据进行建模,存在一定局限性,并且采用人工方式对特征进行处理,无法保证模型对大数据量的攻击类型及时学习更新。
为了应对传统检测方案中遇到的一系列问题,近几年间基于各种机器学习算法的入侵检测方案被陆续提出。这类检测方案首先采用机器学习算法对已知攻击类型进行学习,然后利用训练模型对具有相应特征的攻击行为进行识别,可以大致分为以下两类:
(1)基于单一机器学习算法的入侵检测方案。然而,这种方案的防御场景比较有限,漏报率较高,并且构建的模型简单,无法处理大数据量,导致模型性能下降;
(2)基于集成学习算法的入侵检测方案。梯度提升树(Gradient BoostingDecision Tree,GBDT)是集成学习解决分类问题应用最多的模型,然而,这种方案通常对多个基模型进行集成学习,存在着训练集中数据分布不平衡的问题,降低了模型的学习效率和泛化能力,导致入侵检测的准确率较低。
因此,如何提高入侵检测的准确率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种入侵检测的方法、系统、设备及可读存储介质,用于提高入侵检测的准确率。
为解决上述技术问题,本申请提供一种入侵检测的方法,该方法包括:
对获取到的数据集中的数据进行分类,所述数据的类别包括大样本和小样本;
对所述数据集中所述类别为小样本的数据进行数据扩充;
将扩充后的所述数据集划分为训练集和测试集,并利用所述训练集对预设网络模型进行训练,利用所述测试集对训练后的所述预设网络模型进行性能评估;
确定性能最佳的预设网络模型为入侵检测模型,并利用所述入侵检测模型对获取到的感知数据进行入侵检测。
可选的,对所述数据集中所述类别为小样本的数据进行数据扩充,包括:
获取每个所述小样本的近邻样本,并对所述小样本的近邻样本进行检测;
当所述近邻样本中所述大样本的占比为1时,将所述小样本标记为噪音数据;
当所述近邻样本中所述大样本的数据量占比大于预设值且小于1时,将所述小样本放入危险集中;
计算所述危险集中每个小样本和对应的近邻样本之间的距离;
获取随机数,并根据所述距离与所述随机数生成合成样本,将所述合成样本添加到所述数据集中。
可选的,将扩充后的所述数据集划分为训练集和测试集,包括:
按照攻击类别将扩充后的所述数据集划分为对应的数据组,每个所述数据组包括预设数量的数据子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010796355.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小麦种植土壤定期取样装置
- 下一篇:一种整体吊升式吊装平台