[发明专利]入侵检测方法、装置及存储介质有效
申请号: | 201910201212.9 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109981624B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 龙春;魏金侠;万巍;赵静;杨帆;杜冠瑶 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 入侵 检测 方法 装置 存储 介质 | ||
本发明实施例公开了一种入侵检测方法、装置及存储介质,涉及网络安全领域。本发明的方法包括:对初始样本集中的部分样本进行过采样操作,得到包含新样本及初始样本的训练样本集;对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征;基于所述一维距离特征对所述训练样本集进行样本分类,得到各样本的分类结果;根据所述各样本的分类结果,对入侵检测模型进行训练。本发明能够提供模型训练的准确度,并降低模型训练的复杂度。
技术领域
本发明涉及网络安全领域,尤其涉及一种入侵检测方法、装置及存储介质。
背景技术
随着机器学习技术的不断发展,用于进行模型训练的数据本身质量对机器学习效果显得尤为重要。
目前通过样本对入侵模型进行训练,然而不平衡的数据集训练出的模型很容易将量少的样本划分到量多样本的类别中,这就导致召回率和准确率往往比较低;另外,样本数据集中的大量复杂特征,给分类器的训练过程带来较大的复杂度。
发明内容
本发明的实施例提供一种样本采样方法、装置及存储介质,能够解决样本数量较少导致模型准确度低且训练复杂度高的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种入侵检测方法,包括:
对初始样本集中的部分样本进行过采样操作,得到包含新样本及初始样本的训练样本集;
对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征;
基于所述一维距离特征对所述训练样本集进行样本分类,得到各样本的分类结果;
根据所述各样本的分类结果,对入侵检测模型进行训练。
结合第一方面,在第一方面的第一种可能的实现方式中,所述对初始样本集中的部分样本进行过采样操作,得到包含新样本的训练样本集,包括:
在所述初始样本集的各样本中筛选危险样本;
对每个所述危险样本进行过采样操作,生成对应的新样本;
将所述初始样本集中的各样本及各所述新样本,作为所述训练样本集。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述在所述初始样本集的各样本中筛选危险样本,包括:
针对初始样本集中的每个所述样本,计算对应的最近邻样本数m及量多样本数m1;
若满足m/2m1m,则所述样本为所述危险样本。
结合第一方面,在第一方面的第三种可能的实现方式中,所述对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征,包括:
对所述训练样本集中的各样本进行聚类处理,得到多个簇;
针对所述训练样本集中的每个所述样本,计算所述样本的一维距离值;其中,所述一维距离值为第一和值与第二和值之前的和值,所述第一和值为所述样本与簇内各近邻样本之间的距离之和,所述第二和值为所述样本与各簇聚类中心之间的距离之和。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述方法还包括:
当输入新样本时,计算该样本与各簇聚类中心之间的距离,并将所述新样本作为距离最小的簇中的一个样本;
计算所述新样本的一维距离值,所述一维距离值为第一和值与第二和值之前的和值;其中,所述第一和值为所述新样本与簇内各近邻样本之间的距离之和,所述第二和值为所述新样本与各簇聚类中心之间的距离之和;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910201212.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:手机使用监控方法及设备
- 下一篇:一种基于在线层次聚类的日志模板抽取方法