[发明专利]基于改进谱聚类的报警数据融合方法有效
申请号: | 202110668012.1 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113420802B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 陶晓玲;符廉铕;赵峰;欧阳逸夫;顾涛;贾飞 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F18/25 | 分类号: | G06F18/25;G06F18/23213;H04L9/40 |
代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 张学平 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 谱聚类 报警 数据 融合 方法 | ||
1.一种基于改进谱聚类的报警数据融合方法,其特征在于,
包括对报警数据进行预处理;
将报警数据按照攻击类型进行分组;
对每个组中的报警数据利用属性相似度度量方法计算每两个报警之间的相似度,并构造相似度矩阵,具体步骤是:
计算攻击类型、源IP、目的IP、源端口、目的端口以及时间的相似度,包括:
攻击类型相似度计算:通过直接对比两条报警数据的攻击类型是否相同,如果相同,则将其相似度设为1,否则设为0,计算公式如下:
IP地址相似度计算:对于源IP地址、目的IP地址,根据无类别域间路由格式来判断计算它们的相似度;报警数据中的IP属性是由32位二进制数格式呈现的,通过比较两个IP地址具有的相同位数来计算IP地址的相似度,其计算公式如下:
其中L表示两条报警数据的IP地址从高位开始连续相同的位数个数,如果simip为0,则表示两个IP地址完全不相似;如果simip为1,则表示两个IP地址完全一致;
端口相似度计算:直接对端口号进行比较,如果相同,则将其相似度设为1,否则设为0,计算公式如下:
时间相似度计算:采用的时间相似度计算方法如下:
其中T是定义的时间窗口阈值,表示两条报警数据能够进行融合的最大时间间隔,Tmax-Tmin=T;
基于主成分分析法计算各个关键属性的权重;
基于相似度和权重构造相似度矩阵,具体方式为通过为每个属性设置相应的权重得到报警数据间的总体相似度,两条报警alerti与alertj的总体相似度计算公式如下:
其中siml表示报警各个属性的相似度,ωl表示各属性对应的权重;
基于相似度矩阵利用谱聚类算法对报警数据进行聚类形成簇;
对同一个簇中的报警进行阈值判断,若达到阈值则对同一个簇中的报警数据进行融合,然后输入到融合数据集;若未达到阈值则直接输入到融合数据集;
将所有簇的融合数据集组成精简警报数据集输出。
2.如权利要求1所述的基于改进谱聚类的报警数据融合方法,其特征在于,
所述对报警数据进行预处理的具体步骤是:
输入原始数据集;
在原始数据集中提取报警数据的关键属性;
基于入侵检测消息交换格式将原始数据的格式转换成统一格式。
3.如权利要求2所述的基于改进谱聚类的报警数据融合方法,其特征在于,
所述关键属性包括特征字符串、报警类别、报警日期、报警时间戳、源IP、源端口、目的IP和目的端口。
4.如权利要求1所述的基于改进谱聚类的报警数据融合方法,其特征在于,
所述基于相似度矩阵利用谱聚类算法对报警数据进行聚类形成簇的具体步骤是:
计算相似度矩阵的度矩阵和拉普拉斯矩阵,并对拉普拉斯矩阵进行规范化处理;
计算拉普拉斯矩阵的特征值,并对特征值进行降序排序,然后取前k个特征值并计算其对应的特征向量;
将特征向量作为列向量构成映射矩阵;
按行对映射矩阵进行归一化,得到归一化矩阵;
使用K-Means算法对归一化矩阵进行聚类,并标记数据所属类别;
根据标记得到K个簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110668012.1/1.html,转载请声明来源钻瓜专利网。