[发明专利]一种自适应的主机入侵检测序列特征提取方法及系统有效
申请号: | 202110645190.2 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113094713B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 陈文;廖小瑶;黄登 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 张秀敏 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 主机 入侵 检测 序列 特征 提取 方法 系统 | ||
1.一种自适应的主机入侵检测序列特征提取方法,其特征在于,包括:
步骤S100:从正常系统调用序列数据集提取定长特征子序列,包括:
步骤S110:利用N元模型N-Gram以设定的滑动窗口值将输入的系统调用序列切分成定长子序列;
步骤S120:利用词频-逆文本频率TF-IDF对各个定长子序列进行加权,根据权重的大小对定长子序列进行筛选得到定长特征子序列的集合即为定长语料库,具体包括:
步骤S121:统计定长子序列ti出现在所有系统调用序列中的频数,计算序列频数反比:
其中,N为系统调用序列数据集中系统调用序列的总数,为系统调用序列数据集中的系统调用序列中出现过定长子序列ti的序列数;
步骤S122:计算定长子序列ti在系统调用序列中出现的频数frei:
得到所有定长子序列t={t1,t2,…,tm}出现在系统调用序列的频率向量Fre:
Fre=[fre1,fre2,…,frem];
步骤S123:计算进程行为权重:
变换得到:
;
步骤S124:选取每个进程系统调用序列中进程行为权重前b位的定长子序列收录进定长子序列语料库:
其中,tjb代表第j个系统调用序列中的第b个定长子序列, t1b代表第1个系统调用序列中的第b个定长子序列, tnb代表第n个系统调用序列中的第b个定长子序列,0<j≤n,n表示进程的数量;
步骤S200:从正常系统调用序列数据集提取变长特征子序列,包括:
步骤S210:判断输入的系统调用序列的长度是否大于指定单位长度d,若是,进入步骤S220;否则进入步骤S230;
步骤S220:将系统调用序列进行切分,得到系统调用子序列,进入下一步;
步骤S230:对每个系统调用序列或系统调用子序列分别建立后缀树,并筛选出每个系统调用序列或系统调用子序列的最长重复子串作为变长特征子序列,变长特征子序列的集合为变长语料库;
步骤S300:将得到的定长语料库与变长语料库取并集得到特征语料库,统计特征语料库中的子序列在待测试系统调用序列出现的频率得到特征向量,利用自动编码机对特征向量进行降维,将降维后的特征向量输入分类器进行分类,并得到分类结果。
2.实现如权利要求1所述方法的一种自适应的主机入侵检测序列特征提取系统,其特征在于,包括定长特征提取模块、变长特征提取模块、特征融合模块、自动编码机模块和分类器模块,其中:
定长特征提取模块,用于将正常的系统调用序列利用N 元模型N-Gram切分成定长特征子序列,并利用词频-逆文本频率TF-IDF对各个定长特征子序列进行加权,再根据权重的大小对定长特征子序列进行筛选得到定长特征子序列集即定长子序列语料库;
变长特征提取模块,用于分别对正常的系统调用序列建立后缀树,并筛选出最长重复子串作为变长特征子序列,变长特征子序列集即为变长子序列语料库;
特征融合模块,用于整合定长特征提取模块和变长特征提取模块的提取结果,分别统计定长子序列语料库与变长子序列语料库中的子序列在待测试系统调用序列出现的频率得到特征向量;
自动编码机模块,用于对特征向量进行降维处理;
分类器模块,用于对降维后的特征向量进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110645190.2/1.html,转载请声明来源钻瓜专利网。