[发明专利]一种基于CAVWNB_KL算法的操作系统识别方法有效
申请号: | 201911109045.1 | 申请日: | 2019-11-13 |
公开(公告)号: | CN111091194B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 桂小林;安迪;樊志甲;李瀛;范建存 | 申请(专利权)人: | 西安交通大学;北京神州绿盟信息安全科技股份有限公司 |
主分类号: | G06N7/00 | 分类号: | G06N7/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cavwnb_kl 算法 操作系统 识别 方法 | ||
1.一种基于CAVWNB_KL算法的操作系统识别方法,其特征在于,包括以下步骤:
S1、分析nmap中的操作系统识别规则,按照nmap指纹库拆分数据,加上类标记,并映射成N列的数字向量,从拆分出的大量数据集中抽出M万数据作为训练数据,同样的方法再次抽出m万数据作为模拟测试数据;
S2、将得到的M万数据进行封箱操作;
S3、使用KL散度计算属性与类之间的关联度作为每个属性的权值;
S4、将预处理过的M万数据,输入NB算法模型,计算先验概率和后验概率,作为指纹存储,设输入空间为N维向量的集合,输出空间为类标记集合γ={c1,c2,...,ck},输入为特征向量x∈χ,输出为类标记y∈γ,X是定义在输入空间χ上的随机向量,Y是定义在输出空间γ上的随机变量;采用朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y),学习先验概率分布及条件概率分布;采用贝叶斯估计条件概率和先验概率;
S5、取步骤S1的m万数据集,经过同样的数据预处理封箱过程,将经过预处理封箱得到的向量输入训练好的指纹模型通过CAVWNB_KL算法计算出每条流量的最大后验概率,计算出测试精度衡量指标;
S6、模仿nmap的发包方式,通过向目标网段发包的方式,采集真实流量,将真实流量输入指纹模型,预测结果,计算真实流量的测试精度;
S7、将采集到的真实流量进行筛选,选择其中没有噪声,且nmap指纹库中缺失的规则,以贝叶斯增量学习的方式增量训练,修正原有的指纹模型,完成识别。
2.根据权利要求1所述的基于CAVWNB_KL算法的操作系统识别方法,其特征在于,步骤S1中,选取nmap指纹库的响应序列作为特征,筛选逻辑独立的维度,按照蒙特卡洛方法选取训练数据和模拟测试数据。
3.根据权利要求1所述的基于CAVWNB_KL算法的操作系统识别方法,其特征在于,步骤S2中,对于M万数据的每一个维度,将该维度的所有数据取出,去重,按从小到大排序,然后将排序后的数据均分到k个区间内,则每个区间内的数字被映射成区间的编号。
4.根据权利要求1所述的基于CAVWNB_KL算法的操作系统识别方法,其特征在于,步骤S3中,第i个属性Ai对应的权值Wi为
其中,P(ai)为第i个属性Ai的取值ai的概率,P(c)为类别c的先验概率,P(cai)为第i个属性Ai的取值ai上类别为c的条件概率。
5.根据权利要求1所述的基于CAVWNB_KL算法的操作系统识别方法,其特征在于,步骤S4中,采用贝叶斯估计,具体地,条件概率的贝叶斯估计是:
其中,ajl表示第j个特征的第l个取值,Sj表示第j个特征的取值范围,ck表示第k个类别,λ表示拉普拉斯平滑时的参数,常取1,N表示训练样本个数;
先验概率的贝叶斯估计为:
其中,K代表标记类的个数。
6.根据权利要求5所述的基于CAVWNB_KL算法的操作系统识别方法,其特征在于,学习以下先验概率分布及条件概率分布,
先验概率分布:
P(Y=ck)
条件概率分布:
P(X=x|Y=ck)=P(X(1)=x(1),...,X(n)=x(n)|Y=ck)
朴素贝叶斯对条件概率分布做条件独立性假设,条件独立性假设为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学;北京神州绿盟信息安全科技股份有限公司,未经西安交通大学;北京神州绿盟信息安全科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911109045.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于联盟链的票务系统
- 下一篇:一种拓扑型线路架构的系统及总线切换方法