[发明专利]一种基于语义敏感的网络协议识别方法及系统有效

申请号：	201410652834.0	申请日：	2014-11-17
公开（公告）号：	CN104468262B	公开（公告）日：	2017-12-15
发明（设计）人：	云晓春;张永铮;王一鹏;周宇	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	H04L12/26	分类号：	H04L12/26;H04L29/06
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	余长江
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义敏感网络协议识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语义敏感的网络协议识别方法，其特征在于，包括建模阶段、训练阶段和分类阶段；

在建模阶段，以特定应用协议的网络数据报文集合作为输入，利用Latent Dirichlet Allocation方法构建所分析协议的关键字模型；

在训练阶段，依照建模阶段得到的协议关键字模型提取数据报文的分类特征信息，以获得的关键字特征向量作为输入，利用有监督机器学习方法对离线训练数据集学习训练，从而获得所分析协议的分类模型；

在分类阶段，依照建模阶段得到的协议关键字模型提取数据报文的分类特征信息，利用训练阶段输出的协议分类模型，对待测网络数据报文的协议属性做出判别，判断其是否属于目标协议的网络数据报文；

所述建模阶段包括以下步骤：

a)采集属于特定应用协议的网络数据报文，从而将网络数据报文划分为两种类别：一类是属于所要分析的应用协议的数据报文集合；另一类是不属于所要分析应用协议的数据报文集；

b)利用n-gram模型将网络数据报文转化为以n-gram元素作为基本单元的网络数据报文；所述n-gram模型是给定序列的n个连续元素的子序列；

c)利用基于Latent Dirichlet Allocation方法构建所要分析协议的协议关键字模型；

利用Latent Dirichlet Allocation方法构建协议关键字模型的步骤包括：

1)为包含有M个数据报文的集合D中的所有n-gram分配一个随机的关键字索引号这里w_(m,i)代表数据报文m中，第i个n-gram，z_(m,i)是该n-gram的关键字索引号，N_m是数据报文m中n-gram元素的个数；

2)用代表除z_(m,i)以外的所有其他n-gram的关键字索引号，在数值保持不变的情况下，根据后验概率分布为n-gram w_(m,i)通过采样的方法产生一个新的关键字索引号数值z_(m,i)；其中α和β是给定的超参数，代表n-gram字典中元素t分配给关键字k的次数，代表消息报文m中关键字k出现的次数，W代表n-gram字典中n-gram元素的个数；

3)根据Gibbs采样方法得到的z_(m,i)数值，对后验概率分布中的过期数值进行更新；

4)对数据集合中的所有的元祖(m,i)都重复上述的采样操作，若达到Gibbs采样收敛条件L，则算法中止，返回最终的关键字索引号否则重复步骤1)至3)；

5)利用通过步骤1)至4)得到的关键字索引号构建协议关键字模型

其中K代表协议关键字的个数，

2.如权利要求1所述的方法，其特征在于：在产生数据报文n-gram时，只选择统计频率较高的前W个n-gram元素，并形成其n-gram字典。

3.如权利要求1所述的方法，其特征在于，所述训练阶段的具体步骤包括：

1)数据采集，同建模阶段步骤1)的操作；

2)数据报文n-gram产生，同建模阶段步骤2)的操作；

3)对网络数据报文依照建模阶段步骤3)得到的协议关键字模型进行分类特征提取；

4)利用有监督学习方法，依照提取得到的分类特征构建所分析应用协议的二值分类器。

4.如权利要求3所述的方法，其特征在于，所述建模阶段的具体步骤包括：

1)数据报文n-gram产生，同训练阶段步骤2)；