[发明专利]将未知协议多通信方数据流分离为点对点数据流的方法有效
申请号: | 201510126647.3 | 申请日: | 2015-03-23 |
公开(公告)号: | CN104753934B | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 郝玉洁;周洪川;刘渊;张凤荔;张俊娇 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 未知 协议 通信 数据流 分离 点对点 方法 | ||
技术领域
本发明涉及一种将未知协议多通信方数据流分离为点对点数据流的方法。
背景技术
在当前信息战场景下,被敌方通过进口器件或特种木马进行窃密的威胁日益严峻,此类窃密其途径通常是通过无线通信方式发送涉密信息,且这种通信所采用的协议均为非常规的专用未知协议,而现有的防范措施基本只针对已知协议,大多采用基于端口映射或静态特征匹配等方法,无法对该类窃密渠道进行监测和检测。本课题针对上述问题,拟提出一种基于数据报指纹关系的未知协议发现方法,为该类窃密渠道的监测手段奠定技术基础。
发明内容
本发明的目的在于克服现有技术的不足,提供一种将未知协议多通信方数据流分离为点对点数据流的方法,提出了一种简单有效的寻找未知协议地址信息的方法,此方法的前提是得到了单协议数据帧。
本发明的目的是通过以下技术方案来实现的:将未知协议多通信方数据流分离为点对点数据流的方法,它包括以下步骤:
S1:将混合未知多协议数据流分为单协议数据帧:采用聚类算法将混合未知多协议数据流分为单协议数据帧,并用评估算法确定所得到的类簇是比较可信的单协议数据帧;
S2:将分割好的单协议数据帧按地址分为点对点数据帧:通过寻找具有“地址特征”的列队来组成地址对候选集,然后通过对地址对候选集进行拼接,得到最后的地址对。
所述的S1包括以下子步骤:
S11:计算所输入的未知协议数据帧的种类数的近似值K,并且得到经过处理的数据帧;
S12:使用K-means算法指定K值进行聚类,得到n个类簇;
S13:使用基于熵的类簇评估算法进行评估每一个类簇的好坏,确定出可信的单协议数据帧。
所述的S1还包括以下子步骤:
S14:将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库;
S15:将聚类效果好的类簇加上类标识进行机器学习,建立分类模型,使用分类模型进行分类。
所述的S11包括以下子步骤:
S1101:将输入数据构成二维矩阵,一个字节作为最小处理单元;
S1102:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;
S1103:将出现频率大于liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个字符符合要求,则对m的值进行更新:令m=m-i;所述的liminal%和low_liminal%为频率最小阈值和频率最大阈值;
S1104:找出集合S1到Sm中,元素个数最大的集合,设为Smax;
S1105:定义一个新的集合R,所述的集合R的元素为集合S,并将集合Smax加入集合R;
S1106:取uniterate的值从50到99,遍历集合S1到Sm,根据遍历到的集合与集合R中所有的集合的交集率,做不同的处理:
(1)若遍历到的集合Sx与集合R中所有的集合的交集率低于uniterate%,则将Sx加入集合R;
(2)若遍历到的集合Sx与集合R中所有的集合的交集率高于或等于uniterate%,则取Smax和Sx的交集作为Smax;
所述的uniterate%为交集率阈值;
S1107:求出R中所有元素的并集,即为筛选出来的数据帧;
S1108:将筛选出来的数据帧从输入数据帧中除去,对剩余的数据帧数量进行判断:
(1)如果剩余的数据帧数量仍比较大,再次做为输入样本计算这些数据帧的K值,即返回步骤S1101;
(2)否则,进入步骤S1109;
S1109:得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S1110:取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值K。
所述的S12包括以下子步骤:
S1201:将步骤S11得到的经过处理的数据帧和簇的近似值K输入;
S1202:随机选择K个数据对象作为初始聚类中心;
S1203:根据簇中对象的平均值,将每个对象赋给最类似的簇;
S1204:更新簇的平均值,即重新计算每个对象簇中对象的平均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510126647.3/2.html,转载请声明来源钻瓜专利网。