[发明专利]基于报文分析的协议格式自动推断方法有效
申请号: | 201210383363.9 | 申请日: | 2012-10-11 |
公开(公告)号: | CN102891852A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 洪征;吴礼发;李华波;赖海光;郑成辉;黄康宇;潘璠 | 申请(专利权)人: | 中国人民解放军理工大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/70 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 报文 分析 协议 格式 自动 推断 方法 | ||
技术领域
本发明涉及网络技术,尤其涉及一种分析协议实体的输入输出报文从而推断协议报文格式的方法。
背景技术
协议是为在计算机网络中进行数据交换而建立的一系列规则、标准和约定,是计算机网络中不可缺少的重要组成部分。协议作为网络通信功能实现的支撑要素,是网络领域的重点研究对象。但由于目前使用的协议大部分是私有协议,缺乏正式的描述文档,需要采用协议逆向的方法提取协议信息。
协议逆向指在不依赖于协议描述的情况下,通过监控和分析协议实体的网络输入输出、系统行为和指令执行流程,提取协议文法、语法和语义的过程。Samba、Rdesktop等针对非公开协议的逆向应用取得了较为理想的效果,但存在过度依赖人工分析以及过程冗长耗时等共性问题。
协议自动逆向可以显著减少人工分析,提高私有协议的分析效率。根据分析对象的不同,协议自动逆向可以划分为两类。一类是基于协议实体的网络流量来分析协议,被称为报文分析(NetworkTrace)方法。另外一类是在主机上动态跟踪报文的处理流程,这类方法被称为指令执行分析(Execution Trace)方法。报文分析方法的主要优点在于:不依赖于协议解析终端,实现简单;通用性强,适用于各个层次的协议。
目前报文分析方法存在的主要问题是协议报文样本集具有序列长、数量多的特点,分析过程需要耗费大量的时间和计算资源。此外,现有方法在字段语义推断时没有充分考虑字段间的相互约束,造成语义推断的准确度较低。
发明内容
本发明的目的是:提出一种基于报文分析的协议格式自动推断方法,能够高效准确的对原始报文样本进行比对,并以此为基础,实现协议格式内间隔字段、数据字段、序号字段、长度字段以及格式标识字段等主要字段语义的自动推断。本发明针对的两个主要问题是:现有逆向方法不能高效比对协议报文样本集,得到的报文块结构不准确;在字段语义推断时没有充分考虑字段间的约束关系导致语义推断准确度低。
本发明的技术解决方案,基于报文分析的协议格式自动推断方法,对协议实体的输入输出报文进行分析从而推断协议报文具体格式。采用此方法首先需要获得足够数量的由待分析协议所产生的网络报文。获取的方法是通过网络抓包软件对待分析协议的网络通信进行足够长时间的监听,并将捕获的所有网络报文集中在一起用于分析。从统计学的角度看,由于捕获的报文是待分析协议产生报文的抽样,因此将它们称为报文样本。
基于报文分析的协议格式自动推断方法包括以下步骤:
首先是对大量报文样本进行初步聚类,将结构相似的样本集中在一起;
其次是对结构相似的报文样本以段为单位进行多序列比对,明确报文的基本结构和段的基本结构,进而获得报文整体的基本结构;
最后是语义推断阶段,基于报文的基本结构,依据样本中各字段的取值和变化特征对相应字段的语义进行推断;
所述初步聚类阶段的工作流程:以字节为单位,依据字节属于可显示字符还是二进制字符,对获取的网络报文进行划段;依据划段所展现出的格式序列,将格式序列相同的报文归为一个类别,实现初步聚类。
多序列比对阶段的工作流程:以段为单位实施多序列比对,在比对过程中首先对同一类别的报文采用局部序列比对算法进行比对,构造相对距离矩阵;而后采用层次聚类算法将参与比对的每个报文段放入一个独立的集合,依据集合中报文段的平均距离进行集合的合并,利用报文段构造系统树,每个报文段将作为系统树中的一个节点;设置系统树中同类报文段的最大距离,进而将系统树分割为多棵子系统树;最后对子系统树中的报文段采用全局序列比对算法进行比对,实现同一类别报文段的对齐和长度统一,获得此类别报文段的基本结构;
语义推断阶段的工作流程:在确定某一类别报文样本的基本结构后,统计此类别样本中各个字节取值的变化率;依据字节取值的变化率,确定样本格式中的固定字段和可变字段;首先判断固定字段是否为间隔字段,再判断可变字段是否为数据字段,进而推断未识别的可变字段中是否存在序号字段;依据判断出的字段语义,进行字段合并,并在未识别字段中推断长度字段;最后依据已识别出的格式序列,推断样本中的格式标识字段;即采用“间隔字段→数据字段→序号字段→长度字段→格式标识字段”的语义推断流程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军理工大学,未经中国人民解放军理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210383363.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现神经网络的新架构
- 下一篇:来自运动表现的图像数据的反馈信号