[发明专利]一种跨多种协议和协议组合的自动化加密流量分析方法在审
| 申请号: | 202211588409.0 | 申请日: | 2022-12-12 |
| 公开(公告)号: | CN116232642A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 孙林檀;张虎;郝景昌;李晓红;陈森;李慧芹;张烁;王蕾 | 申请(专利权)人: | 国家电网有限公司客户服务中心;天津大学 |
| 主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F18/24 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
| 地址: | 300300 天*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多种 协议 组合 自动化 加密 流量 分析 方法 | ||
1.一种跨多种协议和协议组合的自动化加密流量分析方法,其特征在于,该方法包括以下步骤:
步骤1,将待分类的加密应用程序的网络流量进行预处理,得到网络流量中每个网络流的数据包,具体操作包括:将多个原始网络流量pcap文件根据五元组信息包括源IP地址、目的IP地址、源端口、目的端口和协议,进行网络流量中的网络流划分,得到多个带标签的网络流量数据包,作为步骤2的输入;
步骤2,获得当前网络流量数据包的语义表示,进行当前网络流量数据包的特征提取,具体包括以下处理:
步骤2.1,提取网络数据包的全部IP协议数据包头信息,包括但不限于IP协议号、IP协议选项字段、源IP协议地址和目的IP协议地址;
步骤2.2,提取TCP协议数据包头和UDP协议数据包头的全部特征信息,包括但不限于源端口号和目的端口号;
步骤2.3,提取ICMP协议数据包头的部信息;
步骤3,获得网络数据包特征的二进制表示,构造包含1088个特征的固定长度网络数据包特征向量,具体包括以下步骤:
步骤3.1,将IP协议数据包头的60字节特征全部映射成480个IP协议数据包头特征,每个IP协议数据包头特征分别对应IP协议数据包头的每个字节内的位置信息,将每个字节用8位的二进制表示,每个位置的0和1数值对应到IP协议数据包头的480个特征;
步骤3.2,将TCP协议数据包头的60字节特征全部映射成480个TCP协议数据包头特征,每个TCP头特征分别对应TCP协议数据包头的每个字节内的位置信息,将每个字节用8位的二进制表示,每个位置的0和1数值对应到TCP协议数据包头的480个特征;
步骤3.3,将UDP协议数据包头的8字节特征全部映射成64个UDP数据包头特征,每个UDP协议数据包头特征分别对应UDP协议数据包头的每个字节内的位置信息,将每个字节用8位的二进制表示,每个位置的0和1数值对应到UDP协议数据包头的64个特征;
步骤3.4,将ICMP协议数据包头的8字节特征,全部映射成64个ICMP数据包头特征,每个特征分别对应ICMP协议数据包头的每个字节内的位置信息,将每个字节用8位的二进制表示,每个位置的0和1数值对应到ICMP协议数据包头的64个特征;
步骤3.5,将以上所有特征进行拼接,共得到包含1088个特征的固定长度的网络数据包特征向量,如果该数据包不含相对应的协议数据包头,则对应位置全部赋值为-1;
步骤4,将步骤3得到的网络数据包特征导出成CSV格式文件;
步骤5,寻找最优分类模型,即:针对每个加密网络流量分类问题进行模型训练,这些模型源自6个不同的基本模型类,分别是来自基于树的机器学习方法、基于深度神经网络编码器和基于距离分类方法的变体的共50类模型;基于平均准确率和F1值指标,选取表现最优的分类模型;
步骤6,进行加密网络流量分类,将待分类的加密网络流量按照步骤3-5的方法进行处理,然后作为特征输入到步骤6得到的最优分类模型,完成加密网络流量分类。
2.如权利要求1所述的一种跨多种协议和协议组合的自动化加密流量分析方法,其特征在于,当业务需求需要对负载特征字段进行扩展,所述步骤3之后还包括以下处理:
依据业务需求需要对负载特征字段进行扩展,如需要扩展N个负载特征,则自动地将负载的前N位的特征值0或1拼接成N个特征,拼接到步骤3得到的包含1088个特征的固定长度网络数据包特征向量后面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司客户服务中心;天津大学,未经国家电网有限公司客户服务中心;天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211588409.0/1.html,转载请声明来源钻瓜专利网。





