[发明专利]一种对网络加密流量自动进行特征提取和识别的方法有效
申请号: | 201910752472.5 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110391958B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 徐锐;代宏伟 | 申请(专利权)人: | 北京中安智达科技有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;G06K9/62 |
代理公司: | 北京高文律师事务所 11359 | 代理人: | 徐江华;李宝玉 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 加密 流量 自动 进行 特征 提取 识别 方法 | ||
1.一种对网络加密流量自动进行特征提取和识别的方法,包括下列步骤:
S1:数据采集阶段,使用抓包工具对网络加密数据流量进行抓取;
S2:数据预处理阶段,将数据包进行过滤,排除无用包干扰,得到用于特征提取的样本数据,构建完整数据集;
将数据包进行过滤以及排除无用包干扰包括以下步骤:
1)根据端口对协议类型进行判断,将非加密协议的数据包过滤,加密协议端口为443;
2)根据四元组和数据包时序对数据包进行排序,过滤乱序和重发的数据包;
3)对数据包应用层长度为零的数据包进行过滤;
过滤后,将网络数据流量提取成多条完整的加密会话流量;
S3:特征提取阶段,采用相似度算法对数据预处理阶段产生的完整数据集进行相似度分类,对具有高相关性、高相似度的数据进行聚类的方式进行特征提取;
S4:数据建模阶段,对聚类后的数据进行标记,采用机器学习算法构建分类模型,数据验证模型的准确性和识别效果。
2.根据权利要求1所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:步骤S1中,抓包工具对网卡进行监控,重复执行特定上网行为,用抓包工具对期间产生的加密数据流量进行采集,采集过程中记录行为产生加密数据流量的起始位置。
3.根据权利要求2所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:抓包工具对获取的加密流量数据包进行特征提取,提取加密数据包的基本特征,所述基本特征包括捕获时间、ip地址、端口、协议类型、应用层加密内容和长度。
4.根据权利要求1所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:步骤S2中,根据加密会话流量得到样本数据包括以下步骤:
1)将数据包进行会话重组,按照网络会话对数据包进行分组;
2)提取数据包应用层加密内容长度,按照对应会话组构建列表,每个会话对应一个长度列表,列表构建顺序对应会话的数据流顺序;长度数值有正负区分,区分依据具有流量的交互模式;
3)对长度列表按照滑动窗口的方式进行切分提取等长的数组,数值为长度值,并按照数组的正负号组合类型进行区分,构建完整数据集。
5.根据权利要求4所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:步骤2)中,根据源地址和目的地址标识的客户端服务器方向定义数值的正负,从客户端到服务器的数据包,长度值为正,从服务器到客户端的数据包,长度为负。
6.根据权利要求4所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:步骤3)中,构建数据集过程中,一直记录长度对应的源数据包id,后续用于查找特征对应数据包对应位置。
7.根据权利要求1所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:步骤S3中,完整数据集分别通过pearson相关系数和余弦相似度的方式进行分类,对相似度满足一定阈值的数据,认为相似度满足一定阈值的数据为一组相似数据。
8.根据权利要求1所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:步骤S3和步骤S4之间,由聚类产生的具有相似特征的数据为训练样本,标记内容为样本类别,对训练样本通过主成分分析法进行降维处理。
9.根据权利要求2所述的对网络加密流量自动进行特征提取和识别的方法,其特征在于:起始位置是指保存数据包对应的id,该位置用于对后续聚类产生的特征数组对应的位置进行判断,在聚类结果中找出特定上网行为对应的数据特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中安智达科技有限公司,未经北京中安智达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910752472.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:环路检测方法和装置
- 下一篇:基于智能家居控制系统的控制权限的设置方法及装置