[发明专利]一种对网络加密流量自动进行特征提取和识别的方法有效

专利信息
申请号: 201910752472.5 申请日: 2019-08-15
公开(公告)号: CN110391958B 公开(公告)日: 2021-04-09
发明(设计)人: 徐锐;代宏伟 申请(专利权)人: 北京中安智达科技有限公司
主分类号: H04L12/26 分类号: H04L12/26;G06K9/62
代理公司: 北京高文律师事务所 11359 代理人: 徐江华;李宝玉
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 加密 流量 自动 进行 特征 提取 识别 方法
【说明书】:

发明提供一种对网络加密流量自动进行特征提取和识别的方法,包括下列步骤:S1:数据采集阶段,使用抓包工具对网络加密数据流量进行抓取;S2:数据预处理阶段,将数据包进行过滤,排除无用包干扰,得到用于特征提取的样本数据,构建完整数据集;S3:特征提取阶段,采用相似度算法对数据预处理阶段产生的完整数据集进行相似度分类,对具有高相关性、高相似度的数据进行聚类的方式进行特征提取;S4:数据建模阶段,对聚类后的数据进行标记,采用机器学习算法构建分类模型,数据验证模型的准确性和识别效果。

技术领域

本发明涉及大数据处理领域和网络安全领域,尤其是涉及一种基于机器学习算法对大数据网络加密流量自动进行特征提取和识别的方法。

背景技术

在传统网络安全和网络监管中,通过提取网络流量中的明文内容获取信息,达到对网络恶意流量的监控、用户信息的识别、非法行为的捕获等目的。但随着加密技术的发展,越来越多的网络数据进行加密通信,加密数据即使被监听也很难从中获取有效信息,为了有效进行网络监管,如何从加密数据中提取有效信息成了研究网络安全方面技术的重点。

目前利用大数据对加密流量进行识别的研究主要用于针对异常流量和病毒识别方面,研究基于对整个协议层数据进行处理,网络环境复杂,工程量大。在针对网络用户行为识别方面,多数还是基于DPI深度包分析,从应用层加密内容中提取具有规律且能用来进行标识的特征值(有规律的字符串),来进行用户行为识别,该类方法在实际操作过程中,寻找特征值的工作量繁琐,维护困难,并且在加密技术的不断改进下,寻找特征值的方式也逐渐变的困难。

发明内容

本发明提供了一种对网络加密流量自动进行特征提取和识别的方法,将传统加密数据流量识别方法和机器学习分类方法相结合,其中,传统加密数据流量识别方式是通过DPI深度包检测方法对加密内容进行研究,提取数据包特征,对提取的特征尝试多种组合方式,并通过聚类方式对组合的数据集进分类提取特征数组并添加标记;基于大数据机器学习算法,是对处理好的数据进行学习建模,构建分类器模型达到对目标行为识别效果。因此,通过形成一套完整的特征提取和数据建模流程,解决了对特定目标数据进行识别的问题。

其技术方案如下所述:

一种对网络加密流量自动进行特征提取和识别的方法,包括下列步骤:

S1:数据采集阶段,使用抓包工具对网络加密数据流量进行抓取;

S2:数据预处理阶段,将数据包进行过滤,排除无用包干扰,得到用于特征提取的样本数据,构建完整数据集;

S3:特征提取阶段,采用相似度算法对数据预处理阶段产生的完整数据集进行相似度分类,对具有高相关性、高相似度的数据进行聚类的方式进行特征提取;

S4:数据建模阶段,对聚类后的数据进行标记,采用机器学习算法构建分类模型,数据验证模型的准确性和识别效果。

进一步的,步骤S1中,抓包工具对网卡进行监控,重复执行特定上网行为,用抓包工具对期间产生的加密数据流量进行采集,采集过程中记录行为产生加密数据流量的起始位置。

抓包工具对获取的加密流量数据包进行特征提取,提取加密数据包的基本特征,所述基本特征包括捕获时间、ip地址、端口、协议类型、应用层加密内容和长度。

进一步的,步骤S2中,将数据包进行过滤以及排除无用包干扰包括以下步骤:

1)根据端口对协议类型进行判断,将非加密协议的数据包过滤,加密协议端口为443;

2)根据四元组和数据包时序对数据包进行排序,过滤乱序和重发的数据包;

3)对数据包应用层长度为零的数据包进行过滤。

过滤后,将网络数据流量提取成多条完整的加密会话流量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中安智达科技有限公司,未经北京中安智达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910752472.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top