[发明专利]一种数据包频度分析的网络代理加密流量特征提取方法在审
申请号: | 201811176875.1 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109286576A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 沈蒙;张晋鹏;祝烈煌;徐恪 | 申请(专利权)人: | 北京理工大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;H04L12/24;G06K9/62;H04L29/06 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据包 加密流量 频度分析 机器学习 特征提取 网络代理 时间戳 聚类 网络服务安全 词频 分类准确率 逆文档频率 大数据包 分类算法 分类效果 加密网络 结果抽取 聚类结果 流量分类 页面元素 区分度 引入 类簇 网页 | ||
本发明涉及一种数据包频度分析的网络代理加密流量特征提取方法,属于机器学习以及网络服务安全领域。包括如下步骤:步骤1、基于数据包频度分析结果抽取数据包;步骤2、数据包长度‑时间戳之差聚类,生成聚类结果;步骤3、计算最优类簇数量;步骤4、计算加密流量特征。所述方法引入了基于词频逆文档频率的区分度较大数据包,比直接使用所有数据包更有明显的区分作用;能作用于任何机器学习分类算法上,分类准确率高;引入了数据包长度和时间戳之差聚类,可进一步提升URL不同页面元素相同的网页的分类效果;与现有的加密网络流量分类和识别方法相比具有更高的准确性。
技术领域
本发明涉及一种数据包频度分析的网络代理加密流量特征提取方法,尤其涉及一种基于数据包频度与数据包长度和时间戳之差聚类的机器学习Shadowsocks代理的加密流量特征提取方法,旨在为识别Shadowsocks加密过后的网页流量提供区分度大的流量特征,属于机器学习以及网络服务安全领域。
背景技术
流量是网络信息传输的载体。Shadowsocks是一种基于SOCKS5的加密代理技术,作用在传输层和应用层之间为用户提供代理服务。本发明所指流量识别技术是对经过Shadowsocks加密过后的流量进行细粒度的分类识别。通过对Shadowsocks流量进行细粒度的分类识别,可以对用户的上网习惯进行分析,也可以及时发现恶意页面的流量实施有效的拦截和屏蔽,保障网络安全。在实际应用中,通过将该类识别功能部署在路由器等网关节点中,可以及早发现并屏蔽恶意页面的流量,确保网络安全。
现有的流量识别方法主要包含两大类:明文流量识别和加密流量识别。在明文流量识别中采取的主要技术是深度数据包检测和端口检测。随着加密技术的采用和跳变端口技术的采用,网络通信过程中的数据包被加密,深度数据包检测技术和端口检测技术逐渐失去了效用。现在的研究热点主要集中在加密流量识别中。流量的加密技术主要有两种:SSL/TLS(安全套接层/传输层安全)协议和基于Socks5的加密代理协议。目前针对标准SSL/TLS加密后的流量识别技术研究比较充分,而针对基于Socks5的加密代理流量的识别则不是很充分。Shadowsocks是一种基于Socks5的加密代理技术。
在Shadowsocks加密网络流量分类和识别方面,可检索到的关联最大的两项专利为:
(1)现有文献提出两种分类Secure Shell(SSH)协议加密后的流量识别方法。研究者用到的数据包分类特征为数据包的大小和数据包的方向。通过对数据包大小和方向向量化表示,作者采用高斯混合模型(Gaussian Mixture Models,GMM)和支持向量机(SupportVector Machines,SVM)对SSH协议加密过后的网络流量进行分类。该种分类方法的识别是粗粒度识别,可以对应用层的不同协议进行识别,如识别HTTP、POP3和SEMULE等不同应用层协议的流量。
(2)已有专利提出了一种在背景流量中检测Shadowsocks流量的方法。研究者将总的数据包个数、流出数据包个数、流入数据包个数、传输时间、流入数据包的比例、流出数据包的比例、最大数据包长度、平均数据包长度等信息进行特征提取,将提取好的特征值放入随机森林(Random Forest)分类器中进行分类可以从背景流量中有效识别出Shadowsocks流量,识别的准确率为85%。这种方法只是从背景流量中识别Shadowsocks流量,不能进行进一步的细粒度的流量分类。
综上所述,在SSH流量分类领域有对SSH粗粒度的分类,而对使用Shadowsocks加密后的代理流量识别领域,目前仅有从背景流量中识别Shadowsocks流量的方法,还没有对Shadowsocks加密过后的流量进行细粒度识别的方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811176875.1/2.html,转载请声明来源钻瓜专利网。