[发明专利]一种数据包频度分析的网络代理加密流量特征提取方法在审

专利信息
申请号: 201811176875.1 申请日: 2018-10-10
公开(公告)号: CN109286576A 公开(公告)日: 2019-01-29
发明(设计)人: 沈蒙;张晋鹏;祝烈煌;徐恪 申请(专利权)人: 北京理工大学
主分类号: H04L12/851 分类号: H04L12/851;H04L12/24;G06K9/62;H04L29/06
代理公司: 北京理工正阳知识产权代理事务所(普通合伙) 11639 代理人: 唐华
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种数据包频度分析的网络代理加密流量特征提取方法,属于机器学习以及网络服务安全领域。包括如下步骤:步骤1、基于数据包频度分析结果抽取数据包;步骤2、数据包长度‑时间戳之差聚类,生成聚类结果;步骤3、计算最优类簇数量;步骤4、计算加密流量特征。所述方法引入了基于词频逆文档频率的区分度较大数据包,比直接使用所有数据包更有明显的区分作用;能作用于任何机器学习分类算法上,分类准确率高;引入了数据包长度和时间戳之差聚类,可进一步提升URL不同页面元素相同的网页的分类效果;与现有的加密网络流量分类和识别方法相比具有更高的准确性。
搜索关键词: 数据包 加密流量 频度分析 机器学习 特征提取 网络代理 时间戳 聚类 网络服务安全 词频 分类准确率 逆文档频率 大数据包 分类算法 分类效果 加密网络 结果抽取 聚类结果 流量分类 页面元素 区分度 引入 类簇 网页
【主权项】:
1.一种数据包频度分析的网络代理加密流量特征提取方法,其特征在于:包括如下步骤:步骤1、基于数据包频度分析结果抽取数据包;其中,抽取数据包具体为:将数据包频度分析结果中区分度大的数据包抽取出来;其中,区分度大的数据包是指词频‑逆文档频率不小于0.00001的数据包;步骤1又包括如下子步骤:步骤1.1对捕获到的数据包进行数据包编码,得到编码后数据包;其中,捕获到的数据包为TCP数据包,用于区分TCP数据包的标志位有[SYN]、[SYN,ACK]、[ACK]、[PSH,ACK]和[FIN,ACK];其中,[SYN]表示客户端和服务器之间建立TCP连接时的SYN消息,[SYN,ACK]表示客户端和服务器建立连接时的服务器的应答,[ACK]表示收到消息的确认,[PSH,ACK]表示发出消息的同时对收到的消息进行确认,[FIN,ACK]表示通信双方断开连接;步骤1.2计算步骤1.1输出的编码后数据包的词频tfi,j,tfi,j代表第i种数据包在第j类网页流量中的比例,遍历i和j,又具体包括如下子步骤:步骤1.2A统计第j类网页流量中第i种数据包的个数ni,j;步骤1.2B统计第j类网页中的所有数据包个数总和为∑knk,j;步骤1.2C用第i种数据包的个数ni,j除以第j类网页的所有数据包个数,即通过(1)计算第i种数据包在第j类网页中的词频tfi,j:其中,k代表第j类网页中的数据包种数;步骤1.3计算步骤1.1输出的编码后数据包的逆文档频率;特定数据包i在网页j流量中的计数为|{j:ti}∈dj|,所有网页流量总数为|D|,通过(2)计算第i种数据包的逆文档频率idfi:其中,log是以10为底的对数操作;步骤1.4根据步骤1.2和步骤1.3计算得到的词频tfi,j、逆文档频率idfi,通过(3)计算第i种数据包在第j类网页中的词频‑逆文档频率TIi,j:TIi,j=tfi,j×idfi   (3)步骤1.5根据步骤1.4得到的词频‑逆文档频率TIi,j,去掉词频‑逆文档频率小于0.00001的数据包,选择剩下的数据包用作分类;步骤2、数据包长度‑时间戳之差聚类,生成聚类结果,具体为:步骤2.1提取网页流量中每条流的第一个上行[PSH,ACK]数据包的长度lp,所有流的第一个上行[PSH,ACK]数据包长度汇集在一个文件中;步骤2.2提取每条流的第一个上行[PSH,ACK]数据包的时间戳信息tu,接着提取每条流的第一个下行[PSH,ACK]数据包的时间戳信息td;再将下行[PSH,ACK]数据包的时间戳信息td减去上行的时间戳信息tu的结果作为时间戳之差t,保存所有网络流的时间戳之差;步骤2.3将每条流中的第一个上行[PSH,ACK]数据包的长度和时间戳之差保存在一个文件中供聚类使用;步骤2.4遍历簇数m从2到qmax,将步骤2.1提取的数据包长度lp和时间戳之差t进行聚类,生成聚类结果Cm;其中,qmax代表最大的类簇数量;qmax=J×3   (4)其中,J为要分类网页的类数;其中,聚类采用K‑Means方法;聚类结果,记为Cm={cent1,…,centm},centm代表第m个类簇中心的中心值;其中,每条流中要参与聚类的元素为(lp,t),两个聚类点clupa,clupb之间的距离dis(clupa,clupb)采用公式(5)计算:步骤3计算最优类簇数量,具体为:步骤3.1遍历ω基于(6)计算聚类点clup与类簇中心centω的距离和SSE(ω):其中,P代表聚类点clup的个数;m的取值范围为2到qmax;步骤3.2选择步骤3.1计算的最小SSE(ω)对应的类簇中心数量为最优类簇数量,此最小的SSE(ω)记为SSE(ωopt),此最小SSE(ω)对应的最优类簇中心记为Cm(ωopt);步骤4计算加密流量特征,具体包括如下子步骤:步骤4.1计算步骤1中提取出来的区分度大的数据包的统计特征值(max,min,mean,…,var);步骤4.2计算每条流中上行第一个[PSH,ACK]数据包的大小与时间戳之差形成的二元组与步骤3生成的最优类簇中心Cm(ωopt)之间的距离其中,步骤4.1的统计特征值(max,min,mean,…,var)与步骤4.2的二元组与类簇中心的距离作为加密流F的特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811176875.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top