[发明专利]一种数据包频度分析的网络代理加密流量特征提取方法在审
申请号: | 201811176875.1 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109286576A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 沈蒙;张晋鹏;祝烈煌;徐恪 | 申请(专利权)人: | 北京理工大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;H04L12/24;G06K9/62;H04L29/06 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种数据包频度分析的网络代理加密流量特征提取方法,属于机器学习以及网络服务安全领域。包括如下步骤:步骤1、基于数据包频度分析结果抽取数据包;步骤2、数据包长度‑时间戳之差聚类,生成聚类结果;步骤3、计算最优类簇数量;步骤4、计算加密流量特征。所述方法引入了基于词频逆文档频率的区分度较大数据包,比直接使用所有数据包更有明显的区分作用;能作用于任何机器学习分类算法上,分类准确率高;引入了数据包长度和时间戳之差聚类,可进一步提升URL不同页面元素相同的网页的分类效果;与现有的加密网络流量分类和识别方法相比具有更高的准确性。 | ||
搜索关键词: | 数据包 加密流量 频度分析 机器学习 特征提取 网络代理 时间戳 聚类 网络服务安全 词频 分类准确率 逆文档频率 大数据包 分类算法 分类效果 加密网络 结果抽取 聚类结果 流量分类 页面元素 区分度 引入 类簇 网页 | ||
【主权项】:
1.一种数据包频度分析的网络代理加密流量特征提取方法,其特征在于:包括如下步骤:步骤1、基于数据包频度分析结果抽取数据包;其中,抽取数据包具体为:将数据包频度分析结果中区分度大的数据包抽取出来;其中,区分度大的数据包是指词频‑逆文档频率不小于0.00001的数据包;步骤1又包括如下子步骤:步骤1.1对捕获到的数据包进行数据包编码,得到编码后数据包;其中,捕获到的数据包为TCP数据包,用于区分TCP数据包的标志位有[SYN]、[SYN,ACK]、[ACK]、[PSH,ACK]和[FIN,ACK];其中,[SYN]表示客户端和服务器之间建立TCP连接时的SYN消息,[SYN,ACK]表示客户端和服务器建立连接时的服务器的应答,[ACK]表示收到消息的确认,[PSH,ACK]表示发出消息的同时对收到的消息进行确认,[FIN,ACK]表示通信双方断开连接;步骤1.2计算步骤1.1输出的编码后数据包的词频tfi,j,tfi,j代表第i种数据包在第j类网页流量中的比例,遍历i和j,又具体包括如下子步骤:步骤1.2A统计第j类网页流量中第i种数据包的个数ni,j;步骤1.2B统计第j类网页中的所有数据包个数总和为∑knk,j;步骤1.2C用第i种数据包的个数ni,j除以第j类网页的所有数据包个数,即通过(1)计算第i种数据包在第j类网页中的词频tfi,j:
其中,k代表第j类网页中的数据包种数;步骤1.3计算步骤1.1输出的编码后数据包的逆文档频率;特定数据包i在网页j流量中的计数为|{j:ti}∈dj|,所有网页流量总数为|D|,通过(2)计算第i种数据包的逆文档频率idfi:
其中,log是以10为底的对数操作;步骤1.4根据步骤1.2和步骤1.3计算得到的词频tfi,j、逆文档频率idfi,通过(3)计算第i种数据包在第j类网页中的词频‑逆文档频率TIi,j:TIi,j=tfi,j×idfi (3)步骤1.5根据步骤1.4得到的词频‑逆文档频率TIi,j,去掉词频‑逆文档频率小于0.00001的数据包,选择剩下的数据包用作分类;步骤2、数据包长度‑时间戳之差聚类,生成聚类结果,具体为:步骤2.1提取网页流量中每条流的第一个上行[PSH,ACK]数据包的长度lp,所有流的第一个上行[PSH,ACK]数据包长度汇集在一个文件中;步骤2.2提取每条流的第一个上行[PSH,ACK]数据包的时间戳信息tu,接着提取每条流的第一个下行[PSH,ACK]数据包的时间戳信息td;再将下行[PSH,ACK]数据包的时间戳信息td减去上行的时间戳信息tu的结果作为时间戳之差t,保存所有网络流的时间戳之差;步骤2.3将每条流中的第一个上行[PSH,ACK]数据包的长度和时间戳之差保存在一个文件中供聚类使用;步骤2.4遍历簇数m从2到qmax,将步骤2.1提取的数据包长度lp和时间戳之差t进行聚类,生成聚类结果Cm;其中,qmax代表最大的类簇数量;qmax=J×3 (4)其中,J为要分类网页的类数;其中,聚类采用K‑Means方法;聚类结果,记为Cm={cent1,…,centm},centm代表第m个类簇中心的中心值;其中,每条流中要参与聚类的元素为(lp,t),两个聚类点clupa,clupb之间的距离dis(clupa,clupb)采用公式(5)计算:
步骤3计算最优类簇数量,具体为:步骤3.1遍历ω基于(6)计算聚类点clup与类簇中心centω的距离和SSE(ω):
其中,P代表聚类点clup的个数;m的取值范围为2到qmax;步骤3.2选择步骤3.1计算的最小SSE(ω)对应的类簇中心数量为最优类簇数量,此最小的SSE(ω)记为SSE(ωopt),此最小SSE(ω)对应的最优类簇中心记为Cm(ωopt);步骤4计算加密流量特征,具体包括如下子步骤:步骤4.1计算步骤1中提取出来的区分度大的数据包的统计特征值(max,min,mean,…,var);步骤4.2计算每条流中上行第一个[PSH,ACK]数据包的大小与时间戳之差形成的二元组与步骤3生成的最优类簇中心Cm(ωopt)之间的距离
其中,步骤4.1的统计特征值(max,min,mean,…,var)与步骤4.2的二元组与类簇中心的距离
作为加密流F的特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811176875.1/,转载请声明来源钻瓜专利网。