[发明专利]一种数据包频度分析的网络代理加密流量特征提取方法在审

申请号：	201811176875.1	申请日：	2018-10-10
公开（公告）号：	CN109286576A	公开（公告）日：	2019-01-29
发明（设计）人：	沈蒙;张晋鹏;祝烈煌;徐恪	申请（专利权）人：	北京理工大学
主分类号：	H04L12/851	分类号：	H04L12/851;H04L12/24;G06K9/62;H04L29/06
代理公司：	北京理工正阳知识产权代理事务所(普通合伙) 11639	代理人：	唐华
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种数据包频度分析的网络代理加密流量特征提取方法，属于机器学习以及网络服务安全领域。包括如下步骤：步骤1、基于数据包频度分析结果抽取数据包；步骤2、数据包长度‑时间戳之差聚类，生成聚类结果；步骤3、计算最优类簇数量；步骤4、计算加密流量特征。所述方法引入了基于词频逆文档频率的区分度较大数据包，比直接使用所有数据包更有明显的区分作用；能作用于任何机器学习分类算法上，分类准确率高；引入了数据包长度和时间戳之差聚类，可进一步提升URL不同页面元素相同的网页的分类效果；与现有的加密网络流量分类和识别方法相比具有更高的准确性。
搜索关键词：	数据包加密流量频度分析机器学习特征提取网络代理时间戳聚类网络服务安全词频分类准确率逆文档频率大数据包分类算法分类效果加密网络结果抽取聚类结果流量分类页面元素区分度引入类簇网页
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种数据包频度分析的网络代理加密流量特征提取方法，其特征在于：包括如下步骤：步骤1、基于数据包频度分析结果抽取数据包；其中，抽取数据包具体为：将数据包频度分析结果中区分度大的数据包抽取出来；其中，区分度大的数据包是指词频‑逆文档频率不小于0.00001的数据包；步骤1又包括如下子步骤：步骤1.1对捕获到的数据包进行数据包编码，得到编码后数据包；其中，捕获到的数据包为TCP数据包，用于区分TCP数据包的标志位有[SYN]、[SYN,ACK]、[ACK]、[PSH,ACK]和[FIN,ACK]；其中，[SYN]表示客户端和服务器之间建立TCP连接时的SYN消息，[SYN,ACK]表示客户端和服务器建立连接时的服务器的应答，[ACK]表示收到消息的确认，[PSH,ACK]表示发出消息的同时对收到的消息进行确认，[FIN,ACK]表示通信双方断开连接；步骤1.2计算步骤1.1输出的编码后数据包的词频tfi,j,tfi,j代表第i种数据包在第j类网页流量中的比例，遍历i和j，又具体包括如下子步骤：步骤1.2A统计第j类网页流量中第i种数据包的个数ni,j；步骤1.2B统计第j类网页中的所有数据包个数总和为∑knk,j；步骤1.2C用第i种数据包的个数ni,j除以第j类网页的所有数据包个数，即通过(1)计算第i种数据包在第j类网页中的词频tfi,j：其中，k代表第j类网页中的数据包种数；步骤1.3计算步骤1.1输出的编码后数据包的逆文档频率；特定数据包i在网页j流量中的计数为|{j:ti}∈dj|,所有网页流量总数为|D|，通过(2)计算第i种数据包的逆文档频率idfi：其中，log是以10为底的对数操作；步骤1.4根据步骤1.2和步骤1.3计算得到的词频tfi,j、逆文档频率idfi，通过(3)计算第i种数据包在第j类网页中的词频‑逆文档频率TIi,j:TIi,j＝tfi,j×idfi (3)步骤1.5根据步骤1.4得到的词频‑逆文档频率TIi,j,去掉词频‑逆文档频率小于0.00001的数据包，选择剩下的数据包用作分类；步骤2、数据包长度‑时间戳之差聚类，生成聚类结果，具体为：步骤2.1提取网页流量中每条流的第一个上行[PSH,ACK]数据包的长度lp,所有流的第一个上行[PSH,ACK]数据包长度汇集在一个文件中；步骤2.2提取每条流的第一个上行[PSH,ACK]数据包的时间戳信息tu，接着提取每条流的第一个下行[PSH,ACK]数据包的时间戳信息td；再将下行[PSH,ACK]数据包的时间戳信息td减去上行的时间戳信息tu的结果作为时间戳之差t，保存所有网络流的时间戳之差；步骤2.3将每条流中的第一个上行[PSH,ACK]数据包的长度和时间戳之差保存在一个文件中供聚类使用；步骤2.4遍历簇数m从2到qmax，将步骤2.1提取的数据包长度lp和时间戳之差t进行聚类，生成聚类结果Cm；其中，qmax代表最大的类簇数量；qmax＝J×3 (4)其中，J为要分类网页的类数；其中，聚类采用K‑Means方法；聚类结果，记为Cm＝{cent1,…,centm},centm代表第m个类簇中心的中心值；其中，每条流中要参与聚类的元素为(lp,t)，两个聚类点clupa,clupb之间的距离dis(clupa,clupb)采用公式(5)计算：步骤3计算最优类簇数量，具体为：步骤3.1遍历ω基于(6)计算聚类点clup与类簇中心centω的距离和SSE(ω)：其中,P代表聚类点clup的个数；m的取值范围为2到qmax；步骤3.2选择步骤3.1计算的最小SSE(ω)对应的类簇中心数量为最优类簇数量，此最小的SSE(ω)记为SSE(ωopt),此最小SSE(ω)对应的最优类簇中心记为Cm(ωopt)；步骤4计算加密流量特征，具体包括如下子步骤：步骤4.1计算步骤1中提取出来的区分度大的数据包的统计特征值(max,min,mean,…,var)；步骤4.2计算每条流中上行第一个[PSH,ACK]数据包的大小与时间戳之差形成的二元组与步骤3生成的最优类簇中心Cm(ω_opt)之间的距离其中，步骤4.1的统计特征值(max,min,mean,…，var)与步骤4.2的二元组与类簇中心的距离作为加密流F的特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811176875.1/，转载请声明来源钻瓜专利网。

上一篇：报文优先级配置方法、装置及网络设备
下一篇：一种多核系统中的分片重组方法、装置及设备

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据包频度分析的网络代理加密流量特征提取方法在审

专利文献下载