[发明专利]一种基于SVM的大规模P2P流量数据的离线分析方法在审
申请号: | 201711018881.X | 申请日: | 2017-10-26 |
公开(公告)号: | CN109714379A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李海峰;朱彤 | 申请(专利权)人: | 北京航天长峰科技工业集团有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征向量 存储模块 离线分析 流量数据 数据传输 数据采集模块 采集模块 初步处理 任务计算 设置数据 数据流向 编程 捕获 应用 写入 存储 | ||
1.一种基于SVM的大规模P2P流量数据的离线分析方法,其特征在于:依照数据流向设置数据采集模块、数据传输与存储存储模块和P2P流量识别模块,其中:
数据采集模块负责捕获流量数据,在流量采集模块启动时,先通过设备管理函数把网卡设成侦听状态,此状态下的引擎能够捕获流量引擎的所有流量;
数据传输与存储模块负责对流量数据的初步处理并将其写入HDFS;通过数据传输与存储模块完成了对每个数据集的分流;
P2P流量训练与识别模块基于MapReduce编程实现,应用mapreduce任务计算出特征向量的各个分量;应用SVM算法,先计算出每一个流的特征向量,完成SVM特征向量训练,生成P2P流量模型,然后根据训练得到的模型进行判断,从而识别是否为P2P流量。
2.根据权利要求1所述的基于SVM的大规模P2P流量数据的离线分析方法,其特征在于:数据采集模块负责捕获流量数据时,首先确定有无网络设备可用,确定目标网卡之后,再进行数据捕获。
3.根据权利要求1所述的基于SVM的大规模P2P流量数据的离线分析方法,其特征在于:数据传输与存储模块由3个组件组成,分别为文件读取、流量数据预处理和数据写入,文件读取负责从本地磁盘读取流记录文件并将其切分成单条记录;流量数据预处理负责对流量数据进行初步处理,主要包括去除重复包和错误包,以及一些本地局域网数据包,然后将数据集按本地{IP、port}对进行分流;数据写入负责将数据写入HDFS,数据存储由HDFS完成。
4.根据权利要求1所述的基于SVM的大规模P2P流量数据的离线分析方法,其特征在于:所述特征向量计算方法如下:
(1)将一个应用产生的IP对数也作为一个特征,Map阶段,将同一个流各split按外部IP进行区分,Reduce阶段,合并具有相同外部IP的分组集,得出该流的不同会话;将一个流分为不同会话后,得出该流的会话数;
(2)将下行流量和上行流量大小之比作为一个特征,Map阶段,遍历区分出split的上下行分组数;Reduce阶段,求和,得出各连接上行包总数和下行包总数,最后计算上行包数量与下行包数量的比值;
(3)将上行流量和下行流量包大小的方差作为两个特征;Map阶段,区分各split的上下行数据集并得出上下行分组数,计算其总大小;Reduce阶段,合并上下行数据总大小和分组总数,最后计算出属性3的值。
(4)在传输层主要使用UDP协议进行文件数据的转移;Map阶段,结合属性2与属性3的计算结果,分别求出各split上行与下行分组的长度与平均长度差的平方和;Reduce阶段,分别对上行与下行数据合并其全部分组的平方和并求出上行与下行分组长度的平方差;
(5)将其上下行数据包的平均大小的比值作为一个特征;Map阶段:遍历出将协议字段为UDP的分组,得出各split的UDP分组数;Reduce阶段,合并出UDP分组总数并得出该流中UDP包的频率。
5.根据权利要求1所述的基于SVM的大规模P2P流量数据的离线分析方法,其特征在于:在SVM训练阶段,得出每个流的特征向量后,汇总得到数据集的特征向量集,然后对其进行SVM训练得出该数据集的特征模型。
6.根据权利要求1所述的基于SVM的大规模P2P流量数据的离线分析方法,其特征在于:在P2P流量识别阶段,得出数据集每个流的特征向量后,可基于学习到的模型进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天长峰科技工业集团有限公司,未经北京航天长峰科技工业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711018881.X/1.html,转载请声明来源钻瓜专利网。