[发明专利]一种基于二级决策树的P2P协议识别方法有效
| 申请号: | 201210228876.2 | 申请日: | 2012-07-02 |
| 公开(公告)号: | CN103532908A | 公开(公告)日: | 2014-01-22 |
| 发明(设计)人: | 薛一波;张洛什 | 申请(专利权)人: | 清华大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 韩国胜 |
| 地址: | 100084 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 二级 决策树 p2p 协议 识别 方法 | ||
技术领域
本发明涉及P2P协议识别技术领域,尤其涉及一种基于二级决策树的P2P协议识别方法。
背景技术
随着高速网络技术和多媒体技术的飞速发展,业界越来越多地提出了包括多媒体通信在内的综合服务要求。然而,急速增长的用户数量和流量不断降低网络性能,尤其是基于P2P协议的软件(如迅雷、PPTV、BT等)所产生的流量占据了大量带宽,严重影响关键业务的正常使用。P2P协议识别技术能够监控P2P协议使用情况,管理P2P流量,保障关键业务,解决网络拥塞,逐渐成为了国内外的研究热点。
早期的P2P协议识别方法,通常判断所获取的网络流数据包载荷中是否存在能够代表P2P协议的固定关键字,因此,基于数据包载荷的P2P协议识别技术首先需要发现P2P协议中所包含的不变的、具有唯一代表性的关键字,之后利用高效的模式匹配及正则表达式匹配算法识别数据包中的关键字信息,以达到P2P协议识别的目的。然而,随着P2P技术的日益发展,P2P协议的变化也日渐复杂,一方面采用随机端口模式来提高系统效率,逃避检测,另一方面则去掉能够代表P2P协议的固定关键字,以便防止对P2P协议的检测和监控,甚至一些对安全性能要求较高的P2P协议,采用加密协议的方法对通信内容进行加密,进一步阻止了对P2P协议进行发现。在这种情况下,寻找P2P协议的数据包载荷关键字的难度越来越大,最终导致基于数据包载荷的P2P协议识别技术严重失效。
近年来,基于统计特征的P2P协议识别技术逐渐成为业界关注的热点。不同于基于数据包载荷的P2P协议识别技术,基于统计特征的P2P协议识别技术着眼于从网络流中提取的统计特征信息,并利用这些统计特征所代表的内在特性实现P2P协议识别。基于统计特征的P2P协议识别技术利用P2P协议在数据传输过程中存在着其特有的网络流统计特性的特点,以此来识别P2P协议,甚至能够有效区分不同的P2P协议。
然而,随着网络技术的不断发展,采用P2P协议的新型应用层出不穷,主要开始呈现两个方面的变化。
一方面是统计特征的变化。P2P协议通常用于高速网络数据传输,因此流量的统计特征不固定且变化较大,已有的基于统计特征的P2P协议识别方法对P2P协议的识别准确率并不高,识别效率也较差。
另一方面则是流量特性的变化。P2P协议在使用过程中通常会同时产生多个网络流进行数据传输和通信,并且会与多个其他P2P节点互相进行交互,这种情况下,传统的基于单一网络流的协议识别技术已经不能对P2P协议进行有效识别,急需提出一种新的针对P2P协议所产生的多个网络流情况的协议识别方法来提高协议识别的准确性和有效性,避免对网络流的漏识别或错误识别。
合理利用P2P协议所产生的多个网络流统计特征进行协议识别,不仅能够极大地提升基于统计特征的P2P协议识别系统的性能,还能够应对不断增多的P2P协议及应用带来的挑战。然而,目前大多数基于统计特征的P2P协议识别方法仅是简单地将大量的统计特征输入到模型中进行训练和检测,并没有合理的利用统计特征中蕴含的知识,影响了P2P协议识别系统的性能。特别是随着P2P协议的广泛应用,P2P协议识别系统需要处理更多的统计特征,使得基于统计特征的P2P协议识别技术面临更大的挑战。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:提供一种基于统计特征的P2P协议识别方法,能够更好地利用蕴含在大量统计特征中的知识,提升基于统计特征的P2P协议识别系统的性能,应对迅速增多的P2P应用所带来的挑战。
(二)技术方案
为了解决上述问题,本发明提供了一种基于二级决策树的P2P协议识别方法。本方法通过对P2P协议的通信过程及网络流量的大量分析,将P2P协议和应用在使用过程中所产生的网络流依据功能性的差别分成了5种不同的类型,每种类型均表示P2P协议中的一个可能出现的行为特征,利用这种行为特征所产生的统计特征,同时采用二级决策树方法,能够有效的识别P2P协议及应用。该方法首先对网络流统计特征进行分类,然后根据其分类特点,训练二级决策树;在识别阶段,首先利用第一级决策树处理网络流统计特征,然后将处理结果输入到第二级决策树进行处理并输出识别结果。
本发明的基于二级决策树的P2P协议识别方法包括步骤:
S1.获得纯净的P2P协议流量和非P2P协议流量,并从网络流量中提取一级网络流统计特征集作为一级训练集;
S2.根据步骤S1所提取的一级网络流统计特征集分别训练一、二级分类决策树模型集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210228876.2/2.html,转载请声明来源钻瓜专利网。





