[发明专利]编码级多媒体流分类方法有效
申请号: | 201210364924.0 | 申请日: | 2012-09-26 |
公开(公告)号: | CN102883182A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 张大陆;周华磊 | 申请(专利权)人: | 同济大学 |
主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/2343;H04N21/6437 |
代理公司: | 上海光华专利事务所 31219 | 代理人: | 李仪萍 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码 多媒体 分类 方法 | ||
技术领域
本发明属于网络通信领域,涉及一种流分类方法,特别是涉及一种编码级多媒体流分类方法。
背景技术
随着视频点播、视频会议、VOIP等流媒体应用的普及,网络中多媒体流量的比例正逐步提高,网络运营商也正努力实现对多媒体流的识别,从而能够根据不同的策略对它们进行相应的处理。然而,相关研究表明,网络中的QoS参数对于不同应用类型甚至不同编码的多媒体流所产生的影响存在差异。因此,对于多媒体流的编码级分类是面向用户体验的网络管理亟需解决的问题。
当前的流分类方法主要包括基于特定字段的分类、基于主机行为的分类、深度报文检测(DPI)以及机器学习。基于特定字段的分类利用报文头部的端口、协议域等进行流分类,但目前动态端口技术以及私有协议的大量使用导致越来越多的流量无法被这类方法识别。基于主机行为的分类方法利用主机之间的连接模式进行流分类,但这类方法依赖于拓扑位置和连接状态,无法进行大规模应用。DPI技术通过扫描报文的载荷进行关键字的匹配,从而完成流分类,通常这类方法具有较高的识别准确率,但它们需要较长的搜索时间而且无法识别加密流量,同时也涉及用户隐私等问题。基于机器学习的流分类方法则是利用报文级别或者流级别特征(比如报文长度、包间间隔、流的持续时间等)设计分类器并应用于流分类,这类方法能够较好地应对动态端口、私有协议、加密流量等问题,因此也成为了目前流分类研究领域的热点。
基于机器学习算法的流分类器主要分为两类:离线分类器和在线分类器。离线分类器利用完整流(包含流的所有数据包)的统计特征完成分类。A. Moore等提出了一种基于朴素贝叶斯算法的流分类方法,该方法利用流的200多个特征获得了95%以上的分类准确率。R. Sun等提出了基于随机神经网络的流分类方法,并利用流的22个特征获得了90%左右的分类准确率。但这类方法需要统计每条流所包含的所有报文,因此只能进行离线分类,无法满足在线业务的需求。在线分类器则利用流的少量起始数据包的统计特征完成分类,因此能够进行实时的流分类。L.Bernaille等提出了一种基于观察窗口的流分类器,当观察窗口的大小设置为5时,即只提取流的前5个报文的统计特征,该分类器采用聚类算法,并获得了90%左右的总体分类准确率。W.Li等基于同一思想,设计了基于C4.5的分类器,并获得了高达99.8%的分类准确率。
然而,已有的基于机器学习的流分类方法主要用于流量所属应用类型的分类,比如将IP流分为WWW、P2P、ATTACK、Multimedia等不同类型的流。也有部分研究专门针对多媒体流的分类,但仍然面向具体应用层面的分类,比如将多媒体流分为Skype、IPTV、IM等类型,而很少有细化到编码级的多媒体流分类方法。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种编码级多媒体流分类方法,用于解决现有技术中在线多媒体流分类准确率不高的问题。
为实现上述目的及其他相关目的,本发明提供一种编码级多媒体流分类方法,该方法至少包括以下步骤:
1)采集流,通过分类得到该流的编码类型,并分析该流的统计特征;所述该流的编码类型和获得的各个统计特征的数值构成一样本;所述样本构成数据集;所述统计特征包括平均报文长度、平均包间间隔、报文长度标准差、包间间隔标准差和平均比特率;
2)从所述数据集中划分出训练集,并采用所述训练集训练流分类器,得到编码级多媒体流分类器;
3)采用所述编码级多媒体流分类器对待分类流的统计特征进行分析,得到所述待分类流的编码类别。
可选地,于所述步骤3)中,在采用所述编码级多媒体流分类器对待分类流进行分析之前还包括如下步骤:路由器接收报文并利用该报文的五元组从其维护的流表中查找该报文所属的流,若无法找到,则在流表中新建待分类流,并等待下一个报文;若能够找到,则接着判断该流是否已分类,若已分类,则获取该流编码类型并等待下一个报文,若未分类,则将该流汇聚,并更新计数器,然后判断该待分类流报文数量是否达到窗口大小,若未达到,则继续等待下一个报文,若达到窗口大小,则将该待分类流的统计特征输入所述编码级多媒体流分类器。
可选地,所述五元组包括源IP地址、源端口、目的IP地址、目的端口和传输层协议。
可选地,所述窗口大小为整数,其取值范围是10~25。
可选地,于所述步骤2)中,采用机器学习算法训练分类器。
可选地,所述机器学习算法包括C4.5决策树算法、KNN算法和朴素贝叶斯算法中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210364924.0/2.html,转载请声明来源钻瓜专利网。