[发明专利]一种基于BoW模型和统计特征的流量识别方法有效
申请号: | 201110419267.0 | 申请日: | 2011-12-14 |
公开(公告)号: | CN102571486A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 陈凯;张寅;周曲;周异;杨小康 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/24 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bow 模型 统计 特征 流量 识别 方法 | ||
技术领域
本发明涉及一种对网络数据流进行识别的方法,特别是采用BoW(Bag of Words)这一机器学习模型配合提出的特征提取方法来进行预测建模。
背景技术
在20世纪90年代末、本世纪初,涌现出了一批又一批关于互联网流量分类技术的实验和尝试,其中更包含有革命性的技术创新。科学技术研究的一大主要推动力即是实际的应用需求,纵观整个互联网发展过程,流量识别主要在如下几个方面扮演着极其重要的角色:
●互联网服务提供商们(ISPs)需要知道他们的用户正在使用哪些应用、或是获取应用的发展趋势,从而实施各种商业目标。诸如为不同优先级别的用户动态分配网络资源、提供特定的QoS服务,锁定使用了违反条例或相关法律的应用的特定用户,或者分析应用发展趋势来规划未来的业务分布;
●充当入侵检测系统(IDS)的核心部件,通过模式匹配等方法帮助实时监测识别出如拒绝服务攻击(DoS)、蠕虫(Worm)攻击等恶意网络行为;
●互联网流量识别也是政府基于ISP来监控、侦听网络的一种重要手段。
目前在市面上广泛应用的流量识别技术是基于报文载荷内容的DPI识别技术,尽管DPI技术精确度高,但是除了其分类速度慢且对于加密载荷无法识别以外,其对报文内容的窥探也被普遍地诟病为是对用户隐私的侵犯。
经检索,中国发明专利申请号:200910034643.7,公开号为101645806,该专利自述为:“本发明公开了一种DPI和DFI相结合的网络流量分类系统及分类方法,包括DPI业务识别系统和DFI流量识别系统两个模块结合而成;其中DPI模块又包括流表检测模块和流量识别模块;DFI模块包括样本获取模块,分类器训练模块和分类器分类预测模块。样本获取模块将DPI中的流量识别模块能够准确识别的数据流划分成几个大类,并且将其作为样本对分类器训练模块进行训练,获得能对网络流量进行大类区分的分类模型,然后DPI的流量识别模块无法识别的流量再通过DFI的分类器分类预测模块就能达到对DPI无法识别的流量进行大类区分的目的。”但是同样的,该技术仍旧没有解决上述的问题。
因此科研工作者们就转换思路,利用网络流量的特征来进行机器学习,构造流量分类器来对数据流进行识别。因此本发明同样地继承了这一思路,利用目前十分常用的BoW模型来对网络数据流进行识别。
BoW(Bag Of Words)算法也称为词袋算法,起源于基于语义的文本检索算法,是一种有效地基于语义特征提取与描述的物体识别算法。以文本检索为例,介绍一下BoW模型的特性,BoW模型在进行信息检索时,假定对于一个文本,忽略其词序和语法、句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每一个词的出现都是独立的,不依赖于其他词的是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择。简而言之,就是BoW对于特征的顺序以及它们之间的逻辑关系不敏感。这在一些情况下可能会导致一些问题的出现,然而在流量识别领域,这反倒成为了一个优势,使得在提取流量特征的时候不需要考虑按照特征的时序进行顺序排列,简化了特征提取的过程。另外,由于本发明BoW模型结合了非监督的聚类方法以及有监督的K-近邻方法,因而更适合于进行多分类。
发明内容
本发明的目的在于针对当前网络流量识别过程中DPI方法的种种缺陷,提供一种基于BoW模型和统计特征的流量识别方法,创造性地利用网络流量特征结合BoW方法,从而实现对于网络流量快速、精确的识别。
为实现上述目的,本发明方法采用了BoW模型,配合特征提取方法,训练采集到的网络流量特征,从而获得每一个网络类别所对应的特征向量。对于新来的网络流量,同样能够通过提取其流量特征,利用BoW建模得到其相应的特征向量,然后依次与先前建立好的每一个网络类别的特征向量进行比较,取匹配度最高的特征向量所对应的类别作为新来的网络流量的分类标签。
本发明所述的基于BoW模型和统计特征的流量识别方法,包括以下步骤:
(1)如果类别特征向量尚未建立,执行步骤(2),否则转入步骤(4);
(2)采用预设的特征采集方法获取训练集中各个网络流量对象的向量表示;
(3)BoW模型第一步,先将这些训练集中的向量聚为k个中心点,即k个words;
(4)BoW模型第二步,利用K-NN将对应类别的所有向量与这k个words进行近邻分析,
最终得出各个类别的特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110419267.0/2.html,转载请声明来源钻瓜专利网。