[发明专利]一种基于网络包载荷的卷积神经网络流量分类方法及系统有效
申请号: | 201811122301.6 | 申请日: | 2018-09-26 |
公开(公告)号: | CN109361617B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 周旭;徐陆阳;任勇毛;覃毅芳 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 载荷 卷积 神经 网络流量 分类 方法 系统 | ||
本发明涉及一种基于网络包载荷的卷积神经网络流量分类方法及系统,其中,方法包括以下步骤:将网络抓包所得pcap文件中所有的数据包传输层的去除头部后的载荷数据提出取来,将数据包的载荷的信息转换为字节序列,随机打乱数据顺序并且进行训练集、验证集和测试集的分割;将结构化的数据输入一维卷积神经网络进行训练,完成神经网络隐藏单元的权重参数调整;在验证集和测试集上进行性能验证,若达不到性能指标,则反馈给模型训练模块继续调整模型参数。本发明可以免除繁琐的人工标注工作,只需要流量数据包的载荷数据即可完成高精度分类。用户只需将模型部署到合适的位置,即可随时随机的截取链路中的数据包输入模型即可得到流量类别结果。
技术领域
本发明涉及计算机网络与网络安全领域中的流量识别、分类与检测方法,具体而言,本发明涉及一种基于网络流量包载荷分析的卷积神经网络(Convolutional NeuralNetwork,CNN)流量分类方法及系统。
背景技术
网络流量分类是根据不同的业务流或者应用流将在网络链路中的流量数据划分并识别为某种确切的种类。网络流量分类是现代通讯网络中的一个重要任务,它为网络质量检测、网络入侵检测、恶意软件检测、运营商监管调控与定价等应用领域提供了判断依据与底层技术支持。随着当今移动互联网的蓬勃发展,移动端与终端侧大量新型网络应用的出现,致使当今的网络流量出现了以下三个特点:1、网络流量数据规模庞大;2、网络应用类型复杂且繁多;3、网络协议异构且多样。针对新型的网络特点,如何精准高效的对网络流量进行分类是一个亟待解决的问题。
传统的网络流量分类方法主要有一下三种:1、基于固定端口的分类方法。我们熟知的HTTP类型应用的端口为80,MySQL应用端口为3306等。但是越来越多的应用采用不固定的端口或者动态端口,对于当今的海量网络应用,该种流量分类方法已不能满足要求。2.基于DPI(Deep Packet Inspection)技术的分类方法。深度包解析技术需要对数据包从底层至顶层依次解析报文来查看数据包具体的各个字段的信息以及负载。DPI技术需要大量的匹配规则,同时对于计算能力和内存的消耗较大,在实际工程中部署限制较大。3.基于统计规则的机器学习识别方法。基于统计特征的方法首先都要进行繁琐耗时的人工的特征提取工作,例如数据包大小的平均值、方差,同一条流内的数据包的到达时间间隔等特征。此方法需要大量的手工标注工作来统计整理特征数据。
考虑到当前网络与网络应用的特点,固定的端口和固定的匹配规则、计算和内存资源的大量消耗、繁琐的人工特征统计过程都扼杀了在网络链路上进行实时分类的可能性。
发明内容
本发明的目的在于,鉴于上述问题,为提高网络流量分类的准确率,降低工程上的资源消耗,同时可以达到在链路上的实时部署。
为实现上述目的,一方面,本发明提供了一种基于网络包载荷的卷积神经网络流量分类方法,该方法包括以下步骤:
将网络抓包所得pcap文件中所有的数据包传输层的去除头部后的载荷数据提出取来,将数据包的载荷的信息转换为字节序列,随机打乱数据顺序并且进行训练集、验证集和测试集的分割;将结构化的数据输入一维卷积神经网络进行训练,完成神经网络隐藏单元的权重参数调整;在验证集和测试集上进行性能验证,若达不到性能指标,则反馈给模型训练模块继续调整模型参数。
优选地,本发明提取数据包载荷的前784个字节,不足的用0x00补齐,将其作为一个1*784的序列,使用一维卷积神经网络处理包载荷序列,完成流量数据包的分类。
优选地,本发明对于pcap文件,依次遍历每一个数据包,移除传输层头部,将每一个数据包的TCP或者UDP的载荷部分提取出来并且按照字节形成10进制表示的数据文件。
优选地,本发明选取数据集中未经VPN加密的流量作为训练数据,根据采集流量的应用类型将流量数据划分为六类。
优选地,当训练集样例分布不均衡时,采用过采样或者欠采样方式来弥补数据不均衡对分类精度带来的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811122301.6/2.html,转载请声明来源钻瓜专利网。