[发明专利]基于粒子群优化算法的视频流特征选择与分类方法在审
申请号: | 201710032385.3 | 申请日: | 2017-01-16 |
公开(公告)号: | CN106897733A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 董育宁;冯茂 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒子 优化 算法 视频 特征 选择 分类 方法 | ||
技术领域
本发明属于模式识别与分类技术领域,特别涉及一种基于粒子群优化算法的视频流特征选择与分类方法。
背景技术
随着互联网和流媒体技术的迅速发展,网络中的视频业务的增长尤为迅速。与此同时,网络中新的应用和协议的不断快速出现,使得网络环境更加复杂。各种类型的网络应用和网络流量的急速增加,给网络服务提供商带来了极大的挑战。如何有效地进行网络管理、保证不同业务的服务质量和用户的信息安全已成为迫切需要解决的问题。对于网络服务提供商和网络环境管理者来说,快速准确地识别出网络中的不同业务流是一种行之有效的解决方案。
传统的网络流量识别和分类方法主要有基于端口的方法、基于深度包检测的方法。基于端口的识别方法是根据国际互联网代理成员管理局建议的端口号来区分不同的网络应用,随着动态端口号的广泛应用,使得这种方法的识别效率和分类准确度不高。基于深度包检测的方法的原理是通过解析数据包的载荷,与已知协议中特定的签名进行比较,从而区分不同的业务。但是随着网络数据加密的普及和用户隐私保护等问题,导致基于深度包检测的网络流量分类方法不再适用。基于统计特征的方法通过提取数据流的统计特征对数据流进行分类。这种方法既可以克服传统方法的缺点,又具有较高的准确性和稳定性。因此,基于网络流统计特征结合机器学习方法被广泛地应用到网络业务流识别领域。
从网络业务流可以提取大量的统计特征,如何选择合理的特征组合是提高分类精度的关键所在。许多研究表明,特征之间的不相关或冗余的特征会引发过拟合问题,进而严重影响分类结果的准确性。同时,高维的特征集合还会给分类器带来大量的计算开销和时延。因此,选取简单、容易获取的特征组合对分类器性能的提高有着重要的作用。
发明内容
本发明的目的在于针对网络视频业务流的统计特征选择以及识别分类问题,提出了一种基于粒子群优化算法的视频流特征选择与分类方法,该方法针对在线标清视频(非直播)、在线高清视频(非直播)、在线超清视频(非直播)、在线直播视频、HTTP 下载、即时通信类视频、P2P类视频七种业务进行分析和研究,提出一种基于粒子群优化算法的视频流特征选择方法,经过三层SVM级联分类器对原始的视频业务流进行分类。实验结果表明,本发明方法能够比现有同类方法获得更高的分类准确率。
为实现上述目的,本发明提出的技术方案是一种基于粒子群优化算法的视频流特征选择与分类方法,包括以下步骤:
步骤1:在开放的互联网环境中使用网络封包分析软件获取所需的实验数据,然后对数据包进行过滤,最后对这些网络视频业务流进行基本的统计特征计算;
步骤2:对上述计算得出的视频业务流的统计特征进行分析,选择出能有效区分业务流的特征组合;
步骤3:根据设计的三层SVM级联分类器对原始的视频业务流进行分类实验,得到最终的分类结果。
进一步,上述步骤1又具体包括:
步骤1-1:在开放的互联网环境中,通过网络封包分析软件抓取所需的视频业务流数据,然后对原始的数据进行简单预处理,转换成标准的五元组文本格式,即数据包到达的时间、源IP地址、目的IP地址、协议、数据包分组大小;
步骤1-2:对数据包过滤是指滤除不感兴趣或者不会对分类结果产生影响的数据包;
步骤1-3:对原始视频流的标准五元组文件进行基本的统计特征计算,这些特征包括:包大小、包大小的均值与方差、包大小信息熵、包间隔的均值与方差、字节速率、分组速率、上下行字节数之比、上下行包大小之比。
上述步骤2还具体包括:
步骤2-1:对所有视频业务流的统计特征进行离散化操作,降低特征选择过程中的计算开销;
步骤2-2:利用特征权重算法计算每个统计特征的权重;
步骤2-3:根据特征权重的排名,去掉部分与类别关联较小的特征,选取权重最大的N个特征,降低原始特征空间的维数,减少后续操作的计算复杂度;
步骤2-3:在上一步选取的N个特征子集中,选取特征权重排名靠前的M个特征作为先验知识,指导粒子群优化算法的种群初始化,将每个粒子的初始位置设为最优位置;迭代次数设为1;
步骤2-4:将不一致率作为粒子群优化算法的适应度函数,利用适应度函数计算粒子的整体适应度,将样本实例中的一个特征组合称为一个模式,特征子集的所有模式的不一致数,就等于该模式出现的样本总数减去出现次数最多的某一类标签的样本数,不一致率就等于不一致数除以样本总数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710032385.3/2.html,转载请声明来源钻瓜专利网。