[发明专利]基于主成分分析和线性判别分析的网络流量特征提取方法在审

申请号：	202010203309.6	申请日：	2020-03-20
公开（公告）号：	CN111464459A	公开（公告）日：	2020-07-28
发明（设计）人：	曲桦;刘宇钦;赵季红;张艳鹏	申请（专利权）人：	西安交通大学
主分类号：	H04L12/851	分类号：	H04L12/851;G06K9/62
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	郭瑶
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于成分分析线性判别分析网络流量特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于主成分分析和线性判别分析的流量特征提取方法，利用主成分分析方法删除高维训练集的冗余特征和不相关特征，然后叠加线性判别分析算法进行降维，将原始流量数据集转换到新的特征空间中。在解决主成分分析缺乏类别信息和线性判别分析计算成本高、类内离散度矩阵常常不可逆等缺陷的同时将它们的优势结合。使所提取出的特征模型能够使得后续分类过程达到更好的效果。在经典的Moore数据集上的实验结果验证本发明能够使分类器在更短的时间内得出更精确的分类结果。

技术领域

本发明属于流量分类领域，涉及一种大数据背景下网络流量特征提取方法，具体涉及一种基于主成分分析和线性判别分析的网络流量特征提取方法。

背景技术

随着移动通信技术由4G向5G的演变，无线通信网络日益高速和稳定，为丰富的互联网业务的发展提供了坚实的基础。为了使移动通信网络和互联网技术协同发展，运营商正在努力实现由流量运营向能力运营的转变，形成对内协调统一，对外开放共享的网络能力开放平台。要提供恰当的网络能力，就需要能力平台对网络数据流具有准确的识别能力。然而，高维度的数据流所携带的巨大信息量给计算机的处理带来了很大的困难。同时，由于数据流特征间存在相关性和冗余性，特征量大的数据不仅造成不必要的计算时间和资源开销，还会导致分类精度的下降。因此，对数据流特征进行提取是使用机器学习方法进行流量分类过程的必要步骤。

主成分分析(PCA)和线性判别分析(LDA)是两种经典的特征提取方法，与分类器结合，能够实现优于传统流量识别方法的识别能力和效果。然而在实际处理高维的流量数据时仍存在着一些困难。例如：PCA仅从特征的方差角度进行分析，无法顾及到特征在均值方面的特性；同时，由于PCA缺乏类别信息，降维后的数据虽然信息损失降到最低，但可能会使分类过程变得更加困难。而LDA的计算复杂度较高而且经常存在类内离散度矩阵不可逆等问题，造成实际运用时的困难。

发明内容

本发明的目的在于基于主成分分析和线性判别分析的网络流量特征提取方法，采用该方法能够克服PCA和LDA原有的缺陷，并将二者的优势充分结合，对网络数据流特征进行全面的分析和精确的提取，帮助分类器达到更好的分类效果。

为达到上述目的，本发明采用如下技术方案：

基于主成分分析和线性判别分析的网络流量特征提取方法，包括以下步骤：

1)采用主成分分析法构造包含判别信息的投影矩阵W_PCA；

2)将数据集X投影到特征矩阵W_PCA，删除冗余特征不相关特征，得到特征集Y；

3)采用线性判别分析构造特征矩阵W_LDA；

4)通过投影矩阵W_LDA将特征集Y转换到特征空间W_LDA，得到特征集Z。

本发明进一步的改进在于，步骤1)的具体过程如下：

a)将一条具有n个属性的数据流表示为大小为1×n的向量，全部的m条数据流构成大小为m×n的数据集X；

b)按照下列公式计算数据集X的协方差矩阵C；

φ＝x_i-μ (2)