[发明专利]一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法在审
| 申请号: | 201910045096.6 | 申请日: | 2019-01-17 | 
| 公开(公告)号: | CN110008983A | 公开(公告)日: | 2019-07-12 | 
| 发明(设计)人: | 曲桦;赵季红;蒋杰;殷振宇;冯强;朱佳荣 | 申请(专利权)人: | 西安交通大学 | 
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L12/24;H04L29/08 | 
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 | 
| 地址: | 710049 *** | 国省代码: | 陕西;61 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 网络流量分类 模糊支持向量机 自适应模型 支持向量 隶属度 样本 模糊隶属函数 应用遗传算法 分布式集群 训练数据集 并行计算 聚类中心 离群样本 算法获取 训练样本 样本数据 重要性质 最优参数 最终模型 鲁棒性 时效性 自适应 集群 噪音 分类 引入 改进 | ||
1.一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,包括以下步骤:
1)对初始训练集按照特征维度分别进行归一化得到初始特征集FT1,再对初始特征集FT1采用FCBF算法进行特征选择和提取,删除冗余和不相关特征得到优化特征集FT2;
2)将优化特征集FT2存储在分布式文件系统中;
3)通过若干台电脑构建分布式集群,所述分布式集群用于并行计算优化特征集FT2,使得获取支持向量的时间最大程度减少;
4)模型训练:获取存储在分布式文件系统的优化特征集FT2,首先对优化特征集FT2进行改进的K-means算法获得各类别的聚类中心,再以此结合模糊隶属函数获得样本隶属度;
5)根据优化特征集FT2及其隶属度进行遗传算法并获得其最优参数和支持向量;
6)分类预测:获取各集群中的支持向量,并以此作为训练集合进行分类预测。
2.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,步骤1)中按特征维度进行归一化是对初始训练集中每一维特征分别进行线性变换,使每一维特征值在保持原有数据意义下映射到[0,1]之间,消除各维度特征值量纲差别带来的影响,从而得到归一化后的特征集,表示为其中包含n个样本,每个样本有d个维度。
3.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,步骤1)中FCBF算法实现步骤如下:
1.1)计算每个特征Fi与目标O之间的相关性;
1.2)将相关性SU(Fi,O)大于预先设置好的阈值δ的特征选出并从大到小排列;
1.3)依次遍历降序排列中小于SU(Fi,O)的所有特征Fj并计算SU(Fi,Fj);如果SU(Fi,Fj)大于等于SU(Fj,O),则删除特征Fj;如果SU(Fi,Fj)小于SU(Fj,O),则保留特征Fj;最后得到无重复特征的特征子集FT2。
4.根据权利要求3所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,步骤1.1)中,目标O依次取特征集的所属类别,则特征Fi与目标O之间的相关性其中IG(X,Y)=E(X)-E(X|Y),IG(X,Y)表示信息增益,E(X)、E(Y)表示信息熵,E(X|Y)表示当随机变量Y单独发生时,随机变量X发生的条件概率,P(xi)表示特征x取值为i时的概率,z为类别数。
5.根据权利要求3所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,步骤1.2)中阈值δ取值为0.02。
6.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,步骤3)中由五台电脑组成分布式集群,其中一台电脑作为主控节点,负责资源和任务的分配,三台用于训练阶段分布式计算,一台作为分类预测阶段使用。
7.根据权利要求1所述的一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法,其特征在于,步骤4)中改进的K-means算法获取聚类中心具体为:根据K-means算法特性和应用场景,启发式的将K-mean的聚类数l设定为类别数,且以各类别的样本数据初始化算法,三次执行该算法取平均值作为最后聚类中心结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910045096.6/1.html,转载请声明来源钻瓜专利网。





