[发明专利]一种基于SOM与K-means融合算法的网络流量分类方法有效
申请号: | 201911194495.5 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111211994B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 赵莎莎;肖毅;张登银;宁越强;王飞;李速 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L43/0876;G06N3/08;G06K9/62 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 som means 融合 算法 网络流量 分类 方法 | ||
1.一种基于SOM与K-means融合算法的网络流量分类方法,其特征在于,包括以下步骤:
步骤1,采集网络流量数据集,确定训练集,并统计流量特征;
步骤2,采用基于相关性的特征选择算法对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
步骤3,融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
步骤311,设置初始学习率η0,竞争层的神经元个数为m,迭代次数设为T;
输入向量为X(n)=(x1(n),x2(n),…,xn(n))
权值向量为Wi(t)=(wi1(t),wi2(t),…,win(t)),i=1,2,…,m
步骤312,取区间[0,1]内的随机值对竞争层各个神经元的权值向量Wi进行初始化,并对当前输入向量X和初始权值向量Wi(0)全部进行归一化处理:
其中,表示归一化的当前输入向量,表示归一化的第i个神经元初始权值向量;
步骤313,将与竞争层所有神经元对应的权值向量进行相似性对比,即将两者做点积,选出点积值最大的作为获胜神经元i*;
步骤314,定义优胜邻域初始优胜邻域N(t0)较大,训练过程中会随着迭代次数的增加而不断收缩,对优胜邻域内的所有神经元调整权值向量,权值更新过程如下所示:
式中,Wi(t)为第i个神经元在t时刻的权值,η(t)表示t时刻的学习率,学习率会随着迭代次数增加而衰减,d表示拓扑距离,e-d表明离获胜神经元越远,权值更新比例越小;
步骤315,更新学习率η(t)和优胜邻域N(t),如下所示,并将更新后的权值向量重新归一化处理;
步骤316,当学习率ηηmin或达到指定迭代次数时,结束训练;否则转至步骤312不断重复此流程,直至满足结束判定条件;
步骤321,选取阶段一训练后的聚类中心作为初始聚类中心,选取簇数作为初始K值;
步骤322,使用阶段一归一化处理后的数据集作为输入样本;
步骤323,遍历所有数据,计算数据点到聚类中心的距离,并将其划分到最近的中心点中,形成K个簇;
步骤324,使用误差平方和SSE作为聚类的目标函数:
其中,k表示簇类数目,cj表示第j个聚类中心,dist表示的是欧几里得距离,簇的最小化SSE的簇中心即簇中所有点的均值,因此,计算每个簇的平均值,将其作为新的簇中心;
步骤325,重复步骤323、步骤324,直至簇中心不再发生改变,则视为算法已经收敛,输出聚类结果;
步骤4,使用S_Dbw指数评估算法的聚类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911194495.5/1.html,转载请声明来源钻瓜专利网。