[发明专利]一种自适应的半监督网络流量分类方法、系统及设备有效
申请号: | 201711103942.2 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107846326B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 冉静;孔晓晨;刘元安;胡鹤飞;袁东明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/851;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 监督 网络流量 分类 方法 系统 设备 | ||
1.一种自适应的半监督网络流量分类方法,其特征在于,该自适应的半监督网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
S2,根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
S3,以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类;具体地,首先得到k个簇和k个簇中心点,分别计算具体定义的评价函数,同时更新所述向量集M,得到新的向量集M,并计算出距离新的向量集M的中心点最远的k个向量点,根据具体定义的密度计算公式,确定在最远的k个向量点中密度最大的向量点,并将密度最大的向量点添加到新的向量集M中;然后设置新的k值,根据所述新的中心点集M和所述新的k值,重复执行上一步骤,直到k值大于预设最大阈值;最后统计所有评价函数的值,从所有评价函数的值中选取最小评价函数的值,以及与该最小评价函数的值对应的k值,并输出在所述对应的k值时k-means的聚簇;
S4,根据输出的聚簇中每个簇的已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
S5,将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
2.根据权利要求1所述的自适应的半监督网络流量分类方法,其特征在于,所述步骤S1中获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
3.根据权利要求1所述的自适应的半监督网络流量分类方法,其特征在于,所述S3中更新所述向量集M,得到新的向量集M,其具体包括:将向量集M替换为所述k个簇中心点组成的集合。
4.根据权利要求1所述的自适应的半监督网络流量分类方法,其特征在于,所述S3中根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,其公式具体为:
其中,d(mi,xj)表示簇i的中心点mi与簇i中的向量点xj之间的欧式距离,表示每一簇内所有向量点与簇中心点的距离之和,ni表示簇i中已标记流的总数量。
5.根据权利要求1所述的自适应的半监督网络流量分类方法,其特征在于,所述S3中根据向量点的密度计算公式,计算出所述最远的k个点中密度最大的点;具体是,首先计算所有向量点间的平均距离AvgDist,其具体计算公式为:
其中d(xi,xj)表示向量点xi和向量点xj之间的欧式距离,表示所有向量点两两组合时的计算次数,其中N为所有向量点的数目;然后计算所述最远的k个向量点的密度,具体计算公式为:
其中定义density(x)为向量点x的密度,即在向量点x的周围,与该向量点间距离不大于AvgDist的向量点的个数,定义函数p(·)用于表示当距离不大于AvgDist时的向量点的计数;最后比较所述最远的k个向量点的密度,确定其中密度最大的向量点,并将该向量点添加到所述新的向量集M中。
6.根据权利要求1所述的自适应的半监督网络流量分类方法,其特征在于,所述S3中包括:
设置新的k值,当所述新的k值小于所述预设最大阈值时,根据所述新的中心点集M和所述新的k值,重复执行步骤S3,其中所述新的k值为原k值加1,所述预设最大阈值为其中N为k-means的输入所述网络流特征向量集X的中的元素数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711103942.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电动汽车充电桩专用保险丝盒
- 下一篇:一种汽车充电桩专用保险丝护盖安装座