[发明专利]基于Spark和聚类的网络异常流量分析方法及系统在审
| 申请号: | 202011401551.0 | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112511547A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 张小飞;伍军;施远;徐传华 | 申请(专利权)人: | 国网电力科学研究院有限公司;上海交通大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;G06K9/62 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 spark 网络 异常 流量 分析 方法 系统 | ||
1.一种基于Spark和聚类的网络异常流量分析方法,其特征在于,包括:使用Spark大数据处理平台,通过聚类对网络流量进行聚类分析,通过检测算法对检测算法对分类后的网络流量进行异常流量分析。
2.根据要求1所述的基于Spark和聚类的网络异常流量分析方法,其特征在于,所述聚类包括采用K-means算法,包括:
步骤10:给定n条网络流量数据,找到k个中心使得网络流量数据中的第i个数据点与最近的第j个中心点的距离平方和最小,记为Wn,数学表达式为:
xi、aj分别代表第i个数据点和第j个中心;
步骤11:从n条网络流量数据中人为取k条流量,作为k个网络流量簇的各自的中心,其中,k的取值根据实际网络中所关注的网络流量特征的个数来进行判断;
步骤12:分别计算出剩下的网络流量数据到k个中心的欧式距离,并加入到距离最近的网络流量簇;
步骤13:根据聚类结果,重新计算k个网络流量簇各自的中心,通过计算本簇中所有向量各自维度的算数平均值重新确定中心点;
步骤14:将n条网络流量数据按照新的中心重新聚类;
步骤15:重复步骤14,直到聚类的结果不再发生变化。
3.根据要求2所述的基于Spark和聚类的网络异常流量分析方法,其特征在于,通过K-means++算法对所述K-means算法进行优化,K-means++算法包括:
步骤20:随机选取网络流量数据的聚类中心,聚类中心属于网络流量数据集;
步骤21:对于网络流量数据中的每一个数据点,计算所述数据点与最近的聚类中心的距离;
步骤22:从数据点选择出一个作为新的聚类中心,在选取的过程中遵循较大的点被选为聚类中心的概率较大;
步骤23:重复步骤21和步骤22,直到k个聚类中心被选出来。
步骤24:执行K-means算法。
4.根据要求3所述的基于Spark和聚类的网络异常流量分析方法,其特征在于,在经过初次聚类的基础上,利用马氏距离判定异常流量簇以及正常流量簇。
5.根据要求4所述的基于Spark和聚类的网络异常流量分析方法,其特征在于,在聚类分析中,通过将K-means算法并行化的手段提高算法计算效率。
6.一种基于Spark和聚类的网络异常流量分析系统,其特征在于,包括:使用Spark大数据处理平台,通过聚类对网络流量进行聚类分析,通过检测算法对检测算法对分类后的网络流量进行异常流量分析。
7.根据要求6所述的基于Spark和聚类的网络异常流量分析系统,其特征在于,所述聚类包括采用K-means算法,包括:
模块M10:给定n条网络流量数据,找到k个中心使得网络流量数据中的第i个数据点与最近的第j个中心点的距离平方和最小,记为Wn,数学表达式为:
xi、aj分别代表第i个数据点和第j个中心;
模块M11:从n条网络流量数据中人为取k条流量,作为k个网络流量簇的各自的中心,其中,k的取值根据实际网络中所关注的网络流量特征的个数来进行判断;
模块M12:分别计算出剩下的网络流量数据到k个中心的欧式距离,并加入到距离最近的网络流量簇;
模块M13:根据聚类结果,重新计算k个网络流量簇各自的中心,通过计算本簇中所有向量各自维度的算数平均值重新确定中心点;
模块M14:将n条网络流量数据按照新的中心重新聚类;
模块M15:重复执行模块14,直到聚类的结果不再发生变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电力科学研究院有限公司;上海交通大学,未经国网电力科学研究院有限公司;上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011401551.0/1.html,转载请声明来源钻瓜专利网。





