[发明专利]一种基于随机森林算法的网络入侵检测方法有效
| 申请号: | 201810391178.1 | 申请日: | 2018-04-27 |
| 公开(公告)号: | CN108768946B | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 周杰英;杨诗珺;邱荣发;刘映淋 | 申请(专利权)人: | 中山大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林瑞云 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 随机 森林 算法 网络 入侵 检测 方法 | ||
本发明提出一种基于随机森林算法的网络入侵检测方法,包括:输入训练数据,读取到训练数据之后首先对数据进行预处理;再应用随机森林算法训练数据,建立入侵检测模型。数据预处理由五步构成,第一步:删除数据冗余部分,将数据中重复的数据删除;第二步,进行特征选择,通过对信息增益进行从大到小排序,选择前70%的特征;第三步:人工合成新的数据集,由于数据分布不平衡,使用合成少数类过采样技术(SMOTE)算法人工合成新的数据集;第四步:数据清洗,使用修剪的最近邻算法(ENN)对数据进行清洗操作;第五步:正则化处理,对数据进行正则化处理,使得每个特征的范围集中在一个特定的范围内。
技术领域
本发明涉及入侵检测网络安全领域,特别涉及一种基于随机森林算法的网络入侵检测方法。
背景技术
入侵检测指的是从计算机网络中的关键点收集信息,并且分析这些信息,查看网络中是否存在违反安全策略的行为。入侵检测可以说是防火墙的合理补充和延伸;如果说防火墙是第一道安全闸门,入侵检测可以说是第二道安全闸门。入侵检测在不影响网络性能的前提下,实时、动态地保护来自内部和外部的各种攻击,同时有效地弥补了防火墙所能达到的防护极限。
传统的入侵检测技术是应用规则集方法的技术,用于检测计算机网络中违反安全策略的行为,这说明只有匹配了预先定义的规则,才能检测出流量是否异常。这种做法最大的局限性在于无法检测出规则集之外的异常类型,若网络中出现了新型攻击类型,传统的规则匹配方法将不可行。此外,规则集的制定也将耗费网络监控人员大量的时间与精力,并且需要不时地更新规则集。
针对传统入侵检测技术的局限性,人们将机器学习应用到入侵检测上,可以有效地解决人工繁琐的操作过程,降低误检率,并且具有实时性的特点。一般情况下攻击类型的流量数据非常少,数据集分布不平衡,而且网络流量中有许多不干净的数据,即噪音数据,不利于一个好的模型的建立。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提出了一种基于随机森林算法的网络入侵检测方法,此模型应用合成少数类过采样技术(SMOTE)算法人工合成新的数据样本,使用修剪的最近邻算法(ENN)清除噪音数据,然后将数据进行正则化之后传入随机森林分类器进行训练,比仅使用随机森林分类器分类来判别异常样本的方法来说,具有更高的精确率,召回率和F-1值,有效地降低了误检率。
为达到上述目的,本发明的技术方案具体为:
一种基于随机森林算法的网络入侵检测方法,包括:
步骤1,读取数据集及预处理:读取数据集,删除数据集里重复的冗余数据,进行特征选择,用每一个特征对数据集进行划分,计算划分之后数据子集的信息熵,从而得到信息增益,对信息增益从大到小排序,选择前M%的特征;
步骤2,人工合成新的数据集:对少数类(少数类指的是数据集中数据数量很少的类别)的样本进行人工合成新的数据集;考虑到现实中异常的数据数目肯定很少,而步骤1中输入的数据集的数据分布不平衡,所以步骤2针对少数类(数据数量少的类别)进行平衡数据样本分布;
步骤3,数据清洗:使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作;
步骤4,正则化处理:对由步骤3清洗操作后的数据集进行正则化处理,使每个特征的值都集中在0-1之间;
步骤5,划分训练数据集与测试数据集:将由步骤1-4预处理过的数据集划分为训练数据集与测试数据集,训练数据集用于模型的训练,测试数据集用于模型的测试;
步骤6,建立模型:将训练数据集传入随机森林模型中进行训练,建立网络入侵检测模型。
优选的,所述步骤1的过程具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810391178.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动直播教学互动系统
- 下一篇:信息推荐客户端、方法及服务器





