[发明专利]一种基于随机森林算法的网络入侵检测方法有效
| 申请号: | 201810391178.1 | 申请日: | 2018-04-27 |
| 公开(公告)号: | CN108768946B | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 周杰英;杨诗珺;邱荣发;刘映淋 | 申请(专利权)人: | 中山大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林瑞云 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 随机 森林 算法 网络 入侵 检测 方法 | ||
1.一种基于随机森林算法的网络入侵检测方法,其特征在于,包括:
步骤1,读取数据集及预处理:读取数据集,删除数据集里重复的冗余数据,进行特征选择,用每一个特征对数据集进行划分,计算划分之后数据子集的信息熵,从而得到信息增益,对信息增益从大到小排序,选择前M%的特征;
步骤2,人工合成新的数据集:对少数类的样本进行人工合成新的数据集;
步骤3,数据清洗:使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作;
步骤4,正则化处理:对由步骤3清洗操作后的数据集进行正则化处理,使每个特征的值都集中在0-1之间;
步骤5,划分训练数据集与测试数据集:将由步骤1-4预处理过的数据集划分为训练数据集与测试数据集,训练数据集用于模型的训练,测试数据集用于模型的测试;
步骤6,建立模型:将训练数据集传入随机森林模型中进行训练,建立网络入侵检测模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤1的过程具体为:
将数据集读取进来,删除数据集中重复的冗余数据,然后进行特征选择,特征选择是对信息增益从大到小进行排序,选择前M%的特征,信息增益的计算首先计算信息熵:
上式中,H(D)表示数据集D的信息熵,n表示数据集D中类别的个数,pi表示第i类数据所占的比例,接着计算信息增益为:
上式中,Gain(D,a)表示用特征a对数据集D进行划分所获得的信息增益,m表示特征a有m个可能的取值{a1,a2,...,am},Dk表示数据集D中所有在特征a上取值为ak的数据子集;用所有特征对数据集D进行划分获得一系列信息增益,选择前M%的特征,舍弃后(1-M)%的特征。
3.根据权利要求2所述的方法,其特征在于,所述步骤2的合成新的数据集的过程为:生成新数据集的公式为:
xnew=xi+|x′i-xi|×δ (4)
上式中,xnew表示生成的新的数据集,xi表示少数类的样本点,x′i表示xi样本的k近邻样本点的其中一个,δ∈[0,1]。
4.根据权利要求3所述的方法,其特征在于,所述步骤3的数据清洗的过程为:使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作,采用式(5)计算数据集中样本与其他所有样本的欧氏距离:
上式中,dij(xi,xj)表示第i个样本点与第j个样本点的欧氏距离,xi表示第i个样本点,m表示特征的个数,xif表示第i个样本的第f个特征的值,其中i≠j;然后对所有获得的欧氏距离进行从小到大排序,选取前k个样本点,判断它们类别的众数;若样本点xi的类别和k近邻样本点类别的众数不一致,则删除样本点xi,若样本点xi的类别和k近邻样本点类别的众数一致,则留下样本点xi。
5.根据权利要求4所述的方法,其特征在于,所述步骤4的正则化的过程为:采用式(6)由步骤3清洗操作后的数据集进行正则化处理,得到均值为0,方差为1的分布:
x′i是第i个特征正则化之后的值,xi是第i个特征的值,μ是第i个特征的期望,δ是第i个特征的方差。
6.根据权利要求5所述的方法,其特征在于,所述步骤5的划分训练数据集与测试数据集的过程为:将由步骤1-4预处理之后的数据集划分为训练数据子集与测试数据子集,随机选取M%的数据作为训练数据子集,剩下的(100-M)%数据作为测试数子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810391178.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动直播教学互动系统
- 下一篇:信息推荐客户端、方法及服务器





