[发明专利]一种基于随机森林算法的网络入侵检测方法有效

申请号：	201810391178.1	申请日：	2018-04-27
公开（公告）号：	CN108768946B	公开（公告）日：	2020-12-22
发明（设计）人：	周杰英;杨诗珺;邱荣发;刘映淋	申请（专利权）人：	中山大学
主分类号：	H04L29/06	分类号：	H04L29/06
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林瑞云
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于随机森林算法网络入侵检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于随机森林算法的网络入侵检测方法，其特征在于，包括：

步骤1，读取数据集及预处理：读取数据集，删除数据集里重复的冗余数据，进行特征选择，用每一个特征对数据集进行划分，计算划分之后数据子集的信息熵，从而得到信息增益，对信息增益从大到小排序，选择前M％的特征；

步骤2，人工合成新的数据集：对少数类的样本进行人工合成新的数据集；

步骤3，数据清洗：使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作；

步骤4，正则化处理：对由步骤3清洗操作后的数据集进行正则化处理，使每个特征的值都集中在0-1之间；

步骤5，划分训练数据集与测试数据集：将由步骤1-4预处理过的数据集划分为训练数据集与测试数据集，训练数据集用于模型的训练，测试数据集用于模型的测试；

步骤6，建立模型：将训练数据集传入随机森林模型中进行训练，建立网络入侵检测模型。

2.根据权利要求1所述的方法，其特征在于，所述步骤1的过程具体为：

将数据集读取进来，删除数据集中重复的冗余数据，然后进行特征选择，特征选择是对信息增益从大到小进行排序，选择前M％的特征，信息增益的计算首先计算信息熵：

上式中，H(D)表示数据集D的信息熵，n表示数据集D中类别的个数，p_i表示第i类数据所占的比例，接着计算信息增益为：

上式中，Gain(D,a)表示用特征a对数据集D进行划分所获得的信息增益，m表示特征a有m个可能的取值{a¹,a²,...,a^m}，D^k表示数据集D中所有在特征a上取值为a^k的数据子集；用所有特征对数据集D进行划分获得一系列信息增益，选择前M％的特征，舍弃后(1-M)％的特征。

3.根据权利要求2所述的方法，其特征在于，所述步骤2的合成新的数据集的过程为：生成新数据集的公式为：

x_new＝x_i+|x′_i-x_i|×δ (4)

上式中，x_new表示生成的新的数据集，x_i表示少数类的样本点，x′_i表示x_i样本的k近邻样本点的其中一个，δ∈[0,1]。

4.根据权利要求3所述的方法，其特征在于，所述步骤3的数据清洗的过程为：使用修剪的最近邻算法(ENN)对由步骤2合成新的数据集中的数据进行清洗操作，采用式(5)计算数据集中样本与其他所有样本的欧氏距离：

上式中，d_ij(x_i,x_j)表示第i个样本点与第j个样本点的欧氏距离，x_i表示第i个样本点，m表示特征的个数，x_if表示第i个样本的第f个特征的值，其中i≠j；然后对所有获得的欧氏距离进行从小到大排序，选取前k个样本点，判断它们类别的众数；若样本点x_i的类别和k近邻样本点类别的众数不一致，则删除样本点x_i，若样本点x_i的类别和k近邻样本点类别的众数一致，则留下样本点x_i。

5.根据权利要求4所述的方法，其特征在于，所述步骤4的正则化的过程为：采用式(6)由步骤3清洗操作后的数据集进行正则化处理，得到均值为0，方差为1的分布：

x′_i是第i个特征正则化之后的值，x_i是第i个特征的值，μ是第i个特征的期望，δ是第i个特征的方差。

6.根据权利要求5所述的方法，其特征在于，所述步骤5的划分训练数据集与测试数据集的过程为：将由步骤1-4预处理之后的数据集划分为训练数据子集与测试数据子集，随机选取M％的数据作为训练数据子集，剩下的(100-M)％数据作为测试数子集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810391178.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于随机森林算法的网络入侵检测方法有效

专利文献下载