[发明专利]一种多分枝随机森林数据分类方法在审

申请号：	201811273813.2	申请日：	2018-10-30
公开（公告）号：	CN109492682A	公开（公告）日：	2019-03-19
发明（设计）人：	江泽涛;马伟康;胡硕	申请（专利权）人：	桂林电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	覃永峰
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据分类随机森林分枝准确率算法分类数据集聚类操作数据降维分类构建去噪应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多分枝随机森林数据分类方法，涉及随机森林数据分类技术领域，解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法，该方法包括如下步骤：（一）给出未分类数据集，应用PCA算法对数据降维去噪；（二）应用K‑means算法完成数据的聚类操作；（三）构建多分枝随机森林；（四）使用多分枝随机森林模型完成对数据的分类操作。采用本发明的技术方案可以提高数据分类的性能和准确率。

技术领域

本发明涉及随机森林数据分类技术领域，尤其涉及一种多分枝随机森林数据分类方法。

背景技术

随着人工智能的发展，不论是图像研究、信息安全等都需要人工智能的参与。聚类和分类算法在人工智能领域有着重要的应用，其中K-means和随机森林分别是聚类和分类算法的代表。随机森林的分类能力是分类算法中性能较好的算法之一，是基于决策树的一种集成学习算法。但现有技术的随机森林数据分类方法在进行分类时，样本集过于冗余、杂乱、数据纯度低，对分类性能有一定的影响。

发明内容

针对现有技术的不足，本发明所解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法。

为解决上述技术问题，本发明采用的技术方案是一种多分枝随机森林数据分类方法，包括如下步骤：

(一)给出未分类数据集，应用PCA算法对数据降维去噪，具体分步骤如下：

(1)将样本集表示为N×M的矩阵X；

(2)对每一行进行零均值化，即求矩阵中每一行的平均值R_i，每一行都减去该行的平均值N_i-R_i；求出协方差矩阵求协方差矩阵C的特征值λ₁,λ₂…λ_m和标准化特征向量x₁,x₂…x_m；

(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P；

(4)将矩阵P与矩阵X相乘，得到降维后的数据，去除数据中的冗余部分。

(二)应用K-means算法完成数据集的聚类操作，输出簇C＝{C₁，C₂，...，C_k}，具体分步骤如下：

(1)计算每个样本点的密度值

其中，d_ijk＝||x_ij-x_kj||,p_ij是类别j中第i个样本点的密度；n_j为j类样本点总数，d_ijk是样本点x_ij和x_kj在向量空间中的距离；将密度值p_ij最大的样本点作为第一个聚簇中心；

(2)在剩余聚簇中心的选取时还要考虑距离，对给定的样本y_n,将其到样本点y_l的距离进行归一化处理：