[发明专利]一种多分枝随机森林数据分类方法在审
申请号: | 201811273813.2 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109492682A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 江泽涛;马伟康;胡硕 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据分类 随机森林 分枝 准确率 算法 分类数据集 聚类操作 数据降维 分类 构建 去噪 应用 | ||
本发明公开了一种多分枝随机森林数据分类方法,涉及随机森林数据分类技术领域,解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法,该方法包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪;(二)应用K‑means算法完成数据的聚类操作;(三)构建多分枝随机森林;(四)使用多分枝随机森林模型完成对数据的分类操作。采用本发明的技术方案可以提高数据分类的性能和准确率。
技术领域
本发明涉及随机森林数据分类技术领域,尤其涉及一种多分枝随机森林数据分类方法。
背景技术
随着人工智能的发展,不论是图像研究、信息安全等都需要人工智能的参与。聚类和分类算法在人工智能领域有着重要的应用,其中K-means和随机森林分别是聚类和分类算法的代表。随机森林的分类能力是分类算法中性能较好的算法之一,是基于决策树的一种集成学习算法。但现有技术的随机森林数据分类方法在进行分类时,样本集过于冗余、杂乱、数据纯度低,对分类性能有一定的影响。
发明内容
针对现有技术的不足,本发明所解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法。
为解决上述技术问题,本发明采用的技术方案是一种多分枝随机森林数据分类方法,包括如下步骤:
(一)给出未分类数据集,应用PCA算法对数据降维去噪,具体分步骤如下:
(1)将样本集表示为N×M的矩阵X;
(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;
(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。
(二)应用K-means算法完成数据集的聚类操作,输出簇C={C1,C2,...,Ck},具体分步骤如下:
(1)计算每个样本点的密度值
其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;
(2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点yl的距离进行归一化处理:
(3)将该样本点的密度值和到已选聚类中心的归一化距离之和;
其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;
(4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811273813.2/2.html,转载请声明来源钻瓜专利网。