[发明专利]一种多分枝随机森林数据分类方法在审
| 申请号: | 201811273813.2 | 申请日: | 2018-10-30 |
| 公开(公告)号: | CN109492682A | 公开(公告)日: | 2019-03-19 |
| 发明(设计)人: | 江泽涛;马伟康;胡硕 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据分类 随机森林 分枝 准确率 算法 分类数据集 聚类操作 数据降维 分类 构建 去噪 应用 | ||
1.一种多分枝随机森林数据分类方法,其特征在于,包括如下步骤:
(一)给出未分类数据集,应用PCA算法对数据降维去噪;
(二)应用K-means算法完成数据的聚类操作;
(三)构建多分枝随机森林;
(四)使用多分枝随机森林模型完成对数据的分类操作。
2.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(一)具体分步聚如下:
(1)将样本集表示为N×M的矩阵X;
(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;
(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。
3.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(二)具体分步骤如下:
(1)计算每个样本点的密度值
其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;
(2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点的距离进行归一化处理:
(3)将该样本点的密度值和到已选聚类中心的归一化距离之和:
其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;
(4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck;
(5)将c1,c2,...,ck作为初始的聚簇中心重新记为μ1,μ2...μk;设定最大迭代次数R;
(6)计算每一个样本和聚簇中心的距离dist(xi,μj)=||xi-μj||2,其中i=1,2…N,j=1,2,…k;
(7)根据距离最近的聚簇中心确定xi的簇标记:λj=argmini∈{1,2...,k}dist(xi,μj);
(8)将样本xi划入相应的簇:Cλi=Cλi∪{xi};
(9)对所有样本完成聚簇后,计算新均值类中心:如果μ′i和μi不相等,类中心更新为μ′i,如果μi和μ′i相等,在保持μi不变;重新计算样本所属的相应的簇;
(10)重复分步骤(9),直至所有的聚簇中心点不发生变化或者达到最大的迭代次数;
(11)输出簇划分C={C1,C2,...,Ck}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811273813.2/1.html,转载请声明来源钻瓜专利网。





