[发明专利]一种多分枝随机森林数据分类方法在审

专利信息
申请号: 201811273813.2 申请日: 2018-10-30
公开(公告)号: CN109492682A 公开(公告)日: 2019-03-19
发明(设计)人: 江泽涛;马伟康;胡硕 申请(专利权)人: 桂林电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 覃永峰
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据分类 随机森林 分枝 准确率 算法 分类数据集 聚类操作 数据降维 分类 构建 去噪 应用
【权利要求书】:

1.一种多分枝随机森林数据分类方法,其特征在于,包括如下步骤:

(一)给出未分类数据集,应用PCA算法对数据降维去噪;

(二)应用K-means算法完成数据的聚类操作;

(三)构建多分枝随机森林;

(四)使用多分枝随机森林模型完成对数据的分类操作。

2.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(一)具体分步聚如下:

(1)将样本集表示为N×M的矩阵X;

(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ12…λm和标准化特征向量x1,x2…xm

(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;

(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。

3.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(二)具体分步骤如下:

(1)计算每个样本点的密度值

其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;

(2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点的距离进行归一化处理:

(3)将该样本点的密度值和到已选聚类中心的归一化距离之和:

其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;

(4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck

(5)将c1,c2,...,ck作为初始的聚簇中心重新记为μ1,μ2...μk;设定最大迭代次数R;

(6)计算每一个样本和聚簇中心的距离dist(xi,μj)=||xij||2,其中i=1,2…N,j=1,2,…k;

(7)根据距离最近的聚簇中心确定xi的簇标记:λj=argmini∈{1,2...,k}dist(xi,μj);

(8)将样本xi划入相应的簇:Cλi=Cλi∪{xi};

(9)对所有样本完成聚簇后,计算新均值类中心:如果μ′i和μi不相等,类中心更新为μ′i,如果μi和μ′i相等,在保持μi不变;重新计算样本所属的相应的簇;

(10)重复分步骤(9),直至所有的聚簇中心点不发生变化或者达到最大的迭代次数;

(11)输出簇划分C={C1,C2,...,Ck}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811273813.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top