[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审
申请号: | 201611116829.3 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106778853A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 邓晓衡;钟维坚;任炬 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 权重 抽样 不平衡 数据 分类 方法 | ||
1.一种基于权重聚类和欠抽样的不平衡数据分类方法,其特征在于包括以下步骤:
步骤1:建立Adaboost集成算法模型
Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:
步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。
步骤1.2:初始化样本权重:
wt(i)=1/n,i=1,2,…,n
步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:
其中εt为当前样本分布上的加权错误率,计算公式如下:
若t<T,令t=t+1并重复步骤c,否则,输出集成分类器H(x):
步骤2:建立基于权重方差的子集分割方法
在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:
通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下
利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:
其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为I时,可能的子集分割情况的数量为I-1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C重样本的个数,wk为C中样本的权重,k=1,2…NC,在计算C中权重方差wvars=wvar(C)后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和
wsvarmin=min0<j<J{wsvar(C1,C2)}
计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。
步骤3:建立融合权重聚类和Adaboost集成学习算法模型,已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,J为簇的数量;WeakLearn表示若学习算法,则融合权重聚类和Adaboost集成学习算法模型具体步骤如下:
步骤3.1:初始化所有样本的样本权重,公式如下:
步骤3.2:使样本集合中的多数类集合为初始第一个簇,即C1=S-
步骤3.3:从各个簇中抽取一定数量的样本构成有代表性的训练数据集,确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:
步骤3.4:对每个簇采用TOP-K的方式,从每个簇Cj中随机抽取SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。
步骤d)、使用弱学习算法,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差,分类误差计算公式如下:
由分类误差计算β=εt/(1-εt),并更新所有的样本权重,公式如下:
步骤3.5:对循环次数t,计算t%step,当t%step==0且NS<MN时,对所有簇进行步骤2所示的分裂操作。
步骤:3.6:若t<T,令t=t+1,并重复步骤g),否则输出强分类器H(x):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611116829.3/1.html,转载请声明来源钻瓜专利网。