[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

专利信息
申请号: 201611116829.3 申请日: 2016-12-07
公开(公告)号: CN106778853A 公开(公告)日: 2017-05-31
发明(设计)人: 邓晓衡;钟维坚;任炬 申请(专利权)人: 中南大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 权重 抽样 不平衡 数据 分类 方法
【权利要求书】:

1.一种基于权重聚类和欠抽样的不平衡数据分类方法,其特征在于包括以下步骤:

步骤1:建立Adaboost集成算法模型

Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:

步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。

步骤1.2:初始化样本权重:

wt(i)=1/n,i=1,2,…,n

步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:

<mrow><msup><mi>w</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msup><mi>w</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&times;</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msup><msub><mi>&epsiv;</mi><mi>t</mi></msub><mrow><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>&times;</mo><mo>|</mo><mi>h</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>|</mo></mrow></msup></mrow><msub><mi>&epsiv;</mi><mi>t</mi></msub></mfrac></mrow>

<mrow><msup><mi>w</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><msup><mi>w</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>/</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msup><mi>w</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>

其中εt为当前样本分布上的加权错误率,计算公式如下:

<mrow><msub><mi>&epsiv;</mi><mi>t</mi></msub><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>jy</mi><mi>i</mi></msub><mo>&NotEqual;</mo><msub><mi>y</mi><mrow><mi>j</mi><mi>i</mi></mrow></msub></mrow></munder><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>+</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow>

若t<T,令t=t+1并重复步骤c,否则,输出集成分类器H(x):

<mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>argmax</mi><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>&epsiv;</mi><mi>t</mi></msub></mrow><msub><mi>&epsiv;</mi><mi>t</mi></msub></mfrac><mo>)</mo></mrow></mrow>

步骤2:建立基于权重方差的子集分割方法

在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:

<mrow><msub><mi>w</mi><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></msub><mo>=</mo><msub><mi>w</mi><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></msub><mo>&times;</mo><mfrac><mrow><mn>1</mn><mo>-</mo><mi>&epsiv;</mi></mrow><mi>&epsiv;</mi></mfrac><mo>,</mo><mo>&Element;</mo><mo>=</mo><munder><mo>&Sigma;</mo><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></munder><msub><mi>w</mi><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></msub></mrow>

通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下

<mrow><mi>w</mi><mi>var</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mi>C</mi></mrow></munderover><msup><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mo>-</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mi>C</mi></mrow></msubsup><msub><mi>w</mi><mi>k</mi></msub></mrow><mrow><mi>N</mi><mi>C</mi></mrow></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mo>/</mo><mi>N</mi><mi>C</mi></mrow>

利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:

<mrow><mi>w</mi><mi>s</mi><mi>var</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>,</mo><msub><mi>C</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>&times;</mo><mi>w</mi><mi>var</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>&times;</mo><mi>w</mi><mi>var</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow>

其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为I时,可能的子集分割情况的数量为I-1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C重样本的个数,wk为C中样本的权重,k=1,2…NC,在计算C中权重方差wvars=wvar(C)后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和

wsvarmin=min0<j<J{wsvar(C1,C2)}

计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。

步骤3:建立融合权重聚类和Adaboost集成学习算法模型,已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,J为簇的数量;WeakLearn表示若学习算法,则融合权重聚类和Adaboost集成学习算法模型具体步骤如下:

步骤3.1:初始化所有样本的样本权重,公式如下:

<mrow><msubsup><mi>w</mi><mi>i</mi><mn>1</mn></msubsup><mo>=</mo><mn>1</mn><mo>/</mo><mi>N</mi></mrow>

步骤3.2:使样本集合中的多数类集合为初始第一个簇,即C1=S-

步骤3.3:从各个簇中抽取一定数量的样本构成有代表性的训练数据集,确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:

<mrow><mi>W</mi><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><msub><mi>SNC</mi><mi>j</mi></msub><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>w</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>j</mi></msub></mrow></munder><msub><mi>w</mi><mi>k</mi></msub><mo>/</mo><mi>W</mi></mrow>

步骤3.4:对每个簇采用TOP-K的方式,从每个簇Cj中随机抽取SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。

步骤d)、使用弱学习算法,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差,分类误差计算公式如下:

<mrow><mi>h</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>:</mo><msub><mi>&epsiv;</mi><mi>t</mi></msub><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>jy</mi><mi>i</mi></msub><mo>&NotEqual;</mo><msub><mi>y</mi><mrow><mi>j</mi><mi>i</mi></mrow></msub></mrow></munder><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>+</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow>

由分类误差计算β=εt/(1-εt),并更新所有的样本权重,公式如下:

<mrow><msubsup><mi>w</mi><mi>i</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>=</mo><msubsup><mi>w</mi><mi>i</mi><mi>t</mi></msubsup><msubsup><mi>&beta;</mi><mi>t</mi><mrow><mn>1</mn><mo>-</mo><mo>&lsqb;</mo><mo>&lsqb;</mo><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub><mo>&rsqb;</mo><mo>&rsqb;</mo></mrow></msubsup></mrow>

步骤3.5:对循环次数t,计算t%step,当t%step==0且NS<MN时,对所有簇进行步骤2所示的分裂操作。

步骤:3.6:若t<T,令t=t+1,并重复步骤g),否则输出强分类器H(x):

<mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>argmax</mi><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>log</mi><mrow><mo>(</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>&epsiv;</mi><mi>t</mi></msub></mrow><msub><mi>&epsiv;</mi><mi>t</mi></msub></mfrac><mo>)</mo></mrow></mrow>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611116829.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top