[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

申请号：	201611116829.3	申请日：	2016-12-07
公开（公告）号：	CN106778853A	公开（公告）日：	2017-05-31
发明（设计）人：	邓晓衡;钟维坚;任炬	申请（专利权）人：	中南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于权重抽样不平衡数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于权重聚类和欠抽样的不平衡数据分类方法，其特征在于包括以下步骤：

步骤1：建立Adaboost集成算法模型

Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：

步骤1.1：给定训练集S＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}和预定的迭代次数T，w^t(i)表示第t轮迭代中样本x_i的权值，初始t＝1。

步骤1.2：初始化样本权重：

w^t(i)＝1/n，i＝1,2,…,n

步骤1.3：使用弱分类算法在带权样本上训练得到弱分类器h_t，并更新训练样本权重并对样本权重进行归一化，公式如下：

$<mrow><msup><mi>w</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msup><mi>w</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>×</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msup><msub><mi>ϵ</mi><mi>t</mi></msub><mrow><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>×</mo><mo>|</mo><mi>h</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>|</mo></mrow></msup></mrow><msub><mi>ϵ</mi><mi>t</mi></msub></mfrac></mrow>$

$<mrow><msup><mi>w</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><msup><mi>w</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>/</mo><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msup><mi>w</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>$

其中ε_t为当前样本分布上的加权错误率，计算公式如下：

$<mrow><msub><mi>ϵ</mi><mi>t</mi></msub><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>jy</mi><mi>i</mi></msub><mo>&NotEqual;</mo><msub><mi>y</mi><mrow><mi>j</mi><mi>i</mi></mrow></msub></mrow></munder><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>+</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow>$

若t<T，令t＝t+1并重复步骤c，否则，输出集成分类器H(x)：

$<mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>argmax</mi><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>ϵ</mi><mi>t</mi></msub></mrow><msub><mi>ϵ</mi><mi>t</mi></msub></mfrac><mo>)</mo></mrow></mrow>$

步骤2：建立基于权重方差的子集分割方法

在Adaboost算法中，当h(x_i)表示一个弱分类器，w表示样本权重，y表示样本类别时，其方式如下：

$<mrow><msub><mi>w</mi><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></msub><mo>=</mo><msub><mi>w</mi><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></msub><mo>×</mo><mfrac><mrow><mn>1</mn><mo>-</mo><mi>ϵ</mi></mrow><mi>ϵ</mi></mfrac><mo>,</mo><mo>&Element;</mo><mo>=</mo><munder><mo>Σ</mo><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></munder><msub><mi>w</mi><mrow><mi>h</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub></mrow></msub></mrow>$

通过在每轮迭代中对权重进行修正后，较难分类正确的样本往往有比较高的样本权重，而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar，当有集合C，C中样本数量为NC,集合中样本权重为w时，权重方差公式如下

$<mrow><mi>w</mi><mi>var</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mi>C</mi></mrow></munderover><msup><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mo>-</mo><mfrac><mrow><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mi>C</mi></mrow></msubsup><msub><mi>w</mi><mi>k</mi></msub></mrow><mrow><mi>N</mi><mi>C</mi></mrow></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mo>/</mo><mi>N</mi><mi>C</mi></mrow>$

利用权重方差，可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重，当一个集合中的样本权重近似时，集合拥有较小的权重方差值。因此将C分割为两个子集C₁、C₂，定义子集方差和：

$<mrow><mi>w</mi><mi>s</mi><mi>var</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>,</mo><msub><mi>C</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>×</mo><mi>w</mi><mi>var</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>×</mo><mi>w</mi><mi>var</mi><mrow><mo>(</mo><msub><mi>C</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow>$

其中size表示集合中样本的数量，当两个子集C₁、C₂的样本权重比原集合C有序时，则其子集方差和较小。当集合C中样本数量为I时，可能的子集分割情况的数量为I-1，选取子集方差和最小的分割最为子集的分割，当输入一个带分裂簇C时，NC为C重样本的个数，w_k为C中样本的权重，k＝1,2…NC，在计算C中权重方差wvar_s＝wvar(C)后，对C中的样本依据权重大小进行排序，对集合中的样本的进行从左到右的遍历，每次计算左右两个集合样本权重的最小方差和

wsvar_min＝min_0<j<J{wsvar(C₁,C₂)}

计算所有可能分割的子集方差和后，选取其中子集方差和最小的情况，将原簇分割为两个子簇。

步骤3：建立融合权重聚类和Adaboost集成学习算法模型，已知有输入训练集S＝{x_i,y_i},i＝1,2…N；其中少数类集合为S⁺，多数类集合为S^-；S⁺，S^-∈S；C_j是S^-中的一个簇，J为簇的数量；WeakLearn表示若学习算法，则融合权重聚类和Adaboost集成学习算法模型具体步骤如下：

步骤3.1：初始化所有样本的样本权重，公式如下：

$<mrow><msubsup><mi>w</mi><mi>i</mi><mn>1</mn></msubsup><mo>=</mo><mn>1</mn><mo>/</mo><mi>N</mi></mrow>$

步骤3.2：使样本集合中的多数类集合为初始第一个簇，即C₁＝S^-

步骤3.3：从各个簇中抽取一定数量的样本构成有代表性的训练数据集，确定每个簇的样本抽取数量。当w_k是第j个簇中样本的权重，N为少数类样本的数量，那么第j的簇C_j的抽样数量SNC_j为：

$<mrow><mi>W</mi><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><msub><mi>SNC</mi><mi>j</mi></msub><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>w</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>j</mi></msub></mrow></munder><msub><mi>w</mi><mi>k</mi></msub><mo>/</mo><mi>W</mi></mrow>$

步骤3.4：对每个簇采用TOP-K的方式，从每个簇C_j中随机抽取SNC_j个样本，并与所有的少数类样本组成临时训练集S′，训练集中的样本权重为w′。

步骤d)、使用弱学习算法，根据S′以及w′训练一个分类器h(t)←I(S′)，并计算分类误差，分类误差计算公式如下：

$<mrow><mi>h</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>:</mo><msub><mi>ϵ</mi><mi>t</mi></msub><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>jy</mi><mi>i</mi></msub><mo>&NotEqual;</mo><msub><mi>y</mi><mrow><mi>j</mi><mi>i</mi></mrow></msub></mrow></munder><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>+</mo><msub><mi>h</mi><mi>t</mi></msub><mo>(</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow>$

由分类误差计算β＝ε_t/(1-ε_t)，并更新所有的样本权重，公式如下：

$<mrow><msubsup><mi>w</mi><mi>i</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>=</mo><msubsup><mi>w</mi><mi>i</mi><mi>t</mi></msubsup><msubsup><mi>β</mi><mi>t</mi><mrow><mn>1</mn><mo>-</mo><mo>[</mo><mo>[</mo><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><msub><mi>y</mi><mi>i</mi></msub><mo>]</mo><mo>]</mo></mrow></msubsup></mrow>$

步骤3.5：对循环次数t，计算t％step，当t％step＝＝0且NS<MN时，对所有簇进行步骤2所示的分裂操作。

步骤:3.6：若t<T，令t＝t+1，并重复步骤g)，否则输出强分类器H(x)：

$<mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>argmax</mi><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>log</mi><mrow><mo>(</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>ϵ</mi><mi>t</mi></msub></mrow><msub><mi>ϵ</mi><mi>t</mi></msub></mfrac><mo>)</mo></mrow></mrow>$

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611116829.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种修正误判的图像内容识别方法
下一篇：基于轨迹和卷积神经网络特征提取的行为识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

专利文献下载