[发明专利]一种基于随机敏感度采样的不平衡数据的集成学习算法在审

申请号：	201810075930.1	申请日：	2018-01-26
公开（公告）号：	CN108345904A	公开（公告）日：	2018-07-31
发明（设计）人：	吴永贤;张榆达;张建军	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	子分类器敏感度分类器权重集成学习算法数据子集采样分类器模型测试分类调整数据分类性能数据采样数据分布数据样本随机采样初始化高效性鲁棒性欠采样数据集准确率迭代算法样本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于随机敏感度采样的不平衡数据的集成学习算法，包括步骤：1)数据集的准备和初始化，随机欠采样方式得到数据子集训练第一个子分类器；2)根据上一次得到的子分类器，计算样本的随机敏感度，并根据子分类器测试分类的准确率来调整数据权重；3)通过数据样本的随机敏感度值和数据的本身权重值，进行带权重随机采样，得到新的数据子集，来训练下一个子分类器，如此迭代，将得到的若干个子分类器及其权值进行集成，得到最终的分类器模型。本发明算法具有高效性和鲁棒性的特点，能够根据不同形式的数据分布来训练子分类器，数据采样关注了数据本身和前后两个子分类器之间的互补，所以能够取得优秀的分类性能。

技术领域

本发明涉及机器学习与数据挖掘的不平衡数据问题的技术领域，尤其是指一种基于随机敏感度采样的不平衡数据的集成学习算法。

背景技术

机器学习与数据挖掘已经被应用到越来越广泛的现实领域。不平衡数据问题也成为了机器学习领域中出现频率越来越高的问题，不平衡数据也会影响着分类器的性能。对于不平衡数据问题，可采用欠采样或者过采样两种方式来实现不同类数据的平衡，从而帮助分类器的训练。而在分类器的训练上，采用目前效果最佳的集成学习，实现分类器性能的强化。集成学习算法是指在机器学习与数据挖掘领域中，根据“取长补短”的原理，为了提升分类器的性能，可以通过对多个不同的分类器进行集成，形成一个强有效的分类器。集成学习算法在机器学习与数据挖掘领域中占据着非常重要的角色，目前表现性能最佳的算法绝大部分都是采用了该类算法，从而在人脸识别，推荐系统，流量预测等诸多实用领域有着广泛的应用。

目前处理不平衡数据问题的方式多种多样，最直接的方式是数据平衡化，包括对多数类的欠采样和对少数类的过采样。过采样方法中最为经典的是SMOTE少数类样本合成技术，欠采样主要有随机欠采样，反向随机欠采样和遗传算法欠采样。数据平衡化处理会引入数据的不确定性和随机性，而这与集成学习中需要的数据来源不谋而合，将数据平衡化结合集成学习，将会实现取长补短，相互弥补的效果，从而有效地提高分类器的性能。集成学习的最终分类器：

其中G是最终的分类器，w_i代表着每一个子分类器的权值，H_i代表着每一个子分类器。

集成学习算法领域中，有很多结合了上面所提到的采样算法和集成学习相结合的经典算法，如rusboost，将随机欠采样算法和boosting算法结合，形成了一个性能良好且稳定的分类器，该算法的优点是算法简单明了，效果稳定，不足是在随机欠采样的过程中损失了多数类的样本，在一定程度上影响了最终分类器的性能。如smoteboost，则是将少数类样本合成技术和boosting算法相结合，形成了一个高度关注少数类的分类器，该算法的优点是保证了给定的数据都能够被分类器学习到，但是不足在于少数类样本合成技术合成的新样本可能会带来噪声样本，影响分类器的鲁棒性。如eusboost，是将遗传进化算法应用到样本选择上，并和boosting算法相结合，形成一个关注样本适应性和多样性的算法，该算法的优点是能够关注最合适且保持多样性的样本，缺点是算法中含有大量的参数，同时遗传进化算法带来了很大的计算量，鲁棒性不足等等的问题。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于随机敏感度采样的不平衡数据的集成学习算法，利用数据样本的随机敏感度作为评论分类器表现的一种指标，将样本的随机敏感度使用到样本的选择中，从而实现挑选最为关键的样本，同时，欠采样的方式会导致采样过程丢失部分的信息，而基于样本的随机敏感度的采样方式正是弥补了该过程的缺陷，每次学习到的都是上一次迭代学习中丢失的部分，这样就让每一个子分类器形成了互补的作用，并在最终形成了一个全面而有效的分类器。

为了实现上述的目的，本发明所提供的技术方案为：一种基于随机敏感度采样的不平衡数据的集成学习算法，包括以下步骤：

1)数据集的准备和初始化，通过随机欠采样的方式得到首次子分类器；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810075930.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于模态距离约束的多模态融合图像分类方法
下一篇：多特征图片识别方法、装置及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于随机敏感度采样的不平衡数据的集成学习算法在审

专利文献下载