[发明专利]一种基于随机敏感度采样的不平衡数据的集成学习算法在审
申请号: | 201810075930.1 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108345904A | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 吴永贤;张榆达;张建军 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子分类器 敏感度 分类器 权重 集成学习算法 数据子集 采样 分类器模型 测试分类 调整数据 分类性能 数据采样 数据分布 数据样本 随机采样 初始化 高效性 鲁棒性 欠采样 数据集 准确率 迭代 算法 样本 | ||
本发明公开了一种基于随机敏感度采样的不平衡数据的集成学习算法,包括步骤:1)数据集的准备和初始化,随机欠采样方式得到数据子集训练第一个子分类器;2)根据上一次得到的子分类器,计算样本的随机敏感度,并根据子分类器测试分类的准确率来调整数据权重;3)通过数据样本的随机敏感度值和数据的本身权重值,进行带权重随机采样,得到新的数据子集,来训练下一个子分类器,如此迭代,将得到的若干个子分类器及其权值进行集成,得到最终的分类器模型。本发明算法具有高效性和鲁棒性的特点,能够根据不同形式的数据分布来训练子分类器,数据采样关注了数据本身和前后两个子分类器之间的互补,所以能够取得优秀的分类性能。
技术领域
本发明涉及机器学习与数据挖掘的不平衡数据问题的技术领域,尤其是指一种基于随机敏感度采样的不平衡数据的集成学习算法。
背景技术
机器学习与数据挖掘已经被应用到越来越广泛的现实领域。不平衡数据问题也成为了机器学习领域中出现频率越来越高的问题,不平衡数据也会影响着分类器的性能。对于不平衡数据问题,可采用欠采样或者过采样两种方式来实现不同类数据的平衡,从而帮助分类器的训练。而在分类器的训练上,采用目前效果最佳的集成学习,实现分类器性能的强化。集成学习算法是指在机器学习与数据挖掘领域中,根据“取长补短”的原理,为了提升分类器的性能,可以通过对多个不同的分类器进行集成,形成一个强有效的分类器。集成学习算法在机器学习与数据挖掘领域中占据着非常重要的角色,目前表现性能最佳的算法绝大部分都是采用了该类算法,从而在人脸识别,推荐系统,流量预测等诸多实用领域有着广泛的应用。
目前处理不平衡数据问题的方式多种多样,最直接的方式是数据平衡化,包括对多数类的欠采样和对少数类的过采样。过采样方法中最为经典的是SMOTE少数类样本合成技术,欠采样主要有随机欠采样,反向随机欠采样和遗传算法欠采样。数据平衡化处理会引入数据的不确定性和随机性,而这与集成学习中需要的数据来源不谋而合,将数据平衡化结合集成学习,将会实现取长补短,相互弥补的效果,从而有效地提高分类器的性能。集成学习的最终分类器:
其中G是最终的分类器,wi代表着每一个子分类器的权值,Hi代表着每一个子分类器。
集成学习算法领域中,有很多结合了上面所提到的采样算法和集成学习相结合的经典算法,如rusboost,将随机欠采样算法和boosting算法结合,形成了一个性能良好且稳定的分类器,该算法的优点是算法简单明了,效果稳定,不足是在随机欠采样的过程中损失了多数类的样本,在一定程度上影响了最终分类器的性能。如smoteboost,则是将少数类样本合成技术和boosting算法相结合,形成了一个高度关注少数类的分类器,该算法的优点是保证了给定的数据都能够被分类器学习到,但是不足在于少数类样本合成技术合成的新样本可能会带来噪声样本,影响分类器的鲁棒性。如eusboost,是将遗传进化算法应用到样本选择上,并和boosting算法相结合,形成一个关注样本适应性和多样性的算法,该算法的优点是能够关注最合适且保持多样性的样本,缺点是算法中含有大量的参数,同时遗传进化算法带来了很大的计算量,鲁棒性不足等等的问题。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于随机敏感度采样的不平衡数据的集成学习算法,利用数据样本的随机敏感度作为评论分类器表现的一种指标,将样本的随机敏感度使用到样本的选择中,从而实现挑选最为关键的样本,同时,欠采样的方式会导致采样过程丢失部分的信息,而基于样本的随机敏感度的采样方式正是弥补了该过程的缺陷,每次学习到的都是上一次迭代学习中丢失的部分,这样就让每一个子分类器形成了互补的作用,并在最终形成了一个全面而有效的分类器。
为了实现上述的目的,本发明所提供的技术方案为:一种基于随机敏感度采样的不平衡数据的集成学习算法,包括以下步骤:
1)数据集的准备和初始化,通过随机欠采样的方式得到首次子分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810075930.1/2.html,转载请声明来源钻瓜专利网。