[发明专利]自适应采样不平衡数据分类处理方法、装置、设备及介质在审
| 申请号: | 201810453102.7 | 申请日: | 2018-05-10 |
| 公开(公告)号: | CN108694413A | 公开(公告)日: | 2018-10-23 |
| 发明(设计)人: | 韩伟红;李树栋;王乐;方滨兴;贾焰;黄子中;周斌;殷丽华;田志宏 | 申请(专利权)人: | 广州大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
| 地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应采样 数据分类 数据处理 过采样 欠采样 分类准确性 分类算法 个人需求 获取目标 大数据 | ||
本发明公开了一种自适应采样不平衡数据分类处理方法,包括:获取目标多数样例个数和目标少数样例个数;根据所述目标多数样例个数和所述目标少数样例个数对待处理不平衡数据进行自适应采样数据处理,以使得处理后的所述待处理不平衡数据中的多数样例个数满足所述目标多数样例个数,处理后的所述待处理不平衡数据中的少数样例个数满足所述目标少数样例个数;其中,所述自适应采样数据处理包括过采样和欠采样。根据用户的个人需求,结合使用过采样和欠采样技术,使得新生成的样例集满足分类算法对数据的需求,提高不平衡大数据的分类准确性。
技术领域
本发明涉及不平衡大数据处理领域,尤其涉及自适应采样不平衡数据分类处理方法、装置、设备及介质。
背景技术
随着技术的不断进步,包括互联网速度提升、移动互联网更新换代、硬件技术不断发展、数据采集技术、存储技术、处理技术得到长足的发展,数据正以前所未有的速度增长,我们已经进入了大数据时代。大数据的数据规模巨大(volume)、产生高速(velocity)、形式多样(variety)、数据不确定(veracity)等特性使得传统的数据分析与挖掘技术在应用到大数据领域时遇到了前所未有的挑战。
数据分类是数据分析和挖掘中的基本算法,具有广泛的应用领域,也是很多其他数据分析和挖掘算法的基础。在大数据中,几乎所有的数据集都是不平衡数据,不平衡数据是指在数据集中至少有一个类别包含相对其它类别更少的样例。数据不平衡问题在现实世界中广泛存在,尤其在大数据应用领域。例如,在互联网文本分类中,各个类别的数据是不均衡的,而我们关注的往往是小类别的数据,如网络上的敏感信息,新出现的话题等;在电子商务应用中,大量的用户交易数据和行为数据都是正常的,而我们关注的往往是电子商务中的欺诈行为以及异常行为,这些数据淹没在大量的正常行为数据中,属于严重倾斜的不平衡数据集。类似的应用还有医疗诊断、卫星遥感数据分类等。因此,不平衡大数据分类是国民经济和社会发展中迫切需要解决的关键技术问题,具有广泛的应用前景。
不平衡大数据由于不同类别数据样例的数量差别过大,导致传统的分类学习算法很难取得好的分类效果,如图1所示的现有技术中不平衡数据分类示例,其中圆圈为少数类样例,三角为多数类样例,不平衡比为3:1,即多数类样例为少数类样例的3倍,而在实际的大数据集中,不平衡比往往是10000:1,甚至更高,因此在进行分类之前先需要对数据进行预处理。
已有的不平衡大数据预处理方法主要包括针对少数类的过采样和针对多数类的欠采样。过采样是指采用一定的方法和技术增加少数类样本,欠采样是指采用一定的方法和技术减少多数类样本,这两种方法的目的都是通过对样本集的调整减少大数据集的不平衡度,增加分类算法的准确性。
发明人在实施本发明实施例时,发现现有技术存在以下技术问题:不同分类算法以及不同应用需求对不平衡数据集的大小以及数据的不平衡比需求不同,在过采样中会增加训练集的规模,特别是当原始训练集的不平衡比很大时,会得到接近于多数类样例数目的新合成少数类样例。假定原始训练集中有100个少数类样例,10000个多数类样例,则需要使用过采样合成9900个新的少数类样例,使得最终的训练样例数目显著增大,一方面合成样本过多导致新合成样例与已有样例大量重复,另一方面数据量的增加会降低分类算法的性能。在欠采样技术中虽然可以减少数据的规模,尤其是当原始训练集的不平衡比很大时,欠采样后的数据规模会大大减少,但为了达到平衡而过多的减少多数类样例也可能造成有用信息的丢失,也可能导致多数类分类效果的显著降低。
发明内容
针对上述问题,本发明的目的在于提供一种自适应采样不平衡数据分类处理方法,根据分类算法的数据需求,结合使用过采样和欠采样技术,使得新生成的样例集满足分类算法对数据的需求,提高不平衡大数据的分类准确性。
第一方面,本发明提供了一种自适应采样不平衡数据分类处理方法,包括:
获取目标多数样例个数和目标少数样例个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810453102.7/2.html,转载请声明来源钻瓜专利网。





