[发明专利]基于正则化动态集成的不平衡数据分类方法在审
申请号: | 201910542741.5 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110276395A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 雒瑞森;王琛;孙超;徐耀;涂海燕;余勤;龚晓峰 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/66 |
代理公司: | 成都四合天行知识产权代理有限公司 51274 | 代理人: | 郭受刚;王记明 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 子数据集 动态集成 数据分类 子分类器 正则化 高斯 质心 混合高斯模型 测试数据集 计算复杂度 算法稳定性 分类结果 高斯分布 随机选择 线性组合 训练数据 分类器 生成子 数据量 子数据 构建 减小 拟合 移除 噪声 集合 基数 | ||
本发明公开了基于正则化动态集成的不平衡数据分类方法,包括依次进行的以下步骤:将测试数据集分离,生成K个高斯分布的混合高斯模型;生成子数据集,具体为:每个高斯质心生成两个不同的子数据集,第一个子数据集的大小为多数数据的基数除以高斯质心的数量,另一个也包含多数实例,其大小等于少数实例的数量;将第二类子数据集与从集合中随机选择的个多数实例组合;将两个生成的多数数据集与少数数据集Xk组合,将第一类子数据集中被视为噪声的实例移除;基于每个子数据集生成多个子分类器,并构建各个子分类器;将子分类器线性组合;确定分类结果。本发明能降低关于数据量的计算复杂度,减轻了过拟合现象,能减小训练数据偏差,提升算法稳定性。
技术领域
本发明涉及不平衡数据处理技术,具体是基于正则化动态集成的不平衡数据分类方法。
背景技术
不平衡数据指的是具有在类之间有显著差异的实例数量的数据集。具体而言,对于二元不平衡数据分类问题,通常有一个类占据整个数据集(命名为多数类),而少数实例来自另一个类(命名为少数类)。二元不平衡数据分类问题经常存在于工程和科学实践中,特别是生物信息学研究领域。由于传统的分类方法在不平衡的数据环境下,性能方面往往不尽人意,现已有大量的文献专注于为这种类型的分类设计特定的方法。现有的方法大致可分为四种类型:第一种方法是重新采样,其目的是通过对多数类进行欠采样或对少数例子进行过采样来生成平衡数据;第二种方法是使用不平衡-敏感的目标函数,通过为不同类型的错误分类指定不同的损失表示来解决问题;第三种方法是所谓的一类学习方法,它通过仅学习多数/少数数据的表示来解决问题;第四种方法是集成方法,它通常利用在数据分布和算法参数等级上优化模型的混合方案,以获得令人满意的整体性能。
上述第四种方法集成方法包括静态集成方法和动态集成方法,目前人们使用静态集成方法对类别不平衡数据分类问题进行了装袋法和增强法的检验,其中,装袋法和增强法都将采用经过修改的数据分布,并通过具有自适应参数的多个分类器来建立模型。静态集成方法对数据局部特征考虑不足,集成模型对新的测试数据的表现难以保证。相比之下,动态集成方法根据测试数据动态确定子分类器集成系数,增强了模型的灵活性并减少预测偏差,因此,其较静态集成方法性能更优越。
然而,现有分类器的动态集成方法用于二类不平衡数据分类问题时,往往存在过拟合现象,用测试数据分析时效果可能出现较大的偏差,且算法稳定性不能保证。
发明内容
本发明的目的在于解决现有集成方法应用时存在训练数据偏差大、易出现过拟合现象的问题,提供了一种基于正则化动态集成的不平衡数据分类方法,其应用时减轻了过拟合现象,并能减小训练数据偏差,提升算法稳定性。
本发明的目的主要通过以下技术方案实现:基于正则化动态集成的不平衡数据分类方法,包括以下步骤:
步骤一、将测试数据集分离为多数数据集Xn和少数数据集Xk,根据多数数据生成K个高斯分布的混合高斯模型;
步骤二、基于不同的高斯质心生成子数据集,具体为:每个高斯质心生成两个不同的子数据集,第一个子数据集将选择个最相关的多数实例,第二个子数据集将选择mk个最相关的多数实例,其中,mn是多数数据的大小;mk是少数数据的大小;所有高斯质心生成的第一个子数据集共同构成第一类子数据集,所有高斯质心生成的第二个子数据集共同构成第二类子数据集;
步骤三、将第二类子数据集与从集合中随机选择的个多数实例组合;
步骤四、将两个生成的多数数据集与少数数据集Xk组合,采用Tomek Link的方式将第一类子数据集中被视为噪声的实例移除;
步骤五、基于每个子数据集生成多个子分类器,并采用梯度提升方法构建各个子分类器;
步骤六、将子分类器线性组合,其中,线性组合模型的系数由具有交叉熵损失的随机梯度下降进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910542741.5/2.html,转载请声明来源钻瓜专利网。