[发明专利]一种基于启发式采样的集成学习方法在审

申请号：	202010057454.8	申请日：	2020-01-19
公开（公告）号：	CN111275206A	公开（公告）日：	2020-06-12
发明（设计）人：	蒋昌俊;闫春钢;丁志军;刘关俊;张亚英;广明鉴	申请（专利权）人：	同济大学
主分类号：	G06N20/20	分类号：	G06N20/20;G06K9/62
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	徐迪怡
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于启发式采样集成学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种启发式采样的集成学习方法，适用于不均衡数据集的分类，所述方法包括：根据数据集中所有样本在特征空间的分布特征对数据集划分第二类别；根据各样本的所述第二类别分别设定不同的硬度权重，结合不均衡权重计算各样本的选中概率；根据各样本所述选中概率对数据集重采样，并对重采样后的数据集进行集成训练，获得最终的分类结果。本方法基于样本的内在特征进行有侧重的重采样，以提高不均衡数据集的采样质量，从而提高现有的集成学习方法对于不均衡数据集的分类效果。

技术领域

本发明涉及数据挖掘和机器学习技术领域，尤其是涉及一种基于启发式采样的集成学习方法。

背景技术

近年来，数据挖掘和机器学习模型广泛应用于生活中的各个领域。其中，分类问题是机器学习领域中面临的重要任务之一。传统分类模型的构建通常基于如下假设：数据集中各个类别样本数量是均衡的。然而在许多现实应用中，这种假设是不成立的，即数据集中存在着类别不均衡的现象。如：交易欺诈检测、网络入侵检测、生物基因检测、垃圾邮件过滤等，其数据都是不均衡的。而当这种不均衡现象发生时，分类器对数量上较少的类别识别准确率将变得很低。在实际应用中，这些少数类样本通常具有很高的价值，将这些样本误分类为多数类会带来巨大的损失。如：交易欺诈检测中，非法交易类别(少数类)如果被误分为合法交易(多数类)，将带来严重的经济损失。

目前在不均衡数据的处理问题上，集成学习的方法得到了广泛应用。集成学习的学习过程主要包括两个阶段。第一个阶段，使用数据预处理技术(欠采样或者过采样)对不均衡的数据集预处理，获得相对均衡的数据集子集。第二个阶段，利用机器学习模型在预处理获得的相对均衡的数据集子集上训练并得到最终的分类模型。然而，集成学习在数据集预处理阶段尚存在不足。首先，集成学习中的采样方法往往都是过采样或者欠采样其中的一种，而过采样和欠采样都存在一定的弊端。其中，过采样在采样过程中往往会生成大量的少数类样本，使得运行时间大大提升；而欠采样在采样过程中会删除部分的多数类样本，从而导致丢失部分信息。其次，现有的采样方法在选择样本的过程中往往仅侧重于调节不同类别之间的比例均衡，而并未考虑样本数据的内在属性特征。对于噪声、边界、稀缺样本等不同属性的样本被选中的概率均相同，导致采集到大量的无效样本同时也易丢失重要的样本信息，使得采样质量降低。并且，随着数据集的不均衡比和数据集中样本数量的增加，采集到无效样本的概率将大大增加。

发明内容

鉴于以上现有集成方法在处理不均衡数据集时存在的缺点，本发明的目的在于提供一种启发式采样的集成学习方法，用于解决现有集成学习方法对不均衡数据集的采样质量不高，以及由于预采样数据不均衡而使所述集成学习方法对数据集的分类效果降低的问题。

为实现上述目的及其他相关目的，本发明提供一种启发式采样的集成学习方法，通过采用对少数类别过采样和对多数类别欠采样的组合方式对数据集进行重采样，并结合每个样本的特征属性进行有侧重的采样，以提高不均衡数据集的采样质量，从而提高集成学习方法对于不均衡数据集的分类效果。

所述启发式采样的集成学习方法的步骤包括：对数据集的所有样本根据所述样本的第一类别以及在特征空间的分布特征划分第二类别；计算数据集中每个样本的选中概率；根据所述选中概率采用集成学习算法对数据集重采样和集成训练，获得最终的分类结果。其中，所述第一类别为所述数据集中样本的原始类别，所述第二类别为基于各所述样本在特征空间的分布特征所划分的类别。

于本发明一实施例中，所述选中概率的计算步骤包括：对于数据集中的任意样本x_i，根据所述数据集中所有样本的所述第一类别总数和所述样本x_i的标签值对应的所述第一类别的样本数计算所述样本x_i的不均衡权重；根据所述样本x_i的所述第二类别以及所述样本x_i在特征空间内的局部分布特征计算硬度权重；根据所述不均衡权重和所述硬度权重，计算所述样本x_i的所述选中概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010057454.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种数字化智能风控预警方法及系统
下一篇：终端设备显示屏控制方法及其系统、存储介质及终端设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于启发式采样的集成学习方法在审

专利文献下载