[发明专利]一种基于正则化最优传输理论的不平衡数据分类方法在审

专利信息
申请号: 202110724175.7 申请日: 2021-06-29
公开(公告)号: CN113420820A 公开(公告)日: 2021-09-21
发明(设计)人: 马丽涛;文人庆;陈继强;张峰;张丽娜;付俊丰;万杰 申请(专利权)人: 河北工程大学;哈尔滨工业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 哈尔滨龙科专利代理有限公司 23206 代理人: 李智慧
地址: 056000 河北省*** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 正则 最优 传输 理论 不平衡 数据 分类 方法
【说明书】:

发明公开了一种基于正则化最优传输理论的不平衡数据分类方法,所述方法包括如下步骤:一:获取不平衡训练样本集和测试样本集;二:构建Monge型最优传输问题;三:将Monge型最优传输问题凸松弛化为离散的Kantorovitch型最优传输问题;四:设计合理的非凸正则项,进而构建非凸正则最优传输问题;五:设计最大—最小化最优传输求解算法,计算该算法模型在各数据集上的Pre、Rec、GM、F1M评价指标值,从而实现对不平衡数据集的有效分类。本发明构建了带有非凸正则项的最优传输问题,丰富了最优传输的理论研究。相对于常用的不平衡数据分类方法,本方法对不平衡数据的分类精度更高。

技术领域

本发明涉及一种处理不平衡数据的分类方法,具体涉及一种运用 正则化最优传输理论设计的最大—最小化算法来实现对不平衡数据 进行分类的方法。

背景技术

不平衡数据集是指在一个数据集中某类样本数量远小于(或远大 于)其他类别样本的集合。对于多数机器学习算法而言,如果训练集 为不平衡数据集,则会使得分类器的性能下降。近年来,上述问题在 各行各业愈发突出,引起了众多学者和专家的高度关注。

目前国内外学者所作研究大体可以分为两类:一类是从数据本身 出发对数据集重构,来减轻数据集的不平衡程度,从而提高少数类的 分类性能;另一类是针对传统分类模型,从分类思想和分类算法层面, 提出了一系列有针对性,偏向对少数类更关注,提高少数类分类精度 的改进策略。

上述研究都有效的提升了机器学习模型的分类性能,但这些方法 在不同数据源数据集上表现并不鲁棒。对于如何构建一种对不平衡数 据集具有一定鲁棒性的算法,暂未见权威公开文献详细阐述。

发明内容

为了提高不平衡数据集的分类精度,并使得分类器对不平衡数据 集具有一定鲁棒性,本发明提供了一种基于正则化最优传输理论的不 平衡数据分类方法。

本发明的目的是通过以下技术方案实现的:

一种基于正则化最优传输理论的不平衡数据分类方法,包括如下 步骤:

步骤一:获取不平衡训练样本集和测试样本集要求训练 样本集与测试样本集中的类不平衡的比例(即不平衡率)接近;

步骤二:针对步骤一获取的训练样本集和测试样本集,构建 Monge型最优传输问题,其中,Monge型最优传输问题为:

其中,μ为训练样本集服从Rn上的概率分布,ν为测试样本集服从Rn上的概率分布,#为push forward算子,T为传输映射,Ω0为训练样 本空间,f为代价函数;

步骤三:将步骤二得到的Monge型最优传输问题凸松弛化为离 散的Kantorovitch型最优传输问题,其中,凸松弛后的离散 Kantorovitch型最优传输问题为:

其中,Π为分布μ和ν的所有联合概率分布组成的集合,xi、yj为样 本坐标,i,j分别表示取值在0~N和0~M之间的下脚标,N为训练样 本个数,M为测试样本个数,γ为传输计划;

步骤四:为步骤三得到的离散的Kantorovitch型最优传输问题, 设计合理的非凸正则项,进而构建非凸正则最优传输问题,其中:

设计的非凸正则项如下:

其中,p,q为任意实数,为lp范数的q次幂,Ic为样本类别是c的样 本的标号集,γ(Ic,j)为矩阵γ的第j列中属于第c类的数据构成的向量, 当p=2、q=2时,Ω(γ)为凸正则项;当p=1、时Ω(γ)为非凸正则 项;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学;哈尔滨工业大学,未经河北工程大学;哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110724175.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top