[发明专利]一种基于正则化最优传输理论的不平衡数据分类方法在审
| 申请号: | 202110724175.7 | 申请日: | 2021-06-29 |
| 公开(公告)号: | CN113420820A | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 马丽涛;文人庆;陈继强;张峰;张丽娜;付俊丰;万杰 | 申请(专利权)人: | 河北工程大学;哈尔滨工业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 李智慧 |
| 地址: | 056000 河北省*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 正则 最优 传输 理论 不平衡 数据 分类 方法 | ||
本发明公开了一种基于正则化最优传输理论的不平衡数据分类方法,所述方法包括如下步骤:一:获取不平衡训练样本集和测试样本集;二:构建Monge型最优传输问题;三:将Monge型最优传输问题凸松弛化为离散的Kantorovitch型最优传输问题;四:设计合理的非凸正则项,进而构建非凸正则最优传输问题;五:设计最大—最小化最优传输求解算法,计算该算法模型在各数据集上的Pre、Rec、GM、F1M评价指标值,从而实现对不平衡数据集的有效分类。本发明构建了带有非凸正则项的最优传输问题,丰富了最优传输的理论研究。相对于常用的不平衡数据分类方法,本方法对不平衡数据的分类精度更高。
技术领域
本发明涉及一种处理不平衡数据的分类方法,具体涉及一种运用 正则化最优传输理论设计的最大—最小化算法来实现对不平衡数据 进行分类的方法。
背景技术
不平衡数据集是指在一个数据集中某类样本数量远小于(或远大 于)其他类别样本的集合。对于多数机器学习算法而言,如果训练集 为不平衡数据集,则会使得分类器的性能下降。近年来,上述问题在 各行各业愈发突出,引起了众多学者和专家的高度关注。
目前国内外学者所作研究大体可以分为两类:一类是从数据本身 出发对数据集重构,来减轻数据集的不平衡程度,从而提高少数类的 分类性能;另一类是针对传统分类模型,从分类思想和分类算法层面, 提出了一系列有针对性,偏向对少数类更关注,提高少数类分类精度 的改进策略。
上述研究都有效的提升了机器学习模型的分类性能,但这些方法 在不同数据源数据集上表现并不鲁棒。对于如何构建一种对不平衡数 据集具有一定鲁棒性的算法,暂未见权威公开文献详细阐述。
发明内容
为了提高不平衡数据集的分类精度,并使得分类器对不平衡数据 集具有一定鲁棒性,本发明提供了一种基于正则化最优传输理论的不 平衡数据分类方法。
本发明的目的是通过以下技术方案实现的:
一种基于正则化最优传输理论的不平衡数据分类方法,包括如下 步骤:
步骤一:获取不平衡训练样本集和测试样本集要求训练 样本集与测试样本集中的类不平衡的比例(即不平衡率)接近;
步骤二:针对步骤一获取的训练样本集和测试样本集,构建 Monge型最优传输问题,其中,Monge型最优传输问题为:
其中,μ为训练样本集服从Rn上的概率分布,ν为测试样本集服从Rn上的概率分布,#为push forward算子,T为传输映射,Ω0为训练样 本空间,f为代价函数;
步骤三:将步骤二得到的Monge型最优传输问题凸松弛化为离 散的Kantorovitch型最优传输问题,其中,凸松弛后的离散 Kantorovitch型最优传输问题为:
其中,Π为分布μ和ν的所有联合概率分布组成的集合,xi、yj为样 本坐标,i,j分别表示取值在0~N和0~M之间的下脚标,N为训练样 本个数,M为测试样本个数,γ为传输计划;
步骤四:为步骤三得到的离散的Kantorovitch型最优传输问题, 设计合理的非凸正则项,进而构建非凸正则最优传输问题,其中:
设计的非凸正则项如下:
其中,p,q为任意实数,为lp范数的q次幂,Ic为样本类别是c的样 本的标号集,γ(Ic,j)为矩阵γ的第j列中属于第c类的数据构成的向量, 当p=2、q=2时,Ω(γ)为凸正则项;当p=1、时Ω(γ)为非凸正则 项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学;哈尔滨工业大学,未经河北工程大学;哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110724175.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带lightning母接口的电源适配器及充电装置
- 下一篇:步进电机





