[发明专利]一种面向类别不平衡数据集的序数回归问题解决方法在审
申请号: | 202111260818.3 | 申请日: | 2021-10-28 |
公开(公告)号: | CN114021630A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 赵生捷;杨冰洁;张荣庆 | 申请(专利权)人: | 同济大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/02;G06F17/16 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 蔡彭君 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 类别 不平衡 数据 序数 回归 问题 解决方法 | ||
本发明涉及一种面向类别不平衡数据集的序数回归问题解决方法,包括:获取数据集,构建神经网络,数据集包括多个样本,每个样本带有标签,标签用于表示样本所属的类别,神经网络的损失函数为weight kappa loss损失函数;自数据集中选择一个batch,将该batch的所有样本送入神经网络,神经网络的输出为各个样本属于各个类别的预测概率;基于神经网络的输出统计概率混淆矩阵,并计算概率混淆矩阵的两个边缘分布的距离;基于两个边缘分布的距离更新损失函数;计算网络误差,反向传播更新神经网络参数。与现有技术相比,本发明通过对边缘分布进行惩罚,解决了混淆矩阵的全零列问题,消除了某种类别无法被检出的严重后果,提升了神经网络模型的性能。
技术领域
本发明涉及类别不平衡的序数回归问题领域,尤其是涉及一种面向类别不平 衡数据集的序数回归问题解决方法。
背景技术
近年来机器学习技术蓬勃发展的趋势尤为显著,在机器学习领域,分类(classification)问题是最基础且最重要的研究方向,很多AI应用都可以从分类问题 演变而来,同时许多问题也可以转化成分类问题,例如计算机视觉中自然场景的图 像分割可以转化为对每个像素点进行分类后赋予相应的标签。
序数回归问题,又称序数分类问题,是一种典型的机器学习任务。序数回归问 题的类别之间存在固有的顺序,比如每个类别的含义按照时间、空间、程度等递增。 序数回归问题介于分类问题和回归问题之间。与分类问题相比,序数回归问题的类 别之间并不是独立的,而是有一定的顺序关系。与回归问题相比,序数回归问题的 每一类之间是离散的而非连续的。很多的实际问题都可以归纳为序数回归问题,包 括年龄估计、糖尿病性视网膜病变分级、图像年代估计、面部表情强度估计、单目 深度估计等。
类别不平衡是指分类问题中不同类别的样本数量差别很大。常见的分类问题的解决方法往往假设各个类别的样本数量相当。如果不同类别的样本数量稍有差别, 通常对算法性能的影响不大可以忽略。但若不同类别的样本数量差距很大,则训练 过程容易陷入局部最优解,比如模型将所有样本预测为数量较多的类等。
weighted kappa loss是一种序数回归问题常用的损失函数,可以使神经网络模型达到更高的分类性能。然而,使用weighted kappa loss作为序数回归问题的损失 函数时,在类别不平衡的数据集上,weighted kappa loss在训练过程中容易陷入局 部最优解,导致其训练出的神经网络模型的混淆矩阵出现全零列,使得训练好的模 型性能差,不能达到预期目标。混淆矩阵出现全零列将导致某种类别根本无法被预 测到,这在很多实际问题中都是非常不合理的。目前,基于类别不平衡的数据集求 解序数回归问题时,尚无较可靠的方法解决全零列问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种面向类别不 平衡数据集的序数回归问题解决方法。
本发明的目的可以通过以下技术方案来实现:
一种面向类别不平衡数据集的序数回归问题解决方法,包括以下步骤:
S1、获取数据集,构建神经网络,所述数据集包括多个样本,共分为K个类别, K1,每个样本带有标签,所述标签用于表示样本所属的类别,所述神经网络的损 失函数为weight kappa loss损失函数;如果数据集不是类别不平衡数据集,则正常 进行神经网络训练,否则,执行步骤S2;
S2、自数据集中选择一个batch,一个batch中包含M个样本,M0,将该batch 的所有样本送入神经网络,神经网络的输出为各个样本属于各个类别的预测概率;
S3、基于神经网络的输出统计概率混淆矩阵,并计算概率混淆矩阵的两个边 缘分布的距离;
S4、基于两个边缘分布的距离更新损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111260818.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种状态采集器导轨安装装置
- 下一篇:游戏中网络延迟处理方法、装置和电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置