[发明专利]一种面向类别不平衡数据集的序数回归问题解决方法在审

专利信息
申请号: 202111260818.3 申请日: 2021-10-28
公开(公告)号: CN114021630A 公开(公告)日: 2022-02-08
发明(设计)人: 赵生捷;杨冰洁;张荣庆 申请(专利权)人: 同济大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/02;G06F17/16
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 蔡彭君
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 类别 不平衡 数据 序数 回归 问题 解决方法
【说明书】:

发明涉及一种面向类别不平衡数据集的序数回归问题解决方法,包括:获取数据集,构建神经网络,数据集包括多个样本,每个样本带有标签,标签用于表示样本所属的类别,神经网络的损失函数为weight kappa loss损失函数;自数据集中选择一个batch,将该batch的所有样本送入神经网络,神经网络的输出为各个样本属于各个类别的预测概率;基于神经网络的输出统计概率混淆矩阵,并计算概率混淆矩阵的两个边缘分布的距离;基于两个边缘分布的距离更新损失函数;计算网络误差,反向传播更新神经网络参数。与现有技术相比,本发明通过对边缘分布进行惩罚,解决了混淆矩阵的全零列问题,消除了某种类别无法被检出的严重后果,提升了神经网络模型的性能。

技术领域

本发明涉及类别不平衡的序数回归问题领域,尤其是涉及一种面向类别不平 衡数据集的序数回归问题解决方法。

背景技术

近年来机器学习技术蓬勃发展的趋势尤为显著,在机器学习领域,分类(classification)问题是最基础且最重要的研究方向,很多AI应用都可以从分类问题 演变而来,同时许多问题也可以转化成分类问题,例如计算机视觉中自然场景的图 像分割可以转化为对每个像素点进行分类后赋予相应的标签。

序数回归问题,又称序数分类问题,是一种典型的机器学习任务。序数回归问 题的类别之间存在固有的顺序,比如每个类别的含义按照时间、空间、程度等递增。 序数回归问题介于分类问题和回归问题之间。与分类问题相比,序数回归问题的类 别之间并不是独立的,而是有一定的顺序关系。与回归问题相比,序数回归问题的 每一类之间是离散的而非连续的。很多的实际问题都可以归纳为序数回归问题,包 括年龄估计、糖尿病性视网膜病变分级、图像年代估计、面部表情强度估计、单目 深度估计等。

类别不平衡是指分类问题中不同类别的样本数量差别很大。常见的分类问题的解决方法往往假设各个类别的样本数量相当。如果不同类别的样本数量稍有差别, 通常对算法性能的影响不大可以忽略。但若不同类别的样本数量差距很大,则训练 过程容易陷入局部最优解,比如模型将所有样本预测为数量较多的类等。

weighted kappa loss是一种序数回归问题常用的损失函数,可以使神经网络模型达到更高的分类性能。然而,使用weighted kappa loss作为序数回归问题的损失 函数时,在类别不平衡的数据集上,weighted kappa loss在训练过程中容易陷入局 部最优解,导致其训练出的神经网络模型的混淆矩阵出现全零列,使得训练好的模 型性能差,不能达到预期目标。混淆矩阵出现全零列将导致某种类别根本无法被预 测到,这在很多实际问题中都是非常不合理的。目前,基于类别不平衡的数据集求 解序数回归问题时,尚无较可靠的方法解决全零列问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种面向类别不 平衡数据集的序数回归问题解决方法。

本发明的目的可以通过以下技术方案来实现:

一种面向类别不平衡数据集的序数回归问题解决方法,包括以下步骤:

S1、获取数据集,构建神经网络,所述数据集包括多个样本,共分为K个类别, K1,每个样本带有标签,所述标签用于表示样本所属的类别,所述神经网络的损 失函数为weight kappa loss损失函数;如果数据集不是类别不平衡数据集,则正常 进行神经网络训练,否则,执行步骤S2;

S2、自数据集中选择一个batch,一个batch中包含M个样本,M0,将该batch 的所有样本送入神经网络,神经网络的输出为各个样本属于各个类别的预测概率;

S3、基于神经网络的输出统计概率混淆矩阵,并计算概率混淆矩阵的两个边 缘分布的距离;

S4、基于两个边缘分布的距离更新损失函数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111260818.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top