[发明专利]一种面向类别不平衡数据集的序数回归问题解决方法在审
| 申请号: | 202111260818.3 | 申请日: | 2021-10-28 |
| 公开(公告)号: | CN114021630A | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 赵生捷;杨冰洁;张荣庆 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/02;G06F17/16 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 蔡彭君 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 类别 不平衡 数据 序数 回归 问题 解决方法 | ||
1.一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,包括以下步骤:
S1、获取数据集,构建神经网络,所述数据集包括多个样本,共分为K个类别,K>1,每个样本带有标签,所述标签用于表示样本所属的类别,所述神经网络的损失函数为weightkappa loss损失函数;如果数据集不是类别不平衡数据集,则正常进行神经网络训练,否则,执行步骤S2;
S2、自数据集中选择一个batch,一个batch中包含M个样本,M>0,将该batch的所有样本送入神经网络,神经网络的输出为各个样本属于各个类别的预测概率;
S3、基于神经网络的输出统计概率混淆矩阵,并计算概率混淆矩阵的两个边缘分布的距离;
S4、基于两个边缘分布的距离更新损失函数;
S5、基于当前batch中各个样本所属的类别、神经网络的输出和损失函数计算网络误差,反向传播更新神经网络参数,重复步骤S2,直至神经网络训练完成。
2.根据权利要求1所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,步骤S1中,如果数据集的不平衡比大于预设置的平衡阈值,则数据集为类别不平衡数据集,所述不平衡比ρ的计算公式为:
其中,A表示数据集中样本数量最多的类别,B表示数据集中样本数量最少的类别,Ci表示数据集中属于类别i的样本的数量。
3.根据权利要求2所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,预设置的平衡阈值为1.5。
4.根据权利要求1所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,步骤S3中统计概率混淆矩阵具体为:
建立概率混淆矩阵W,W∈RK×K,将概率混淆矩阵W初始化为全零矩阵;将神经网络的输出表示为输出矩阵O,O∈RM×K,输出矩阵O第p行第q列的元素Op,q的值为第p个样本属于类别q的预测概率,1≤p≤M,1≤q≤K;基于输出矩阵O更新概率混淆矩阵W的各个元素,1≤i≤K,1≤j≤K,其中,概率混淆矩阵W第i行第j列的元素Wi,j的值更新为:
Wi,j=∑tp=i,q=jOp,q
其中,tp表示第p个样本的ground truth,ground truth即基于第p个样本的标签确定的第p个样本所属的类别。
5.根据权利要求4所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,步骤S3中计算概率混淆矩阵的两个边缘分布具体为:
计算概率混淆矩阵W行累积的边缘分布r和列累积的边缘分布c:
其中,r为概率混淆矩阵W行累积的边缘分布,c为概率混淆矩阵W列累积的边缘分布。
6.根据权利要求5所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,边缘分布r和边缘分布c是长度为K的向量,两个边缘分布的距离定义为两个向量的KL散度。
7.根据权利要求6所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,将两个边缘分布的距离与损失函数相加得到新的损失函数:
其中,表示更新后的损失函数,f(QWK)表示weight kappa loss损失函数,D(r,c)表示两个边缘分布的距离。
8.根据权利要求4所述的一种面向类别不平衡数据集的序数回归问题解决方法,其特征在于,输出矩阵O中,第p行第q列的元素Op,q的值小于等于1,第p行的K个元素的值的总和为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111260818.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种状态采集器导轨安装装置
- 下一篇:游戏中网络延迟处理方法、装置和电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





