[发明专利]基于类激活热力图的长尾数据分类方法、系统及介质在审
申请号: | 202211487746.0 | 申请日: | 2022-11-25 |
公开(公告)号: | CN115830372A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 吴庆耀;陈健;赖吕龙 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06N3/045;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 激活 力图 长尾 数据 分类 方法 系统 介质 | ||
本发明公开了一种基于类激活热力图的长尾数据分类方法、系统及介质,方法为:获取长尾数据集;构建长尾数据分类模型;在长尾数据集上预训练特征提取模块和分类模块,完成后冻结特征提取模块的参数;在长尾数据集上迭代训练长尾数据分类模型,包括:得到少样本类别的数据集,输入类激活图模块,生成可学习的原型和标准类激活图热力图;将标准类激活热力图转换为单通道图,并重新提取少样本类别数据集的特征向量,得到分类结果;迭代训练类激活图模块和分类模块,更新参数直至收敛,得到训练好的模型;获取待预测长尾数据集的分类结果。本发明有效解决了数据不平衡问题,在不降低多样本类别的分类性能下,准确地对少样本类别进行分类。
技术领域
本发明属于长尾数据处理的技术领域,具体涉及一种基于类激活热力图的长尾数据分类方法、系统及介质。
背景技术
近年来,人工智能及相关产业正迅速发展壮大,成为学术界、工业界以及世界各国政府关注的焦点,国务院发布了《新一代人工智能发展规划》,突出了人工智能研究和产业的国家战略地位。在计算机视觉领域,深度神经网络已经取得了很多突破性的进展;其中一个重要原因在于现有的大量的可用数据集(例如ImageNet)。然而,这些数据集中数据常常是不平衡的,不同类别的数据数量差异非常大。而通过不平衡的数据学习到的模型,对于少样本类别判断准确率较低。许多早期研究通过人为平衡数据来解决数据不平衡问题,如样本采样策略、类相关损失函数等;虽然一定程度上解决了数据不平衡问题,但同时也降低了在多样本类别上的性能,并存在过拟合的风险。最近,研究显示不平衡的数据分布对神经网络中的分类器影响很大,每个类别对应的分类权重大小与学习模型中的数据数量正相关,导致网络总是偏向于产生多样本类别的判断。因此,如何在长尾数据上训练出一个少样本类别判断准确的模型是一个亟待解决的难题。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于类激活热力图的长尾数据分类方法、系统及介质,本发明通过在构建的长尾数据分类模型中引入类激活图模块,通过预训练特征提取模块的参数并冻结,再通过迭代训练重新训练长尾数据分类模型,有效解决了数据不平衡问题,在不降低多样本类别的分类性能下,准确地对少样本类别进行分类。
为了达到上述目的,本发明一方面提供了一种基于类激活热力图的长尾数据分类方法,包括下述步骤:
获取长尾数据集,所述长尾数据集包含多个类别,并对每个样本标注所属类别,且不同类别的样本数量具有较大差异;
构建长尾数据分类模型,所述长尾数据分类模型包括特征提取模块、类激活图模块和分类模块;所述类激活图模块位于特征提取模块和分类模块之间;
使用交叉熵损失函数在长尾数据集上预训练特征提取模块和分类模块,预训练完成后冻结特征提取模块的参数,得到长尾数据集的类别;
在长尾数据集上迭代训练长尾数据分类模型,包括:
定义长尾数据集的类别中数据量少于τ的类别为少样本类别,得到少样本类别的数据集;
将少样本类别的数据集输入类激活图模块,生成可学习的原型和标准类激活图热力图;
将标准类激活热力图转换为单通道图,并输入冻结参数的特征提取模块中重新提取少样本类别数据集的特征向量,输入分类模型中得到分类结果;
使用交叉熵损失函数迭代训练类激活图模块和分类模块,更新类激活图模块和分类模块的参数直至收敛,得到训练好的长尾数据分类模型;
将待预测长尾数据集输入训练好的长尾数据分类模型中,得到预测的分类结果。
作为优选的技术方案,所述使用交叉熵损失函数在长尾数据集上预训练特征提取模块和分类模块,具体为:
输入长尾数据集到特征提取模块中,提取长尾数据集中每一样本的特征向量F;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211487746.0/2.html,转载请声明来源钻瓜专利网。