[发明专利]一种基于对比学习的大规模图像在线聚类系统及方法在审
| 申请号: | 202011544811.X | 申请日: | 2020-12-24 |
| 公开(公告)号: | CN112668627A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 彭玺;李云帆;杨谋星 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 610065 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对比 学习 大规模 图像 在线 系统 方法 | ||
本发明公开了一种基于对比学习的大规模图像在线聚类系统及方法,其系统包括:增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统;其方法包括:S1、对原始图像样本集进行增广操作,得到两组增广图像集;S2、构建总损失函数,将两组增广图像集作为训练集,采用梯度下降优化方法对大规模在线聚类系统进行训练;S3、采用训练完成的大规模在线聚类系统对待处理的图像样本集进行聚类处理,将类别级别对比头子系统输出的最大概率对应的类别,作为每一张图像样本的聚类结果;本发明解决了现有方法无法实现大规模在线聚类,以及特征提取和数据聚类这两个阶段联系不紧密,容易出现误差累计的问题。
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于对比学习的大规模图像在线聚类系统及方法。
背景技术
聚类是一类基础的无监督机器学习方法,其基本思想是根据数据自身特点及数据间相似性,在不依赖外部标签的前提下,自动的将数据划分为若干个类别,使得每一类的数据具有相同特性,而不同类的数据间具有明显差别。聚类在现实生活中具有广泛的应用:例如,通过对用户消费行为的分析,将用户划分为若干具有不同偏好的群体(如美食、科技爱好者等),帮助商家针对性推荐和营销;通过对大量照片的分析,将无标签图像划分为若干类别(如自然风光、人物特写等),帮助用户进行图像整理和进一步检索。
现有的聚类方法通常分为两个阶段实现,首先通过深度神经网络提取出原始数据的特征,之后通过K-means等经典聚类方法对数据进行聚类。例如,一种现有迭代的方法,每次迭代首先选取两个最相似的数据点进行合并,之后根据当前的合并结果来优化特征提取网络,通过不断交替进行该过程实现数据聚类。另一种聚类方法是利用K-means方法对数据进行聚类,将聚类结果作为伪标签,通过分类任务优化特征提取网络,交替进行该过程,不断提升所提取特征的表征能力,进而提升聚类效果。
现有聚类方法主要存在两个缺陷:一是现有方法无法实现大规模在线聚类,其中大规模指的是数据量大,在线指的是数据以流的形式呈现,即无法在一时间获取全部的数据信息,现有聚类方法依赖于数据的全局相似性信息,而当数据量足够大时,受限于设备内存,无法读取完整的数据集,方法将不再适用;另外,现有方法对原有数据进行聚类后,对于之后新增的数据无法直接聚类,而是需要合并新增数据和原有数据,并重新对整个数据集进行聚类,效率较低。二是现有的两阶段迭代学习范式中,特征提取和数据聚类这两个阶段联系不紧密,容易出现误差累计的问题,具体来说,如果特征提取网络的能力较弱,提取的特征质量较低,那么根据该特征计算得到的聚类结果也较差,也就无法反过来指导特征提取网络进行有效的优化更新,最终大大降低聚类的效果。鉴于实际生活中的数据通常规模较大,而且维度较高,难以从中有效提取特征,因此上述的两个缺陷会严重阻碍现有算法在现实中的应用。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于对比学习的大规模图像在线聚类系统及方法解决了现有方法无法实现大规模在线聚类,以及特征提取和数据聚类这两个阶段联系不紧密,容易出现误差累计的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于对比学习的大规模图像在线聚类系统,包括:增广子系统、特征提取子系统、实例级别对比头子系统和类别级别对比头子系统;
所述增广子系统用于对图像样本集进行增广操作,得到两组增广图像集;所述特征提取子系统包括:第一特征提取深度神经网络和第二特征提取深度神经网络;所述第一特征提取深度神经网络和第二特征提取深度神经网络的权值共享,其中第一特征提取深度神经网络用于对其中一组增广图像集进行特征提取;所述第二特征提取深度神经网络用于对另一组增广图像集进行特征提取;所述实例级别对比头子系统用于对提取的特征进行实例级别的对比学习,并对特征提取子系统进行优化;所述类别级别对比头子系统用于对提取的特征进行类别级别的对比学习,并对特征提取子系统的进行优化,实现在线聚类。
一种基于对比学习的大规模图像在线聚类方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011544811.X/2.html,转载请声明来源钻瓜专利网。





