[发明专利]基于自监督对比学习的图像深度聚类方法及系统有效
申请号: | 202010996960.3 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112215262B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 朱军;蔡淙崴;李崇轩 | 申请(专利权)人: | 清华大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/774;G06V10/82 |
代理公司: | 北京箴思知识产权代理有限公司 11913 | 代理人: | 李春晖;谭艳 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 对比 学习 图像 深度 方法 系统 | ||
基于自监督对比学习的图像深度聚类方法及系统,利用对比学习来提升嵌入的判别性,在不给定人类标注下,对比学习通过判别样本,能为语义相似的样本学到余弦相似度高、且判别性强的嵌入。在此基础上,本技术方案挖掘能简化学习过程的子任务,而由于同样类别样本的类内差异小于不同类样本,根据样本的类别来决定子任务是其中一种最自然的划分方式。因此,对比混合专家系统鼓励高度专业化专家,每个专家善于处理特定类别的样本,自然地得到好的聚类结果。同时,对比混合专家系统优化单一项目标函数,不需要预训练或正则项等处理便可防止聚类退化,可以应用于更加复杂图像的无监督聚类任务。
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于自监督对比学习的图像深度聚类方法及系统。
背景技术
目前,无监督聚类是深度神经网络的具备挑战性的困难之一,由于标注大量的数据需要高昂的费用和密集的人力,且标注的质量难以保证,往往需要聚类将数据划分成不同的子集,才能挖掘数据集内部的结构特性。
现阶段经典的聚类例如:k均值算法、谱聚类和层次聚类等方法在处理高维数据时效果不甚理想。在深度学习快速发展下,许多研究尝试结合经典聚类和深度学习方法,旨在利用深层神经网络提取特征,再直接或间接使用经典聚类方法来划分提取的特征,一般称为深度聚类方法。然而,直接合并两类方法通常效果不理想,甚至模型会退化到将所有样本分到单一类。因此需要繁琐的启发式技巧来避免聚类退化的问题,包含但不限于加入预训练、数据重构、多任务学习和额外正则项等。
现有技术中,基于概率的深度聚类方法提供了一个系统化的解决方案,能简洁有效地防止退化解,但已有方法限制了模型的判别性。基于深度生成模型的方法尝试为数据潜在表示引入一个混合高斯分布的先验来建模多模态数据,但在学习数据生成过程浪费模型性能。而判别式聚类直接学习输入数据到聚类标签的映射,通常效果优于深度生成方法,尽管判别式方法计算效率高,直接输出低维的聚类标签迫使模型丢弃样本粒度的信息,限制了特征学习和聚类的表现。已有的概率方法在简单的图片数据集上(如MNIST)聚类表现良好,但是由于模型判别性不足,在较复杂的图片数据集上表现不佳。
鉴于概率深度聚类方法判别性的不足,亟需一种能够提高概率聚类的判别性,以处理更加复杂的数据集的技术方案。
发明内容
为此,本发明实施例提供一种基于自监督对比学习的图像深度聚类方法及系统,可以提高概率聚类的判别性,以处理更加复杂的数据集,在不需要额外的启发式技巧下,有效避免聚类退化解,显著地提高了深度神经网络在图像聚类任务上的表现。
为了实现上述目的,本发明提供如下技术方案:第一方面,提供一种基于自监督对比学习的图像深度聚类方法,图像划分有样本集、训练集和测试集,该基于自监督对比学习的图像深度聚类方法包括以下步骤:
(1)对样本集中的每个样本赋予一个索引值,并将所述索引值作为对应样本的自监督标签;所述训练集包括样本、未知聚类标签及所述自监督标签;通过所述训练集训练对比混合专家系统;
(2)通过最大马氏距离分布初始化门控函数的簇嵌入,并随机初始化所述对比混合专家系统的簇嵌入;
(3)对于所述样本集中的每个样本,采用学生网络和教师网络进行样本嵌入提取;将所述学生网络提取的样本嵌入记为学生嵌入,将所述教师网络提取的样本嵌入记为教师嵌入,并将所述学生嵌入和教师嵌入的L2范数均约束为一;
(4)利用门控网络提取门控嵌入,将所述门控嵌入的L2范数均约束为一;
(5)预设一个维持队列,通过所述维持队列动态保存所述教师网络的输出;
(6)获取子专家模型的输出概率,并获取门控函数的输出概率;
(7)利用变分分布获取证据下界,将所述证据下界作为目标函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010996960.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通信类器件的谐波失真测试电路
- 下一篇:一种数据处理方法和系统