[发明专利]一种自适应半监督深度聚类方法在审

申请号：	202211644318.4	申请日：	2022-12-20
公开（公告）号：	CN115937560A	公开（公告）日：	2023-04-07
发明（设计）人：	杜宇慧;武福林	申请（专利权）人：	山西大学
主分类号：	G06V10/762	分类号：	G06V10/762;G06V10/82;G06V10/764;G06N3/08
代理公司：	太原申立德知识产权代理事务所(特殊普通合伙) 14115	代理人：	孙乐
地址：	030006***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自适应监督深度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自适应半监督深度聚类方法，属于图像数据聚类分析技术领域，通过使用有标签数据训练模型；将训练完的模型再对无标签训练数据进行训练得到该数据的分类特征，并将其分类特征转化为概率值；将有标签数据和无标签训练数据在模型最后一层隐藏层得到的特征进行半监督聚类以得到无标签训练数据与簇中心之间的相似度，将概率值和相似度对应标签一致的赋予其伪标签；自适应地从伪标签数据中挑选置信度高的数据添加到有标签数据中参与下一次模型的迭代训练，直到模型收敛则训练结束；最后对新的测试数据进行聚类测试。通过与其他聚类方法比较，本发明在不同数据集上可以提高模型聚类的准确度。

技术领域

本发明属于图像数据聚类分析技术领域，具体涉及一种自适应半监督深度聚类方法。

背景技术

传统的聚类方法往往将特征提取和聚类步骤分开进行，对于高维的图像数据集很难达到理想的聚类效果。而基于深度学习的聚类算法可以将由深度学习模型自动学习到的特征用于聚类分析。

根据聚类是否使用标签数据，可将聚类划分为无监督聚类和半监督聚类。对于难以区分的图像数据来说，不使用数据标签的无监督聚类虽然简单，但是可能会导致聚类效果不理想。因此，使用先验数据的半监督聚类可能对聚类效果的提升有很大帮助。在一些半监督聚类中，有标签数据常常是直接从原始数据集中随机选择部分数据及其标签用于指导聚类，这样得到的数据可能不能使聚类达到最佳的效果。而半监督学习中的半监督分类方法的关键在于从无标签训练数据中获取知识来指导分类，那么如何从无标签训练数据中获取好的监督信息变得尤为重要。然而，目前很少有方法致力于同时发掘有标签和无标签训练数据的可靠信息。

发明内容

针对为了自动基于数据提取有效特征，同时从可靠的有标签样本和标签中挖掘有效信息，从无标签训练数据中获取有用知识来指导半监督学习的问题，本发明提供了一种自适应半监督深度聚类方法。

为了达到上述目的，本发明采用了下列技术方案：

一种自适应半监督深度聚类方法，包括以下步骤：

步骤1，使用有标签数据来训练神经网络模型；

步骤2，使用步骤1训练后的神经网络模型对无标签训练数据进行分类，得到每个数据所属类别的概率值，同时得到每个无标签训练数据的特征；

然后，将有标签数据和无标签训练数据来自于神经网络模型最后一层隐藏层提取的特征进行约束种子K-Means聚类，得到每个无标签训练数据与簇中心之间的皮尔逊相似度；

再将每个数据中相似度的最大值与概率值的最大值对应标签一致的无标签训练数据赋予其伪标签；目的是使得伪标签的准确率尽可能大，否则可能出现伪标签是错的，但是因为该数据计算得到的置信度高而被挑选的情况；

步骤3，计算伪标签数据的置信度；

步骤4，使用自适应方法挑选出伪标签数据中伪标签置信度高的数据；

步骤5，将步骤4中伪标签置信度高的数据，和其伪标签作为标签数据与已有的标签数据共同作为下一次神经网络模型的输入；

步骤6，迭代执行步骤1～步骤5，如果相邻两次迭代得到的最佳阈值的差别度小于设定阈值，则继续迭代，直到达到收敛条件，则停止迭代循环；