[发明专利]一种基于半监督自训练的迁移学习分类方法在审

申请号：	201710312005.1	申请日：	2017-05-05
公开（公告）号：	CN107316049A	公开（公告）日：	2017-11-03
发明（设计）人：	林程;顾正晖	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州市华学知识产权代理有限公司44245	代理人：	罗观祥
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督训练迁移学习分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及机器学习的技术领域，尤其是指一种基于半监督自训练的迁移学习分类方法。

背景技术

在传统的机器学习中，为保证训练得到的分类模型具有准确性和高可靠性，都有两个基本假设：(1)学习的训练样本与新的测试样本满足独立同分布条件；(2)必须有足够可利用的训练样本才能学习一个好的分类模型。但在实际应用中由于训练数据过期或不同分布等情况都会导致假设不成立，限制了传统机器学习方法的使用，然而获得大量有标签样本费时费力。迁移学习运用从源领域学习的知识，对不同但相关的目标领域学习问题进行求解，解决目标领域中仅有有标签训练样本数据甚至没有的学习问题。

传统的机器学习方法分为监督学习和无监督学习。半监督学习是监督学习与无监督学习相结合的一种学习方法，是模式识别和机器学习领域研究的重点问题。它主要考虑如何利用有标签样本和大量无标签样本进行训练和分类的问题。半监督学习较有监督学习的最大区别就是它利用无标签样本和有标签样本共同训练分类器。自训练学习也是机器学习的一种的算法，首先利用有标签数据集训练出初始分类器，使用该分类器对一些无标签数据进行标记，将可信度最高的一些标签新示例放入到有标签数据集中，再在新的有标签数据集上进行下一次训练直到满足截止条件为止。

目前，还没有在自训练过程中利用辅助训练数据计算和判断无标签数据分类标签的置信度问题，例如中国专利(一种基于半监督聚类的迁移学习方法，公开号：CN201210464867)。该发明通过聚类方法计算目标数据所在簇中各类标签数据所占总数据比例来分类。中国专利(一种基于半监督的迁移学习分类方法，公开号：CN201610651405)。该发明利用多任务学习算法对目标数据的无标签数据和辅助数据集的特征分类器进行迁移迭代训练，得到目标分类器。以上所述发明，都没有从自训练学习的角度去考虑目标无标签样本及其分类标签的置信度问题。将迁移学习和自训练学习相结合的分类方法，能够综合两者的优势，更好的提高分类精确度，以实现减少训练资源。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供了一种基于半监督自训练的迁移学习分类方法，利用大量非目标有标签数据实现减少训练时间和资源，提高分类精确度。

为实现上述目的，本发明所提供的技术方案为：一种基于半监督自训练的迁移学习分类方法，包括以下步骤：

1)对目标有标签数据集进行训练得到初始分类器；

2)用初始分类器对目标无标签数据集的实例进行预测和分配标签，得到预分类标签；

3)结合目标有标签数据集和多个辅助有标签数据集，采用自训练学习算法对目标无标签数据集进行预测分类，并计算无标签数据集中每个实例的辅助分类标签置信度大小；

4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序，取置信度排在前面的N个实例及其辅助分类标签，加入到当前目标有标签数据集中，其中N＝1,2,3,4…；

5)多次迭代，逐渐扩大目标有标签数据集规模；

6)对于多次迭代后新的目标有标签数据集再次训练分类器，对目标无标签数据进行分类，得到最终分类标签。

在步骤1)中，训练过程如下：

1.1)对需要训练分类器的数据集做滤波、去噪声等预处理操作；

1.2)利用主成分分析法等特征提取方法对预处理后的数据集提取特征，将原本难以分类的训练数据变换到易于分类的数据空间；