[发明专利]一种基于多分类器集成的半监督识别方法在审

申请号：	202010458674.1	申请日：	2020-05-26
公开（公告）号：	CN111695610A	公开（公告）日：	2020-09-22
发明（设计）人：	黄杰;许顺轶	申请（专利权）人：	东南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京众联专利代理有限公司 32206	代理人：	许小莉
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分类集成监督识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多分类器集成的半监督识别方法。首先，初始化样本集，将样本集中的样本分为有标记样本和未标记样本；其次，利用有标记样本集训练基分类器；再次，分类未标记样本，计算对应置信值CZ，用基分类器的分类准确率更新权重参数进入循环；之后，判断CZ与阈值λ关系，为未标记样本打标；然后，判断是否达到迭代终止条件；最后，完成分类，未标记样本获得类别标记。本发明通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能，克服了协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。与协同训练算法相比，本发明在标记样本有限的条件下能达到较好的识别效果。

技术领域

本发明涉及一种基于多分类器集成的半监督识别方法，属于模式识别的分类算法和半监督学习算法领域。

背景技术

所谓模式识别，就是指用计算的方法根据样本的特征将样本划分到一定的类别中去。根据样本有无类别标记，模式识别包括：有监督学习、无监督学习和半监督学习。有监督学习使用的样本均有类别标记；无监督学习使用的样本均无类别标记；半监督学习使用的样本的一部分有类别标记，而另一部分无类别标记。

分类问题是典型的有监督学习问题，常见的分类算法有逻辑回归、决策树和支持向量机。逻辑回归算法原理易于理解，分类效率高，但泛化能力较差。决策树的优点是分类速度快、模型易于解释，缺点是容易出现过拟合问题。支持向量机的优点是：线性和非线性问题都能解决，而且在高维空间仍高效，缺点是：对核函数比较敏感，且存在过拟合问题。使用单一分类器进行分类，一般分类效果较差，采用多个互补的基分类器集成进行分类能够提升分类的效果。

实际中所使用的样本集往往既包含有标记样本又包含无标记样本，因而可以采用集成的半监督方法提升分类效果，协同训练是一种典型的半监督集成算法。但该算法并不能满足物联网设备识别的需求，存在有效视图不易生成、迭代过程引入噪声使识别效果变差的问题。因而，设计一种基于多分类器集成的半监督识别方法以克服协同训练算法的缺陷，成为亟待解决的问题。

发明内容

针对协同训练算法有效视图不易生成、迭代过程引入噪声使识别效果变差的问题，本发明设计了一种基于多分类集成的半监督识别方法。该方法通过构建有效的基分类器、引入置信值参数和设置提前终止条件的方式提升分类性能。设计的算法在标记样本有限的条件下有较高的识别准确率。

为了达到上述目的，本发明提供如下技术方案：

一种基于多分类器集成的半监督识别方法，包括如下步骤：

(1)初始化样本集，将样本集中的样本分为有标记样本和未标记样本；

(2)利用有标记样本集训练基分类器；

(3)分类未标记样本，计算对应置信值CZ，用基分类器的分类准确率更新权重参数进入循环；

(4)判断未标记样本置信值CZ与阈值λ关系，为未标记样本打标；

(5)判断是否达到迭代终止条件，如果未达到，返回步骤(3)，如果已经达到，进入步骤(6)；

(6)完成分类，未标记样本获得类别标记。

进一步地，所述步骤(1)具体包括以下步骤：

(11)将样本集V＝{v₁,v₂,…,v_m}中的设备标记规范化，保证同一类别的标记相同，v_i(1≤i≤m)为n维特征向量；