[发明专利]一种时频联合的支持向量机半监督学习方法有效

申请号：	201310141198.0	申请日：	2013-04-22
公开（公告）号：	CN103177267B	公开（公告）日：	2017-02-08
发明（设计）人：	冷严;徐新艳	申请（专利权）人：	山东师范大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F15/18
代理公司：	济南圣达知识产权代理有限公司37221	代理人：	张勇
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种联合支持向量监督学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及机器学习领域，尤其涉及一种时频联合的支持向量机半监督学习方法。

背景技术

分类问题广泛存在于众多学科领域中，比如语音识别、图像识别、音频分类、文本分类等等。为了得到具有良好分类性能的分类器，通常需要用大量的已标注样本参与分类器的训练。但是标注样本的获取代价比较昂贵，比如说在语音识别领域，需要以音素为单位进行逐一标注，标注特别耗费时间和精力。样本的标注代价昂贵使得完全依靠人工标注来实现训练样本的标注变得不切实际，基于此，半监督学习技术应运而生。半监督学习是一个循环迭代的过程，其基本思想是：在每轮迭代过程中，寻找分类置信度高的样本由机器自动标注，机器是指能代替人进行标注工作的软硬件设备，标注后的样本加入训练集中重新训练分类器，以上过程迭代进行，直至满足停止准则。半监督学习是由机器自动标注，为了防止由于错误标注而引起的分类性能下降，寻找高置信度的样本成为半监督学习的关键所在。目前已有不少寻找高置信度样本的相关研究，在以支持向量机（Support Vector Machines，SVM）为训练模型的半监督学习方法中，现有的算法一般都是在特征提取以后，在此特征空间中判断样本的置信度，这种在某一特征空间中判断样本置信度的方法一般效果较差，而联合两个甚至多个特征空间来判断样本的置信度的方法，其对样本置信度的判断会更加准确，因此本发明联合时域和频域两个特征空间判断样本的置信度，以找到真正高置信度的样本参与训练。

发明内容

本发明的目的就是为了解决上述问题，本发明提供一种时频联合的支持向量机半监督学习方法，它具有确保样本的高置信度，减少由于错误标注而引起的SVM分类性能下降的优点。

为了实现上述目的，本发明采用如下技术方案：

一种时频联合的支持向量机半监督学习方法，具体步骤为：

步骤一：分别提取已标注样本的时域特征、频域特征、时域和频域特征，并分别训练初始SVM分类器C₁、SVM分类器C₂、SVM分类器C；

步骤二：利用SVM分类器C₁、SVM分类器C₂从未标注样本集U中确定高置信度样本，组成高置信度样本集S；

步骤三：将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中，机器是指能代替人进行标注工作的软硬件设备；

步骤四：对更新的已标注样本集L重新提取时域特征和频域特征，并进行特征选择，重新训练SVM分类器C；

步骤五：根据停止准则判断是退出循环还是继续迭代，继续迭代则返回步骤二。

所述步骤一的具体步骤为：

（1-1）从总样本集中随机选取一定数量的初始训练样本，人工标注后生成初始已标注样本集，将此初始已标注样本集分别赋给已标注样本集L₁，已标注样本集L₂和已标注样本集L；

（1-2）对初始已标注样本集L₁中的样本提取时域特征，并用这些样本训练初始SVM分类器C₁；