[发明专利]一种时频联合的支持向量机半监督学习方法有效
申请号: | 201310141198.0 | 申请日: | 2013-04-22 |
公开(公告)号: | CN103177267B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 冷严;徐新艳 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F15/18 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 支持 向量 监督 学习方法 | ||
技术领域
本发明涉及机器学习领域,尤其涉及一种时频联合的支持向量机半监督学习方法。
背景技术
分类问题广泛存在于众多学科领域中,比如语音识别、图像识别、音频分类、文本分类等等。为了得到具有良好分类性能的分类器,通常需要用大量的已标注样本参与分类器的训练。但是标注样本的获取代价比较昂贵,比如说在语音识别领域,需要以音素为单位进行逐一标注,标注特别耗费时间和精力。样本的标注代价昂贵使得完全依靠人工标注来实现训练样本的标注变得不切实际,基于此,半监督学习技术应运而生。半监督学习是一个循环迭代的过程,其基本思想是:在每轮迭代过程中,寻找分类置信度高的样本由机器自动标注,机器是指能代替人进行标注工作的软硬件设备,标注后的样本加入训练集中重新训练分类器,以上过程迭代进行,直至满足停止准则。半监督学习是由机器自动标注,为了防止由于错误标注而引起的分类性能下降,寻找高置信度的样本成为半监督学习的关键所在。目前已有不少寻找高置信度样本的相关研究,在以支持向量机(Support Vector Machines,SVM)为训练模型的半监督学习方法中,现有的算法一般都是在特征提取以后,在此特征空间中判断样本的置信度,这种在某一特征空间中判断样本置信度的方法一般效果较差,而联合两个甚至多个特征空间来判断样本的置信度的方法,其对样本置信度的判断会更加准确,因此本发明联合时域和频域两个特征空间判断样本的置信度,以找到真正高置信度的样本参与训练。
发明内容
本发明的目的就是为了解决上述问题,本发明提供一种时频联合的支持向量机半监督学习方法,它具有确保样本的高置信度,减少由于错误标注而引起的SVM分类性能下降的优点。
为了实现上述目的,本发明采用如下技术方案:
一种时频联合的支持向量机半监督学习方法,具体步骤为:
步骤一:分别提取已标注样本的时域特征、频域特征、时域和频域特征,并分别训练初始SVM分类器C1、SVM分类器C2、SVM分类器C;
步骤二:利用SVM分类器C1、SVM分类器C2从未标注样本集U中确定高置信度样本,组成高置信度样本集S;
步骤三:将高置信度样本集S中的样本由机器自动标注后放入已标注样本集L中,机器是指能代替人进行标注工作的软硬件设备;
步骤四:对更新的已标注样本集L重新提取时域特征和频域特征,并进行特征选择,重新训练SVM分类器C;
步骤五:根据停止准则判断是退出循环还是继续迭代,继续迭代则返回步骤二。
所述步骤一的具体步骤为:
(1-1)从总样本集中随机选取一定数量的初始训练样本,人工标注后生成初始已标注样本集,将此初始已标注样本集分别赋给已标注样本集L1,已标注样本集L2和已标注样本集L;
(1-2)对初始已标注样本集L1中的样本提取时域特征,并用这些样本训练初始SVM分类器C1;
(1-3)对初始已标注样本集L2中的样本提取频域特征,并用这些样本训练初始SVM分类器C2;
(1-4)对初始已标注样本集L中的样本提取时域特征和频域特征,然后进行特征选择,最后用这些样本训练初始SVM分类器C。
所述步骤四和步骤(1-4)中特征选择的具体步骤为:
(1-4-1)设当前样本共有d维特征,组成特征集合{F1,F2,…,Fd},对特征集合中的每一维特征Fi,i为自然数,从特征集合中求其K近邻,即求与Fi距离最近的K个特征,并求Fi与其K近邻之间的平均距离Di,i为自然数;
(1-4-2)比较确定出具有最小Di值的那一维特征,记作F*,即:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310141198.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种嫁接刀
- 下一篇:受损农田改良设备及其排料控制方法