[发明专利]用于音频事件分类的半监督学习高置信度样本挖掘方法有效

专利信息
申请号: 201510475266.6 申请日: 2015-08-05
公开(公告)号: CN105069474B 公开(公告)日: 2019-02-12
发明(设计)人: 冷严;李登旺;方敬;程传福;万洪林;王晶晶 申请(专利权)人: 山东师范大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 张勇
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 音频 事件 分类 监督 学习 置信 样本 挖掘 方法
【说明书】:

发明公开了一种用于音频事件分类的半监督学习高置信度样本挖掘方法,本发明创新性地通过三个原则来确定未标注音频事件样本的置信度,进而挖掘具有高置信度的未标注音频事件样本。三个原则为未标注音频事件样本的正确标注提供了三重保障,因而能成功地为半监督学习挖掘到高置信度的未标注音频事件样本。此外,本发明的三个原则充分考虑了数据分布,挖掘的高置信度样本具有一定的多样性,因而能更好地提高音频事件分类器的分类性能。本发明挖掘的高置信度样本经自动标注加入到已标注音频事件样本集,因而在提高分类器的分类性能的同时不增加额外的手工标注工作量,因此该项发明在实际应用中具有很强的应用价值。

技术领域

本发明涉及一种用于音频事件分类的半监督学习高置信度样本挖掘方法。

背景技术

音频事件分类是指从音频文档中识别出其中包含的各种类型的音频事件。音频事件分类是当前的研究热点。制约音频事件分类技术发展的一个瓶颈问题是样本的标注问题。音频事件分类在训练阶段通常需要大量的已标注样本参与训练,而手工样本标注非常耗费时间和精力,甚至在有些情况下由于训练样本太多,完全依靠手工标注变得不切实际。

为了解决音频事件分类中的样本标注问题,一方面可以通过主动学习技术来减少手工标注的工作量。支持向量机(Support Vector Machines,SVM)二值分类器在小样本、非线性、高维模式识别中具有独特优势,而关于支持向量机的主动学习技术也得到了广泛的关注。在支持向量机主动学习技术中,一类方法是在主动学习的每轮迭代中挑选支持向量机分类边界(margin)内的未标注样本进行手工标注,因为这类样本是支持向量的概率大,因而信息含量高。主动学习由于挑选信息含量高的样本进行标注,因此能一定程度上降低手工标注工作量,但其仍然需要人的参与,而实际应用中,标注员标注样本的精力是有限的。

主动学习技术在迭代过程中需要人的参与,而半监督学习技术在迭代过程中则不需要人的参与。半监督学习技术在每轮迭代中挑选高置信度的样本由机器自动标注。假设标注员标注样本的数量是确定的,对于那些挖掘支持向量机分类边界内的未标注样本的主动学习技术,如果在主动学习标注了确定数量的未标注样本之后,能利用半监督学习技术继续挖掘这类未标注样本,则能在不增加额外手工标注工作量的前提下继续增强分类器的分类性能。

在每轮迭代中,用半监督学习技术对支持向量机分类边界内的未标注样本进行自动标注时,由于分类边界内的未标注样本距离分类超平面近,分类器对其分类置信度较低,因而如何确定分类边界内未标注样本的置信度,进而挖掘高置信度的样本是半监督学习所要解决的一大难题。

发明内容

本发明为了解决上述问题,提出了一种用于音频事件分类的半监督学习高置信度样本挖掘方法,该方法在主动学习标注了确定数量的未标注音频事件样本之后,基于以下三个原则确定分类边界内未标注音频事件样本的置信度:1)平滑假设;2)挖掘的正类样本、负类样本应分别和已标注的正类样本、已标注的负类样本尽可能相似;3)挖掘的正类样本、负类样本应分别和已标注的负类样本、已标注的正类样本尽可能不同。三个原则为未标注音频事件样本的正确标注提供了三重保障,因而能成功地为半监督学习挖掘到高置信度的未标注音频事件样本。

为了实现上述目的,本发明采用如下技术方案:

一种用于音频事件分类的半监督学习高置信度样本挖掘方法,包括以下步骤:

步骤(1):输入已标注音频事件样本集L、未标注音频事件样本集U和支持向量机分类器;

步骤(2):用已标注音频事件样本集L中标注为正类的样本组成样本集L+,用未标注音频事件样本集U和样本集L+组成包含未标注音频事件样本和已标注的正类音频事件样本的数据集D1,用D1内的样本估计未标注音频事件样本的正类置信度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510475266.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top