[发明专利]一种增量式自训练框架及半监督宽度学习分类方法在审

专利信息
申请号: 202210242204.0 申请日: 2022-03-11
公开(公告)号: CN114722908A 公开(公告)日: 2022-07-08
发明(设计)人: 郭继凤;陈俊龙;刘竹琳 申请(专利权)人: 华南理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 杜柱东
地址: 511458 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 增量 训练 框架 监督 宽度 学习 分类 方法
【说明书】:

发明公开了一种增量式自训练框架及半监督宽度学习分类方法,框架包括初始化阶段,将所有未标记数据通过聚类方法和样本确定性大小形成有序的查询序列表,顺序选择部分数据初始化未标记数据池,同时使用初始标记数据训练基分类器,并标注未标记数据池中的数据;增量自更新阶段,根据选择度量值和设定阈值确定辅助训练数据并将其合并到标记训练数据集形成新的标记训练数据,用于更新基分类器;同时,顺序地从查询序列表中获取一批数据更新未标记数据池并用基分类器预测其新分类伪标签;重复增量自更新阶段,直到未标记数据池为空。本发明框架减少了大量重复运算,节省了资源,同时解决迭代造成的时间消耗问题,使其适用于大规模数据的应用。

技术领域

本发明属于半监督学习技术领域,具体涉及一种增量式自训练框架及半监督宽度学习分类方法。

背景技术

宽度学习系统(Broad Learning System,BLS)作为一种有效的增量分类方法,成功地解决了深度体系结构模型中参数多、耗时高的问题。宽度学习系统是一种单层网络结构,通过数学求解方式得到模型参数,高效地完成建模。鉴于高效性,宽度学习获得了大量科研学者和工业界的青睐。然而该方法仅通过标记数据建立有监督的识别模型,这限制了其适用性。

然而在现实生活和应用中,获取有标签的数据是耗时,耗成本的。特别是随着物联网和云计算等技术的快速发展,全球数据量呈爆炸式增长。在这种大数据背景下,所有数据都获得标签是几乎不可能的。而监督学习方法,如宽度学习无法利用未标记的样本,这不利于模型性能的提高。半监督学习作为一种兼容的方法,可以通过将大量未标记样本与少量标记样本相结合,建立一个高性能的识别模型,从而解决监督学习中的标记障碍。虽然自训练的半监督方法能够获得比较好的分类效果。但是其迭代学习的方式大大增加了其时间消耗。尤其是在大数据背景下,标准的自训练方法在广泛应用上并没有优势。

随着物联网和云计算等技术的快速发展,全球数据量呈爆炸式增长。在实际应用问题中,有越来越多的大规模数据,并且为如此大规模的数据进行标注是一件十分耗时耗力和耗材的事情。那么如何能够在少量标记样本的大规模数据场景下,实现快速高效的半监督分类是十分有意义的课题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足,提出一种增量式自训练框架及半监督宽度学习分类方法。

为了达到上述目的,本发明采用以下技术方案:

一种增量式自训练框架,包括初始化阶段和增量自更新阶段;

初始化阶段,将所有未标记数据通过聚类方法和样本确定性大小形成有序的查询序列表;

查询序列表部分用于初始化未标记数据池,同时采用现有标记样本初始化基分类器进行监督学习,并预测分类未标记数据池中的数据形成其伪标签,计算对应的选择度量值;

增量自更新阶段,根据选择度量值和设定阈值确定辅助训练数据并将其合并到标记训练数据集形成新的标记训练数据,用于更新基分类器;同时,顺序地从查询序列表中获取一批数据更新未标记数据池并用基分类器预测其新分类伪标签,形成带伪标签的未标记数据;

重复增量自更新阶段,直到未标记数据池为空。

进一步的,增量式自训练框架中涉及数据有八种,具体为:

初始标记数据未标记数据{XU}、未标记数据池查询序列表Q、用于更新未标记数据池的批量数据Qa、伪标签数据辅助训练数据以及新的标记数据其中l、s、t、q分别代表初始标记数据、未标记数据池、伪标签数据以及加入标记数据的样本的数量。

进一步的,步骤S1中,增量自更新阶段中,带伪标签的未标记数据按照选择度量值进行降序排列以减少辅助训练数据的对比选择时间;

进一步的,步骤S1中,增量自更新阶段中,从查询序列表中获取一批数据,该批数据的大小固定或自适应变化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210242204.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top