[发明专利]一种增量式自训练框架及半监督宽度学习分类方法在审
| 申请号: | 202210242204.0 | 申请日: | 2022-03-11 |
| 公开(公告)号: | CN114722908A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 郭继凤;陈俊龙;刘竹琳 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杜柱东 |
| 地址: | 511458 广东省广州市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 增量 训练 框架 监督 宽度 学习 分类 方法 | ||
1.一种增量式自训练框架,其特征在于,包括初始化阶段和增量自更新阶段;
初始化阶段,将所有未标记数据样本通过聚类方法和样本确定性大小形成有序的查询序列表;
查询序列表部分用于初始化未标记数据池,同时采用初始标记数据初始化基分类器进行监督学习,并预测分类未标记数据池中的数据形成其伪标签,计算对应的选择度量值;
增量自更新阶段,根据选择度量值和设定阈值确定辅助训练数据并将其合并到标记训练数据集形成新的标记训练数据,用于更新基分类器;同时,顺序地从查询序列表中获取一批数据更新未标记数据池并用基分类器预测其新分类伪标签,形成带伪标签的未标记数据;
重复增量自更新阶段,直到未标记数据池为空。
2.根据权利要求1所述的一种增量式自训练框架,其特征在于,增量式自训练框架中涉及数据有八种,具体为:
初始标记数据未标记数据{XU}、未标记数据池查询序列表Q、用于更新未标记数据池的批量数据Qa、伪标签数据辅助训练数据以及新的标记数据其中l、s、t、q分别代表初始标记数据、未标记数据池、伪标签数据以及加入标记数据的样本的数量。
3.根据权利要求1所述的一种增量式自训练框架,其特征在于,步骤S1中,增量自更新阶段中,带伪标签的未标记数据按照选择度量值进行降序排列以减少辅助训练数据的对比选择时间。
4.根据权利要求1所述的一种增量式自训练框架,其特征在于,步骤S1中,增量自更新阶段中,从查询序列表中获取一批数据,该批数据的大小固定或自适应变化。
5.基于权利要求1-4任一项所述增量式自训练框架的半监督宽度学习分类方法,其特征在于,包括以下步骤:
S1、使用K-Means对未标记数据聚类,根据样本点与其聚类中心的距离形成降序的查询列表,并从中获得部分数据初始化未标记数据池;
S2、使用初始标记数据或更新后的未标记数据训练BLS模型,BLS模型参数包括映射特征组个数、组内特征个数以及增强节点个数;
S3、利用BLS模型对未标记数据池中数据标注伪标签,同时求出未标记数据对应的置信度;
S4、对伪标签数据进行置信度排序,并由排序和设定阈值确定辅助训练数据;
S5、判断是否有辅助训练数据加入标记训练数据,如没有,采用动态神经节点调整机制调整BLS网络结构中的增强节点个数,跳转至步骤S2进行新一轮训练和标注;
如有,将这部分辅助训练数据从未标记数据池转移到标记训练数据,从查询列表中获得一批数据更新未标记数据池,跳转至步骤S2,利用新的未标记数据池对BLS模型进行训练并对未标记数据进行标注;
S6、当未标记数据池为空时,未标记数据全部被标注,利用标记数据训练BLS模型,输出最终结果。
6.根据权利要求5所述的半监督宽度学习分类方法,其特征在于,步骤S1中,使用K-Means对未标记数据聚类具体为:
S11、在数据集中随机选择一个样本作为第一个初始化聚类中心;
S12、计算样本中每一个样本点与初始化的聚类中心的距离,并选择其中最短的距离;
S13、以概率选择距离最大的点作为新的聚类中心;
S14、重复步骤S12-S13,直至选出k个聚类中心;
S15、对k个聚类中心使用K-Means算法计算最终的聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210242204.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:溴化锂-二氧化碳联合供热机组
- 下一篇:含中草药的黄粉虫幼虫饲料及其制备方法





