[发明专利]一种基于不确定性与相似度量的主动学习分类方法在审

专利信息
申请号: 202110974335.3 申请日: 2021-08-24
公开(公告)号: CN113590830A 公开(公告)日: 2021-11-02
发明(设计)人: 刘智;杨雅茹;曾文丽;张荣华;杨根 申请(专利权)人: 西南石油大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/194;G06F40/279;G06N20/00
代理公司: 北京中索知识产权代理有限公司 11640 代理人: 唐亭
地址: 610500 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 不确定性 相似 度量 主动 学习 分类 方法
【说明书】:

发明公开了一种基于不确定性与相似度量的主动学习分类方法,包括以下步骤:S1:对未标注分类数据进行预处理、向量化;S2:聚类,并选择各类中最具代表性的样本进行人工标注并记为数据集L,其余样本记为集合U;S3:计算U中各样本的相似度量值;S4:将L用于训练多个不同的机器学习模型,获得各模型的准确率和输出值;S5:确定各模型的权重值和不确定程度,从而确定不确定性决策值;S6:确定有最大价值的多样性训练样本,对其标注后更新至数据集L中,同时将从U中移除,得到更新的集合U;S7:重复步骤S3‑S6,直至各模型的准确率不再变化,得到最终的标记数据集L。本发明能够减小信息冗余样本量,在保证训练效果的基础上减少数据标注成本。

技术领域

本发明涉及计算机技术领域,特别涉及一种基于不确定性与相似度量的主动学习分类方法。

背景技术

对特定领域内的数据进行分析能够帮助领域专家挖掘并发现有用的领域知识。在大量数据驱动建模的工作中,领域内分类数据标注常常稀少,标注成本昂贵,且需要标注人员有很强的领域知识储备,这大大限制了领域探索的广度。针对这些问题,目前认为主动学习是一种非常有效的解决方案。

主动学习是一种用于机器学习的训练数据筛选方法,它可以自动找到这些多样化的数据。相较于全人工操作,它只需花费一小部分时间即可构建更好的数据集进而高效的完成数据驱动建模工作。主动学习采用训练有素的模型来处理收集来的数据,并对无法识别的数据进行判断从而发挥作用,这些数据随后会由人工标记再将它们添加到训练数据中。在人与机器的智能交互中,可以提高模型在各种条件下分类文本数据的准确性,并且能够有效降低模型学习所需要的标注数据量。然而现有主动学习方法没有考虑到样本对分类器而言信息重叠问题,即信息冗余问题。信息冗余问题会导致选择多余的无意义样本,增加标注成本。

发明内容

针对上述问题,本发明旨在提供一种基于不确定性与相似度量的主动学习分类方法,通过选择多样性迭代样本,减小信息冗余样本量,在保证训练效果的基础上减少数据标注成本。

本发明的技术方案如下:

一种基于不确定性与相似度量的主动学习分类方法,包括以下步骤:

S1:对某领域内的所有未标注分类数据进行预处理并将其向量化,使得每条样本都用向量进行表示;

S2:对向量化后的所有未标注样本利用聚类算法进行聚类,选择各类中最具代表性的样本进行人工标注并作为初始已标记数据集L,其余未标注样本记为集合U;

S3:将所述集合U中的每条样本,逐一与所述数据集L中的所有样本进行相似度计算,获得每条未标注样本的相似度量值;

S4:将数据集L用于训练多个不同的机器学习模型,获得各机器学习模型的准确率和输出值;

S5:根据所述准确率确定各机器学习模型的权重值,根据所述输出值确定各机器学习模型的不确定程度;

S6:根据所述权重值和所述不确定程度确定多个机器学习模型整体对某一样本的不确定性决策值;

S7:根据所述相似度量值和所述不确定性决策值确定有最大价值的多样性训练样本;

S8:对所述有最大价值的多样性训练样本进行标注,并将其更新至数据集L中,同时将其从集合U中移除,得到更新的集合U;

S9:重复步骤S3-S8,直至步骤S4中,各机器学习模型的准确率不再变化,得到最终的标记数据集L。

作为优选,步骤S2中,各类中最具代表性的样本为各类中心点代表的样本。

作为优选,步骤S3中,进行相似度计算时,采用余弦相似度算法进行计算。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110974335.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top