[发明专利]一种基于不确定性与相似度量的主动学习分类方法在审
申请号: | 202110974335.3 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113590830A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 刘智;杨雅茹;曾文丽;张荣华;杨根 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/279;G06N20/00 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 唐亭 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 不确定性 相似 度量 主动 学习 分类 方法 | ||
1.一种基于不确定性与相似度量的主动学习分类方法,其特征在于,包括以下步骤:
S1:对某领域内的所有未标注分类数据进行预处理并将其向量化,使得每条样本都用向量进行表示;
S2:对向量化后的所有未标注样本利用聚类算法进行聚类,选择各类中最具代表性的样本进行人工标注并作为初始已标记数据集L,其余未标注样本记为集合U;
S3:将所述集合U中的每条样本,逐一与所述数据集L中的所有样本进行相似度计算,获得每条未标注样本的相似度量值;
S4:将数据集L用于训练多个不同的机器学习模型,获得各机器学习模型的准确率和输出值;
S5:根据所述准确率确定各机器学习模型的权重值,根据所述输出值确定各机器学习模型的不确定程度;
S6:根据所述权重值和所述不确定程度确定多个机器学习模型整体对某一样本的不确定性决策值;
S7:根据所述相似度量值和所述不确定性决策值确定有最大价值的多样性训练样本;
S8:对所述有最大价值的多样性训练样本进行标注,并将其更新至数据集L中,同时将其从集合U中移除,得到更新的集合U;
S9:重复步骤S3-S8,直至步骤S4中,各机器学习模型的准确率不再变化,得到最终的标记数据集L。
2.根据权利要求1所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S2中,各类中最具代表性的样本为各类中心点代表的样本。
3.根据权利要求1所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S3中,进行相似度计算时,采用余弦相似度算法进行计算。
4.根据权利要求1所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S3中,设u为集合U中的某条样本,l为数据集L中的某条样本,数据集L中包括k+个样本,则u对应有k+个相似度,k+个相似度中最高值即为u的相似度量值。
5.根据权利要求1所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S4中,多个不同的机器学习模型的个数为奇数个。
6.根据权利要求1所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S5中,根据所述准确率确定各机器学习模型的权重值时,准确率越高则对应的机器学习模型的权重值越大,且各机器学习模型的权重值之和等于1。
7.根据权利要求1-6中任意一项所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S5中,所述不确定程度通过下式进行计算:
式中:Z(u)为某条未标注样本u的不确定程度;x为样本分类的类别数;pk(ui)为对应第i类在第k个机器学习模型上的概率。
8.根据权利要求7所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S6中,所述不确定性决策值通过下式进行计算:
α(u)=-(w1Z1(u)+w2Z2(u)+……+wnZn(u)) (2)
式中:α(u)为某条未标注样本u的不确定性决策值;w1、w2、wn为第一个机器学习模型、第二个机器学习模型、以及第n个机器学习模型的权重值。
9.根据权利要求8所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S7具体包括以下子步骤:
S71:根据所述相似度量值和所述不确定性决策值计算多样性样本值;
S72:根据所述多样性样本值的大小进行排序;
S73:其中由大到小的前m条样本即为所述有最大价值的多样性训练样本。
10.根据权利要求9所述的基于不确定性与相似度量的主动学习分类方法,其特征在于,步骤S71中,所述多样性样本值通过下式进行计算:
式中:φ(u)为某条未标注样本u的多样性样本值;σ(u)为某条未标注样本u的相似度量值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110974335.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种渐变式混匀矿堆料方法
- 下一篇:一种高端装备制造用玻璃切割装置