[发明专利]一种模型优化方法、设备及存储介质在审
| 申请号: | 202010550559.7 | 申请日: | 2020-06-16 |
| 公开(公告)号: | CN113807528A | 公开(公告)日: | 2021-12-17 |
| 发明(设计)人: | 陈泽晗;赵伟;陈岳峰;何源 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 模型 优化 方法 设备 存储 介质 | ||
本申请实施例提供一种模型优化方法、设备及存储介质。在本申请实施例中,可预先对若干样本数据进行打标,从而获得若干样本集,在此基础上,可从若干样本集中,批量选择符合预设要求的目标样本集;并基于选择目标样本集,训练待提升模型。据此,本实施例中,可综合样本数据和打标信息,批量挑选目标样本集,加入训练集。因此,可高效地挖掘到大批量的目标样本集,从而充分发挥海量的回流数据的价值;还可更加精准地、全面地从回流数据中挖掘出携带精华知识的目标样本集,从而可优化训练集的结构,提高训练集的质量,进而不断提升模型性能;另外,批量挖掘目标样本集的方式,可大幅减少待提升模型的样本挑选次数,从而可有效提升模型优化的效率。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种模型优化方法、设备及存储介质。
背景技术
传统的主动学习模型通常为:A=(C,Q,S,L,U)。其中C为一组或者一个分类器,L是用于训练的已打标的样本。Q是查询函数,用于从未打标样本池U中查询信息量大的信息,S是督导者,可以为Q查询出的样本打标标签。模型通过少量初始标记样本L开始学习,通过一定的查询函数Q选择出最有用的样本,并向督导者询问标签,然后利用获得的新知识来训练分类器和进行下一轮查询。
但是,这种方式训练出的模型,已经达到性能瓶颈,无法满足日益升高的模型性能要求。
发明内容
本申请的多个方面提供一种模型优化方法、设备及存储介质,用以提升机器学习模型的性能。
本申请实施例提供一种模型优化方法,包括:
获取若干样本集,所述样本集中包含样本数据及打标信息;
基于所述若干样本集各自包含的样本数据及打标信息,从所述若干样本集中,批量选择符合预设要求的目标样本集;
根据所述目标样本集,训练待提升模型。
本申请实施例还提供一种计算设备,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
获取若干样本集,所述样本集中包含样本数据及打标信息;
基于所述若干样本集各自包含的样本数据及打标信息,从所述若干样本集中,批量选择符合预设要求的目标样本集;
根据所述目标样本集,训练待提升模型。
本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的模型优化方法。
在本申请实施例中,可预先对若干样本数据进行打标,从而获得若干样本集,在此基础上,可从若干样本集中,批量选择符合预设要求的目标样本集;并基于选择目标样本集,训练待提升模型。据此,本实施例中,可综合样本数据和打标信息,批量挑选目标样本集,加入训练集。这至少可获得以下的技术效果:
1、可高效地挖掘到大批量的目标样本集,从而大幅提高训练集的数量级,进而充分发挥海量的回流数据的价值;
2、可更加精准地、全面地从回流数据中挖掘出携带精华知识的目标样本集,从而可优化训练集的结构,提高训练集的质量,进而不断提升模型性能;
3、批量挖掘目标样本集的方式,可大幅减少待提升模型的查询函数查询次数,从而可有效提升模型优化的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550559.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制风电场的有功功率输出的方法及相应装置
- 下一篇:半导体结构的形成方法





