[发明专利]机器学习模型的生成方法和装置在审
申请号: | 202010649102.1 | 申请日: | 2020-07-08 |
公开(公告)号: | CN111753987A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 陈海波 | 申请(专利权)人: | 深延科技(北京)有限公司 |
主分类号: | G06N5/00 | 分类号: | G06N5/00;G06N20/00;G06N3/08;G06K9/62 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 姜晓钰 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 模型 生成 方法 装置 | ||
本发明提供一种机器学习模型的生成方法和装置,所述方法包括以下步骤:获取初始数据集,并对初始数据集进行自动化特征工程处理、自动特征选择和分批次的自适应采样,以得到训练集和验证集;构建GBDT模型;利用验证集调整GBDT模型的参数;通过训练集对调参后的GBDT模型进行训练,以得到第一结果模型;通过深度学习模型对训练集中的数据进行嵌入处理;通过嵌入处理后的训练集对调参后的GBDT模型进行训练,以得到第二结果模型;对第一结果模型和第二结果模型进行融合,以得到目标模型。本发明能够方便地在保证数据有效性的前提下减小数据量,提高后续模型训练的速度,并能够缓解数据类别不平衡问题,而且所生成的机器学习模型性能较高,实用性较强。
技术领域
本发明涉及机器学习技术领域,具体涉及一种机器学习模型的生成方法、一种机器学习模型的生成装置、一种计算机设备和一种计算机程序产品。
背景技术
在人工智能的时代,许多实际应用程序都依赖于机器学习,然而这些程序的开发人员却并不都具备专业的机器学习算法研发能力,因而非常需要部署AutoML(自动机器学习)算法来自动进行学习。此外,有些应用中的数据只能分批次获取,例如每天、每周、每月或每年,并且数据分布随时间的变化相对缓慢。这就要求AutoML具备持续学习或者终生学习的能力。这一类的典型问题包括客户关系管理、在线广告、推荐、情感分析、欺诈检测、垃圾邮件过滤、运输监控、计量经济学、病人监控、气候监测、制造等。
首先,现实世界问题的数据往往是多种不同数据类型的,需要特定领域的专家对这些数据进行大量的预处理及特征工程,这无疑是不够方便的,并且存在大量的类别不平衡问题。其次,目前基于这些数据所训练的机器学习模型大多仅适用于单一的应用场景,性能和实用性均有待提高。
发明内容
本发明为解决上述技术问题,提供了一种机器学习模型的生成方法和装置,能够方便地在保证数据有效性的前提下减小数据量,提高后续模型训练的速度,并能够缓解数据类别不平衡问题,而且所生成的机器学习模型性能较高,实用性较强。
本发明采用的技术方案如下:
一种机器学习模型的生成方法,包括以下步骤:获取初始数据集,并对所述初始数据集进行自动化特征工程处理、自动特征选择和分批次的自适应采样,以得到训练集和验证集;构建GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)模型;利用所述验证集调整所述GBDT模型的参数;通过所述训练集对调参后的GBDT模型进行训练,以得到第一结果模型;通过深度学习模型对所述训练集中的数据进行嵌入处理;通过嵌入处理后的训练集对调参后的GBDT模型进行训练,以得到第二结果模型;对所述第一结果模型和所述第二结果模型进行融合,以得到目标模型。
自动化特征工程处理包括:基于时间特征、分类特征、数值特征和多值分类特征做特征间的高阶组合,同时自动提取跨时间、样本和特征的高阶组合。
所述的机器学习模型的生成方法还包括:针对数据大小、数据复杂度,自适应选择batch(批)数目,同时对于每个batch,设定不同batch间采样率随时间增加;在对所述初始数据集进行自动化特征工程处理时,加入关于不同batch数据之间的信息。
分批次的自适应采样包括:针对数据情况、计算机性能、算法执行时间的限制,自适应地对数据采取不同的采样方式和比例;采用分批次的方式选取样本。
所述GBDT模型为LightGBM。
利用所述验证集调整所述GBDT模型的参数包括:利用所述验证集采用随机搜索自动调整LightGBM的学习率、叶子结点、树的深度、行采样和列采样。
所述的机器学习模型的生成方法还包括:加入先验知识,设置多组不同的学习率,通过早停法选择LightGBM的学习率,以保证模型能训练一定的轮数,并且通过所述验证集选择最好的学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深延科技(北京)有限公司,未经深延科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010649102.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化景观装置
- 下一篇:一种聚醚有机硅共聚物的制备方法