[发明专利]一种特征挖掘模型的训练方法、装置、介质及设备在审
申请号: | 202111327232.4 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114021660A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 刘玉明 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 511457 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 挖掘 模型 训练 方法 装置 介质 设备 | ||
本发明公开了一种特征挖掘模型的训练方法,包括:确定第一业务标签和第二业务标签;获取目标业务场景下与第一业务标签对应的第一训练集和与第二业务标签对应的第二训练集,第一训练集用于训练第一机器学习模型;利用训练好的第一机器学习模型对第二训练集进行特征提取,得到第一特征集;通过人工提取的方式对第二训练集进行特征提取,得到第二特征集;合并第一特征集与第二特征集,得到合并特征集;利用合并特征集训练第二机器学习模型。本发明通过机器学习模型进行特征挖掘,使得特征挖掘过程完全自动化,不需要人工定义特征,节省人力物力。同时通过机器学习模型进行特征挖掘,可以快速生成高维度的特征,充分挖掘数据中的有效信息。
技术领域
本发明涉及特征挖掘技术领域,具体涉及一种特征挖掘模型的训练方法、装置、介质及设备。
背景技术
在机器学习模型的应用场景中,经常遇到时序特征加工的问题,例如在金融风控中,原始数据是用户的信用卡消费流水或企业的发票流水信息,传统的特征加工方法完全依赖建模专家人工定义特征(例如“最近三个月的消费流水总额度”、“最近一年的月均消费次数”等)用来训练机器学习模型。
上述人工定义特征的方法非常依赖建模专家对业务特征的理解,当遇到一个陌生的业务领域时,就有哪些特征比较有效,只能根据手动构造大量特征之后再验证筛选,这会耗费大量的人力物力。
另一方面,人工定义的特征有其局限性,不能充分发挥数据的价值,很可能会遗漏掉一些比较重要的特征,进而影响最终的建模效果。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种特征挖掘模型的训练方法、装置、介质及设备,用于解决现有技术中的至少一个缺陷。
为实现上述目的及其他相关目的,本发明提供一种特征挖掘模型的训练方法,包括:
确定第一业务标签和第二业务标签;
获取目标业务场景下与所述第一业务标签对应的第一训练集和与所述第二业务标签对应的第二训练集,所述第一训练集用于训练第一机器学习模型;
利用训练好的第一机器学习模型对所述第二训练集进行特征提取,得到第一特征集;
通过人工提取的方式对所述第二训练集进行特征提取,得到第二特征集;
合并所述第一特征集与所述第二特征集,得到合并特征集;
利用所述合并特征集训练第二机器学习模型。
可选地,所述第一机器学习模型包括:时序模型。
可选地,所述方法还包括对所述合并特征集进行筛选,得到目标特征集;所述目标特征集用于训练第二机器学习模型。
可选地,所述第一业务标签与所述第二业务标签不同。
为实现上述目的及其他相关目的,本发明提供一种基于时序模型的自动化特征挖掘装置,包括:
标签确定模块,用于确定第一业务标签和第二业务标签;
训练集获取模块,用于获取目标业务场景下与所述第一业务标签对应的第一训练集和与所述第二业务标签对应的第二训练集,所述第一训练集用于训练第一机器学习模型;
第一特征提取模块,用于利用训练好的第一机器学习模型对所述第二训练集进行特征提取,得到第一特征集;
第二特征提取模块,用于通过人工提取的方式对所述第二训练集进行特征提取,得到第二特征集;
特征合并模块,用于合并所述第一特征集与所述第二特征集,得到合并特征集;
模型训练模块,用于利用所述合并特征集训练第二机器学习模型。
可选地,所述第一机器学习模型包括:时序模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111327232.4/2.html,转载请声明来源钻瓜专利网。