[发明专利]用于机器学习模型的样本数据生成方法、装置及电子设备在审
| 申请号: | 201910921527.0 | 申请日: | 2019-09-27 |
| 公开(公告)号: | CN110781922A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 高明宇;王鹏;张潮华;郑彦 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10;G06Q10/06 |
| 代理公司: | 11691 北京清诚知识产权代理有限公司 | 代理人: | 曹玲柱 |
| 地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 集合 负样本 正样本 机器学习模型 子集合 分类样本 历史用户 样本数据 正负样本 计算机可读介质 异常值监测 电子设备 分类模型 金融数据 输入用户 数据处理 数据集合 用户分类 算法 | ||
1.一种用于机器学习模型的样本数据生成方法,其特征在于,包括:
获取多个历史用户的金融数据,所述金融数据中包括用户活跃时间;
根据所述用户活跃时间和异常值监测算法将所述多个历史用户分入正样本集合、负样本集合和未分类样本集合;
基于所述正样本集合、所述负样本集合对第一机器学习模型进行训练,生成用户分类模型;
将所述未分类样本集合中的历史用户的金融数据输入所述用户分类模型中,生成正样本子集合和负样本子集合;
通过正样本集合、正样本子集合生成用于机器学习模型的正样本数据;以及
通过负样本集合、负样本子集合生成用于机器学习模型的负样本数据。
2.如权利要求1所述的方法,其特征在于,还包括:
通过所述正样本数据与所述负样本数据训练第二机器学习模型以生成用户流失模型。
3.如权利要求1-2中任一所述的方法,其特征在于,根据所述用户活跃时间和异常值监测算法将所述多个历史用户分入正样本集合、负样本集合和未分类样本集合包括:
根据所述用户活跃时间将所述多个历史用户分别分入第一用户集合和第二用户集合;
通过异常值监测算法对第一用户集合和第二用户集合中的历史用户的金融数据进行筛选以生成所述正样本集合、所述负样本集合和所述未分类样本集合。
4.如权利要求1-3中任一所述的方法,其特征在于,根据所述用户活跃时间将所述多个历史用户分别分入第一用户集合和第二用户集合包括:
将所述用户活跃时间大于预定日期的历史用户分入所述第一用户集合;以及
将所述用户活跃时间小于等于预定日期的历史用户分入所述第二用户集合。
5.如权利要求1-4中任一所述的方法,其特征在于,通过异常值监测算法对第一用户集合和第二用户集合中的历史用户的金融数据进行筛选以生成所述正样本集合、所述负样本集合和所述未分类样本集合包括:
通过异常值监测算法和所述第一用户集合中的历史用户的金融数据生成第一目标超球体;以及
基于所述第一目标超球体对所述第一用户集合中的历史用户的金融数据进行筛选以生成所述正样本集合和所述未分类样本集合。
6.如权利要求1-5中任一所述的方法,其特征在于,基于所述第一目标超球体对所述第一用户集合中的历史用户的金融数据进行筛选以生成所述正样本集合和所述未分类样本集合包括:
确定所述第一用户集合中的历史用户的金融数据在多维度坐标系上的位置坐标;
基于所述位置坐标确定所述历史用户和所述第一目标超球体的球心距离;
在所述球心距离小于等于所述第一目标超球体的半径时,将所述历史用户添加入所述正样本集合;以及
在所述球心距离大于所述第一目标超球体的半径时,将所述历史用户添加入所述未分类样本集合。
7.如权利要求1-6中任一所述的方法,其特征在于,通过异常值监测算法对第一用户集合和第二用户集合中的历史用户的金融数据进行筛选以生成所述正样本集合、所述负样本集合和所述未分类样本集合包括:
通过异常值监测算法和所述第二用户集合中的历史用户的金融数据生成第二目标超球体;以及
基于所述第二目标超球体对所述第二用户集合中的历史用户的金融数据进行筛选以生成所述负样本集合和所述未分类样本集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910921527.0/1.html,转载请声明来源钻瓜专利网。





