[发明专利]用户信息分类方法及装置有效
| 申请号: | 202011513900.8 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112256881B | 公开(公告)日: | 2021-03-23 |
| 发明(设计)人: | 顾凌云;谢旻旗;段湾;曾志;张涛;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户信息 分类 方法 装置 | ||
本申请实施例提供一种用户信息分类方法及装置,在对具有标签的第一训练特征变量进行模型训练得到第一用户信息分类模型的基础上,通过采用无监督算法对中间状态的第二训练特征变量进行聚类后确定标签,从而拓宽了人工标识的局限,并且利用确定标签后的第二训练特征变量进行模型训练后进一步获得第二用户信息分类模型,再基于第二用户信息分类模型对原有的第一训练特征变量进行用户信息分类后进行第三用户信息分类模型的训练,从而通过利用全量的中间样本数据,提高了数据使用率,由于数据使用率的上升,也提高了原有第一用户信息分类模型的建模效果和用户信息分类效果,并且由于生成了多个用户信息分类模型,在实际使用中更加方便灵活。
技术领域
本申请涉及计算机风控技术领域,具体而言,涉及一种用户信息分类方法及装置。
背景技术
在现有的风控业务场景中,在确定建模样本标签的定义时,一般利用滚动率分析来获得不同标签的定义并结合业务经验来确定建模样本的标签,然后基于这个标签的定义来进行风控建模。其中对于中间状态的样本数一般按照不超过总建模样本的一定比例进入建模样本或者直接删除中间状态的样本进行风控建模。
然而,发明人研究发现,按照上述方案就意味着在风控建模中定义好样本的标签之后,会面临一些中间状态的样本数据,这些中间状态的样本在建模的过程中不能确定其标签,无论是直接将这些样本数据删除进行建模或者选择部分中间状态的样本进入模型,均会面临建模样本在不同程度上变小,减弱模型学习效果的问题,特别是在建模样本有限的情况下,这种问题尤为突出。
发明内容
基于现有设计的不足,本申请提供一种用户信息分类方法及装置,在对具有标签的第一训练特征变量进行模型训练得到第一用户信息分类模型的基础上,通过采用无监督算法对中间状态的第二训练特征变量进行聚类后确定标签,从而拓宽了人工标识的局限,并且利用确定标签后的第二训练特征变量进行模型训练后进一步获得第二用户信息分类模型,再基于第二用户信息分类模型对原有的第一训练特征变量进行用户信息分类后进行第三用户信息分类模型的训练,从而通过利用全量的中间样本数据,提高了数据使用率,由于数据使用率的上升,也提高了原有第一用户信息分类模型的建模效果和用户信息分类效果,并且由于生成了多个用户信息分类模型,在实际使用中可以结合不同用户信息分类模型产生的指标分数制订个性化的决策策略,更加方便灵活。
根据本申请实施例的第一方面,提供一种用户信息分类方法,应用于计算机设备,所述方法包括:
从预设文本文件数据库获取第一训练样本数据和第二训练样本数据,所述第一训练样本数据为具有正标签和负标签的训练样本,所述第二训练样本数据为不具有正标签和负标签的训练样本;
提取所述第一训练样本数据的第一训练特征变量和所述第二训练样本数据的第二训练特征变量;
基于所述第一训练样本数据的第一训练特征变量进行模型训练得到第一用户信息分类模型;
对所述第二训练样本数据的第二训练特征变量进行聚类获得所述第二训练样本数据中每个训练样本的训练标签,并基于所述第二训练样本数据和所述第二训练样本数据中每个训练样本的训练标签进行模型训练得到第二用户信息分类模型;
基于所述第二用户信息分类模型对第一训练样本数据进行用户信息分类,将用户信息分类结果更新到所述第一训练特征变量,基于所述第一训练特征变量重新对所述第一用户信息分类模型进行训练,得到第三用户信息分类模型,所述第三用户信息分类模型用于对输入的待分类样本进行用户信息分类。
在第一方面的一种可能的实施方式中,所述基于所述第一训练样本数据的第一训练特征变量进行模型训练得到第一用户信息分类模型的步骤,包括:
对所述第一训练特征变量进行饱和度和IV值计算,并根据计算结果,筛选出饱和度大于预设饱和度,并且IV值大于预设IV值的变量作为目标特征变量;
对所述目标特征变量按照IV图进行填充,得到填充后的目标特征变量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011513900.8/2.html,转载请声明来源钻瓜专利网。





