[发明专利]客群划分方法、模型生成方法、装置、设备及存储介质在审
申请号: | 201910546293.6 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110264274A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 桑晓临 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q40/02 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518052 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 客户 训练样本集 存储介质 模型生成 特征标签 样本特征 准确度 风险模型 训练样本 精准度 信用 | ||
本发明公开了一种客群划分方法、模型生成方法、装置、设备及存储介质,该客群划分方法包括:获取训练样本集的特征标签;所述训练样本集包括多个客户样本,所述客户样本具有第一客群类别,所述客户样本包括与所述特征标签对应的多个样本特征;根据所述多个样本特征,计算每个所述客户样本的信息密度值;基于每个所述客户样本的信息密度值,将所述客户样本划分至第二客群类别;所述第二客群类别与所述第一客群类别相同或不同;本发明提升了客群划分的准确度,避免了现有的信用风险模型在训练时,训练样本集中样本客群的划分仅仅是依据样本的主要特征来区分造成的客群划分精准度低的问题。
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种客群划分方法、模型生成方法、装置、设备及存储介质。
背景技术
随着计算机技术在金融领域的快速发展,传统金融业正在逐步向金融科技(Fintech)转变,机器学习在金融科技领域的应用也越来越广泛。现有的信用风险模型在训练时,训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分,导致客群划分精准度低,进而影响了信用风险模型的预测结果。
发明内容
本发明的主要目的在于提供一种客群划分方法、模型生成方法、装置、设备及存储介质,旨在解决现有的信用风险模型在训练时,训练样本集中样本客群的划分仅仅是依据该样本是否具有目标特征来区分造成的客群划分精准度低的问题。
为实现上述目的,本发明提供一种客群划分方法,所述客群划分方法包括以下步骤:
获取训练样本集的特征标签;所述训练样本集包括多个客户样本,所述客户样本具有第一客群类别,所述客户样本包括与所述特征标签对应的多个样本特征;
根据所述多个样本特征,计算每个所述客户样本的信息密度值;
基于每个所述客户样本的信息密度值,将所述客户样本划分至第二客群类别;所述第二客群类别与所述第一客群类别相同或不同。
可选地,所述根据所述多个样本特征,计算每个所述客户样本的信息密度值的步骤包括:
基于所述多个样本特征,计算每个所述样本特征对应的权重;
根据获取到的每个所述样本特征对应的特征损失,计算每个所述样本特征对应的系数;
结合每个所述样本特征对应的所述权重和所述系数,计算得到每个所述客户样本的信息密度值。
可选地,所述基于所述多个样本特征,计算每个所述样本特征对应的权重的步骤包括:
根据所述多个样本特征,计算每个所述样本特征的信息价值IV值;
将计算得到的每个所述样本特征的IV值作为每个所述样本特征对应的权重。
可选地,所述根据获取到的每个所述样本特征对应的特征损失,计算每个所述样本特征对应的系数的步骤包括:
根据获取到的每个所述样本特征对应的特征损失,获取与所述特征损失对应的历史缺失占比;
根据所述历史缺失占比,计算得到每个所述样本特征对应的系数。
可选地,所述结合每个所述样本特征对应的所述权重和所述系数,计算得到每个所述客户样本的信息密度值的步骤包括:
将所述样本特征对应的所述权重和所述系数相乘,得到所述样本特征对应的权重系数;
将所述客户样本的每个样本特征的所述权重系数相加,得到所述客户样本的信息密度值。
此外,本发明还提供一种模型生成方法,所述模型生成方法包括:
根据如上任一项所述的客群划分方法对第一训练样本集进行客群划分,得到划分后的第一训练样本集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910546293.6/2.html,转载请声明来源钻瓜专利网。