[发明专利]基于五折交叉验证的评分卡建模方法及装置在审
申请号: | 202210713602.6 | 申请日: | 2022-06-22 |
公开(公告)号: | CN115114851A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 周波;张建业;王振涛;陈蓓珍;林敏 | 申请(专利权)人: | 浙江惠瀜网络科技有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F16/215 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 苏利 |
地址: | 311200 浙江省杭州市萧山区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交叉 验证 评分 建模 方法 装置 | ||
本发明公开了一种基于五折交叉验证的评分卡建模方法及装置,通过定义目标变量;获取原始变量数据,形成样本数据集;对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选;基于原始变量数据和目标变量构建五折交叉验证标签;利用五折交叉验证标签将样本数据集随机划分成五份,将五折数据分别采用LightGBm算法进行训练,得到评分卡模型。本发明能够很好地适用于当前的信贷场景中,充分挖掘海量第三方数据中的深层特征,以提升评分卡对于不同用户的区分效果。
技术领域
本申请涉及人工智能领域,具体而言,涉及一种基于五折交叉验证的评分卡建模方法、装置、计算机设备和存储介质。
背景技术
我国消费金融行业处于发展初期,仍有较大增长空间。
对于大数据风控要求,传统金融风控进行风险控制所使用的数据维度,及风险把握不足。目前,金融大数据虽然使用更多的第三方数据,极大丰富了信用评估的可用数据维度,使得全方位有效的进行信用评估成为可能,但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景,不能充分挖掘海量第三方数据中的深层特征。虽然目前已经有很多公司已经开始尝试使用机器学习模型(例如GBDT、AdaBoost、XGBoost、LightGBM、CatBoost等)替代评分卡模型,但是训练集验证集的划分依然采用评分卡的根据标签随机划分成两份,这样容易使机器学习模型出现过拟合的情况。一般基于第三方数据开发的评分卡模型只是将原始输入数据的维度增多了而已,没有做其他的处理,其实不同第三方数据对于建模样本的查全率差异较大,采用传统的五折交叉验证可能会导致不同折之间的数据差距大,最终导致输出的评分排序性较差。
针对上述相关技术中,传统的评分卡模型不能很好地适用于当前的信贷场景的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种基于五折交叉验证的评分卡建模方法、装置、计算机设备和存储介质,用以解决相关技术中传统的评分卡模型不能很好地适用于当前的信贷场景的问题。
为了实现上述目的,本发明实施例的第一方面,提供一种基于五折交叉验证的评分卡建模方法,包括:
定义目标变量,将逾期天数超过预设天数的用户定义为负样本,将逾期天数未超过预设天数的用户定义为正样本;
获取原始变量数据,所述原始变量数据包括金融机构数据和第三方数据,形成样本数据集;
对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选;
基于所述原始变量数据和所述目标变量构建五折交叉验证标签;
利用所述五折交叉验证标签将样本数据集随机划分成五份,将五折数据分别采用LightGBm算法进行训练,得到评分卡模型。
可选地,在第一方面的一种可能实现方式中,对所述原始变量数据进行分箱处理之前,还包括:
对所述原始变量数据进行数据清洗处理,其中数据清洗包括缺失值处理和异常值处理。
可选地,在第一方面的一种可能实现方式中,基于所述原始变量数据和所述目标变量构建五折交叉验证标签,包括:
对第三方数据和金融机构数据中的每组特征值分别进行缺失值打标,其中所述第三方数据或者金融机构数据中至少具有一组数据源,每组数据源至少具有一组特征值;
将所有缺失值标签和定义的目标变量相结合,组成一个多维标签作为五折交叉验证标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江惠瀜网络科技有限公司,未经浙江惠瀜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210713602.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铰链组件及具有其的冰箱
- 下一篇:一种眼科用视力康复练习设备