[发明专利]集成学习的客户贷款风险预估方法在审
| 申请号: | 202111625102.9 | 申请日: | 2021-12-28 |
| 公开(公告)号: | CN114266653A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 黎良山 | 申请(专利权)人: | 南京星云数字技术有限公司 |
| 主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 谢浩荣 |
| 地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 集成 学习 客户 贷款风险 预估 方法 | ||
本申请公开了一种集成学习的客户贷款风险预估方法,该方法包括:收集信贷风险评估数据集作为样本数据,训练得到LightGBM算法模型和TabNet算法模型;将LightGBM算法模型中的输出结果作为第一特征向量,将TabNet算法模型中的全连接层的输入结果作为第二特征向量;将所述第一特征向量和第二特征向量进行拼接聚合,将拼接聚合后形成的第三特征向量输入到LR回归模型进行训练得到融合后的预测模型,根据融合后形成的所述预测模型对客户的贷款风险进行预测。本发明结合LightGBM、TabNet以及LR融合的基于集成学习的客户贷款风险预估方法,能够获得更好的预测效果,且保证了预测模型的可解释性。
技术领域
本发明属于人工智能领域,尤其涉及一种结合LightGBM、TabNet以及LR的集成学习的客户贷款风险预估方法。
背景技术
客户在申请信用贷款时,银行或其它金融机构需要及时对客户的违约风险进行预估。近年来,随着互联网金融的蓬勃发展,互联网数据具有稀疏性强和特征相关性弱的特点,传统的信用评分卡模型在预测客户违约风险方面暴露出了预测精度不足的问题,因而使得信用贷款的通过相对于保守。
对于信贷风险预估来说,银行及其它金融机构往往希望预测出更多的能够及时还款的高质量客户。
目前,对贷款风险的评估,目前通常采用评分卡模型,评分卡模型以分数的形式来衡量风险几率的一种手段,对未来一段时间内违约/逾期/失联概率的预测,通常评分越高越安全,根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡,评分卡开发常用的模型基础包括逻辑回归和决策树。但是,如何在保证模型的可解释性的前提下,进一步提高模型的预测精度,是目前需要解决的主要技术问题。
发明内容
本发明的目的是,提供一种结合LightGBM、TabNet以及LR的集成学习的客户贷款风险预估方法,以在确保模型可解释的前提下,解决原有的评分卡模型预测精度不佳的问题。
本发明的第一方面,提供了一种集成学习的客户贷款风险预估方法,包括:
收集信贷风险评估数据集作为样本数据,训练得到LightGBM算法模型和TabNet算法模型;
将LightGBM算法模型中的输出结果作为第一特征向量,将TabNet算法模型中的全连接层的输入结果作为第二特征向量;
将所述第一特征向量和第二特征向量进行拼接聚合,将拼接聚合后形成的第三特征向量输入到LR回归模型进行训练得到融合后的预测模型,根据融合后形成的所述预测模型对客户的贷款风险进行预测。
进一步地,所述LightGBM算法模型和TabNet算法模型并行处理。
进一步地,所述融合后的预测模型采用如下公式进行分类:
其中,z=θ0+θ1x+…+θnxn=θTx,θ为LR模型训练确定的权重,x为第三特征向量的特征值。
进一步地,所述第一特征向量的生成包括:
通过样本数据训练LightGBM算法模型;
将所述LightGBM算法模型通过多轮迭代,每轮产生一个弱分类器,记录第i轮的弱分类器为T(x;θi),其中,x为样本输入数据,θi为第i轮的模型参数;
将弱分类器T(x;θi)的所有叶子节点的输出作为一个编码向量,并将所有的编码向量进行拼接得到所述第一特征向量。
进一步地,所述第二特征向量的生成包括:
通过样本数据训练TabNet算法模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京星云数字技术有限公司,未经南京星云数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111625102.9/2.html,转载请声明来源钻瓜专利网。





