[发明专利]集成学习的客户贷款风险预估方法在审
| 申请号: | 202111625102.9 | 申请日: | 2021-12-28 |
| 公开(公告)号: | CN114266653A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 黎良山 | 申请(专利权)人: | 南京星云数字技术有限公司 |
| 主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 谢浩荣 |
| 地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 集成 学习 客户 贷款风险 预估 方法 | ||
1.一种集成学习的客户贷款风险预估方法,其特征在于,该方法包括:
收集信贷风险评估数据集作为样本数据,训练得到LightGBM算法模型和TabNet算法模型;
将LightGBM算法模型中的输出结果作为第一特征向量,将TabNet算法模型中的全连接层的输入结果作为第二特征向量;
将所述第一特征向量和第二特征向量进行拼接聚合,将拼接聚合后形成的第三特征向量输入到LR回归模型进行训练得到融合后的预测模型,根据融合后形成的所述预测模型对客户的贷款风险进行预测。
2.如权利要求1所述的预估方法,其特征在于,所述LightGBM算法模型和TabNet算法模型并行处理。
3.如权利要求1所述的预估方法,其特征在于,所述融合后的预测模型采用如下公式进行分类:
其中,z=θ0+θ1x+…+θnxn=θTx,θ为LR模型训练确定的权重,x为第三特征向量的特征值。
4.如权利要求3所述的预估方法,其特征在于,所述第一特征向量的生成包括:
通过样本数据训练LightGBM算法模型;
将所述LightGBM算法模型通过多轮迭代,每轮产生一个弱分类器,记录第i轮的弱分类器为T(x;θi),其中,x为样本输入数据,θi为第i轮的模型参数;
将弱分类器T(x;θi)的所有叶子节点的输出作为一个编码向量,并将所有的编码向量进行拼接得到所述第一特征向量。
5.如权利要求3所述的预估方法,其特征在于,所述第二特征向量的生成包括:
通过样本数据训练TabNet算法模型;
输入的数据批标准化处理后,进入TabNet算法模型中的多个加性模型内,其中,每个加性模型对数据的处理步骤一致;
将每个加性模型的输出结果相加后得到所述第二特征向量,并作为全连接层的输入。
6.如权利要求4或5所述的预估方法,其特征在于,所述的收集信贷风险评估数据集作为样本数据包括:
分别采集用户的申请表数据、信用记录、用户贷款数据、用户还款数据、信用卡消费数据;
对上述数据进行预处理并聚合到一张表中,形成包含用户基本属性、用户征信属性、用户贷款还款属性、用户消费属性的多个维度的表。
7.如权利要求5所述的预估方法,其特征在于,所述加性模型的架构包括Attentivetransformer层、Mask层、Feature transformer层、Split层和ReLU层,其中,所述Attentivetransformer层根据上一步的结果得到当前步的MASK层所需的权重分配,所述MASK层对矩阵向量进行筛选,所述Feature transformer层对当前步所选取的特征进行计算处理,再通过所述Split层将所述Feature transformer层输出的向量切成两部分,一部分输出给ReLU层,一部分用于计算下一步的MASK层,多个加性模型的输出通过ReLU层的激活函数相加后得到所述第二特征向量。
8.如权利要求6所述的预估方法,其特征在于,所述的预处理包括:缺失值补充、数据清洗、数据聚合、数据规范化处理。
9.如权利要求1所述的预估方法,其特征在于,所述方法还包括对融合后的所述预测模型进行五折交叉验证。
10.一种计算机程序,用于当所述计算机程序在计算机、处理器或可编程硬件组件上运行时执行根据权利要求1至9中任一项所述方法之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京星云数字技术有限公司,未经南京星云数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111625102.9/1.html,转载请声明来源钻瓜专利网。





