[发明专利]一种基于LightGBM的金融违约概率预测模型在审
申请号: | 202010237217.X | 申请日: | 2020-03-30 |
公开(公告)号: | CN111311401A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 江远强 | 申请(专利权)人: | 百维金科(上海)信息科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q10/04;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200122 上海市崇明区长兴镇潘园公*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lightgbm 金融 违约 概率 预测 模型 | ||
本发明提供了一种基于LightGBM的金融违约概率预测模型,其建模包括样本数据获取、数据预处理、特征工程、划分数据集、模型训练以及调参、模型部署及监控,实现了对借款人自动、全面、流程化的信用风险评估预测,从而降低了信贷逾期欺诈风险,促进互联网金融风控能力提升和健康发展;本发明技术方案的预测模型的核心在于,利用基于histogram算法和level‑wise分裂策略的LightGBM模型,可优化快速处理异常值多、缺失值高、维度广的互联网金融海量数据,具有处理大数据的能力,由于算法的优异性,模型的可靠性、灵活性和可扩展性均得到提高,更加适合当前大数据风控的需求。
技术领域
本发明涉及互联网金融风控技术领域,特别涉及一种基于LightGBM的金融违约概率预测模型。
背景技术
近年来,以P2P借贷、消费金融等为代表互联网金融发展迅猛,大部分互联网金融公司基于逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、梯度提升决策树(GBDT)、极端梯度提升树(XGBoost)等算法进行风控建模,一般风控模型主要采用WOE转换,再用逻辑回归模型进行拟合,构造信用评分卡,这种方式在互联网金融上较传统金融行业,效果有所下降。随着大数据发展,互联网金融风控与机器学习相辅相成,利用更加先进高效的机器学习方法,在传统风控模型的基础上进行改进,非常有意义。
在大数据时代,仅依据借款人申请信息及征信数据来预测违约概率是远远不够的,我们采用更多的第三方数据,基于多维度数据包括运营商数据、电商网购、APP使用行为数据等梳理用户人群画像,利用机器学习算法评估预测借款人欺诈逾期风险概率。
大数据名副其实,数据维度呈现爆炸性增长,维度多且稀疏度高,在风控建模当中,结构化数据清洗加工繁重、数据变换存在矩阵稀疏且损失信息过多、特征提取困难、上千上万维度超出传统评分卡模型所能处理的范围,对于机器学习算法的要求也越来越高,LR、SVM、RF、GBDT、XGBoost、LightGBM等算法应运而生,XGBoost是当前比较主流的算法,XGBoost在传统Boosting的基础上,融合RF与GBDT优点,利用CPU的多线程并行化、引入正则化项、支持列抽样和可并行的近似直方图算法等,但实际应用当中,但也呈现出计算量巨大、训练速度慢、占用内存高、易产生过拟合等缺点,这催生出LightGBM这种更先进的算法。与XGBoost相比,LightGBM的优点在于:
(1)XGBoost采用预排序算法,在迭代之前,对结点的特征做预排序,遍历所有样本的特征值选择最优分割点,计算量大且占用内存高,而LightGBM方法采用直方图的算法(histogram算法),将连续的特征值分桶(buckets)装进离散的箱子(bins),数据分割的复杂度更低,从而达到计算量少、占用内存更小、训练速度更快、效率更高的目的;
(2)XGBoost采用level-wise分裂策略,对每一层所有节点做无差别分裂生成决策树,在分裂增益较低叶子节点产生了不必要的开销,而LightGBM采用leaf-wise分裂策略,每次从当前叶子中选择增益最大的结点进行分裂,循环迭代,同Level-wise相比,在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更高的精度。
总之,基于histogram算法和level-wise分裂策略的LightGBM模型,比现有的梯度增强树实现要快几倍,另外LightGBM还支持非格式化类型特征输入、在划分数据集时自动支持验证集且支持并行学习,相比于XGBoost,LightGBM可以快速处理海量数据,从而具有处理大数据的能力,因而将性能更加优良的LightGBM模型应用于互联网金融客户信用风险评估预测,可以大大地促进互联网金融的长足发展,开发一种适用于互联网金融客户信用风险评估预测的LightGBM模型势在必行。
发明内容
为了解决上述技术问题,本发明中披露了一种基于LightGBM的金融违约概率预测模型,本发明的技术方案是这样实施的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百维金科(上海)信息科技有限公司,未经百维金科(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010237217.X/2.html,转载请声明来源钻瓜专利网。