[发明专利]信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备在审
| 申请号: | 202010350617.1 | 申请日: | 2020-04-28 |
| 公开(公告)号: | CN111563810A | 公开(公告)日: | 2020-08-21 |
| 发明(设计)人: | 周曦;姚志强;陈琳;卢智聪;赵礼悦;曹文飞;张博宣;翁谦;张旭 | 申请(专利权)人: | 北京云从科技有限公司 |
| 主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 代玲 |
| 地址: | 102300 北京市门头沟区石*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信贷 模型 生成 方法 信用 评估 系统 机器 可读 介质 设备 | ||
本发明提供一种信贷风控模型生成方法,该方法包括:获取与信贷业务对象的原始属性数据所对应的一个或多个组合特征;通过所述组合特征的特征条件确定切分点和切分区间;根据所述切分点和切分区间确定新的特征条件;依据所述组合特征以及与所述组合特征对应的新的特征条件进行训练以获得信贷风控模型。本发明提出了一种基于梯度提升树生成二阶特征组合评分卡的信贷风控模型,使业务人员能够清晰地掌握模型的决策过程中的细节,并能引入业务知识对每个细节进行检验和微调,从而达到信贷风控业务对模型可解释性的要求。
技术领域
本发明涉及信贷风控领域,特别是涉及一种信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备。
背景技术
在信贷风控领域,出于业务对模型解释性的要求,传统上采用基于逻辑斯蒂回归的传统评分卡模型。训练阶段,会对输入数据的各个特征列进行分箱,通过训练数据计算出每个分箱区间的评分,得到评分卡。预测阶段,会分别将输入数据各列对照评分卡计算出评分,最终加和得到预测的信用分。
然而,由于逻辑斯蒂回归是一个线性模型,传统评分卡模型具有两大缺陷。
首先,某些变量对于信用分的影响可能是非线性甚至非单调的,评分卡模型利用分箱之后做WOE(证据权重)编码来拟合这种非线性的影响,且要求各个分箱区间的WOE保持单调性,对于非单调的情况,必须给出明确的业务意义解释。这要求每个变量本身具有充分的单独预测能力,且人工进行的分箱必须足够准确。
其次,评分卡模型完全无法考虑变量之间组合带来的影响,这就要求选用特征阶段必须引入足够的专家经验,选用相互之间较为独立的变量,避免出现需要考虑多个变量相互关联产生的影响。因此,评分卡模型对于每列输入特征的单独预测能力具有很强的要求,无法充分利用一些弱特征的组合来提高预测能力。
这两个缺陷导致了评分卡模型的特征选用、特征工程和分箱步骤都依赖建模经验、专家知识和繁琐的人工调参,任何一个步骤没做到位都会导致模型效果不及预期。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种信贷风控模型生成方法,该方法包括:
获取与信贷业务对象的原始属性数据所对应的一个或多个组合特征;
通过所述组合特征的特征条件确定切分点和切分区间;
根据所述切分点和切分区间确定新的特征条件;
依据所述组合特征以及与所述组合特征对应的新的特征条件进行训练以获得信贷风控模型。
可选地,所述获取与信贷业务对象的原始属性数据所对应的一个或多个组合特征包括:
获取信贷业务对象的原始属性数据;
对所述信贷业务对象的原始属性数据进行训练得到梯度提升树模型;
提取所述信贷业务对象的原始属性数据对应的特征;
利用所述梯度提升树模型对所述信贷业务对象的原始属性数据对应的特征进行特征组合获得一个或多个组合特征。
可选地,该方法还包括:对所述一个或多个组合特征进行独热编码,将独热编码后的特征确定为训练信贷风控模型的训练样本。
可选地,将梯度提升树中的每棵树的根节点到叶子节点所经过的路径上对应的特征进行组合,生成一个或多个组合特征。
可选地,根据所述一个或多个组合特征对基于L1惩罚的逻辑斯蒂回归模型进行训练得到信贷风控模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云从科技有限公司,未经北京云从科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010350617.1/2.html,转载请声明来源钻瓜专利网。





