[发明专利]基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法在审
| 申请号: | 202110024644.4 | 申请日: | 2021-01-08 |
| 公开(公告)号: | CN112700324A | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 张涛;张冰 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N20/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 catboost 受限 玻尔兹曼机 结合 用户 借贷 违约 预测 方法 | ||
1.基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:包括如下步骤:
步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;
步骤二:数据获取,选取建模的客户数据,获取金融机构自身的字段和客户授权的第三方征信数据字段;
步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;
步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;
步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选,确定可能的违约因素;
步骤六:处理不平衡的数据,采用合成少数类过取样算法,利用少数类样本构造人工样本来平衡数据,改善过拟合;通过在特征空间中相邻近样本之间嵌入人工样本来增加少数类的样本数目;
步骤七:将筛选的特征中的离散特征向量利用CatBoost算法进行转化得到catboost_vector,将经过CatBoost处理之后的特征向量和步骤五筛选出的连续特征相结合作为受限玻尔兹曼机模型的输入层在训练集上模型;
步骤八:利用测试集通过使用准确率、查准率、召回率、f1-度量和AUC值这5个评价指标上对所训练的模型进行评估,基于建立的模型,对贷款用户进行违约预测。
2.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:所述步骤一中,收集历史接待客户的数据作为样本集,每个借贷客户的数据包括n维评价指标数据和违约标签target,根据vintage分析,将表现期内逾期天数超过90天的用户定义为“坏用户”表示贷款违约,target=1,将表现期内逾期天数未超过90天的用户定义为“好用户”,表示正常还款,targer=0。
3.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:所述步骤二中,金融机构自身的字段包括客户的年龄、户籍、性别、收入、负债比以及在本机构的借款行为,第三方征信数据字段包括多头借贷、APP行为特征、网购行为、第三方支付、反欺诈数据。
4.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:所述步骤四中的缺失值处理包括删除缺失率大的样本、根据样本值的相似性或者变量之间的关系填补缺失值;所述步骤四中的异常值处理包括单变量异常值检测、局部离群值因子检测。
5.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:所述步骤五中的变量分箱包括:通过卡方分箱选出对逾期状态影响最显著的字段、针对特征变量进行自动化分箱、根据分箱后的特征变量进行用户借贷违约预测;所述自动化分箱实现方法为,将数据等频切分为p个区间,设定最大的分箱个数n,计算每一相邻区间的卡方值,将卡方值最小的一对区间合并;统计现存的数据区间数量q,如果qn,重复执行计算,直至q≤n。
6.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:所述步骤五中的信息值IV相当于WOE的加权求和,衡量自变量的预测能力。
7.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法,其特征在于:所述步骤六中的合成少数类过取样算法流程如下:
(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻;
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn;
(3)对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110024644.4/1.html,转载请声明来源钻瓜专利网。





