[发明专利]基于第三方数据源的违约概率分析方法在审
申请号: | 202111271307.1 | 申请日: | 2021-10-29 |
公开(公告)号: | CN113888321A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 刘琼 | 申请(专利权)人: | 重庆富民银行股份有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q10/04 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 张雪萍 |
地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 第三 数据源 违约 概率 分析 方法 | ||
1.基于第三方数据源的违约概率分析方法,其特征在于:包括以下内容:
获取多方数据源厂商反馈的原始数据,原始数据包括多个数据维度;
对原始数据进行预处理获得变量数据;
将变量数据划分为验证集、训练集和测试集;
根据最优分箱计算训练集中训练数据各数据维度的IV值和相关系数,根据IV值和相关系数筛选数据维度;
根据筛选出的数据维度对应的训练数据生成WOE矩阵,将WOE矩阵作为输入变量,数据维度包括是否逾期,将是否逾期作为输入变量对应的输出结果,根据输入变量和输出结果构建逻辑回归模型。
2.根据权利要求1所述的基于第三方数据源的违约概率分析方法,其特征在于:获取多方数据源厂商反馈的原始数据,具体包括以下内容:
获取数据ID和数据要求;
根据数据ID和数据要求获取原始数据;
根据数据ID对齐原始数据。
3.根据权利要求1所述的基于第三方数据源的违约概率分析方法,其特征在于:对原始数据进行预处理获得变量数据,具体包括以下内容:
计算各数据维度对应原始数据的缺失率;
当缺失率大于预设的缺失阈值时,剔除对应数据维度的原始数据;反之,根据原始数据填充对应数据维度的缺失数据。
4.根据权利要求1所述的基于第三方数据源的违约概率分析方法,其特征在于:将变量数据划分为验证集、训练集和测试集,具体包括以下内容:
根据预设的时间阈值划分对应时间段的变量数据作为验证集;
根据预设的划分比例将剩余变量数据随机划分为训练集和测试集。
5.根据权利要求1所述的基于第三方数据源的违约概率分析方法,其特征在于:根据最优分箱计算训练集中训练数据各数据维度的IV值和相关系数,根据IV值和相关系数筛选数据维度,具体包括以下内容:
对训练集中的训练数据进行最优分箱;
根据最优分箱进行WOE转换生成WOE矩阵;
调用IV计算公式,根据IV计算公式和WOE矩阵计算各数据维度的IV值;
筛选IV值大于预设的IV阈值的数据维度;
根据筛选后的数据维度更新WOE矩阵;
调用相关系数计算公式,根据相关系数计算公式和更新后的WOE矩阵计算筛选出的数据维度之间的相关系数;
筛选相关系数小于预设的系数阈值的数据维度。
6.根据权利要求1-5任一项所述的基于第三方数据源的违约概率分析方法,其特征在于:还包括以下内容:
根据逻辑回归模型筛选输入变量中对应的数据维度。
7.根据权利要求6所述的基于第三方数据源的违约概率分析方法,其特征在于:根据逻辑回归模型筛选输入变量中对应的数据维度,具体包括以下内容:
根据逻辑回归模型计算输入变量对应的数据维度的特征值;
根据特征值判断对应输入变量是否显著,若不显著,则删除输入变量中对应的数据维度。
8.根据权利要求1-5任一项所述的基于第三方数据源的违约概率分析方法,其特征在于:还包括以下内容:
对验证集中的验证数据和测试集中的测试数据进行最优分箱和WOE转换生成验证矩阵和测试矩阵;
根据验证矩阵和测试矩阵输入逻辑回归模型,获得对应的输出结果。
9.根据权利要求1-5任一项所述的基于第三方数据源的违约概率分析方法,其特征在于:还包括以下内容:
计算逻辑回归模型的输入变量对应的数据维度的VIF值。
10.根据权利要求1-5任一项所述的基于第三方数据源的违约概率分析方法,其特征在于:还包括以下内容:
使用验证集、训练集和测试集计算逻辑回归模型的AUC值和KS值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆富民银行股份有限公司,未经重庆富民银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111271307.1/1.html,转载请声明来源钻瓜专利网。