[发明专利]一种基于机器学习和大数据技术的信用评分构建方法在审
| 申请号: | 201711465724.3 | 申请日: | 2017-12-28 |
| 公开(公告)号: | CN108154430A | 公开(公告)日: | 2018-06-12 |
| 发明(设计)人: | 周春英;朱明杰;闵薇;朱敏;袁克皋 | 申请(专利权)人: | 上海氪信信息技术有限公司 |
| 主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q10/06;G06N99/00;G06K9/62;G06F17/30 |
| 代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
| 地址: | 200050 上海市长宁区安*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 构建 信用 大数据 信贷 风险模型 风险概率 基于机器 机器学习 全域 预处理 训练样本数据 分类算法 风险分析 自动转换 多维度 树模型 风控 统一 融合 学习 金融 | ||
1.一种基于机器学习和大数据技术的信用评分构建方法,其特征在于,具体包括以下步骤:
步骤1:构建信贷主体人统一用户ID;
步骤2:将具有统一用户ID的信贷主体人数据进行提取和预处理成训练样本数据;
步骤3:通过机器学习分类算法-集成树模型构建信用风险模型;
具体地,首先,对所述训练样本数据的文本数据、时序数据和移动设备行为数据进行分析,自动提取得到其样本特征;
其次,预设超参数最佳选择空间,根据特征选择后的训练样本数据和机器学习分类算法-集成树模型的标准性能指标,利用贝叶斯优化算法自动寻找出最佳超参数组合;根据机器学习分类算法-集成树模型以及最佳超参数组合构建出行为风险子模型、社交风险子模型和语义风险子模型;
然后,根据行为风险子模型、社交风险子模型和语义风险子模型获得信用风险集成模型;
最后,根据信用风险集成模型获取风险概率;
步骤4:将风险概率自动转换为信用风险评分。
2.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述步骤1中构建信贷主体人统一用户ID的具体步骤为:
首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;
然后,利用ID-Mapping技术将获取的各类数据信息会聚融合成可唯一标识信贷主体人身份的统一用户ID。
3.根据权利要求2所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述主流数据平台包括关系型数据库、分布式数据存贮系统、本地文件、在线实时服务调用数据接口。
4.根据权利要求2所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述同一信贷主体人的各类身份原始数据包括身份证号、手机号、设备号、用户编号。
5.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述步骤2中将具有统一用户ID的信贷主体人身份数据预处理成训练样本数据的具体步骤为:
判断信贷主体人身份数据的数据类型,所述数据类型包括离散型数据和连续型数据;
当所述信贷主体人身份数据为离散型数据时,对该数据进行去重复值处理、离散数据填补缺失值处理、去噪音处理以及离散数据特征变换处理;所述离散数据填补缺失值处理包括用户选择、直接丢弃、归为新类别和最高频类别;所述离散数据特征变换处理为二值化/哑编码处理;
当所述信贷主体人身份数据为连续型数据时,对该数据进行去重复值处理、连续数据填补缺失值处理、去噪音处理以及连续数据特征变换处理;所述连续数据填补缺失值处理包括用户选择、均值、归为新类和直接丢弃;所述连续数据特征变换处理包括用户选择、无量纲化、归一化/标准化、取对数。
6.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述训练样本数据的样本特征包括身份属性、履约能力、信贷历史、行为特质、消费偏好和社交影响。
7.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述机器学习分类算法-集成树模型采用LightGBM集成树模型、随机森林或XGBoost集成树模型。
8.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述贝叶斯优化算法采用Grid Search算法、Random Search算法或Hyperopt/skopt算法。
9.根据权利要求1所述的基于机器学习和大数据技术的信用评分构建方法,其特征在于,所述步骤4中风险概率转换为信用风险评分的计算公式为:
Factor = pdo/ln(2);
Odds0 = (1-prob_1)/ prob_1;
Offset = score0 – Factor*ln(Odds0);
Score = offset + Factor*ln(Odds);
其中,Factor为Offset计算时使用的调整系数;pdo为好坏比增加一倍时增加的信用分数;Offset为计算Score时使用的调整分数变量;score0为好坏比为1时所对应的信用分;Odds为好坏比,好定义为未违约,坏为违约;prob_1为风险概率输出;Score 为最终计算出的信用风险评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海氪信信息技术有限公司,未经上海氪信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711465724.3/1.html,转载请声明来源钻瓜专利网。





