[发明专利]基于改进随机森林的客户信用分类方法在审
申请号: | 202110169939.0 | 申请日: | 2021-02-05 |
公开(公告)号: | CN112837145A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 吴家皋;王一帆 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06K9/62;G06N7/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 随机 森林 客户 信用 分类 方法 | ||
1.一种基于改进随机森林的客户信用分类方法,其特征在于,包括如下步骤:
步骤1:将客户样本数据集划分为训练数据集和测试数据集;
步骤2:在所述训练数据集上用CART分类回归树算法训练生成包含m棵树的初始随机森林模型;
步骤3:将所述测试数据集输入所述初始随机森林模型,计算每棵决策树分类结果的相似度和精确度;
步骤4:根据所述相似度和所述精确度,计算每棵决策树的综合性能指标;
步骤5:取前s个具有较高综合指标的所述决策树构成改进后的随机森林模型。
2.根据权利要求1所述的基于改进随机森林的客户信用分类方法,其特征在于,所述步骤1具体包括:
D为客户样本数据集,di∈D为客户样本数据集中的任一样本,di={特征变量集,Li},所述特征变量集包括借款金额、借款利率、借款期限、初始信用评级、年龄、历史借款总金额、待还本金、历史正常还款期数的用户特征,Li为客户信用分类,Li∈[1,c],c为信用分类数,表示共有c个不同信用级别;按均匀分布随机地将客户样本数据集D划分为训练数据集和测试数据集。
3.根据权利要求2所述的基于改进随机森林的客户信用分类方法,其特征在于,按均匀分布随机地将客户样本数据集D中80%的样本划分为训练数据集F,20%样本划分为测试数据集G。
4.根据权利要求1所述的基于改进随机森林的客户信用分类方法,其特征在于,所述步骤2具体包括:在所述训练数据集上训练随机森林模型,生成包含m棵树的初始随机森林模型,训练时m的值取100。
5.根据权利要求2所述的基于改进随机森林的客户信用分类方法,其特征在于,所述相似度由Kappa统计量确定,计算方法如下:
令为测试数据集G中第i′个样本di′被第j棵树预测获得的信用分类,则表示测试数据集G中被第j棵树预测为第k类的样本集合,k∈[1,c],Gk={di′|Li′=k,di′∈G}表示测试数据集G中标记为第k类的样本集合,表示测试数据集G中被第j棵决策树正确预测为第k类的样本集合,则第j棵树的分类观测一致率表达式为:
第j棵树的分类期望一致率表达式为:
第j棵决策树的相似度Kappa统计量表达式为:
6.根据权利要求5所述的基于改进随机森林的客户信用分类方法,其特征在于,所述精确度的计算方法如下:
精确度根据决策树对样本的预测信用分类和样本标记分类之间的方差来度量,经过归一化处理,得到第j棵决策树对于测试数据集G中所有样本di′∈G的精确度为:
7.根据权利要求6所述的基于改进随机森林的客户信用分类方法,其特征在于,所述步骤4得到的相似度和精确度,计算第j棵树的综合性能指标为:
H(j)=αK(j)+(1-α)R(j)
其中,α为可调参数,α∈[0,1]。
8.根据权利要求7所述的基于改进随机森林的客户信用分类方法,其特征在于,所述步骤5具体包括:将决策树按H(j)值从高到低排序,取前s个H(j)值对应的决策树组成改进后的随机森林模型,用于对客户的信用级别进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169939.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种天然气输送管道
- 下一篇:转移资源的方法、装置、设备、介质和程序产品