[发明专利]面向不平衡数据集的信用风险预测方法在审
| 申请号: | 202110672533.4 | 申请日: | 2021-06-17 |
| 公开(公告)号: | CN113409128A | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 陈海龙;杨畅;杜梅;张颖宇 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06N3/00 |
| 代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 不平衡 数据 信用风险 预测 方法 | ||
本发明公开了一种面向不平衡数据集的信用风险预测方法,包括:采集并预处理网贷平台的用户历史数据,并对预处理后的用户历史数据按预设比例划分为训练集和测试集;利用随机森林算法对训练集进行特征选择,得到最优特征子集;利用改进过采样方法对最优特征子集进行处理,得到平衡数据集;利用Focal Loss函数改进LightGBM算法的损失函数,以建立信用风险模型,利用平衡数据集对信用风险模型进行训练,得到信用风险预测模型;通过网格搜索算法对信用风险预测模型的参数进行优化,得到最佳信用风险预测模型;将测试集输入最佳信用风险预测模型中,得到预测结果。该方法从数据和算法两个方面来解决不平衡数据对模型分类效果的影响。
技术领域
本发明涉及互联网金融的风控技术领域,特别涉及一种面向不平衡数据集的信用风险预测方法。
背景技术
互联网技术的快速发展给传统金融行业带来了巨大的影响,网络借贷就是一项重要的创新成果。它是指个体与个体之间的直接贷款行为,不使用银行等传统金融中介作为媒介提供闲散资金,而是通过第三方互联网平台匹配借贷双方之间的资金和贷款。这为借贷人提供了更灵活,更便捷的融资方式,因此也使网络借贷成为了越来越多的人选择融资的渠道。但是另一方面,信用风险问题也一直制约着网贷平台的发展,较高的违约率带来了极大的负面影响。因此,建立有效的信用风险预测模型对借贷人的风险控制以及网贷平台的持续发展具有重大的意义。在实际研究借贷人信用风险问题时,由于数据集中违约人数的数量占比较小,使得数据集的正负比例极不平衡,严重影响模型的分类效果。如何提高不平衡数据集下的信用风险预测效果,是亟待解决的问题之一。
近年来,针对解决不平衡数据集的分类问题,主要从数据和算法两个方面进行。一是利用采样方法处理数据,解决数据集本身分布不均的现象;二是对传统分类算法进行改进。
在数据方面,目前常用的过采样方法有SMOTE、Borderline-SMOTE和ADASYN等方法,虽然都被证实了在不平衡分类问题中的有效性,但是仍然存在很多问题需要改进。SMOTE方法在合成新样本的过程中容易出现样本重叠的问题,Borderline-SMOTE方法虽然改善了样本重叠的现象,但是该方法只对处于边界的少数类样本进行过采样,容易造成正负类边界模糊的问题,同样ADASYN方法虽然改进了新样本的分布情况,但是仍会出现样本重叠的问题。
在算法方面,传统分类算法在解决不平衡数据的分类问题时存在局限性,为此可以在算法层面上做出改进,主要方法有代价敏感学习以及集成学习方法。代价敏感学习解决数据不平衡的方法是增加少数类样本错分的惩罚代价,通过优化目标函数使分类模型更关注少数类样本的分类准确率。而集成学习方法是通过某种方式将多个基分类器集成起来,减少单个分类器对不平衡数据分类形成的误差,从而提高分类器整体的预测效果,但是有时基分类器的选择和集成方式的不同也会影响少数类样本的分类准确率问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种面向不平衡数据集的信用风险预测方法,该方法从数据和算法两个方面来解决不平衡数据对模型分类效果的影响。
为达到上述目的,本发明实施例提出了面向不平衡数据集的信用风险预测方法,包括以下步骤:步骤S1,采集并预处理网贷平台的用户历史数据,并对预处理后的用户历史数据按预设比例划分为训练集和测试集;步骤S2,利用随机森林算法对所述训练集进行特征选择,得到最优特征子集;步骤S3,利用改进过采样方法对所述最优特征子集进行处理,得到所述平衡数据集;步骤S4,利用Focal Loss函数改进LightGBM算法的损失函数,以建立信用风险模型,利用所述平衡数据集对所述信用风险模型进行训练,得到信用风险预测模型;步骤S5,通过网格搜索算法对所述信用风险预测模型的参数进行优化,得到最佳信用风险预测模型;步骤S6,将所述测试集输入所述最佳信用风险预测模型中,得到预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672533.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





