[发明专利]分箱处理方法、装置、电子设备及计算机存储介质在审
| 申请号: | 202310200362.4 | 申请日: | 2023-02-27 | 
| 公开(公告)号: | CN116245635A | 公开(公告)日: | 2023-06-09 | 
| 发明(设计)人: | 杨森;孙博 | 申请(专利权)人: | 浙江泰隆商业银行股份有限公司 | 
| 主分类号: | G06Q40/03 | 分类号: | G06Q40/03 | 
| 代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲 | 
| 地址: | 318050 浙江*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 处理 方法 装置 电子设备 计算机 存储 介质 | ||
本发明公开了一种分箱处理方法、装置、电子设备及计算机存储介质。其中,所述方法包括:根据分箱总数将数据集初步分为n个箱,得到n‑1个分箱切点;以组合方式对n‑1个分箱切点进行遍历,从n‑1个分箱切点中选择n‑2个分箱切点作为备用分箱切点;根据n‑2个备用分箱切点将数据集分为n‑1个箱,确定种预备分箱方式;若种预备分箱方式中没有满足限制条件的分箱结果,则继续从n‑1个分箱切点中选择n‑3个分箱切点作为备用分箱切点,依次循环直至有满足限制条件的分箱结果,从满足限制条件的分箱结果中选取最佳分箱结果。本方案通过自动化调整分箱,对所有满足限制条件的分箱结果进行择优选取,能够区分能力最强的分箱结果,从而实现自动化最优分箱调整。
技术领域
本发明涉及分箱处理技术领域,具体涉及一种分箱处理方法、装置、电子设备及计算机存储介质。
背景技术
在信用评分卡模型开发过程中,特征分箱是提高模型效果和鲁棒性的关键环节,模型开发人员通常要花费大量时间对特征进行分箱,分箱有很多细节要求,但最重要的是要与业务含义保持一致,满足金融机构对信用评分卡模型可解释性的要求。在传统信用评分卡模型开发过程中,这种分箱调整通常要依赖于建模人员的个人经验,花费大量时间和精力,才能开发出一份高质量的模型。
分箱的整体过程是先对特征进行初始分箱,然后对特征的初始分箱结果进行调整,直到其满足业务逻辑,初始分箱通常由算法(例如等频、等距、卡方、决策树等)自动给出,但算法只考虑数值上的最优,并不会对分箱的结果进行业务合理性的判断,这就导致初始分箱的结果可能是杂乱无章的。同时,在这个过程中,也要考虑到信息的损失,如果分箱结果过于粗放,那么该特征的预测效果也会显著下降。
举个例子,某个信贷产品的特定客群中,收入水平的初始分箱,在结果上可能呈现出下表的表现,在业务理解上,该客群呈现出收入水平越高,坏样本率越低的整体趋势,这与业务理解相一致。但是,在40-50万的分箱中,坏样本率突然升高,这可能是因为该区间样本太少,导致个别坏样本的出现拉高了区间的坏样本率,也可能是由于数据采集的原因导致。但无论是什么原因,对于这种情况,都要对40-50万分箱进行优化调整,使得其满足坏样本率下降的整体趋势。一种可行的优化方法,是将40-50万和50万以上两个分箱进行合并,最终成为40万以上的单个分箱,此时该调整后的分箱坏样本率如果小于4%,那么在业务理解上就是合理的。同样,另一种可行的优化方法,是将10万以上直到40-50万共5个分箱合并为一个,即50万以下,得到该箱的坏样本率高于2%,这在业务理解上同样是合理的,但是,这种情况下信息损失过大,50万以下年收入的样本数据所呈现的规律全都被牺牲了,这种优化虽然是业务合理的,但并不是一种好的优化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江泰隆商业银行股份有限公司,未经浙江泰隆商业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310200362.4/2.html,转载请声明来源钻瓜专利网。





