[发明专利]分箱处理方法、装置、电子设备及计算机存储介质在审

专利信息
申请号: 202310200362.4 申请日: 2023-02-27
公开(公告)号: CN116245635A 公开(公告)日: 2023-06-09
发明(设计)人: 杨森;孙博 申请(专利权)人: 浙江泰隆商业银行股份有限公司
主分类号: G06Q40/03 分类号: G06Q40/03
代理公司: 北京市浩天知识产权代理事务所(普通合伙) 11276 代理人: 宋菲
地址: 318050 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 处理 方法 装置 电子设备 计算机 存储 介质
【说明书】:

发明公开了一种分箱处理方法、装置、电子设备及计算机存储介质。其中,所述方法包括:根据分箱总数将数据集初步分为n个箱,得到n‑1个分箱切点;以组合方式对n‑1个分箱切点进行遍历,从n‑1个分箱切点中选择n‑2个分箱切点作为备用分箱切点;根据n‑2个备用分箱切点将数据集分为n‑1个箱,确定种预备分箱方式;若种预备分箱方式中没有满足限制条件的分箱结果,则继续从n‑1个分箱切点中选择n‑3个分箱切点作为备用分箱切点,依次循环直至有满足限制条件的分箱结果,从满足限制条件的分箱结果中选取最佳分箱结果。本方案通过自动化调整分箱,对所有满足限制条件的分箱结果进行择优选取,能够区分能力最强的分箱结果,从而实现自动化最优分箱调整。

技术领域

本发明涉及分箱处理技术领域,具体涉及一种分箱处理方法、装置、电子设备及计算机存储介质。

背景技术

在信用评分卡模型开发过程中,特征分箱是提高模型效果和鲁棒性的关键环节,模型开发人员通常要花费大量时间对特征进行分箱,分箱有很多细节要求,但最重要的是要与业务含义保持一致,满足金融机构对信用评分卡模型可解释性的要求。在传统信用评分卡模型开发过程中,这种分箱调整通常要依赖于建模人员的个人经验,花费大量时间和精力,才能开发出一份高质量的模型。

分箱的整体过程是先对特征进行初始分箱,然后对特征的初始分箱结果进行调整,直到其满足业务逻辑,初始分箱通常由算法(例如等频、等距、卡方、决策树等)自动给出,但算法只考虑数值上的最优,并不会对分箱的结果进行业务合理性的判断,这就导致初始分箱的结果可能是杂乱无章的。同时,在这个过程中,也要考虑到信息的损失,如果分箱结果过于粗放,那么该特征的预测效果也会显著下降。

举个例子,某个信贷产品的特定客群中,收入水平的初始分箱,在结果上可能呈现出下表的表现,在业务理解上,该客群呈现出收入水平越高,坏样本率越低的整体趋势,这与业务理解相一致。但是,在40-50万的分箱中,坏样本率突然升高,这可能是因为该区间样本太少,导致个别坏样本的出现拉高了区间的坏样本率,也可能是由于数据采集的原因导致。但无论是什么原因,对于这种情况,都要对40-50万分箱进行优化调整,使得其满足坏样本率下降的整体趋势。一种可行的优化方法,是将40-50万和50万以上两个分箱进行合并,最终成为40万以上的单个分箱,此时该调整后的分箱坏样本率如果小于4%,那么在业务理解上就是合理的。同样,另一种可行的优化方法,是将10万以上直到40-50万共5个分箱合并为一个,即50万以下,得到该箱的坏样本率高于2%,这在业务理解上同样是合理的,但是,这种情况下信息损失过大,50万以下年收入的样本数据所呈现的规律全都被牺牲了,这种优化虽然是业务合理的,但并不是一种好的优化方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江泰隆商业银行股份有限公司,未经浙江泰隆商业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310200362.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top