[发明专利]分箱处理方法、装置、电子设备及计算机存储介质在审
| 申请号: | 202310200362.4 | 申请日: | 2023-02-27 |
| 公开(公告)号: | CN116245635A | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 杨森;孙博 | 申请(专利权)人: | 浙江泰隆商业银行股份有限公司 |
| 主分类号: | G06Q40/03 | 分类号: | G06Q40/03 |
| 代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲 |
| 地址: | 318050 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 处理 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种分箱处理方法,其特征在于,包括:
根据分箱总数将数据集初步分为n个箱,得到n-1个分箱切点;
以组合方式对所述n-1个分箱切点进行遍历,从所述n-1个分箱切点中选择n-2个分箱切点作为备用分箱切点;
根据所述n-2个备用分箱切点将所述数据集分为n-1个箱,确定种预备分箱方式;
若所述种预备分箱方式中没有满足限制条件的分箱结果,则继续从所述n-1个分箱切点中选择n-3个分箱切点作为备用分箱切点,依次循环直至有满足限制条件的分箱结果,从所述满足限制条件的分箱结果中选取最佳分箱结果。
2.根据权利要求1所述的方法,其特征在于,所述限制条件包括以下条件:分箱中负样本占比或证据权重WOE呈单调形态或U型形态、单一特征应维护至多预设个分箱、单箱样本占比满足预设条件、单箱样本包含正样本和负样本、空箱和/或特殊值在同一分箱、每个分箱开闭保持一致性、分箱切点取整或保留预设位小数。
3.根据权利要求2所述的方法,其特征在于,判断所述U型形态包括:
确定包含特征的多元回归方程式;其中,所述多元回归方程式中包含平方项和初始系数;
根据分箱中的样本对所述初始系数进行拟合得到系数拟合值;
当所述系数拟合值满足预设条件且由所述系数拟合值组成的多元回归方程的极值在特征范围内时,确定特征为U型形态。
4.根据权利要求3所述的方法,其特征在于,所述预设条件包括所述平方项的系数拟合值的T检验P值显著和/或由所述系数拟合值组成的多元回归方程的F检验的P值显著。
5.根据权利要求1所述的方法,其特征在于,所述从所述满足限制条件的分箱结果中选取最佳分箱结果,包括:
当满足限制条件的分箱结果为多个时,根据每个分箱结果的信息值IV选取所述IV最大的分箱结果作为最佳分箱结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对于每个分箱,根据分箱总数、分箱证据权重、正样本总数、分箱中正样本数量、负样本总数、分箱中负样本数量计算得到对应的IV。
7.根据权利要求6所述的方法,其特征在于,所述IV表征所述特征的预测能力。
8.一种分箱处理装置,其特征在于,包括:
分箱模块,用于根据分箱总数将数据集初步分为n个箱,得到n-1个分箱切点;
分箱切点选择模块,用于以组合方式对所述n-1个分箱切点进行遍历,从所述n-1个分箱切点中选择n-2个分箱切点作为备用分箱切点;
所述分箱模块,还用于根据所述n-2个备用分箱切点将所述数据集分为n-1个箱,确定种预备分箱方式;
分箱结果选取模块,用于若所述种预备分箱方式中没有满足限制条件的分箱结果,则继续从所述n-1个分箱切点中选择n-3个分箱切点作为备用分箱切点,依次循环直至有满足限制条件的分箱结果,从所述满足限制条件的分箱结果中选取最佳分箱结果。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的分箱处理方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的分箱处理方法对应的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江泰隆商业银行股份有限公司,未经浙江泰隆商业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310200362.4/1.html,转载请声明来源钻瓜专利网。





