[发明专利]一种分箱方法和装置在审

申请号：	201810682419.8	申请日：	2018-06-27
公开（公告）号：	CN108829886A	公开（公告）日：	2018-11-16
发明（设计）人：	柯锦灿	申请（专利权）人：	厦门集微科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	郑旭丽;李丹
地址：	361021 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分箱离散变量连续变量分组方法和装置信息熵权重单调递增目标函数权重计算约束条件最大化求解
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种分箱方法和装置，所述分箱方法包括：将离散变量或连续变量的取值进行分组，计算分组的权重；根据分组的权重计算离散变量或连续变量的信息熵；以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。本发明实施例提高了分箱准确性。

技术领域

本发明实施例涉及但不限于数据处理领域，尤指一种分箱方法和装置。

背景技术

相关的分箱方法主要有：1、使用变量的等宽长度进行分箱；2、使用变量的分位数进行分箱；3、根据实际业务场景，由专家定义分箱；4、使用无监督方法，如聚类方法对连续变量进行分箱。前三种方法主要是将连续变量进行均匀处理，平均分布到每个区间，但对于分布不均匀的数据，很容易造成误分类；第四种方法使用聚类方法，考虑到了数据的分布情况，但对于极端数据，容易孤立为一类，这给实际变量分类带来一定的困扰，极易作为异常值处理掉。另一方面，该分类结果，对于训练数据和测试数据不是同一分布的情况，容易造成泛化性能太差，影响模型的泛化性能，因而在实际工作中，使用聚类方法可能效果反而不如前三种方法。

发明内容

本发明实施例提供了一种分箱方法和装置，能够提高分箱准确性。

本发明实施例提供了一种分箱方法，包括：

将离散变量或连续变量的取值进行分组，计算分组的权重；

根据分组的权重计算离散变量或连续变量的信息熵；

以分组的权重单调递增为约束条件，以离散变量或连续变量的信息熵最大化为目标函数求解分箱问题。

在本发明实施例中，所述将离散变量的取值进行分组之前，该方法还包括：将连续变量转换为离散变量。

在本发明实施例中，当判断出所述连续变量为显著变量时，将所述连续变量转换为离散变量。

在本发明实施例中，按照公式计算所述分组的权重；

其中，WOE_i为第i分组的权重，py_i为第i分组中响应客户占样本中所有响应客户的比例，pn_i为第i分组中未响应客户占样本中所有未响应客户的比例，#y_i为第i分组中响应客户的数量，#n_i为第i分组中未响应客户的数量，#y_T为样本中所有响应客户的数量，#n_T为样本中所有未响应客户的数量。

在本发明实施例中，所述根据分组的权重计算离散变量或连续变量的信息熵包括：

根据所述分组的权重计算所述分组的信息熵；