[发明专利]特征分箱方法、装置及存储介质有效
| 申请号: | 202111647606.0 | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114329127B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 北京瑞莱智慧科技有限公司 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06N20/00;H04L9/00;H04L9/14 |
| 代理公司: | 北京箴思知识产权代理有限公司 11913 | 代理人: | 李春晖;谭艳 |
| 地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征 方法 装置 存储 介质 | ||
本申请涉及数据处理领域,提供了一种特征分箱方法、装置及存储介质。该方法包括:获取待分箱样本集的非数值特征集合;根据每个非数值特征的特征值对相应非数值特征进行编码,得到与每一非数值特征分别对应的各个特征进行编码;基于全部所述特征编码,确定所述待分箱样本集的候选分箱方式;获取每一候选分箱方式的各个分箱的证据权重;根据所述证据权重,从所述候选分箱方式中确定至少一个分箱方式;按照所述至少一个分箱方式,对所述待分箱样本集分别进行分箱。本申请通过根据特征值对非数值特征进行编码,然后再根据特征编码确定分箱方式,使各种非数值特征都能参与分箱过程;且得到特征编码的数据量小,计算资源消耗低,不影响后续处理效率。
技术领域
本申请的实施例涉及数据处理领域,更具体地涉及特征分箱方法、装置及存储介质。
背景技术
目前,在很多领域需要对特征进行分箱,例如,在机器学习中,进行特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法,比如,要考察特征与标签之间的相关程度时,IV(Information Value,信息价值)值往往是变量显著性的重要指标,可运用于特征选择之中。
但是,待分箱样本的特征数据往往不是单纯的数值类型数据,还包括很多非数值类型数据,例如性别、学历和爱好等个人信息特征。当前的自动分箱方法往往需要根据特征的数值确定分箱点,即只能根据数值类型的特征进行分箱。如果根据对非数值型数据进行分箱,需要先引入额外的模块对数据进行独热编码。虽然独热编码可以作为非数值型数据的通用编码方式,但在实际运用中,独热编码会使得数据集数据量急剧膨胀,进而影响后续步骤的处理效率。
发明内容
本申请实施例提供一种特征分箱方法、装置及存储介质,对待分箱样本集的非数值特征集合中的所有非数值特征,根据特征类别和特征值进行自动编码,然后再根据特征编码确定分箱方式,使得特征分箱不再受限于样本的特征值类型,即各种非数值类型的特征都能够参与分箱过程,为特征分箱方式提供了更多选择;且基于特征值进行的自动编码得到编码结果的数据量不大于甚至远远小于样本本身的总数量,存储资源占用少,计算资源消耗低,不影响后续步骤的处理效率。
在本申请的第一方面中,提供了一种特征分箱方法,应用于第一终端,包括:
获取待分箱样本集的非数值特征集合,所述非数值特征集合包括至少一个特征类别的全部待分箱样本的非数值特征;
根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码,得到与每一非数值特征分别对应的各个特征编码;
基于全部所述特征编码,确定所述待分箱样本集的候选分箱方式;
获取每一候选分箱方式的各个分箱的证据权重;
根据所述证据权重,从所述候选分箱方式中确定至少一个分箱方式;
按照所述至少一个分箱方式,对所述待分箱样本集分别进行分箱。
在本申请的第二方面中,提供了一种特征分箱装置,应用于第一终端,包括:
输入输出模块,被配置为获取待分箱样本集的非数值特征集合,所述非数值特征集合包括至少一个特征类别的全部待分箱样本的非数值特征;
处理模块,被配置为根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码,得到与每一非数值特征分别对应的各个特征编码;以及基于全部所述特征编码,确定所述待分箱样本集的候选分箱方式;
所述输入输出模块,还被配置为获取每一候选分箱方式的各个分箱的证据权重;
所述处理模块,还被配置为根据所述证据权重,从所述候选分箱方式中确定至少一个分箱方式;以及按照所述至少一个分箱方式,对所述待分箱样本集分别进行分箱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京瑞莱智慧科技有限公司,未经北京瑞莱智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111647606.0/2.html,转载请声明来源钻瓜专利网。





