[发明专利]特征分箱方法、装置及存储介质有效

专利信息
申请号: 202111647606.0 申请日: 2021-12-30
公开(公告)号: CN114329127B 公开(公告)日: 2023-06-20
发明(设计)人: 请求不公布姓名 申请(专利权)人: 北京瑞莱智慧科技有限公司
主分类号: G06F16/906 分类号: G06F16/906;G06N20/00;H04L9/00;H04L9/14
代理公司: 北京箴思知识产权代理有限公司 11913 代理人: 李春晖;谭艳
地址: 100084 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征 方法 装置 存储 介质
【权利要求书】:

1.一种特征分箱方法,包括:

获取待分箱样本集的非数值特征集合,所述非数值特征集合包括至少一个特征类别的全部待分箱样本的非数值特征;

根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码,得到与每一非数值特征分别对应的各个特征编码;各个非数值特征的特征编码从0开始递增编码得到,具有相同特征类别和特征值的非数值特征的特征编码相同,具有相同特征类别、不同特征值的非数值特征的特征编码不同,具有不同特征类别、相同特征值的非数值特征的特征编码不同;

基于全部特征编码,确定所述待分箱样本集的候选分箱方式;

获取每一候选分箱方式的各个分箱的证据权重;

根据所述证据权重,从所述候选分箱方式中确定至少一个分箱方式;

按照所述至少一个分箱方式,对所述待分箱样本集分别进行分箱;

其中,根据每个非数值特征的特征类别及特征值对相应非数值特征进行编码,得到与每一非数值特征对应的各个特征编码,包括:

获取每一待编码的非数值特征的特征类别和特征值以及非数值特征集合中全部非数值特征的特征值总数量;

根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值,确定每一非数值特征的特征编码,包括:

将各个非数值特征转换为预设数据类型,得到对应的各个格式化特征数据;

对各个格式化特征数据进行排序;

对排序后的各个格式化特征数据,根据所述特征值总数量以及每一格式化特征数据的特征类别和特征值,依次确定每一待编码的格式化特征数据的特征编码。

2.如权利要求1所述的特征分箱方法,其中,对排序后的各个格式化特征数据,根据所述特征值总数量以及每一格式化特征数据的特征类别和特征值,依次确定每一待编码的格式化特征数据的特征编码,包括:

若当前待编码的格式化特征数据的特征类别以及对应的特征值已被记录,则根据历史记录对所述当前待编码的格式化特征数据进行编码,得到所述当前待编码的格式化特征数据的特征编码;

若当前待编码的格式化特征数据的特征类别未被记录,则获取历史记录中特征编码值最大的一个,将获取到的所述特征编码值进行预设计算,得到所述当前待编码的格式化特征数据的特征编码;

若当前待编码的格式化特征数据的特征类别已被记录且对应的特征值未被记录,则获取历史记录中特征编码值最大的一个,将获取到的所述特征编码值进行预设计算,得到所述当前待编码的格式化特征数据的特征编码。

3.如权利要求1或2所述的特征分箱方法,应用于第一终端,所述第一终端与第二终端通信,其中,获取每一候选分箱方式的各个分箱的证据权重之前,所述方法还包括:

接收第二终端发送的同态加密后的多个标签密文,每一标签密文用于表示对应的待分箱样本为正样本或负样本;

根据所述多个标签密文,统计所述待分箱样本集分别按照各个候选分箱方式分箱后的各个分箱中的正负样本数量,得到统计结果;

将所述统计结果加密后,发送至第二终端,以便所述第二终端计算各个分箱的证据权重;

接收所述第二终端发送的证据权重符合预设阈值的候选分箱方式以及对应的各个分箱的证据权重。

4.如权利要求3所述的特征分箱方法,其中,所述统计结果为密文数据,所述第一终端无法直接基于所述统计结果确定各个分箱中的正负样本数量以及各个样本为正样本或负样本。

5.如权利要求1或2所述的特征分箱方法,其中,按照所述至少一个分箱方式,对所述待分箱样本集分别进行分箱之后,所述方法还包括:

接收再次分箱指令,所述再次分箱指令包括至少一个分箱点,所述分箱点用于表示待分箱样本集的分箱依据特征值;

根据所述再次分箱指令,对所述非数值特征集合重新进行编码,得到各个非数值特征更新后的特征编码;

根据更新后的特征编码,对所述待分箱样本集重新分箱。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京瑞莱智慧科技有限公司,未经北京瑞莱智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111647606.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top